Journal Unicode - pédagogique - vue d'ensemble ! ? .

Posté par  (site web personnel) . Licence CC By‑SA.
19
24
juil.
2017

Bonjour à tous,

Je prépare un cours sur Unicode. Je souhaitais pouvoir présenter une vue d'ensemble. J'ai ainsi commencé la réalisation d’un tableau reprenant les différents blocs de caractères…

(cf. également https://unicode-table.com/fr/ )

C’est vraiment pas facile… Il y a déjà tellement de blocs que j’ai opté pour un format A3, et c’est tout petit :/

Titre de l'image

document de travail au format OpenDocument
export PDF

Qu’en pensez-vous ?

Il y a bien entendu la question des polices de caractères. Il n’est pas évident d’avoir « suffisamment » de polices installées de sorte à avoir quelques glyphes pour chacun des blocs.

J’aimerais pouvoir mettre au point une liste de paquetages Debian suffisant pour cela. Mais se pourrait-il qu’il n’y ait aucune police libre pour certains blocs ? Voyez le PDF, les polices y ont été intégrées (sous-ensemble). Lorsque je n’avais pas de glyphe pour un bloc, je n’ai placé qu’un caractère, prit au hasard, qui donne "donc" un rectangle. Néanmoins, il y a probablement des subtilités qui m’échappent… Par exemple, il y a dans le PDF exporté par LibreOffice, certains caractères qui « ne passent pas ».

Il semble qu’un mécanisme est prévu dans LibreOffice pour l’installation de polices "manquantes" car j’obtiens de temps à autre le message suivant dans une boite de dialogue de type information :

« L'installation de polices sur demande n'est pas prise en charge
La détection automatique et l'installation des polices manquantes ne sont pas prises en charge actuellement. »

Je prépare également un autre document de type « référence rapide », reprenant quelques caractères "utiles" ou "populaire" avec leurs noms et position…

Nous connaissons tous l’astuce pour saisir un caractère Unicode à partir de sa position ? (sous GNU/Linux)

Ctrl + Shift + U, dans certains logiciels, un u souligné apparaît alors, saisissez la position en hexadécimal, terminez avec la touche "Entrer".

U+2764 → ❤
U+2620 → ☠
U+2708 → ✈
U+202f → espace fine sécable

Quels seraient pour vous les quelques caractères que vous souhaiteriez pouvoir insérer de temps à autre et pour lesquels il vous serait pratique de connaître la position Unicode, en hexa’, sur un petit copion collé sous votre écran ?

Le nom des caractères existe officiellement en français et en anglais, de part leur origine ISO/CEI 10646 mais les développeurs de gucharmap ont besoin d’aide et de soutien !
https://bugzilla.gnome.org/show_bug.cgi?id=331464

Et pour finir un petit aide-mémoire pour le clavier Belge sous GNU/Linux :

Titre de l'image

export PDF

  • # La fonte sans tofu, même pour les végétariens

    Posté par  . Évalué à 7.

    Google a publié https://www.google.com/get/noto/ qui doit répondre à ta question concernant les fontes à installer pour couvrir le maximum d'espace unicode.

    • [^] # Re: La fonte sans tofu, même pour les végétariens

      Posté par  (site web personnel) . Évalué à 2.

      Merci pour l'info'.

      J'ai déjà le paquetage fonts-noto installé.

      Peut-être pourrais-je manuellement sélectionné la police noto correspondant pour chaque bloc. Mais sinon, actuellement, c'est LibreOffice qui utilise l'une des polices proposant les glyph à afficher. Dans mon document, les polices noto ne sont ainsi pas les plus utilisées.

      Et malgré l'installation de ce paquetage et donc des polices noto, il y a des glyph manquants pour certains blocs.

      • [^] # Polices

        Posté par  . Évalué à 2.

        Y a-t-il toutes les polices Noto dans ce paquet ?

        Sinon, Symbola et Quivira devraient déjà boucher des trous…

        « Le fascisme c’est la gangrène, à Santiago comme à Paris. » — Renaud, Hexagone

  • # Fontes et taille de document

    Posté par  . Évalué à 4.

    Il y a déjà tellement de blocs que j’ai opté pour un format A3, et c’est tout petit :/

    Ça fait effectivement petit. Peut-être en étalant le document sur plusieurs feuilles A4 ?

    J’aimerais pouvoir mettre au point une liste de paquetages Debian suffisant pour cela. Mais se pourrait-il qu’il n’y ait aucune police libre pour certains blocs ?

    Tu as regardé du côté de la famille de polices Noto, dont le but est de couvrir tout unicode ?

    • [^] # Re: Fontes et taille de document

      Posté par  . Évalué à 2.

      Ça fait effectivement petit. Peut-être en étalant le document sur plusieurs feuilles A4 ?

      Il y a notamment PosteRazor qui est très bien pour couper un poster en plusieurs pages

  • # Bonjour

    Posté par  . Évalué à 9.

    Il y a je crois la police Unifont également, qui cherche à couvrir tout Unicode (enfin de 0x0000 à 0xFFFF déjà)

    Ô un BMP, ça faisait longtemps… je ne résiste pas à l’envie de le coller ici !

    Unifont

    • [^] # Re: Bonjour

      Posté par  . Évalué à 7.

      L'ascii art va avoir un nouvel âge d'or !

      • [^] # Re: Bonjour

        Posté par  . Évalué à 10.

        Tu veux dire qu'il va devenir l'ancêtre de l'unicode-art?

    • [^] # Re: Bonjour

      Posté par  . Évalué à 1.

      Je n'ai pas trouvé l'emoji dromadaire :-(

    • [^] # Re: Bonjour

      Posté par  (site web personnel) . Évalué à 2.

      Merci pour l'info'.

      J'avais déjà rencontré cette police. D'une part ce sont des glyphes de "très mauvaises qualité" (quelques pixels). D'autre part, il y a des glyphes "triviaux" avec la position Unicode en hexa et cela peut tromper le mécanisme automatique de sélection de police et afficher un glyphe trivial alors qu'une autre police propose un beau glyphe correspondant.

      L'image est sympa'. Nous pouvons en faire un beau poster A0… Mais qu'est-ce cela illustre au juste ? Puisqu'il y a ces glypes triviaux… On y voit la proportion des différents blocs. Ça, c'est intéressant, oui :)

      • [^] # Re: Bonjour

        Posté par  . Évalué à 3.

        D'une part ce sont des glyphes de "très mauvaises qualité" (quelques pixels).

        Quelques éléments de réponse ici, notamment la réponse à la question : "What do you mean by low quality?"

  • # CJC

    Posté par  (site web personnel) . Évalué à 3.

    Chinois-Japonais-Coreen, ou Coreen-Japonais-Chinois ? :D
    Il m'a fallu quelques instants pour comprendre que tu parlais de CJK…

    • [^] # Re: CJC

      Posté par  . Évalué à 1.

      D'ailleurs, plutôt que d'employer les termes "CJC" (CJK) ou "idéogrammes" il est préférable de parler de sinogrammes

      • [^] # Re: CJC

        Posté par  . Évalué à 4.

        Non, le terme CJK couvre aussi le Hangul et le Kana.

        • [^] # Re: CJC

          Posté par  . Évalué à 1. Dernière modification le 26 juillet 2017 à 11:18.

          Sauf que dans Unicode, hiragana, katakana, hangeul et ponctuations sont classés à part des sinogrammes.

          De plus, les sinogrammes ne sont pas que des idéogrammes.

  • # Objectif ?

    Posté par  . Évalué à 8.

    Je prépare un cours sur Unicode. Je souhaitais pouvoir présenter une vue d'ensemble. J'ai ainsi commencé la réalisation d’un tableau reprenant les différents blocs de caractères…

    Quelle est le but de ta vue d'ensemble ?

    • pour ceux qui cherchent quelque chose en particulier, que ce soit un bloc ou un caractère, Unicode table fait parfaitement le job. En revanche ton image n'aura absolument aucun intérêt.
    • pour expliquer Unicode, quel est l'intérêt de lister 100+ blocs avec 4 caractères d'exemple pour chacun ? Au bout de 4 blocs dont je n'ai jamais entendu parler j'ai compris le principe ! Les concepts importants sont eux noyés dans un inventaire à la Prévert.
    • [^] # Re: Objectif ?

      Posté par  (site web personnel) . Évalué à 5. Dernière modification le 25 juillet 2017 à 10:41.

      Ce n'est pas le seul support que je distribuerai. Celui-ci permet de :

      • prendre conscience de l'étendue mondiale du concept de caractère et de l'écriture ;
      • prendre connaissance des différents blocs ;
      • comprendre ensuite comment fonctionne un logiciel tel que la Table de caractères ;
      • comprendre le concept de position Unicode, ici en hexadécimal ;
      • orienter des recherche de caractères parmi les différents blocs.

      Je n'imagine pas que ce document puisse être la panacée. C'est un premier jet et je compte su le collectif, ici-même, pour m'aider à l'améliorer. Ton commentaire septique et son score ("pertinence") m'interpellent… :/

      • [^] # Re: Objectif ?

        Posté par  . Évalué à 5.

        C'est un premier jet et je compte su le collectif, ici-même, pour m'aider à l'améliorer. Ton commentaire septique et son score ("pertinence") m'interpellent… :/

        Ma question vise à te forcer à remettre en question ton approche actuelle. Je ne dis pas qu'elle est mauvaise, mais quand on rencontre un problème difficile il est toujours intéressant de vérifier si on est sur le bon chemin.

        D'après ta liste d'objectifs, mon sentiment est que tu ne cherches pas une visualisation mais plusieurs. En cherchant à tout représenter sur un unique document, tu complexifies ton problème sans que j'y vois de plus-value pour ton audience.

        Je peux imaginer deux approches:

        Tu cherches à faire une page A4 que quelqu'un voudra absolument garder sous la main pour longtemps par ce que c'est un outil très utile. Alors tu as raison de chercher à représenter le maximum d'information sur un minimum d'espace. Mais pour concevoir un truc utile, il identifier les cas d'usages. Je connais bien les concepts d'Unicode et je ne vois pas comment ce document pourrait me servir. D'un autre côté, le fait que tu cherches à y caser le maximum d'information risque d'en faire un mauvais support d'introduction aux concepts ou un mauvais aide mémoire.

        Tu cherches le meilleur moyen d'introduire visuellement les concepts, de les lier et de donner une idée de l'étendu des blocs et du nombre de caractères. Pour cette seconde partie, une représentation exhaustive du BMP sur de l'A4 peut donner le sentiment de "vertige" que tu sembles chercher. Ça sera parfaitement illisible mais tu feras passer ce message. Tu pourrais aussi t'amuser avec des infographie comme ca en partant de ce que les gens connaissent (ie. ASCII, français, blocs latin-X etc.) ou simplement utiliser 4 ou 5 anecdotes. Par contre pour introduire les concepts de code points, de blocs, de plan mais aussi de glyphes, de normalisation, d'équivalence, de collation etc. et tu utilises d'autres illustrations qui seront de bon aide mémoires.

        Voilà, mon point de vue extérieur.

  • # .XCompose

    Posté par  . Évalué à 5.

    Quels seraient pour vous les quelques caractères que vous souhaiteriez pouvoir insérer de temps à autre et pour lesquels il vous serait pratique de connaître la position Unicode, en hexa’, sur un petit copion collé sous votre écran ?

    Cela me paraît une solution assez peu efficace comparé à un fichier .XCompose personnalisé qui permet d'enrichir les caractères accessibles via la touche compose. Par exemple, à force de taper des équations en unicode, j'ai fini par y ajouter

    Compose + g + lettre latine = lettre grecque correspondante
    Compose + bb + lettre latine = lettre blackboard bold (i.e ℝ, ℕ, ℂ )
    Compose + => = ⇒
    Compose + ... = …
    …
    

    ce qui peut suffire pour écrire de courtes équations (e.g. ∑_k |ψ(k)⟩⟨ψ(k)| = 𝟙).

    • [^] # Re: .XCompose

      Posté par  . Évalué à 2.

      Aller, un peu de pub.

      Moi j'utilise un package python, flatlatex, développé par quelqu'un que j'admire beaucoup (moi), qui fait ce genre de truc. En fait ça a été dev sur des coins de tables à droite et à gauche pendant une conf, mais ça donne un truc plutôt sympa.

      In [1]: import flatlatex
      
      In [2]: c=flatlatex.converter()
      
      In [3]: c.convert(r'\sum_k |\psi(k))(\psi(k)| = \mathbb{1}')
      Out[3]: '∑[k]|ψ(k))(ψ(k)|=𝟙'
      

      On remarquera qu'il vaut mieux sommer sur i, on a un unicode en subscript:

      In [4]: c.convert(r'\sum_i |\psi(i))(\psi(i)| = \mathbb{1}')
      Out[4]: '∑ᵢ|ψ(i))(ψ(i)|=𝟙'
      

      J'ai un binding dans mon WM avec un script dégeux derrière. J'aimerai bien développer un jour une petite gui, mais tout ce qui est graphique me donne des boutons à coder.

      • [^] # Re: .XCompose

        Posté par  . Évalué à 3.

        Il me semble que Octachron voulait utiliser les notations bra et ket de la physique quantique. En \LaTeX, cela devrait ressembler à quelque chose comme :

        $\sum_{k} \bra{\psi{(k)}} \ket{\psi{(k)}} =  \mathbb{1}$

        soit :

        Cela étant, j'aimerais bien voir un extrait du .XCompose de Octachron. Le parser $\LaTeX$ de linuxfr semble avoir des problèmes (hier la plupart de mes formules en ligne n'était pas traitées et j'ai du écrire N au lieu de \mathbb{N}, et ici le deuxième LaTeX de mon texte n'est pas traité), et même quand on utilise \LaTeX cela crée un décalage stylistique avec la police du reste du texte.

        Sapere aude ! Aie le courage de te servir de ton propre entendement. Voilà la devise des Lumières.

        • [^] # Re: .XCompose

          Posté par  . Évalué à 2.

          Cela étant, j'aimerais bien voir un extrait du .XCompose de Octachron.

          En voici un extrait. Après cela reste utilisable uniquement pour de courtes insertions, mais c'est toujours plus pratique que d'essayer de se rappeler de points de codes unicodes.

    • [^] # Re: .XCompose

      Posté par  . Évalué à 4. Dernière modification le 25 juillet 2017 à 10:34.

      Sinon Fcitx dispose d’une méthode d’entrée \LaTeX qui fonctionne bien (pour des caractères assez courants) et s’appuie sur XIM (qui interprête le fichier .XCompose). Depuis mon vieux journal sur le sujet, je crois avoir enfin trouvé une méthode de saisie qui fait à peu près correctement tout ce que peut en attendre un non-sinographe.

    • [^] # Re: .XCompose

      Posté par  (site web personnel) . Évalué à 2.

      Merci pour l’info’.

      Je connais l’existence de XCompose et je pense même que c’est sur cela que repose les différentes dispositions de clavier (ici, belge) généralement disponibles avec un système GNU/Linux.

      J’imagine que cela restera possible avec Wayland ? → piste de réponse…

      Mais dans le cadre de l’atelier ("formation") que j’anime, je ne vais pas expliquer à mes stagiaires comment éditer .XCompose pour personnaliser la chose. Je me contenterai de leur expliquer les possibilités d’un « propulsé par » par un système GNU/Linux configuré pour un clavier belge. Et j’imagine bien que d’une distribution à l’autre, cela peu encore être différent… Je leur en parle aussi.

      Par ailleurs, je suis "obligé" de leur parler également du Windows de Microsoft… Les fameux Alt + position-décimale et surtout les possibilités très limitées du clavier tel que disponible par défaut. J’imagine bien aussi qu’en installant d’autres logiciels dans le Windows il est possible d’augmenter les possibilités de saisie au clavier.

      • [^] # Re: .XCompose

        Posté par  (site web personnel) . Évalué à 2.

        J’imagine bien aussi qu’en installant d’autres logiciels dans le Windows il est possible d’augmenter les possibilités de saisie au clavier.

        dire que sous MS-DOS il y avait plus de possibilités que sous le windows actuel… c'est un comble.

      • [^] # Re: .XCompose

        Posté par  (site web personnel, Mastodon) . Évalué à 3.

        Pour tenter de compenser les manques de MS-Windows ® et essayer de le rendre un peu plus adapté à un poste de travail, il y a le fameux WinCompose.

    • [^] # Re: .XCompose

      Posté par  (site web personnel) . Évalué à 1.

      Moi perso j'utilise ibus + latex-tables, qui fournit des caractères unicodes avec les mnémoniques LaTeX. C'est pas trop mal, modulo le fait que ça utilise l'anti-slash très mal placé sur mon clavier comme caractère d'échappement.

  • # Un poster, il existe.

    Posté par  (site web personnel) . Évalué à 5. Dernière modification le 24 juillet 2017 à 21:43.

    On m'a offert tout récemment un poster A0 avec la moitié d'unicode dessus, à savoir 51k caractères et des brouettes. Il existe la version recto-verso avec le tout, enfin de ce que j'ai compris.

    Ça se vendait au Musée Gutenberg à Mainz, Allemagne (ou Mayence) et devait être produit par decodeunicode. J'en ai trouvé une version en vente : http://shop.designinmainz.de/en/Poster/decodeunicode-Basic-Multilingual-Plane-BMP-Map, mais c'est la « petite » (Basic Multilingual Plane).

    Même en A0, les caractères ne sont pas si grands, mais bien lisibles.

    Édité : le nombre de caractères de la version reçue.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.