Les sources de ce document sont disponibles sur gitlab.
Version du 2019-05-21.

Du fichier texte au langage de balisage

Table des matières

Fichier texte et éditeur de texte

Une définition plus technique (et moins circulaire !) du fichier texte se trouve sur la page wikipédia consacrée au sujet. Pour plus de détails sur les éditeurs de texte, voir aussi la page wikipédia correspondante.

Un logiciel de « traitement de texte » est plus sophistiqué qu'un simple éditeur de texte ; il permet de faire plus, ce qui sous entend qu'il peut aussi ouvrir et manipuler des fichiers textes. Par « faire plus », nous entendons ici travailler sur la mise en page du document final. Mais certains éditeurs de texte comme Emacs ou Vim proposent des fonctionnalités – aide à la programmation, interaction avec les autres logiciels installés sur la machine, etc. – qui font de ces outils de véritables « couteaux suisses » et qui permettent de passer des journées et des semaines sans avoir besoin d’un traitement de texte.

*Attention* : le format « natif » des traitements de texte est rarement un format texte. Les fichiers doc et docx de Word et odt de LibreOffice ne sont pas des fichiers textes.

Le cas du fichier PDF ouvert avec un éditeur de texte

Dans le cours filmé, j'utilise l'exemple du PDF — je donne l'adresse de la page wikipedia en anglais, bien plus complète que celle en français — ouvert avec un éditeur de texte pour montrer que le fichier ne peut pas être visualisé avec un tel logiciel, il faut un logiciel de rendu dédié comme Adobe Reader, Evince, MuPDF, Aperçu,… Vous remarquez néanmoins que le début du fichier contient du texte (la première ligne nous apprend que le fichier utilise la version 1.3 du format PDF). Cette partie au format texte du fichier contient les méta-données — qui ne sont pas montrées, en tout cas pas directement, par les logiciels de rendu. Ces méta-données sont (en partie) au format XMP (Extensible Metadata Platform), nous y reviendrons dans la cinquème séquence.

Sur l'UTF-8

Une table des symboles UTF-8, avec leur code se trouve à l'adresse : http://www.utf8-chartable.de/. C'est pratique pour insérer un symbole pas très courant comme la lettre « TLO » : Ꮰ de la langue cherokee, ou le symbole mathématique ∀, « pour tout ».

Pour ceux qui doivent souvent utiliser des lettres grecs (par exemple pour écrire des équations), il est possible sous Linux de (re)définir des combinaisons de touches pour générer directement les dites lettres. Ces combinaisons sont définies dans le fichier .XCompose, le début de mon fichier contient :

# On charge la base de donnée de Compose la plus complète en UTF-8
 include "/usr/share/X11/locale/en_US.UTF-8/Compose"
 # espace insécable fine
 <Multi_key> <Multi_key> <Space> : " " U202F
 # Lettres greques
 <Multi_key> <space> <a> : "α"  Greek_alpha
 <Multi_key> <space> <A> : "Α"  Greek_ALPHA
 <Multi_key> <space> <b> : "β"  Greek_beta
 <Multi_key> <space> <B> : "Β"  Greek_BETA
 <Multi_key> <space> <g> : "γ"  Greek_gamma
 <Multi_key> <space> <G> : "Γ"  Greek_GAMMA
 <Multi_key> <space> <d> : "δ"  Greek_delta
 <Multi_key> <space> <D> : "Δ"  Greek_DELTA
 <Multi_key> <space> <e> : "ε"  Greek_epsilon
 <Multi_key> <space> <E> : "Ε"  Greek_EPSILON
 <Multi_key> <space> <z> : "ζ"  Greek_zeta
 <Multi_key> <space> <Z> : "Ζ"  Greek_ZETA
 <Multi_key> <space> <h> : "η"  Greek_eta

J'ai en plus redéfini la « <Multikey> » pour qu'elle corresponde à la touche « impression d'écran » de mon clavier. Pour apprendre à redéfinir des touches, consultez : https://wiki.archlinux.org/index.php/Keyboard_configuration_in_Xorg#Configuring_compose_key.

À propos de TinyTex

Yihui Xie, auteur du remarquable package R "bookdown", a mis au point une version allégée de LaTeX, TinyTex ("A lightweight, cross-platform, portable, and easy-to-maintain LaTeX distribution based on TeX Live").