# Typologie, formats et outils d'exploitation des documents numériques (2)



📌 Ecole du Louvre, Master Documentation et Humanités Numériques, 2022

---

#### Alix Chagué


📫 [alix.chague@inria.fr](mailto:alix.chague@inria.fr)  

💼 *Doctorante en Humanités Numériques* @ Inria (Paris) & Université de Montréal

| |
| :---: |
| ![EDL logo](https://raw.githubusercontent.com/alix-tz/EDL_typo_doc/main/images/edllogo.png) 

## Objectifs du cours


🏆 Comprendre ce qu'est un document sur un ordinateur

🏆 Savoir différencier les catégories de fichiers et les standards et formats qui leur sont associés

🏆 Savoir différencier la mise en forme d'un fichier et sa structuration sémantique

🏆 Connaître théoriquement plusieurs modes d'organisation et de mise en forme d'un fichier textuel (XML, Markdown, LaTeX, ...)

🏆 Connaître théoriquement plusieurs modes de représentation de données organisées dans un fichier textuel (CSV, JSON)

🏆 Connaître les principaux standards XML et l'environnement technologique associé à ce standard


## Plan du cours

- Que faire avec des données textuelles
- Structuration des données
- XML
- TP : XML TEI

# Que faire avec des données textuelles ?

## Extraction d'informations

A l'aide de techniques de `TAL` (Traitement Automatique des langues / du langage) aussi appelé `NLP` (*Natural Language Processing*)

- Correction automatique 
- Simplification/augmentation de texte
- Traduction automatique
- Extraction d'[`entités nommées`](https://fr.wikipedia.org/wiki/Entit%C3%A9_nomm%C3%A9e) (NER, *Named Entity Recognition*)
- Liage d'entités nommées (EL, *Entity Linking*) et désambiguation
- Analyses lexicométriques ou sémantiques

## Faciliter l'accès

Rendre un document compatible avec des moteurs de recherche :
- moteur de recherche plein texte
- moteur de recherche combinant la recherche plein texte avec une recherche à facettes (via métadonnées)
- création d'index (de personnes, de lieux, etc) grâce aux entités nommées

Voire réaliser une édition numérique !

## Transcription automatique et édition numérique 

📃 Comme la phase de transcription automatique en est passée par une phase d'analyse de la mise en page, il est fréquent de conserver ces informations dans le document final :

- coordonnées de la portion de l'image correspondant au texte ;
- groupes de lignes formant un paragraphe, un titre, etc. ;
- autres éléments de mise en page spécifique (illustrations, tableau, etc.)
- parfois aussi information sur la mise en forme des caractères (gras, italique, taille, etc.)

# Structuration des données

## Pourquoi structurer les données 

- trier les données afin qu'un utilisateur puisse facilement sélectionner celles qui sont importantes ;


- organiser les données pour les mettre en rapport les unes avec les autres ;


- faire ressortir une structure logique qui aide à la mise en forme du document, à sa lecture par un humain ou par la machine ;

- ...

## CSV (*Comma Separated Values*)

- 1 ligne de texte = 1 ligne de tableau
- 1 virgule = 1 nouvelle cellule de tableau
- un ficher csv peut être ouvert avec Excel

---

| Id_Monographie | Id_Enqueté | Serie_Tome | Prénom | Nom | Place dans la famille | Lieu de naissance |
| :------------- | :--------- | :--------- | :----- | :-- | :-------------------- | :---------------- |
|001a            | 001aE1     | 1-1 (1857) | Jean   | M** | Père       | T** (Aube)        |
|001a            | 001aE2     | 1-1 (1857) | Marie  | R** | Mère              | L** (Meurthe)     |
|001a            | 001aE3     | 1-1 (1857) | Joseph | M** | Fils             |                   |

---

```
Id_Monographie,Id_Enqueté,Serie_Tome,Prénom,Nom,Place dans la famille,Lieu de naissance
001a,001aE1,1-1 (1857),Jean,M**,Père,T** (Aube)
001a,001aE2,1-1 (1857),Marie,R**,Mère,L** (Meurthe)
001a,001aE3,1-1 (1857),Joseph,M**,Fils,,
```

## JSON (*JavaScript Object Notation*)

- utilisation de structure similaire aux listes et aux dictionnaires en Python

- Chaque valeur est associée à une étiquette, la structure peut fonctionner en arborescence, à plusieurs niveaux

``` json
[
{"Id_Monographie":"001a"}, {"Id_Enqueté":"001aE1"}, {"Serie_Tome":"1-1 (1857)"}, {"Prénom":"Jean"}, {"Nom":"M**"}, {"Place dans la famille":"Père"}, {"Lieu de naissance":"T** (Aube)"},
    
{"Id_Monographie":"001a"}, {"Id_Enqueté":"001aE2"}, {"Serie_Tome":"1-1 (1857)"}, {"Prénom":"Marie"}, {"Nom":"R**"}, {"Place dans la famille":"Mère"}, {"Lieu de naissance":"L** (Meurthe)"},

{"Id_Monographie":"001a"}, {"Id_Enqueté":"001aE3"}, {"Serie_Tome":"1-1 (1857)"}, {"Prénom":"Joseph"}, {"Nom":"M**"}, {"Place dans la famille":"Fils"}, {"Lieu de naissance":""}
]
```

## Séparer la structure logique de l'apparence :

- un titre =/= un paragraphe
- un titre d'ouvrage ou un mot étranger
- une citation

vs.

- du texte en gras
- du texte en italique
- du texte entre guillemets

## Séparer la structure logique de l'apparence :

En fonction du medium ou du contexte, on affiche un rendu particulier

- toutes les mots en italiques ne sont pas des mots étrangers, mais tous les mots étrangers sont en italiques

- on peut décider de finalement mettre les titres en gras tout en gardant les mots étrangers en italiques

- on peut extraire rapidement tous les mots étrangers

Il extiste **plusieurs conventions** pour formaliser la structure logique.

## Structuration logique dans un éditeur de texte

Dans `Microsoft Word` ou `LibreOffice Writer` :
- les **styles** pour gérer les titres et créer automatiquement une table des matières

![styles dans writer](https://raw.githubusercontent.com/alix-tz/EDL_typo_doc/main/images/word_styles.png)

## WYSIWYM et WYSIWYG 

- dans un éditeur WYSIWYM : moindre confusion entre mise en forme et indication de la structure logique

- la mise en forme apparaît après *parsing* du document (création d'un PDF ou ouverture dans un navigateur)

- le paramétrage de la mise en forme peut être géré dans un fichier externe (ex: CSS pour HTML)

![styles dans writer](https://raw.githubusercontent.com/alix-tz/EDL_typo_doc/main/images/wysiwym_styles.png)

## Annotation de la structure logique avec Markdown 

Ⓜ️ `Markdown` est un langage de balisage léger qui permet d'encoder facilement la structure et certains éléments de mise en forme du texte sans gêner sa lecture. 

Ⓜ️ Il permet de créer des fichiers HTML ou PDF et est beaucoup utilisé sur le web, notamment sur des plateformes comme Github

Ⓜ️ Même non compilé, un texte Markdown est facile à lire car les annotation sont légères et limitées ;

🤫 On peut utiliser Markdown ou un système similaire dans Whatsapp et Messenger ;

### Markdown en exemple

```
Non compilé : 
# Titre 1
##### Titre 5

[lien hypertexte](http://perdu.com/)  
**texte mis en gras**  (mise en forme)  
~~texte barré~~ (mise en forme)  
```
---

Compilé : 

# Titre 1
##### Titre 5

[lien hypertexte](http://perdu.com/)  
**texte mis en gras**  (mise en forme)  
~~texte barré~~  (mise en forme)  

## Structuration logique avec LaTeX

🇱 `LaTeX` (prononcer "latek") est un langage et un système de composition de documents, bien plus complet que Markdown ;

🇱 Il est très utilisé dans le domaine des sciences car il a été conçu pour écrire aisément les formules mathématiques ;

🇱 Un fichier annoté avec `LaTeX` est plus dur à lire sans compilation car les balises sont plus "invasives". Exemple : `\chapter{Titre de chapitre}`

🇱 Après compilation, on obtient un PDF ou du HTML 

🇱 LaTeX ne sert pas qu'à annoter la structuration logique : il prend en charge la mise en forme du document au sens large.

## XML permet de pousser beaucoup plus loin l'annotation sémantique


![XML c'est encore au-dessus de tout ça](https://raw.githubusercontent.com/alix-tz/EDL_typo_doc/main/images/annotation_brain.png)

# XML

## Let's play

➡️ [pont_mirabeau.txt](https://github.com/alix-tz/EDL_typo_doc/blob/main/tp/pont_mirabeau.txt)

➡️ [pont_mirabeau.png](https://github.com/alix-tz/EDL_typo_doc/blob/main/tp/pont_mirabeau.PNG)


## Qu'est-ce que XML ?

🌳 XML signifie *eXtensible Markup Language*

🌳 XML est un **langage** de **balisage** générique. On le dit **extensible** car il propose une grammaire générale pour l'organisation du document, mais on peut créer ses propres noms de balises

🌳 Comme HTML (Hypertext Markup Language), XML est un sous-ensemble du standard SGML (Standard Generalized Markup Language). Ces langages utilisent les chevrons (`<>`) pour former des balises.

🌳 XML définit une syntaxe :
   - une balise XML est écrite entre chevrons (`< nom_de_la_balise >`) et entoure généralement un contenu ;
   - une balise **ouverte** (`<slide>`) doit donc être **fermée** (`</slide>`);
   - une balise peut-être vide : `<nothing></nothing>`, ce qui peut aussi s'écrire : `<nothing/>`
   - un commentaire est écrit entre `<!-- ... -->` ;

## XML : un exemple

``` xml
<slide>
    <titre>Qu'est-ce que XML ?</titre>
    <para>
        <line n="001">🌳 XML signifie <anglais>eXtensible Markup Language</anglais></line>
        <line n="002">🌳 XML est un <gras>langage</gras> de <gras>balisage</gras> générique. On le dit <gras>extensible</gras> car il propose une grammaire générale pour l'organisation du document, mais on peut créer ses propres noms de balises</line>
    </para>
</slide>            

```

---

- `<slide>` est une **balise** ou un élément
- `slide` est un **nom** de balise
- "Qu'est-ce que XML ?" est le contenu de la balise "titre"
- `n` est un **attribut** de la balise "line"
- `001` est la **valeur** de l'attribut "n"


## XML et les standards 

🌳 XML ne définit pas de vocabulaire : il n'indique pas quel nom doit être donné à une balise : `<paragraph>`, `<paragraphe>`, `<para>`, `<para_ph>`, `<p>` sont tous des noms de balises valides ;

🌳 Ce sont les `standards` qui définissent un vocabulaire (un ensemble de nom de balise) et des règles de compositions :
   - [`XML TEI`](https://tei-c.org/about/) (*Text Encoding Initiative*) - description de documents textuels (1987)
   - [`XML EAD`](https://www.loc.gov/ead/) (*Encoded Archival Description*) - description archivistique (1998)
   - [`XML ALTO`](https://www.loc.gov/standards/alto/) (*Analysed Layout and Text Object*) - description de la mise en page et du contenu d'un texte transcrit automatiquement (2004)
   - [`XML SVG`](https://www.w3.org/TR/SVG2/Overview.html) (*Scalable Vector Graphics*) - descriptions d'images vectorielles (1999)

## Concepts et outils

🌳 Un fichier XML est plusieurs choses :
   - un fichier de texte
   - un arbre composé d'éléments hiérarchisés
   - une base de données
   
🌳 Il existe plusieurs langages qui permettent d'interagir avec XML :
   - `xPath` : formuler un chemin à l'intérieur d'un arbre XML ;
   - `XSLT` : transformer un arbre XML en un autre arbre XML ou en HTML ;
   - `xQuery` : permet de faire des requêtes dans une base XML ;

## Structure minimale obligatoire

``` xml
<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0">
  <teiHeader>
      <fileDesc>
         <titleStmt>
            <title>Title</title>
         </titleStmt>
         <publicationStmt>
            <p>Publication Information</p>
         </publicationStmt>
         <sourceDesc>
            <p>Information about the source</p>
         </sourceDesc>
      </fileDesc>
  </teiHeader>
  <text>
      <body>
         <p>Some text here.</p>
      </body>
  </text>
</TEI>
```

## Qu'annoter ?

- Métadonnées dans la balise [`<teiHeader>`](https://www.tei-c.org/release/doc/tei-p5-doc/fr/html/ref-teiHeader.html)

- Structure du texte (`<div>`, `<p>`, `<head>`, `<lb/>`, `<pb/>`, ...)

- Entités ou informations spécifiques (`<date>`, `<placeName>`, ...)

- Mise en forme (`<hi>`, ...)

- Elements descriptifs (`<fw>`, ...)

---

➡️ exemple : [pont_mirabeau.xml](https://github.com/alix-tz/EDL_typo_doc/blob/main/tp/pont_mirabeau.xml)

➡️ exemple : [edition numérique de correspondances, projet DAHN](https://github.com/FloChiff/DAHNProject/blob/master/Correspondence/Paul_d_Estournelles_de_Constant/Corpus/Lettre115_3janvier1916.xml)