# XML et les langages de balisage

## Décrire des données

### Comment structurer l’information ?

> « Et l’on peut me réduire à vivre sans bonheur,  
> Mais non pas me résoudre à vivre sans honneur. »
>
>*Le Cid* de Pierre Corneille (Acte II, scène 1)

Point de vue humain :
- suite de caractères
- structure complexe (mots, phrase, ponctuation)
- avec signification

Point de vue machine :
- suite d’octets (`…0101 00110010 11011110 01100001 100001…`)
- structure simple (ponctuation, espaces `=` octets !)
- aucune signification

### Exemple de l’analyse syntaxique de surface

> « Le petit chat est mort. »
>
>*L’école des femmes* de Molière (Acte II, scène 5)

Pour un agent humain, la représentation se fait sous forme de graphe :

![Représentation sous forme de graphe](./pics/1-fig1.png)

La structure de la phrase est identifiée grâce à de l’information supplémentaire. On obtient une granularité plus fine en recourant à une segmentations en constituants :
- *Le petit chat* : syntagme nominal
- *est mort* : syntagme verbal
- *.* : ponctuation

![Segmentation en constituants de la phrase](./pics/1-fig2.png)

La phrase est rigoureusement identique mais grâce à de l’annotation, nous disposons de plus d’informations !

Le résultat d’une segmentation en unités lexicales associée à un étiquetage morphosyntaxique procure encore davantage d’annotations :
- *Le* : déterminant
- *petit* : adjectif
- *chat* : nom commun
- *est* : verbe
- *mort* : participe passé employé comme adjectif
- *.* : ponctuation

![Arbre syntaxique simple](./pics/1-fig3.png)

```
Ph = SN1 + SV + PONCT
SN1 = DET + SN2
SN2 = ADJ1 + NC
SV = V + ADJ2
```
]

**Remarques :**
- phrase identique
- volume analyse `>` volume phrase
- modélisation sous forme d’arbre

### Arguments en faveur de la description de contenus

Pourquoi une analyse syntaxique ?
- répond au besoin de mettre en évidence la structure d’une phrase
- succède à une analyse lexicale
- préalable à une analyse sémantique

Face à une phrase, on recense des besoins différents :
- lire
- déclamer
- apprendre
- comprendre
- analyser
- …

**Observations :**
- un agent humain effectue des opérations selon ses besoins
- une machine ne fait rien car elle n’a aucun besoin

**Questions :**
- pourquoi alors utiliser une machine ?
- comment traduire ses besoins à une machine ?

**Analyse syntaxique** pour décrire la structure d’une phrase :
- langage de description
- étiquettes (*tags*)
- vocabulaire (`SN` `V` `DET` `NC …`)
- grammaire (`V ∌ SV`, `NC + DET ≠ SV …` )

En informatique, le processus est identique !

## Un langage de balisage ?

### Représenter la structure de l’information

**Objectif :** organiser de façon logique et hiérarchisée un ensemble afin de faciliter l’accès à ses constituants

**Problématique :** un fichier étant une suite d’octets, comment en représenter la structure ?

**Solution :** utiliser un langage informatique de description
- balises (étiquettes de description)
- syntaxe (règles d’écriture)
- vocabulaire (libellé des étiquettes)
- grammaire (agencement des balises)

Description de la phrase *Le petit chat est mort* :
```xml
<!-- Exemple d’une analyse morphosyntaxique -->
<Ph>
    <SN num="1">
        <DET>Le</DET>
        <SN num="2">
            <ADJ num="1">petit</ADJ>
            <NC>chat</NC>
        </SN>
    </SN>
    <SV>
        <V>est</V>
        <ADJ num="2">mort</ADJ>
    </SV>
    <PONCT>.</PONCT>
</Ph>
```
- balises pour étiqueter un segment : `<NC>chat</NC>`
- syntaxe : `<NC>` et non pas `?NC++`
- vocabulaire : `NC ≠ Ceci est un nom commun`
- grammaire : `NC ≠ V`

### Le langage XML

**XML :** *Extensible Markup Language*

Aujourd’hui [norme du W3C](https://www.w3.org/TR/REC-xml/) et plus qu’un langage, XML est en réalité un méta-langage qui permet de créer des langages de description :
- formats personnalisés
- formats normalisés (SVG, MathML…)
- formats consensuels (TEI, TMX…)

Plus souple que son prédécesseur SGML grâce à ses balises et attributs personnalisables et à la mutliplicité de ses exploitations possibles, il présente également dans sa syntaxe une rigidité opportune qui en fait le candidat idéal pour conserver ou échanger des données, contrairement au HTML dont la permissivité ne peut garantir leur intégrité.

Il repose sur une syntaxe stricte qui met en œuvre des *balises*, sortes de dispositifs de signalisation autour d’un segment dont l’étiquette respecte un format défini ou personnalisé.

```xml
<!-- Format personnalisé -->
<Ph>Le petit chat est mort.</Ph>
<!-- Format HTML -->
<p>Le petit chat est mort.</p>
<!-- Format TEI -->
<sp>
	<l>Le petit chat est mort.</l>
</sp>
```

Formats HTML et TEI font référence à des grammaires :
- norme W3C pour HTML
- directives consortium TEI pour TEI

Si l’on opte pour des directives personnalisées comme dans le premier exemple, il conviendra alors de définir la grammaire pour le décrire.

## La galaxie XML

Il existe une masse de technologies autour de XML, qui elles-mêmes sont écrites en XML ou non. Elles servent des objectifs variés :
- échanger
- sauvegarder
- formater
- décrire
- extraire
- …

![La galaxie XML](./pics/1-fig4.png)

- **Parseur :** analyse syntaxique et modélisation du document XML
- **Grammaire :** règles de composition d’un document XML
- **Requête :** sélection et transformation de fragments XML
- **Liens :** lier des fragments entre eux
- **Porteurs :** protocoles pour l’échange de données XML
- **Langages descriptifs :** formats de données pour applications spécifiques
- **Métadonnées :** décrire des langages descriptifs