# La syntaxe de XML

## Présentation

### De l’utilité de XML

**26 novembre 2008 :** XML 1.0  
https://www.w3.org/TR/REC-xml/

**16 août 2006 :** XML 1.1 (à réserver à des cas très spécifiques)  
https://www.w3.org/TR/xml11/

XML sert à décrire des données en fonction d’un objectif. Cet objectif peut être de différentes natures :
- échanger des informations bancaires au sein d’un système international
- documenter les phases successives d’écriture d’une œuvre littéraire
- reccueillir des éléments de différentes origines pour former un catalogue
- …

L’objectif défini de tout projet d’encodage en XML peut recourir éventuellement à un cadre de formatage (SVG, TEI, TMX…) ou respecter au contraire un format personnalisé. Dans ce dernier cas, la question de la diffusion de la grammaire (règles et contraintes d’écritures) se posera si l’ambition est d’effectuer un travail collaboratif.

### Un peu de vocabulaire

**XML :** *Extensible Markup Language*

**API :** *Application Programming Interface*

**DOM :** *Document Object Model*

**SAX :** *Simple API for XML*

Traitement fichier XML :
- parseur lit le document comme texte brut
- modélisation par API (DOM, SAX…)
- validation syntaxique
- validation grammaticale
- interrogation par un programme

![Schéma de traitement d’un fichier MXL](./pics/2-fig1.png)

## La syntaxe

La syntaxe du langage définit sept blocs de construction :
- Prologue XML
- Éléments
- Attributs
- Données textuelles (CDATA)
- Références d’entités
- Commentaires
- Instructions de traitement

### Le prologue

Le prologue XML est facultatif mais chaudement recommandé ! Il indique notamment aux applications le format du fichier (XML) ainsi que sa version (1.0 dans la très grande majorité des cas).

```xml
<?xml version="1.0"?>
```

Et si l’encodage utilisé est différent de l’ASCII (255 caractères) :

```xml
<?xml version="1.0" encoding="UTF-8"?>
```

### Les éléments

Il s’agit du composant central du langage, présent au minimum une fois dans un document XML valide. Le tout premier élément est particulier : appelé *racine*, il est obligatoirement unique dans tout le document.

Un élément XML est composé de trois parties :
- la balise d’ouverture (`<paragraphe>`)
- le contenu (tout bloc à l’exception de la déclaration)
- la balise de fermeture (`</paragraphe>`)

```xml
<paragraphe>Lorem ipsum dolor sit amet.</paragraphe>
```

Cas particulier d’un élément vide (ou autonome) :

```xml
<paragraphe/>
```

L’étiquette de l’élément est personnalisable, à l’exception près qu’elle ne peut débuter par la chaîne `XML` :

```xml
<XMLqqch>Cette balise est interdite</XMLqqch>
```
- **Début :** lettre, nombre, underscore ou deux-points (déconseillé)
- **Suite :** lettres, nombres, tirets, underscores, deux-points, virgules

L’étiquette est également sensible à la casse :

```xml
<docXML>Erreur de syntaxe</docXml>
```

Une autre contrainte d’écriture impose de respecter l’imbrication des balises :

```xml
<p>Ce bout<g>de <i>texte</g> provoquera aussi</i> une erreur de syntaxe</p>
```

```xml
<p>
    Tandis que ce
    <g>paragraphe est
        <i>correctement formé</i>
        , conforme en cela aux
        <i>recommandations</i>
    </g>
    <i>en vigueur</i>
</p>
```

### Les attributs

Les attributs sont placés dans la balise d’ouverture d’un élément et uniquement dans sa balise d’ouverture. Un élément peut supporter un nombre illimité d’attributs (ou aucun) à partir du moment où ils sont uniques dans la balise. Ils sont exprimés sous forme de paire : `nom="valeur"`.

```xml
<!-- Non conforme aux recommandations -->
<texte auteur="Jacob Grimm" auteur="Wilhelm Grimm">
    <titre>Le vaillant petit tailleur</titre>
</texte>
```

Comme pour les éléments, leur étiquette est personnalisable, à quelques exceptions près. Les caractères suivants sont interdits car réservés par le langage : `<` `&` `'` `"`

Enfin, l’ordre d’apparition des attributs n’a aucune importance :

```xml
<livre pages="240" auteur="Eric Chevillard" editeur="Minuit">
    <titre langue="fr">Le vaillant petit tailleur</titre>
</livre>
```

### Le texte brut

Tout élément et tout attribut peut contenir du texte brut. Seuls deux caractères sont formellement interdits dans ce bloc : `<` `&`. À la place, il faut soit utiliser une référence d’entité (`&lt;` `&amp;`), soit utiliser une section CDATA :

```xml
<!-- Section CDATA -->
<texte>
    <![CDATA[
        L’âge de Simon est strictement < au coût de la vie.
    ]]>
</texte>
```

### Les références d’entités

Les références d’entités servent à interpréter les caractères réservés par le langage comme caractèrs bruts grâce à une syntaxe particulière : `&…;`

|Entité|Caractère|
|:-:|:-:|
|`&lt;`|`<`|
|`&gt;`|`>`|
|`&amp;`|`&`|
|`&apos;`|`'`|
|`&quot;`|`"`|

À noter que les correspondances Unicode sont reconnues dans leur notation décimale (`&#…;`) ou hexadécimale (`&#x…;`) et qu’il est permis de déclarer ses propres entités dans une grammaire.

### Les commentaires

Les commentaires sont à destination d’un agent humain et ne sont pas voués à être interprétés par le langage, même si leur traitement peut se révéler différent en fonction du parseur utilisé. Dans l’exemple ci-dessous, l’élément `auteur` du deuxième élément `version` est parfois considéré comme son premier fils ou comme son second.

```xml
<texte>
    <titre>Le vaillant petit tailleur</titre>
    <version>
        <auteur>Les frères Grimm</auteur>
    </version>
    <version>
        <!-- La plus fidèle version de l’histoire -->
        <auteur>Eric Chevillard</auteur>
    </version>
</texte>
```

Comme il n’existe pas de certitude, il est conseillé de toujours se référer au nom d’un nœud plutôt qu’à son numéro d’ordre dans l’arbre XML.

Côté syntaxe, les commentaires suivent les règles du HTML, interdisant au passage la séquence `--` à l’intérieur :

```xml
<!-- La plus fidèle version du Vaillant petit tailleur est tout de même celle de Eric Chevillard -->
```

### Les instructions de traitement

Ces instructions indiquent une action à accomplir à une application de traitement. Elles sont composées de quatre parties :
- balise ouvrante : `<?`
- cible du traitement (ne peut débuter par la chaîne `XML`)
- chaîne d’information complémentaire
- balise fermante : `?>`

```xml
<?xml-stylesheet type="text/xml" href="styles.xsl"?>
```

## Les espaces de nommage

Ils servent à ajouter des fonctionnalités à la spécification `XML 1.0` en permettant la coexistence de plusieurs vocabulaires XML. Leur déclaration est obligatoire dans l’élément qui l’utilisera (attention à la portée) avec une URI comme valeur de l’attribut `xmlns` (*XML namespaces*).

```xml
<texte xmlns:xlink="http://www.w3.org/1999/xlink">
    Texte du lien
</texte>
<!-- Hors de portée !! -->
<lien xlink:href="lien.xml"/>
```

```xml
<blocLien xmlns:xlink="http://www.w3.org/1999/xlink">
    <texte>Texte du lien</texte>
    <!-- À portée -->
    <lien xlink:href="lien.xml"/>
</blocLien>
```

## XML design

Les données peuvent être stockées indifféremment dans des éléments ou dans des attributs.

### Le modèle par éléments

```xml
<?xml version="1.0" encoding="UTF-8"?>
<fromages>
  <fromage>
    <nom>Beaufort</nom>
    <lait>
      <type>Cru</type>
      <animal>Vache</animal>
    </lait>
  </fromage>
  <fromage>
    <nom>Crottin de Chavignol</nom>
      <lait>
        <type>Cru</type>
        <animal>Chèvre</animal>
      </lait>
  </fromage>
</fromages>
```

### Le modèle par attributs

```xml
<?xml version="1.0" encoding="UTF-8"?>
<fromages>
  <fromage nom="Beaufort" typeLait="cru" animal="vache" />
  <fromage nom="Crottin de Chavignol" typeLait="cru" animal="chèvre" />
</fromages>
```

**Remarque :** le modèle par attributs est certes plus concis mais il demeure moins lisible avec un volume de données plus important.

### Un modèle mixte

Dans la pratique, il est bien plus courant de combiner les deux modèles. Comment, alors, choisir entre les deux pour modéliser une donnée précise ? Bien souvent, il s’agit d’une sensibilité personnelle qui résulte de l’expérience. Toutefois, des principes ont été définis pour orienter la décision vers tel ou tel modèle :
- le principe de la donnée fondamentale
- le principe de l’information structurée
- le principe de dépendance entre l’élément et ses attributs
- le principe de lisibilité des données

#### Le contenu est-il fondamental ou accessoire ?

La réponse à cette question doit aboutir à une distinction essentielle entre donnée et métadonnée. Dans le premier cas, il convient d’utiliser un élément ; dans le second, un attribut.

```xml
<!-- Le genre est ici considéré comme une information secondaire -->
<livre genre="roman">
    <!-- Le titre devrait toujours figurer dans un élément -->
    <titre>Moby Dick</titre>
</livre>
```

#### La donnée répond-elle à une norme, un format ?

Toutes les informations qui suivent un formatage défini mériteraient d’être encodées dans des attributs.

```xml
<!-- La date de parution respecte la norme ISO-8601 -->
<livre genre="roman" parution="1851-11-14">
    <titre>Moby Dick</titre>
</livre>
```

#### Le contenu est-il composé d’une donnée et de son modificateur ?

L’une des distinctions entre attributs et éléments réside dans l’utilité des premiers pour modifier ou affiner la précision des seconds.

```xml
<livre genre="roman" parution="1851-11-14">
    <titre>Moby Dick</titre>
    <!-- L'attribut conserve l'unité qui modifie la valeur numérique stockée -->
    <pagination unite="p">379</pagination>
</livre>
```

#### Le contenu sera-t-il lu par un agent humain ?

Les données sont soit destinées à être consultées par un agent humain, soit destinées à être traitées par un programme informatique. Caractériser leur sort permet de déterminer s’il est préférable de les encoder dans des éléments ou avec des attributs.

```xml
<livre genre="roman" parution="1851-11-14">
    <titre>Moby Dick</titre>
    <pagination unite="p">379</pagination>
    <!-- Le résumé d'une œuvre est plutôt destiné à l'affichage qu'au traitement -->
    <resume>Attiré par la mer et le large, Ismaël, le narrateur, décide de partir à la chasse à la baleine. Il embarque sur le Péquod, baleinier avec son nouvel ami Queequeg commandé par le capitaine Achab. Ismaël se rend vite compte que le bateau ne chasse pas uniquement pour alimenter le marché de la baleine. Achab recherche Moby Dick, un cachalot blanc particulièrement féroce et d'une taille impressionnante, qui lui a arraché une jambe par le passé. Achab emmène son équipage dans un voyage autour du monde à la poursuite du cachalot dont il a juré de se venger. Le Péquod finira par sombrer au large des îles Gilbert en laissant Ismaël seul survivant, flottant sur un cercueil. Le roman est loin de se réduire à son aspect fictionnel : de nombreux chapitres sont consacrés à décrire minutieusement la technique de la chasse à la baleine ainsi qu'à s'interroger sur la nature (réelle ou symbolique) des cétacés, et peuvent se lire comme une seconde traque, spéculative et métaphysique. Dans Moby-Dick, Melville emploie un langage stylisé, symbolique et métaphorique pour explorer de nombreux thèmes complexes qu'il estime universels. À travers le voyage de son personnage principal, les concepts de classe et de statut social, du Bien et du Mal, et de l'existence de Dieu sont tous aussi bien explorés que les interrogations d'Ismaël sur ses convictions et sa place dans l'univers. Ce livre est souvent considéré comme l'emblème du romantisme américain. Bien que sa première édition n'ait pas soulevé l'enthousiasme de la critique, Moby-Dick est aujourd'hui considéré comme l'un des plus importants romans de langue anglaise. En 1954, dans Ten Novels and Their Authors, l'écrivain britannique William Somerset Maugham a classé Moby Dick parmi les dix plus grands romans.</resume>
</livre>
```