# L’API DOM pour XML, ou comment représenter l’arbre XML

## Présentation

**API :** *Application Program Interface*

**DOM :** *Document Object Model*

**API DOM :** interface de programmation définie par le [W3C](https://dom.spec.whatwg.org/). Indépendante des langages de programmation, elle propose des méthodes et propriétés pour accéder en lecture et écriture à la représentation sous forme structurée (arbre) d’un document numérique.

- **1er octobre 1998 :** DOM 1 (norme)
- **13 novembre 2000 :** DOM 2 (norme)
- **7 avril 2004 :** DOM 3 (norme)
- **19 novembre 2015 :** DOM 4 (norme)


Grâce à DOM, un document XML est représenté sous une forme arborescente :

![Traitement d’un fichier XML par l’API DOM](./pics/3-fig1.png)

## Modélisation

### Principes

La représentation obtenue est similaire à un graphe dans ses caractéristiques :
- un sommet unique (racine)
- une hiérarchie entre les nœuds
- un chemin unique pour accéder à un nœud
- des cardinalités `1:1 1:n`

![Exemple de graphe](./pics/3-fig2.png)

### Exemple de modélisation

```xml
<?xml version="1.0" encoding="utf-8"?>
<livre>
    <auteur>
        <nom>Melville</nom>
        <prenom>Herman</prenom>
    </auteur>
    <titre>Moby Dick</titre>
    <parution date="1851-11-14">14 novembre 1851</parution>
</livre>
```

![Exemple de représentation sous forme d’arbre d’un document XML](./pics/3-fig3.png)

**Légende des couleurs :**
- en bleu : éléments
- en orange : attribut
- en gris : texte

## Classes

### Classe *Document*

La classe *Document* permet d’accéder au prologue XML ainsi qu’au corps du document XML. Elle définit des méthodes pour créer des éléments, des attributs, des commentaires…

### Classe *Node*

Comme tout est nœud dans un document XML (élément, attribut, texte brut…), la classe *Node* est vraiment au cœur du langage. Elle offre des méthodes pour agir sur les nœuds (supprimer, remplacer…) mais aussi des moyens pour obtenir des informations dessus, comme leur type (élément, attribut…) leur nom, la liste des nœuds enfants et bien d’autres encore.

### Autres classes

Citons trois autres classes essentielles :
- *Element*
- *Attr* (attribut)
- *Text*

Toutes disposent de propriétés pour accéder à des informations (nœud, valeur) et de méthodes pour agir sur leurs objets, comme la façon de modifier leur contenu ou de lister les objets de même nom. Pour connaître la liste de toutes les classes à disposition, rien de tel que [la documentation officielle](https://dom.spec.whatwg.org/).

## Analyser du code XML

L’API DOM est ce que l’on appelle un *parser* XML, autrement dit un programme d’analyse syntaxique qui, rappelons-le, fournit une modélisation arborescente du document XML avec des classes pour accéder en lecture et en écriture. Elle est par exemple implémentée par tous les navigateurs Web, le langage HTML étant une application spécifique du langage XML.

Quant aux langages informatiques, ils implémentent plusieurs *parsers* avec, souvent, des objectifs différents :
- JavaScript (`DOMParser` `jQuery.ParseXML`)
- PHP (`DOM` `XMLReader` `libxml` `SDO` `SimpleXML`)
- Python (`ElementTree` `lxml` `cElementTree` `minidom`)
- XSLT
- …

In [None]:
# XML parser
import xml.etree.ElementTree as ET

# XML tree
tree = ET.parse('./files/library.xml')
root = tree.getroot()

# output
infos = ''

# get informations
for book in tree.iter('book'):
    title = book.find('title').text
    author = f"{book.find('author').find('firstname').text} {book.find('author').find('lastname').text}"
    parution = book.find('parution').attrib['date']
    infos += f"{parution} : {title} ({author})\n"

# print
print(infos[:-2])