# ElementTree, présentation

ElementTree est la bibliothèque de la distribution standard qui a une approche _pythonique_ pour traiter les fichiers XML. Il s'agit aussi de la bibliothèque à jour.

Nous allons commencer par importer les dépendances nécessaires.

In [None]:
import xml.etree.ElementTree as ET
from pathlib import Path

Et définir le chemin vers le fichier que nous allons utiliser.

In [None]:
countries_file = Path('__file__').resolve().parent.parent / 'assets' / 'countries.xml'

ElementTree permet de charger les données avec plusieurs stratégies. `ET.parse()` et `ET.fromstring()` sont _non incrémentales_ et chargent le document en mémoire à la manière de DOM. Cette stratégie convient à notre fichier qui est court.

In [None]:
tree = ET.parse(countries_file)
root = tree.getroot()

`ET.parse()` peut recevoir en argument aussi bien un chemin qu'un fichier. Ceci retourne une instance de la classe `ET.ElementTree` qui représente l'ensemble de la hierarchie. Ci-dessus, nous avons récupéré l'élément racine.

`ET.fromstring()` est destiné à recevoir directement une chaine de caratères XML et retourne une instance de `ET.Element` représentant la racine.

In [None]:
type(tree)

In [None]:
type(root)

Les deux autres fonctions pour charger un document XML sont :
 * `ET.iterparse()` qui est incrémental bloquant, ce qui le rends inadapté au code asynchrone.
 * `ET.XMLPullParser()` qui est incrémental non-bloquant mais plus verbeux que le précédent.

## Le type Element

Un élément est une séquence mutable, itérable et indexable. Elle a une taille correspondant au nombre de ses _enfants_ immédiats.

In [None]:
len(root)

In [None]:
root[0]

In [None]:
for child in root:
    print(child)

Un objet `Element` possède un certain nombre d'attributs. Pour commencer, le _type_ de l'élément.

In [None]:
country = root[0]
country.tag

In [None]:
for child in country:
    print(child.tag)

Il possède également un dictionnaire contenant les attributs de l'élément.

In [None]:
country.attrib

Les attributs `Element.text` et `Element.tail` permettent d'accéder aux données supplémentaires qui sont souvent des chaines de caractères. _text_ contient le texte entre la balise ouvrante et soit le premier enfant soit la balise fermante. Il peut aussi contenir `None`. _tail_ contient le texte entre le tag fermant et le suivant.

In [None]:
for child in country:
    print(child.tag, child.text, child.attrib, sep=" | ")

On peut récupérer le contenu d'un attribut directement à partir de l'élément.

In [None]:
country.get('name')

## Itération
Un élément est un intérable, on itère donc sur les enfants de l'élément.

In [None]:
for child in root:
    print(child.tag, child.get('name'))

Mais on peut aussi descendre dans l'arborescence avec la méthode `.iter()`.

In [None]:
for descendents in root.iter():
    print(descendents.tag)

Il est aussi possible de filtrer les descednants.

In [None]:
for descendents in root.iter("year"):
    print(descendents.tag, descendents.text)

## Modification


In [None]:
new_country = ET.Element("country")
new_country.set("name", "France")
new_country.append(ET.Element("neighbor", attrib={"name": "Switzerland", "direction":"E"}))

root.append(new_country)

Ce qui nous donne :

In [None]:
ET.dump(root)

Il est alors possible de sauvegarder le document avec `tree.write('output.xml')`