#  Construire un corpus XML √† partir du web

Dans cet exercice, vous allez produire un corpus XML tr√®s simple √† partir de donn√©es extraites d'une page web. Les √©tapes √† suivre sont les suivantes :
1. D√©clarer l'arborescence XML.
2. Extraire les donn√©es d'une page web pour peupler l'arborescence.
3. Enrichir les donn√©es XML.
4. Enregistrer le corpus XML dans un fichier.

Les donn√©es que vous allez traiter sont issues d'un petit lexique th√©matique fran√ßais-japonais, constitu√© d'informations que j'ai collect√©es moi-m√™me, manuellement, dans des dictionnaires bilingues japonais-fran√ßais. Elles sont rassembl√©es dans un fichier TSV (il s'agit d'un format CSV dont le caract√®re s√©parateur est une tabulation plut√¥t qu'une virgule), qui est [mis √† disposition sur Github](https://github.com/alxdrdelaporte/TEKIPAKI/blob/master/lexique_linguistique_japonais.tsv).

L'interface de Github vous permet de consulter le fichier sous forme de tableau, dans lequel vous pouvez effectuer des recherches √† partir de cha√Ænes de caract√®res. Vous pouvez conserver cette vue dans un onglet pour garder un aper√ßu du tableau pendant votre travail, mais l'URL que nous allons interroger dans le script ne sera pas celle de cette page. Ce sera [celle de la visualisation dite "raw"](https://github.com/alxdrdelaporte/TEKIPAKI/raw/master/lexique_linguistique_japonais.tsv), c'est-√†-dire qui pr√©sente le contenu du fichier seul, sans aucune forme d'interface graphique.

En r√©sum√© :
* URL √† consulter pour avoir un aper√ßu des donn√©es √† traiter = [https://github.com/alxdrdelaporte/TEKIPAKI/blob/master/lexique_linguistique_japonais.tsv](https://github.com/alxdrdelaporte/TEKIPAKI/blob/master/lexique_linguistique_japonais.tsv)
* URL √† utiliser dans le script pour extraire les donn√©es = [https://github.com/alxdrdelaporte/TEKIPAKI/raw/master/lexique_linguistique_japonais.tsv](https://github.com/alxdrdelaporte/TEKIPAKI/raw/master/lexique_linguistique_japonais.tsv)

C'est parti ! üöÄ

## D√©clarer l'arborescence XML <a id="arbo_xml"></a>

Nous allons cr√©er un petit corpus au format XML √† partir de ces donn√©es tabulaires. Dans le tableau, chaque ligne correspond √† un item, repr√©sent√© par ses diff√©rentes formes :
* 3 formes pour la version japonaise, avec l'√©criture en kanji (quand elle existe), la transcription en hiragana ou katakana, et la transcription en caract√®res latins, dits _r≈çmaji_.
* L'√©quivalent traductionnel en fran√ßais.

En termes de structure XML, nous allons donc simplement cr√©er un √©l√©ment `<item>` pour chaque ligne du tableau, qui contiendra 4 sous-√©l√©ments correspondant √† ses 4 formes √©crites : `<kanji>`, `<hiragana_katakana>`, `<romaji>`, `<francais>`. Pour faciliter d'√©ventuels traitement automatiques ult√©rieurs, nous ajouterons √©galement un attribut `id` √† chaque √©l√©ment `<item>`.

```xml
<LEXIQUE>
    <item id="1">
        <kanji>...</kanji>
        <hiragana_katakana>...</hiragana_katakana>
        <romaji>...</romaji>
        <francais>...</francais>
    </item>
    <!-- (...) -->
</LEXIQUE>
```

Dans le script, la cr√©ation de l'arborescence XML commence par la d√©claration de sa racine, ici `<LEXIQUE>`.

Commen√ßons par importer la librairie `xml.etree.ElementTree` qui permettra √† Python de g√©rer le XML. Ex√©cutez la cellule ci-dessous sans la modifier, soit en cliquant sur le bouton `Ex√©cuter`, soit en utilisant les touches `shift`+`enter` ou `ctrl`+`enter`.

In [None]:
import xml.etree.ElementTree as ET

Les fonctions de la librairie `xml.etree.ElementTree` pourront d√©sormais √™tre appel√©es en utilisant la syntaxe `ET.nom_de_la_fonction()`. Sans `as ET` dans la ligne d'import, la syntaxe √† utiliser serait `xml.etree.ElementTree.nom_de_la_fonction()`.

La racine de la structure XML est un √©l√©ment qui n'a pas besoin d'√™tre rattach√© √† un √©l√©ment parent. Ce cas est √† repr√©senter par une instance d'objet de la classe `Element`, issue de `ET`, en utilisant la syntaxe `ET.Element("Nom de l'√©l√©ment")`. Dans la cellule ci-dessous, d√©clarez la racine du corpus et associez-la √† la variable `racine`.

In [None]:
# D√©clarez la racine du corpus
racine = ET.Element("LEXIQUE")

Voici 2 fonctions qui vous aideront pour la suite :
* La fonction `xml2str()` convertit le XML en cha√Æne de caract√®res. Vous n'aurez pas besoin d'appeler directement cette fonction, elle sera appel√©e par d'autres fonctions.
* La fonction `afficher_xml()` permet d'afficher une arborescence XML. Elle prend en param√®tre la variable correspondant √† la racine de l'arborescence.

Vous n'avez pas besoin de modifier le contenu de la cellule ci-dessous, mais n'oubliez pas de l'ex√©cuter avant de passer √† la suite pour pouvoir utiliser ces deux fonctions.

In [None]:
def xml2str(racine_xml):
    return ET.tostring(racine_xml, encoding="unicode", method="xml")


def afficher_xml(racine_xml):
    print(xml2str(racine_xml))

La fonction `afficher_xml()` √©tant maintenant disponible, utilisez-la pour afficher la structure contenue dans `racine`.

In [None]:
# Affichez la structure XML √† l'aide de la fonction fournie
afficher_xml(racine)

## Extraire les donn√©es de la page web pour peupler l'arborescence

Pour r√©cup√©rer les donn√©es d'une page web, il faut envoyer une requ√™te √† son URL, ce que permet de faire la librairie `requests`. Ex√©cutez la cellule ci-dessous pour l'importer.

In [None]:
import requests

### Envoyer une requ√™te √† l'URL cible

Ce n'est pas forc√©ment obligatoire, mais comme les URL peuvent √™tre des cha√Ænes de caract√®re relativement longues, il est plus confortable d'associer l'URL √† une variable. Associez √† la variable `url` l'URL que nous voulons interroger ici.

**Note :** L'URL associ√©e √† la variable `url` √©tant une cha√Æne de caract√®res, elle doit √™tre √©crite entre guillemets afin d'√™tre reconnue comme telle.

In [None]:
# Associez l'URL appropri√©e √† la variable url
url = "https://raw.githubusercontent.com/alxdrdelaporte/TEKIPAKI/master/lexique_linguistique_japonais.tsv"

C'est la fonction `.get()` qui va soumettre la requ√™te ; puisqu'elle est issue de `requests`, la syntaxe √† utiliser est `requests.get(url_√†_interroger)`. Utilisez cette fonction sur l'URL de la page qui contient les donn√©es √† extraire, et associez son r√©sultat √† la variable `page`.

In [None]:
# Interrogez la page web
page = requests.get(url)

Nous pouvons maintenant consulter le r√©sultat de la requ√™te en appelant la variable `page`. Appelez `page` dans la cellule ci-dessous.

In [None]:
# Appelez la variable page
page

S'il n'y a pas de probl√®me, vous obtenez `<Response [200]>`.

### R√©cup√©rer le code source

200 est le [code de r√©ponse HTTP](https://developer.mozilla.org/fr/docs/Web/HTTP/Status) obtenu, et indique le succ√®s de la requ√™te. Le code source de la page interrog√©e est accessible via l'attribut `text` de `page` (`page.text`). Appelez cet attribut, en l'associant √† la variable `donnees`.

In [None]:
# Associez √† donnees l'attribut text de page
donnees = page.text

Appelez `donnees` pour visualiser son contenu :

In [None]:
# Appelez la variable donnees
donnees

Vous obtenez normalement quelque chose qui ressemble √† une assez longue cha√Æne de caract√®res qui commence comme ceci :

```
'Kanji\tHiragana/Katakana\tR≈çmaji (Hepburn)\tFran√ßais\n‰ªòÈå≤\t„Åµ„Çç„Åè\tfuroku\tappendice\nËæûÂÖ∏\t„Åò„Å¶„Çì\tjiten\tdictionnaire, lexique\nËã±ÂíåËæûÂÖ∏\t„Åà„ÅÑ„Çè„Åò„Å¶„Çì\teiwa jiten\tdictionnaire anglais-japonais\nËã±Ëã±ËæûÂÖ∏\t„Åà„ÅÑ„Åà„ÅÑ„Åò„Å¶„Çì\teiei jiten\tdictionnaire anglais-anglais\n‰ªèÂíåËæûÂÖ∏\t„Åµ„Å§„Çè„Åò„Å¶„Çì\tfutsuwa jiten\tdictionnaire fran√ßais-japonais\n
(...)
```

### Traiter le code source pour d√©clarer et alimenter les sous-√©l√©ments XML

Est-ce vraiment une cha√Æne de caract√®res ? V√©rifions avec la fonction `type()`, qui renvoie le type de donn√©es de ce qui lui est pass√© en param√®tre. 

In [None]:
type(donnees)

Comme `type(donnees)` renvoie `str` (si ce n'est pas le cas, il y a une erreur dans les √©tapes pr√©c√©dentes !), notre variable `donnees` contient bien une cha√Æne de caract√®res. Il est alors possible de lui appliquer les m√©thodes et fonctions propres √† [ce type de donn√©es](https://docs.python.org/3/library/stdtypes.html#text-sequence-type-str).

Nous avons donc maintenant le contenu de la page web stock√© dans la variable `donnees`. S'agissant d'une page d√©pourvue de formattage HTML, aucun balisage HTML n'a √©t√© r√©cup√©r√©, il n'y a pas lieu de s'en soucier : `donnees` contient uniquement les informations √† r√©cup√©rer pour alimenter l'arborescence XML.

Pour rappel, le but est ici d'obtenir un corpus XML dans lequel chaque ligne du tableau de donn√©es est repr√©sent√©e par un √©l√©ment `<item>`. Segmenter le contenu de `donnees` selon les lignes constitue un bon point de d√©part pour la construction de la structure XML. Les cha√Ænes de caract√®res (= type `str`) disposent d'une m√©thode `split()`, qui s'applique avec la syntaxe `chaine_de_caracteres.split(separateur)`.

Utilisez `split()` pour s√©parer les lignes du texte stock√© dans `donnees`. Associez le r√©sultat √† la variable `lignes`.

In [None]:
# Segmentez le texte contenu dans donnees selon les lignes
lignes = donnees.split("\n")

Appelez `lignes` pour visualiser son contenu.

In [None]:
# Appelez la variable lignes
lignes

S'il n'y a pas d'erreur, `lignes` contient maintenant une collection de cha√Ænes de caract√®res, correspondant chacune √† une ligne du tableau. Plus pr√©cis√©ment, il s'agit d'une *liste* (type `list`). Comme l'indique [la documentation](https://docs.python.org/3/library/stdtypes.html#list), celle-ci peut √™tre parcourue avec une boucle `for`.

C'est ce que nous allons utiliser pour cr√©er un √©l√©ment `<item>` pour chaque ligne. Contrairement √† l'√©l√©ment racine `<LEXIQUE>` d√©clar√© pr√©c√©demment, chacun de ces √©l√©ments `<item>` est en fait un sous-√©l√©ment rattach√© √† l'√©l√©ment parent `<LEXIQUE>`. Leur d√©claration ne se fera donc pas avec `ET.Element("Nom de l'√©l√©ment")`, mais cette fois avec `ET.SubElement(element_parent, "Nom de l'√©l√©ment")`.

Compl√©tez la boucle `for`ci-dessous pour d√©clarer, pour chaque ligne, un √©l√©ment `<item>` rattach√© √† la racine `<LEXIQUE>`.

In [None]:
item_id = 1

for ligne in lignes:
    # Cr√©ez un sous-√©l√©ment "item"
    item = ET.SubElement(racine, "item")

Affichez la structure XML pour v√©rifier qu'il n'y a pas de probl√®me. Elle devrait se composer de la racine `<LEXIQUE>`, contenant une suite de sous-√©l√©ments `<item>` vides.

In [None]:
# Affichez l'arborescence XML
afficher_xml(racine)

Avant d'attribuer un contenu √† ces √©l√©ments `<item>`, il faut leur ajouter leur identifiant. Dans la cellule ci-dessous, reprenez le code de la boucle `for` et compl√©tez-le pour ajouter √† la boucle la d√©claration d'un attribut `id`, de valeur croissante (associ√©e √† une variable nomm√©e `item_id`), pour chaque √©l√©ment `<item>`.  

Quelques indices pour accomplir cette t√¢che :

* La syntaxe pour ajouter un attribut √† un √©l√©ment XML est la suivante : `element.set("Nom de l'attribut", valeur)`.
* Pour incr√©menter de 1 une valeur, vous pouver utiliser `valeur = valeur + 1` ou `valeur += 1`.
* Seuls les [types num√©riques](https://docs.python.org/3/library/stdtypes.html#numeric-types-int-float-complex) peuvent √™tre incr√©ment√©s, mais il est pr√©f√©rable que la valeur de l'attribut `id` soit une cha√Æne de caract√®res (`str`). Pour convertir un objet en cha√Æne de caract√®res, la fonction √† utiliser est `str(objet)`.


In [None]:
racine = ET.Element("LEXIQUE")
item_id = 1

for ligne in lignes: 
    # Cr√©ez un sous-√©l√©ment "item"
    item = ET.SubElement(racine, "item")
    # Ajoutez l'attribut "id"
    item.set("id", str(item_id))
    # Incr√©mentez la variable item_id
    item_id += 1

Affichez la structure XML pour vous assurer que chaque `<item>` a un attribut `id` et que la valeur de cet attribut est coh√©rente.

In [None]:
# Affichez la structure XML
afficher_xml(racine)

La structure des √©l√©ments `<item>` est pr√™te, il est temps d'ajouter leur contenu. Dans [l'arborescence √† mettre en place](#arbo_xml), chaque `<item>` contient 4 sous-√©l√©ments, correspondant aux 4 formes √©crites de l'item. Dans le [tableau de donn√©es](https://github.com/alxdrdelaporte/TEKIPAKI/blob/master/lexique_linguistique_japonais.tsv), ces 4 formes sont repr√©sent√©es par les 4 cellules d'une m√™me ligne. 

La segmentation par ligne est d√©j√† effectu√©e et parcourue par la boucle `for`, il reste donc √† diviser la cha√Æne de caract√®res `ligne` pour isoler le contenu correspondant √† chaque cellule. 

Compl√©tez le code ci-dessous pour :

1. Segmenter `ligne` suivant ses cellules, en stockant la liste obtenue dans la variable `segments`.
1. Attribuer la valeur de la cellule *Kanji* √† la variable `segment_kanji`, celle de la cellule *Hiragana/Katakana* √† la variable `segment_hiragana_katakana`, etc. Pour ce faire, sachez que vous pouvez appliquer un index √† une liste pour en extraire un √©l√©ment donn√©.

**Note :** En Python, les index d√©butent √† 0 et non √† 1.

In [None]:
racine = ET.Element("LEXIQUE")
item_id = 1

for ligne in lignes:
    """Copiez-collez votre code (d√©but)"""
    # Cr√©ez un sous-√©l√©ment "item"
    item = ET.SubElement(racine, "item")
    # Ajoutez l'attribut "id"
    item.set("id", str(item_id))
    # Incr√©mentez la variable item_id
    item_id += 1
    """Copiez-collez votre code (fin)"""
    # Segmentez la ligne selon les cellules
    segments = ligne.split("\t")
    # Assignez des variables aux segments
    segment_kanji = segments[0]
    segment_hiragana_katakana = segments[1] 
    segment_romaji = segments[2]
    segment_francais = segments[3]
    # V√©rifiez que tout est OK
    print(segment_kanji, segment_hiragana_katakana, segment_romaji, segment_francais)

Et voil√†, c'est parfait ! ... √Ä deux d√©tails pr√®s :

1. La boucle a r√©cup√©r√© la ligne d'√©tiquettes "Kanji Hiragana/Katakana R≈çmaji (Hepburn) Fran√ßais". C'est normal, mais nous n'en voulons pas dans le corpus XML ! 
1. Ex√©cuter le code de la cellule ci-dessus l√®ve une erreur `IndexError: list index out of range`.

Laissons de c√¥t√© le message d'erreur pour le moment. Pour ne pas r√©cup√©rer la ligne d'√©tiquettes, il s'agit en fait de passer la premi√®re ligne du tableau sans la traiter : vous savez d√©j√† quasiment comment faire. 

Compl√©tez la condition `if` dans la cellule ci-dessous pour ignorer la premi√®re ligne :

In [None]:
racine = ET.Element("LEXIQUE")
item_id = 1

for ligne in lignes:
    # Ignorez la ligne d'√©tiquettes
    if ligne is not lignes[0]:
        """Copiez-collez votre code (d√©but), attention √† l'indentation"""
        # Cr√©ez un sous-√©l√©ment "item"
        item = ET.SubElement(racine, "item")
        # Ajoutez l'attribut "id"
        item.set("id", str(item_id))
        # Incr√©mentez la variable item_id
        item_id += 1
        # Segmentez la ligne selon les cellules
        segments = ligne.split("\t")
        # Assignez des variables aux segments
        segment_kanji = segments[0]
        segment_hiragana_katakana = segments[1] 
        segment_romaji = segments[2]
        segment_francais = segments[3]
        # V√©rifiez que tout est OK
        print(segment_kanji, segment_hiragana_katakana, segment_romaji, segment_francais)
        """Copiez-collez votre code (fin)"""

Int√©ressons-nous maintenant √† l'`IndexError` qui, en toute logique, est encore pr√©sente. Regardez le message d'erreur complet : il nous indique que la description de l'erreur est `list index out of range` et qu'elle est survenue lors de l'assignation d'une valeur √† la variable `segment_hiragana_katakana` (signal√© par la fl√®che et le num√©ro de ligne en caract√®res gras).

Ceci signifie que, lors du traitement d'une ligne du tableau, il n'a pas √©t√© possible d'atteindre l'index correspondant √† la cellule *Hiragana/Katakana* : en d'autres termes, le script s'est heurt√© √† une ligne comportant une unique cellule !

Avez-vous compris ce qu'il s'est pass√© ? Si ce n'est pas (encore) le cas, observez attentivement le [tableau de donn√©es](https://github.com/alxdrdelaporte/TEKIPAKI/blob/master/lexique_linguistique_japonais.tsv), l'arborescence XML actuellement contenue dans `racine`, ainsi que le contenu des variables `donnees` et `lignes`, tout en gardant en t√™te que la ligne d'√©tiquettes a √©t√© ignor√©e **et** que les index en Python d√©butent √† 0.

<div style='background:gainsboro'> <b>Solution : Il y a une ligne vide √† la fin du tableau, que le programme interpr√®te comme une ligne contenant une unique cellule, dont le contenu est une cha√Æne de caract√®res vide.</b>

Voici diff√©rents indices qui vous permettront de la rep√©rer :
* La cha√Æne de caract√®res contenue dans la variable `donnees`se termine par `\n`.
* Le dernier √©l√©ment de la liste `lignes` est `''`, c'est-√†-dire une cha√Æne de caract√®res vide.
* Dans l'arborescence XML, stock√©e dans la variable `racine`, la valeur de l'attribut `id` du dernier sous-√©l√©ment `<item>` est 48. Or, le tableau de donn√©es comporte 46 lignes de donn√©es : les deux `<item>` en trop correspondent √† la ligne d'√©tiquettes et √† cette ligne vide finale.
* Lors de l'ex√©cution de la cellule de code pr√©c√©dente, l'erreur survient alors que toutes les lignes de donn√©es ont √©t√© trait√©es, puisque le dernier √©l√©ment affich√© avant l'erreur est bien le dernier √©l√©ment du tableau (ÊúÄ‰∏äÁ¥ö-„Åï„ÅÑ„Åò„Çá„ÅÜ„Åç„ÇÖ„ÅÜ-<i>saijoukyuu</i>-<i>superlatif</i>). Ceci nous indique que l'√©tape de traitement qui entra√Æne l'√©chec du programme se situe apr√®s le traitement de la derni√®re ligne de donn√©es du tableau.
</div>

Une fois le probl√®me identifi√©, vous savez normalement comment le r√©soudre.

L'ajout de l'op√©rateur `and` permet d'ajouter une nouvelle condition au `if` d√©j√† mis en place. Compl√©tez la condition `if` pour enfin vous d√©barrasser de l'erreur `IndexError`.  

In [None]:
racine = ET.Element("LEXIQUE")
item_id = 1

for ligne in lignes:
    # Ignorez la ligne d'√©tiquettes + √©vitez de lever IndexError
    if ligne is not lignes[0] and ligne is not lignes[-1]:
        """Copiez-collez votre code (d√©but), attention √† l'indentation"""
        # Cr√©ez un sous-√©l√©ment "item"
        item = ET.SubElement(racine, "item")
        # Ajoutez l'attribut "id"
        item.set("id", str(item_id))
        # Incr√©mentez la variable item_id
        item_id += 1
        # Segmentez la ligne selon les cellules
        segments = ligne.split("\t")
        # Assignez des variables aux segments
        segment_kanji = segments[0]
        segment_hiragana_katakana = segments[1] 
        segment_romaji = segments[2]
        segment_francais = segments[3]
        # V√©rifiez que tout est OK
        print(segment_kanji, segment_hiragana_katakana, segment_romaji, segment_francais)
        """Copiez-collez votre code (fin)"""

Une fa√ßon plus "pythonique" de g√©rer ce type de probl√®me est l'utilisation de `try`/`except`, un dispositif qui permet au programme de prendre en charge, sans s'interrompre, certaines erreurs et exceptions ([documentation](https://docs.python.org/3.10/tutorial/errors.html#handling-exceptions)). Je vous montre ci-dessous un exemple illustrant le fonctionnement de `try`/`except`, mais il n'est l√† qu'√† titre d'information, vous pouvez poursuivre sans l'utiliser.

In [None]:
# SOLUTION ALTERNATIVE AVEC TRY/EXCEPT
# (supprimez les """ """ si vous voulez ex√©cuter le contenu de cette cellule)

"""
racine = ET.Element("LEXIQUE")
item_id = 1

for ligne in lignes:
    # Ignorez la ligne d'√©tiquettes + √©vitez de lever IndexError
    if ligne is not lignes[0]:
        try:
            # Cr√©ez un sous-√©l√©ment "item"
            item = ET.SubElement(racine, "item")
            # Ajoutez l'attribut "id"
            item.set("id", str(item_id))
            # Incr√©mentez la variable item_id
            item_id += 1
            # Segmentez la ligne selon les cellules
            segments = ligne.split("\t")
            # Assignez des variables aux segments
            segment_kanji = segments[0]
            segment_hiragana_katakana = segments[1] 
            segment_romaji = segments[2]
            segment_francais = segments[3]
            # V√©rifiez que tout est OK
            print(segment_kanji, segment_hiragana_katakana, segment_romaji, segment_francais)
        except IndexError:
            continue
"""

Maintenant qu'il n'y a plus de probl√®me, il ne vous reste plus qu'√† ajouter ces donn√©es √† l'arborescence XML. Cr√©ez d'abord des sous-√©l√©ments :

In [None]:
racine = ET.Element("LEXIQUE")
item_id = 1

for ligne in lignes:
    """Copiez-collez votre code (d√©but)"""
    # Ignorez la ligne d'√©tiquettes + √©vitez de lever IndexError
    if ligne is not lignes[0] and ligne is not lignes[-1]:
        # Cr√©ez un sous-√©l√©ment "item"
        item = ET.SubElement(racine, "item")
        # Ajoutez l'attribut "id"
        item.set("id", str(item_id))
        # Incr√©mentez la variable item_id
        item_id += 1
        # Segmentez la ligne selon les cellules
        segments = ligne.split("\t")
        # Assignez des variables aux segments
        segment_kanji = segments[0]
        segment_hiragana_katakana = segments[1] 
        segment_romaji = segments[2]
        segment_francais = segments[3]
        # V√©rifiez que tout est OK
        # print(segment_kanji, segment_hiragana_katakana, segment_romaji, segment_francais)
        """Copiez-collez votre code (fin)"""
        # Cr√©ez des sous-√©l√©ments "kanji", "hiragana_katakana", "romaji" et "francais"
        kanji = ET.SubElement(item, "kanji")
        hiragana_katakana = ET.SubElement(item, "hiragana_katakana")
        romaji = ET.SubElement(item, "romaji")
        francais = ET.SubElement(item, "francais")

V√©rifiez que les sous-√©l√©ments ont bien √©t√© cr√©√©s :

In [None]:
# V√©rifiez la cr√©ation des sous-√©l√©ments
afficher_xml(racine)

En l'√©tat, les sous-√©lements sont maintenant pr√©sents dans la structure XML mais d√©pourvus de contenu. Le contenu textuel de chaque (sous-)√©l√©ment XML se trouve dans son attribut `text` (`element.text`).

Ajoutez le contenu textuel correspondant aux diff√©rents sous-√©l√©ments de chaque `item` de notre corpus.

In [None]:
racine = ET.Element("LEXIQUE")
item_id = 1

for ligne in lignes:
    """Copiez-collez votre code (d√©but)"""
        # Ignorez la ligne d'√©tiquettes + √©vitez de lever IndexError
    if ligne is not lignes[0] and ligne is not lignes[-1]:
        # Cr√©ez un sous-√©l√©ment "item"
        item = ET.SubElement(racine, "item")
        # Ajoutez l'attribut "id"
        item.set("id", str(item_id))
        # Incr√©mentez la variable item_id
        item_id += 1
        # Segmentez la ligne selon les cellules
        segments = ligne.split("\t")
        # Assignez des variables aux segments
        segment_kanji = segments[0]
        segment_hiragana_katakana = segments[1] 
        segment_romaji = segments[2]
        segment_francais = segments[3]
        # V√©rifiez que tout est OK
        # print(segment_kanji, segment_hiragana_katakana, segment_romaji, segment_francais)
        # Cr√©ez des sous-√©l√©ments "kanji", "hiragana_katakana", "romaji" et "francais"
        kanji = ET.SubElement(item, "kanji")
        hiragana_katakana = ET.SubElement(item, "hiragana_katakana")
        romaji = ET.SubElement(item, "romaji")
        francais = ET.SubElement(item, "francais")
        """Copiez-collez votre code (fin)"""
        # Ajoutez le contenu textuel des sous-√©l√©ments
        kanji.text = segment_kanji
        hiragana_katakana.text = segment_hiragana_katakana
        romaji.text = segment_romaji
        francais.text = segment_francais

Affichez le corpus pour v√©rifier qu'il n'y a pas de probl√®me.

In [None]:
# Affichez le corpus
afficher_xml(racine)

Maintenant qu'il y a une certaine quantit√© de contenu dans l'aborescence, l'afficher de cette fa√ßon manque de lisibilit√©. Ex√©cutez la cellule ci-dessous pour obtenir deux nouvelles fonctions qui vous permettront d'obtenir une visualisation plus agr√©able pour un oeil humain.

In [None]:
from bs4 import BeautifulSoup as soup


def joli_xml(racine_xml):
    return soup(xml2str(racine_xml), "html.parser").prettify()


def afficher_joli_xml(racine_xml):
    print(joli_xml(racine_xml))

Vous n'avez pas besoin d'utiliser directement `joli_xml()` pour le moment. Visualisez le corpus avec `afficher_joli_xml()`.

In [None]:
# Utiliser afficher_joli_xml() pour visualiser le corpus 
afficher_joli_xml(racine)

## Enrichir les donn√©es XML <a id="enrichissement"></a>

Le corpus a maintenant √©t√© aliment√© avec toutes les donn√©es du tableau. Avant de l'enregistrer dans un fichier, nous allons lui ajouter quelques informations suppl√©mentaires.

### Ajouter un attribut

Il se trouve que les sources dont sont issus les items de ce lexique sont connues, mais elles ne figurent pas dans le tableau. Nous allons cr√©er un nouvel attribut `source` pour chaque √©l√©ment `item` du corpus afin d'y faire figurer cette information.

```xml
<LEXIQUE>
    <item id="1" source="...">
        <japonais>
            <kanji>...</kanji>
            <hiragana_katakana>...</hiragana_katakana>
            <romaji>...</romaji>
        </japonais>
        <francais>...</francais>
        <commentaire>...</commentaire>
    </item>
    <!-- Etc. -->
</LEXIQUE>
```

Les sources sont les suivantes.

De ‰ªòÈå≤-„Åµ„Çç„Åè-_furoku_-_appendice_ √† Â∏∏-„Å§„Å≠-_tsune_-_normal, habituel_ : 
* KURAKATA et al. (2003) „Éó„ÉÅ„Éª„É≠„ÉØ„Ç§„É§„É´‰ªèÂíåËæûÂÖ∏ (*Nouveau Petit Royal dictionnaire fran√ßais -japonais*), troisi√®me √©dition. Tokyo : Obunsha.
* TSUNEKAWA et al. (2002) *Petit dictionnaire japonais ‚Äì fran√ßais Royal*. Tokyo : Obunsha.

De ÂâØË©û-„Åµ„Åè„Åó-_fukushi_-_adverbe_ √† ÊúÄ‰∏äÁ¥ö-„Åï„ÅÑ„Åò„Çá„ÅÜ„Åç„ÇÖ„ÅÜ-_saijoukyuu_-_superlatif_ :
* *Sanseido‚Äôs New Concise English-Japanese Dictionary, Revised Edition* | Êñ∞„Ç≥„É≥„Çµ„Ç§„ÇπËã±ÂíåËæûÂÖ∏„ÉªÁ¨¨2Áâà (1985). Tokyo : Sanseido.

La premi√®re partie du lexique est issue de deux dictionnaires bilingues fran√ßais-japonais √©dit√©s par Obunsha, la seconde d'un dictionnaire bilingue anglais-japonais √©dit√© par Sanseido. Nous allons utiliser le nom de l'√©diteur comme source, l'attribut `source` aura donc pour valeur soit "Obunsha", soit "Sanseido".

Mais comment proc√©der ? Nous avons construit et stock√© dans la variable `racine` une structure XML. Tout comme il existe des fonctions permettant d'√©crire une arborescence XML, il y a des fonctions qui permettent de la lire. `find()` et `findall()` sont des m√©thodes propres aux objets `xml.etree.ElementTree.Element` qui permettent de retrouver un √©l√©ment √† partir de son nom.

* `find()` s'utilise avec la syntaxe `element_parent.find("Nom de l'√©l√©ment recherch√©")` et renvoie uniquement le premier √©l√©ment correspondant.
* `findall()` s'utilise avec la syntaxe `element_parent.findall("Nom de l'√©l√©ment recherch√©")` et renvoie une liste de l'ensemble des √©l√©ments correspondants.

R√©cup√©rez la liste des √©l√©ments `item` du corpus et associez-la √† la variable `items`.

In [None]:
# R√©cup√©rez la liste des √©l√©ments item
items = racine.findall("item")

Cette liste peut √™tre parcourue avec une boucle `for`, mais pour attribuer la valeur du futur attribut `source` il faudrait plut√¥t pouvoir parcourir s√©par√©ment les deux parties de la liste correspondant aux items issus de chaque source. C'est bien s√ªr possible, mais il faut au pr√©alable conna√Ætre les index des √©l√©ments `item` (dans la liste `items`) qui se situent √† la limite entre les deux sources. 

Il s'agit de Â∏∏-„Å§„Å≠-_tsune_-_normal, habituel_, dernier item issu des dictionnaires Obunsha, et ÂâØË©û-„Åµ„Åè„Åó-_fukushi_-_adverbe_, premier item issu du dictionnaire Sanseido.

Trouvez l'index de Â∏∏-„Å§„Å≠-_tsune_-_normal, habituel_ dans la liste `items` et, dans la cellule ci-dessous, v√©rifiez qu'il s'agit du bon index selon la m√©thode de votre choix.

In [None]:
# V√©rifiez l'index de Â∏∏-„Å§„Å≠-tsune-normal, habituel
items[25].find("francais").text

Nous allons utiliser une boucle `for` pour parcourir la partie de la liste `items` qui correspond aux donn√©es issues des dictionnaires Obunsha. Le nombre d'it√©rations √† effectuer peut √™tre r√©gl√© gr√¢ce √† la fonction `range()`. 

En vous aidant de la [documentation](https://docs.python.org/3/tutorial/controlflow.html#the-range-function) de la fonction `range()` et en r√©utilisant ce que vous avez √©crit dans la cellule pr√©c√©dente, compl√©tez la boucle `for` pour v√©rifier que vous avez s√©lectionn√© la bonne portion de la liste `items` (c'est-√†-dire de ‰ªòÈå≤-„Åµ„Çç„Åè-*furoku*-*appendice* √† Â∏∏-„Å§„Å≠-*tsune*-*normal, habituel*).

In [None]:
for i in range(26):
    # V√©rifiez la portion de la liste items parcourue par la boucle
    print(items[i].find("francais").text)

La d√©claration d'un attribut pour un √©l√©ment de l'arborescence XML se fait soit en utilisant la syntaxe `element.set("Nom de l'attribut", valeur)` que vous connaissez d√©j√†, soit avec `element.attrib["Nom de l'attribut"] = "Valeur"`.

Pour information, lorsqu'un attribut est d√©j√† existant, appeler `element.attrib["Nom de l'attribut"]` vous permettra de r√©cup√©rer sa valeur. L'ensemble des attributs d'un √©l√©ment est contenu dans `element.attrib`, qui est un [dictionnaire](https://docs.python.org/3/library/stdtypes.html#mapping-types-dict), c'est-√†-dire une liste associative.

Si votre boucle `for` parcourt correctement les √©l√©ments allant de ‰ªòÈå≤-„Åµ„Çç„Åè-*furoku*-*appendice* √† Â∏∏-„Å§„Å≠-*tsune*-*normal, habituel*, modifiez la cellule pr√©c√©dente ou utilisez la cellule suivante pour leur ajouter un attribut `source` dont la valeur est "Obunsha".

In [None]:
for i in range(26):
    # Ajoutez un attribut source dont la valeur est "Obunsha"
    items[i].set("source", "Obunsha")

Faites la m√™me chose pour les items issus du dictionnaire √©dit√© par Sanseido, allant de ÂâØË©û-„Åµ„Åè„Åó-*fukushi*-*adverbe* √† ÊúÄ‰∏äÁ¥ö-„Åï„ÅÑ„Åò„Çá„ÅÜ„Åç„ÇÖ„ÅÜ-*saijoukyuu*-*superlatif*.

Vous aurez certainement besoin de la fonction `len(liste)`, qui renvoie la longueur d'un objet de type `list` (= le nombre d'√©l√©ments qui composent la liste).

In [None]:
# V√©rifiez la portion de la liste parcourue par la boucle
for i in range(26, len(items)):
    print(items[i].find("francais").text)

In [None]:
# Ajoutez un attribut source dont la valeur est "Sanseido"
for i in range(26, len(items)):
    items[i].set("source", "Sanseido")

In [None]:
# V√©rifiez que les attributs ont √©t√© correctement ajout√©s
afficher_joli_xml(racine)

### Cr√©er un (sous-)√©l√©ment suppl√©mentaire

Vous avez peut-√™tre remarqu√© en observant le [tableau](https://github.com/alxdrdelaporte/TEKIPAKI/blob/master/lexique_linguistique_japonais.tsv) contenant le lexique que pour certaines lignes, la contenu de la cellule *Kanji* et celui de la cellule *Hiragana/Katakana* sont identiques. Il s'agit des lignes correspondant, en fran√ßais, aux termes *liaison* et *√©lision*. Ce n'est pas d√ª √† une erreur ou une donn√©e manquante : la liaison et l'√©lision √©tant des ph√©nom√®ne du fran√ßais qui n'existent pas en japonais, leur traduction est en fait une simple transcription en katakana. 

Nous allons ajouter aux √©l√©ments `<item>`correspondant √† *liaison* et *√©lision* un sous-√©l√©ment `<commentaire>Pas d'√©criture en kanji.</commentaire>`. En fait, vous savez d√©j√† comment faire !

Commencez par associer aux variables `liaison` et `√©lision` les items correspondants (dans la liste `items`). Sachant que `find()` et `findall()` peuvent aussi prendre des expressions Xpath en param√®tre, vous pouvez vous amuser √† trouver diff√©rentes fa√ßons d'y parvenir.

In [None]:
# Associez l'item correspondant
liaison = items[11]
elision = items[12]

# Utilisez print() pour v√©rifier le contenu des variables liaison et elision
print(liaison.find("francais").text)
print(elision.find("francais").text)

Cr√©ez maintenant pour ces deux √©l√©ments un sous-√©l√©ment `<commentaire>` dont le contenu textuel est, par exemple, "Pas d'√©criture en kanji.". Vous pouvez le faire avec une boucle `for`, ou sans boucle. Vous pouvez √©crire une fonction si vous le souhaitez.

**Note :** N'ex√©cutez qu'une seule des 3 solutions propos√©es ci-dessous, sinon des √©l√©ments `<commentaire>` suppl√©mentaires  s'ajouteront √† chaque fois !

In [None]:
# Pour les items liaison et elision, cr√©ez un sous-√©l√©ment <commentaire> et son contenu textuel

# SOLUTION 1 : sans fonction, sans boucle
texte_commentaire = "Pas d'√©criture en kanji."

com_liaison = ET.SubElement(liaison, "commentaire")
com_liaison.text = texte_commentaire

com_elision = ET.SubElement(elision, "commentaire")
com_elision.text = texte_commentaire

In [None]:
# Pour les items liaison et elision, cr√©ez un sous-√©l√©ment <commentaire> et son contenu textuel

# SOLUTION 2 : avec une boucle
texte_commentaire = "Pas d'√©criture en kanji."

for element in [liaison, elision]:
    com_element = ET.SubElement(element, "commentaire")
    com_element.text = texte_commentaire

In [None]:
# Pour les items liaison et elision, cr√©ez un sous-√©l√©ment <commentaire> et son contenu textuel

# SOLUTION 3 : avec une fonction
def ajouter_commentaire(elements, commentaire):
    for element in elements:
        com_element = ET.SubElement(element, "commentaire")
        com_element.text = commentaire

        
texte_commentaire = "Pas d'√©criture en kanji."
liste_elements = [liaison, elision]

ajouter_commentaire(liste_elements, texte_commentaire)

Ces diff√©rentes solutions ne sont que des exemples, il y a de nombreuses fa√ßons d'obtenir le m√™me r√©sultat.

In [None]:
# V√©rifiez que les sous-√©l√©ments <commentaire> ont bien √©t√© cr√©√©s 
afficher_joli_xml(racine)

Vous avez r√©ussi ? Bravo, il ne reste plus qu'√† enregistrer votre corpus dans un fichier !

## Enregistrer le corpus XML dans un fichier

Effectivement, m√™me si vous avez maintenant obtenu un corpus au format XML conforme √† vos objectifs, le seul endroit o√π il est sauvegard√© est la variable `racine`. Comme vous l'avez vu lors de [l'√©tape d'enrichissement des donn√©es](#enrichissement), √ßa ne pose aucun probl√®me pour lui appliquer diff√©rents traitements.

Cependant, il peut bien entendu √™tre n√©cessaire de produire un fichier XML, pour diverses raisons : partage et diffusion du corpus, confort de travail, changement d'outil de traitement... Ou tout simplement parce que ce corpus est le r√©sultat final que vous cherchiez √† obtenir.

Je vous fournis dans la cellule ci-dessous la syntaxe de base pour effectuer l'√©criture du corpus dans un fichier de sortie au format XML. L'ouverture du fichier se fait avec la fonction `open()`, ses param√®tres sont :

* Le chemin d'acc√®s du fichier de sortie, ici `"lexique.xml"`.
* Le mode d'ouverture du fichier. Nous voulons ici √©crire un fichier, il faut donc utiliser `"w"` (*write*). Les autres valeurs possibles sont `"r"`(*read*), `"a"` (*append*) et `"x"` (*create*).
* L'encodage des caract√®res, ici `"utf-8"`.

L'√©criture du contenu dans le fichier ouvert se fait via la m√©thode `write()`. Compl√©tez la cellule suivante de fa√ßon √† enregistrer votre corpus dans le fichier *lexique.xml*.

In [None]:
with open("lexique.xml", "w", encoding = "utf-8") as lexique:
    lexique.write(joli_xml(racine)) # Enregistrez votre corpus XML dans le fichier lexique.xml 

Ouvrez le fichier pour v√©rifier son contenu :

* Le fichier contient-il quelque chose ?
* Tous les caract√®res s'affichent-ils correctement ?
* Le XML est-il bien form√© ?
* L'arborescence est-elle conforme √† la structure attendue ?

Si votre r√©ponse est *oui* pour l'ensemble de ces questions, f√©licitations ! 

<div class="alert alert-block alert-success"><center>üèÜ Vous avez construit un corpus XML √† partir d'une page web.</center></div>

<p xmlns:cc="http://creativecommons.org/ns#" xmlns:dct="http://purl.org/dc/terms/"><a property="dct:title" rel="cc:attributionURL" href="https://github.com/alxdrdelaporte/LTTAC_2022_TP">Construire un corpus XML √† partir du web</a> par <a rel="cc:attributionURL dct:creator" property="cc:attributionName" href="https://tekipaki.hypotheses.org/">Alexander Delaporte</a> est mis √† disposition selon les termes de la licence Creative Commons <a href="http://creativecommons.org/licenses/by-sa/4.0/?ref=chooser-v1" target="_blank" rel="license noopener noreferrer" style="display:inline-block;">CC BY-SA 4.0</a>.</p>