# D’un format à l’autre

Vous disposez d’un fichier [*ftb-dependencies.conll*](../data/ftb-dependencies.conll) au format [CoNLL-U](https://universaldependencies.org/format.html) issu du [*French Treebank*](http://ftb.linguist.univ-paris-diderot.fr/). 

Votre objectif est de transformer ce fichier au format XML, en ne retenant que certaines informations :
- le mot (2e colonne) ;
- son lemme (3e colonne) ;
- sa catégorie grammaticale (4e colonne).

Au final, vous devriez obtenir la structure ci-dessous :

```xml
<sents>
    <sent>
        <w lemma="le" pos="DET">Le</w>
        <w lemma="petit" pos="ADJ">petit</w>
        <w lemma="chat" pos="NC">chat</w>
        <w lemma="être" pos="V">est</w>
        <w lemma="mort" pos="ADJ">mort</w>
        <w lemma="." pos="PONCT">.</w>
    </sent>
    …
</sents>
```

Comme toujours, il existe plusieurs façons de procéder. Nous vous recommandons d’essayer dans un premier temps de lire le fichier CoNLL comme s’il s’agissait de texte brut, et de l’analyser afin de récolter une liste de phrases qui sont elles-mêmes des listes de tuples comprenant le mot, son lemme et sa catégorie grammaticale :

```py
sentences = [
    [
        ('Le', 'le', 'DET'),
        ('petit', 'petit', 'ADJ'),
        ('chat', 'chat', 'NC'),
        ('est', 'être', 'V'),
        ('mort', 'mort', 'ADJ'),
        ('.', '.', 'PONCT')
    ]
    …
]
```

Pour obtenir les tuples, il vous suffit de trouver le caractère de séparation entre chaque champ puis d’isoler les informations nécessaires.

Et pour délimiter les phrases, repérez le symbole qui caractérise un saut de ligne. Ce devrait être le signal pour terminer la phrase en cours de construction et en commencer une nouvelle.

In [None]:
# Your code here
sentences = list()
sentence = list()

with open('../data/ftb-dependencies.conll') as f:
    for row in f:
        # Separator: tabulation
        data = row.split('\t')
        # Blank row? Then append the sentence and create new one
        if data[0] == '\n':
            sentences.append(sentence)
            sentence = list()
        # Otherwise, insert the word in the current sentence
        else:
            sentence.append((data[1], data[2], data[3]))

Et, dans un second temps, construisez le fichier XML !

In [None]:
# Your code here
import xml.etree.ElementTree as ET

sents = ET.Element('sents')

for sentence in sentences:

    sent = ET.SubElement(sents, 'sent')

    for word, lemma, pos in sentence:
        w = ET.SubElement(sent, 'w')
        w.text = word
        w.set('lemma', lemma)
        w.set('pos', pos)

tree = ET.ElementTree(sents)
tree.write('../data/ftb-corpus.xml')