In [39]:
# open an xml file and extract the words and their definitions
# and save them in a csv file

import xml.etree.ElementTree as ET
import csv
from collections import defaultdict

In [40]:
# open the xml file wiktionaryXfr2010.xml
tree = ET.parse('wiktionaryXfr2010.xml')

In [41]:
pos = []

for elem in tree.iter(tag='lexeme'):
    if elem.attrib['pos'] not in pos:
        pos.append(elem.attrib['pos'])

In [42]:
# print unique pos
print(pos)

['N', 'V', 'flex-verb', 'Adj', 'Adv', 'LocN', 'interj', 'flex-nom', 'pronom-pers', 'adj-num', 'conj', 'prép', 'NP', 'flex-adj', 'art-part', 'LocAdv', 'adj-pos', 'Vaux', 'flex-adv', 'pronom-rel', 'pronom-int', 'loc-phr', 'flex-interj', 'conj-coord', 'loc-pronom', 'LocV', 'LocAdj', 'loc-conj', 'loc-prep', 'pronom-pos', 'flex-pronom', 'loc-interj', 'flex-conj', 'pronom', 'adj-int', 'flex-suf', 'adj-excl', 'loc-post', 'loc']


In [43]:
root = tree.getroot()

In [44]:
definitions_dict = defaultdict(list)

In [45]:
for entry in root.findall('.//entry'):
    entry_form = entry.get('form')
    lexemes = entry.findall('.//lexeme')
    
    for lexeme in lexemes:
        pos = lexeme.get('pos')
        
        definitions = []
        for definition in lexeme.findall('.//toplevel-def'):
            gloss_element = definition.find('gloss')
            if gloss_element is not None:
                gloss = gloss_element.text
            else:
                gloss = None
            examples = [example.text for example in definition.findall('example')]
            definitions.append({'gloss': gloss, 'examples': examples})
        # lower entry_form and remove accents
        entry_form = entry_form.lower()
        key = f"{pos}-{entry_form}"
        definitions_dict[key].extend(definitions)


In [46]:
for _ in definitions_dict['N-squatter']:
    print(_)

{'gloss': 'Personne qui squatte, qui occupe de façon illégale un bâtiment, un terrain.', 'examples': ['« Le squatter, y dit sir George Simpson, gouverneur des territoires de la baie d\'Hudson, est celui qui s\'établit sur un terrain sans titres de propriété. » (Edouar de Hailly, Les Américains sur le Pacifique, in "La Revue des deux mondes", 1859)']}
{'gloss': "Colon étasunien qui occupait illégalement une région de l'ouest des États-Unis.", 'examples': ["Les squatters, ces gens sans feu ni lieu, sans droit ni loi, reniés par toutes les nations, et qui sont la honte et le rebut de la population nord-américaine, s'avancent incessamment vers l'ouest, et de défrichements en défrichements, tentent de relancer les tribus indiennes de leurs derniers refuges. (Gustave Aimard, Les Trappeurs de l'Arkansas, 1858)"]}
{'gloss': "aujourd'hui Personne sans domicile qui occupe, sans titre, une maison ou un appartement inoccupé.", 'examples': []}


In [47]:
# pickle the dictionary
import pickle

with open('.pickle', 'wb') as handle:
    pickle.dump(definitions_dict, handle, protocol=pickle.HIGHEST_PROTOCOL)