# Paradigmes orthographiques

Cet exercice vous amènera à manipuler des structures de données complexes depuis et à destination de fichiers CSV.

Vous disposez d’un fichier [*lexemes.txt*](../data/lexemes.txt) :

```txt
année;Ncfs;anneau
année;Ncfp;anneaux
ciel;Ncms;ciel
ciel;Ncmp;ciels
ciel;Ncmp;cieux
drôle;Ncms;drôle
drôle;Ncmp;drôles
drôle;Ncfs;drôle
drôle;Ncfp;drôles
drôle;Afpfs;drôle
drôle;Afpms;drôle
drôle;Afpfp;drôles
drôle;Afpmp;drôles
```

Convertissez ces informations dans un fichier lexemes.csv où la tabulation est le caractère séparateur :

```csv
lid	lexeme	cat	para_ortho
l1	année	Nf	Ncfs:anneau;Ncfp:anneaux
l2	ciel	Nm	Ncms:ciel;Ncmp:ciels|cieux
l3	drôle	Nf	Ncfs:drôle;Ncfp:drôles
l4	drôle	Nm	Ncms:drôle;Ncmp:drôles
l5	drôle	Adj	Afpfs:drôle;Afpms:drôle;Afpfp:drôles;Afpmp:drôles
```

In [None]:
# your code here

# get rows
with open("../data/lexemes.txt") as f:
    rows = f.readlines()
    entries = [
        row.strip().split(';')
        for row in rows[1:]
    ]

# postag from tags
map_tags = {
    'Ncfs': 'Nf',
    'Ncfp': 'Nf',
    'Ncms': 'Nm',
    'Ncmp': 'Nm',
    'Afpfs': 'Adj',
    'Afpms': 'Adj',
    'Afpfp': 'Adj',
    'Afpmp': 'Adj'
}

# a new dict
lexemes = dict()

for word, tag, ortho in entries:

    # a key of the dictionary is a pair (word, tag)
    cat = map_tags[tag]
    key = tuple([word, cat])

    # if a key is already present
    if key in lexemes.keys():

        # get the current paradigm
        old_paradigm = lexemes[key]['para_ortho']

        # if tag (ie: Ncmp…) already in the paradigm
        if tag in old_paradigm:

            # add an orthographic variant with pipe ('|') as delimiter
            paradigms = old_paradigm.split(";")
            new_paradigms = list()
            for paradigm in paradigms:
                if paradigm.startswith(tag):
                    paradigm += f"|{ortho}"
                new_paradigms.append(paradigm)
            new_paradigm = ";".join(new_paradigms)

        # if not, simply insert the new paradigm tag:ortho
        else:
            new_paradigm = f"{old_paradigm};{tag}:{ortho}"

        # insert the new paradigm
        lexemes[key].update({
            'para_ortho': new_paradigm
        })

    # a new key
    else:
        lexemes.update({
            key: {
                'para_ortho': f'{tag}:{ortho}'}
        })

# new file lexemes.csv
with open("../data/lexemes.csv", "w") as o:

    # header
    o.write("lid\tlexeme\tcat\tpara_ortho")
    # new line
    o.write("\n")

    # idx
    lid = 1

    # for each key in the lexemes dict
    for (word, cat), value in lexemes.items():
        # write a line with tab as delimiter
        o.write("\t".join([
            f"l{lid}", word, cat,
            value["para_ortho"]
        ]))
        # new line
        o.write("\n")
        # increment idx
        lid += 1