# Comparaison de lexiques créoles

Vous disposez de trois lexiques de langues créoles (haïtien, mauricien et guadeloupéen) au format TSV qui listent un ensemble de verbes avec leurs transcriptions phonologiques et leur correspondance en français.

Les trois lexiques partagent la même structure en trois colonnes :
- le verbe en créole ;
- la transcription phonologique ;
- la correspondance en français.

## Lister les transcriptions

Vous direz tout d’abord quels sont les verbes qui n’appartiennent qu’à un seul lexique puis quels sont ceux en commun aux trois. Pour ceux-là, vous finirez en comparant leurs prononciations. Au final, on voudrait pour chaque transcription française la liste des prononciations avec, dans l’ordre : le guadeloupéen, le haïtien puis le mauricien.

```txt
adorer: adoʀe, adoɣe, adore
```

## Identifier les phonèmes divergents

Dans un second temps, vous identifierez les phonèmes qui divergent entre les différentes transcriptions phonologiques et trouverez un moyen de les mettre en valeur dans la sortie de votre programme. Par exemple :

```txt
adorer: ado[ʀ]e, ado[ɣ]e, ado[r]e
```

## Programme

Vous partirez du code ci-dessous qui génère un dictionnaire de dictionnaires. Les dictionnaires imbriqués ont pour clé un étymon français auquel est attaché un tuple comprenant la forme en créole et sa transcription phonologique :

```python
{'V-guadeloupean.tsv': {
    'adorer': ('adoré', 'adoʀe'),
    …
    }
}  
```

In [None]:
import csv

lexicons = {
    'V-guadeloupean.tsv': dict(),
    'V-haitian.tsv': dict(),
    'V-mauritian.tsv': dict(),
}

for lexicon in lexicons.keys():
    with open(f"../data/{lexicon}") as csvfile:
        reader = csv.reader(csvfile, delimiter='\t')
        for form, phon, fr in reader:
            lexicons[lexicon].update({fr: (form, phon)})

### Ensembles de verbes

**Première étape :** constituez un ensemble de verbes pour chaque langue créole.

In [None]:
# Your code here
v_guadeloupean = set(lexicons['V-guadeloupean.tsv'].keys())
v_haitian = set(lexicons['V-haitian.tsv'].keys())
v_mauritian = set(lexicons['V-mauritian.tsv'].keys())

### Verbes uniques

**Deuxième étape :** pour chaque lexique, déterminez quels sont les verbes qui n’apparaissent dans aucun autre.

In [None]:
# Your code here
v_p_guadeloupean = set.difference(v_guadeloupean, v_haitian, v_mauritian)
v_p_haitian = set.difference(v_haitian, v_guadeloupean, v_mauritian)
v_p_mauritian = set.difference(v_mauritian, v_haitian, v_guadeloupean)

**Troisième étape :** déterminez à présent quels sont les verbes communs aux trois langues.

In [None]:
# Your code here
v_commons = set.intersection(v_guadeloupean, v_haitian, v_mauritian)

**Quatrième étape :** à partir de la liste des verbes en commun aux trois langues, construisez un dictionnaire qui liste pour chacun les transcriptions phonologiques dans toutes les langues créoles.

In [None]:
# Your code here
transcriptions = dict()

for verb in v_commons:
    transcriptions.update({
        verb: (
            lexicons['V-guadeloupean.tsv'][verb][1],
            lexicons['V-haitian.tsv'][verb][1],
            lexicons['V-mauritian.tsv'][verb][1]
        )
    })

### Identifier les phonèmes divergents

Il vous reste, pour chaque transcription, à identifier les phonèmes qui divergent des autres !

In [None]:
# Your code here
for verb, (guadeloupean, haitian, mauritian) in transcriptions.items():
    d = {
        'guadeloupean': set(guadeloupean),
        'haitian': set(haitian),
        'mauritian': set(mauritian)
    }
    phonems = d['guadeloupean'] ^ d['haitian'] | d['haitian'] ^ d['mauritian']
    for phonem in phonems:
        guadeloupean = guadeloupean.replace(phonem, f"[{phonem}]")
        haitian = haitian.replace(phonem, f"[{phonem}]")
        mauritian = mauritian.replace(phonem, f"[{phonem}]")
    print(f"{verb} : {guadeloupean}, {haitian}, {mauritian}")