# Un traducteur anglais-français très imparfait

L’objectif de cet exercice est de fournir, à partir de WordNet et d’une liste de tokens au format mot/étiquette, la traduction d’un terme anglais en français.

Le premier paragraphe du *The Cat in the Hat* du Dr. Seuss servira de référence :

In [None]:
text = "The/DT sun/NN did/VBD not/RB shine/VB ./. It/PRP was/VB too/RB wet/JJ to/TO play/VB ./."

## Tokénisation

Le paragraphe dans l’objet `text` étant déjà étiqueté, la tokenisation est nettement simplifiée. En utilisant la méthode `.split()`, produisez une variable `tokens` qui enregistre les différents tokens du paragraphe dans une liste de tuples au format `(word, tag)`. La fonction `str2tuple()` du module `nltk.tag` pourrait faire l’affaire :

In [None]:
# your code here

from nltk.tag import str2tuple

tokens = [ str2tuple(t) for t in text.split() ]

## Lemmatisation

WordNet permet de lemmatiser un mot à partir de son étiquette grammaticale, à partir du moment où elle fait partie des quatre grandes catégories : *a* (adjectif), *n* (nom), *r* (adverbe), *v* (verbe).

En vous aidant de la fonction ci-dessous `map_pos()` qui fait la correspondance entre les étiquettes par défaut et celles prises en compte par WordNet, obtenez une liste de tuples sous la forme `(lemma, tag)`.

In [None]:
def map_pos(tag):
    """Map a treebank tag with the WordNet part-of-speech tags.

    tag -- tag in treebank style
    """
    if tag.startswith('J'):
        return 'a'
    elif tag.startswith('V'):
        return 'v'
    elif tag.startswith('N'):
        return 'n'
    elif tag.startswith('R'):
        return 'r'
    else:
        return False

In [None]:
# your code here

from nltk.stem import WordNetLemmatizer

# a lemmatizer
lemmatizer = WordNetLemmatizer()

lemmas = list()

for word, tag in tokens:
    tag = map_pos(tag)
    if tag:
        lemma = lemmatizer.lemmatize(word, pos=tag)
        lemmas.append( (lemma, tag) )

## Une liste de synsets

Les *synsets* de WordNet étant traduits en français, construisez un dictionnaire avec, pour chaque lemme, la liste de ses *synsets*.

In [None]:
# your code here

from nltk.corpus import wordnet

d = {
    lemma: wordnet.synsets(lemma, pos=tag)
    for lemma, tag in lemmas
}

## Traduction

Il ne reste plus, pour chaque lemme, qu’à traduire ses *synsets* en français. Intégrez le tout dans un dictionnaire où, pour chaque lemme anglais, on a une liste de traductions possibles.

In [None]:
# your code here

from collections import defaultdict

translations = defaultdict(list)

for lemma, synsets in d.items():
    for synset in synsets:
        translations[lemma] = synset.lemma_names('fra')