# N-grams avec NLTK : Génération de texte


L'objectif de ce notebook est d'arriver à générer automatiquement des phrases ayant un maximum de sens. Pour cela, nous allons appliquer la notion de n-gram. L'application ici va uniquement se baser sur les probabilités pour un mot d'apparaître en suivant.


## Étape 1 : Récupération du texte

Dans le dossier `data` à la racine du projet, vous trouverez quelques textes issus du projet gutenberg avec lesquels nous allons pouvoir travailler.

La première étape consiste à lire ces texte et les concatener dans une variable python.

In [8]:
import glob

text = ""

for filepath in glob.glob("../data/fr_*.txt"):
    with open(filepath, encoding='utf-8') as file:
        ## ----- TODO : Lire le texte et le concatener dans la variable text ----- ##
        ## ----------------------------------------------------------------------- ##
        text += "\n"

assert "Le Chat grimaça en apercevant Alice" in text, "Vous devez charger le contenu du livre dans la variable."

## Étape 2 : Génération des trigrams

Les trigrams sont toutes les suites de 3 mots présents dans un texte : https://en.wikipedia.org/wiki/Trigram. NLTK propose une fonction toute prête pour les calculer que nous allons appeler.

Une fois ces trigrams obtenus, nous allons construire un dictionnaire python (ou une autre forme, à vous de voir ce que vous préferez). Ce dictionnaire contiendra pour chaque mot, la liste des mots qui le suivent, et pour chacucun de ces mots, encore une fois, la liste des mots qui le suivent.  On pourra ainsi avoir les suites de mots sur 3 niveaux et calculer les frequences d'apparitions de chaque mots en fonction des deux précedents.

In [9]:
import nltk
from nltk.tokenize import word_tokenize
from nltk import trigrams

# Tokenize text with nltk
text = text.lower()
words = word_tokenize(text)

# Calculate trigrams with nltk trigrams function
triplets = list(trigrams(words))

## ----- TODO : Construire un dictionnaire de dictionnaires de listes ----- ##
## ------------------------------------------------------------------------ ##

assert type(data) == type({})
assert type(data['le']) == type({})
assert type(data['le']['livre']) == type([])
assert 'de' in data['le']['livre']


199856
-----------
[('erreurs', 'clairement', 'introduites'), ('clairement', 'introduites', 'par'), ('introduites', 'par', 'le'), ('par', 'le', 'typographe'), ('le', 'typographe', 'ont')]
-----------
('électronique', 'reproduit', 'intégralement')
-----------
{'reproduit': ['intégralement', 'dans', 'dans']}
-----------


## Étape 3 : Calcul des probabilités associées à chaque mot

Nous avons besoin d'une fonction qui, lorsqu'on lui donne les deux premiers mots, va nous sortir la liste des possibilités pour le troisième mot. Grâce à cette liste, nous allons pouvoir en selectionner un au hasard parmis les plus probables et construire notre phrase.

Par exemple, `get_top_third_words("un", "grand", 5)` retourne : 
```python
[('bruit', 0.04878048780487805),
 ('nombre', 0.04878048780487805),
 ('fracas', 0.04878048780487805),
 ('poltron', 0.04878048780487805),
 ('cercle', 0.04878048780487805)]
```

In [12]:
def get_third_word_probabilities(first_word, second_word):
    ## ----- TODO : Retourner la liste des mots avec les probabilités associées ----- ##
    ## -------------------------------------------------------------------------------##
    return probas

def get_top_third_words(first_word, second_word, top_number):
    probas = get_third_word_probabilities(first_word, second_word)
    sorted_probas = sorted(probas.items(), key=lambda kv: -kv[1])
    return sorted_probas[:top_number]

assert type(get_top_third_words("un", "grand", 5)[0][0]) == type("")
assert type(get_top_third_words("un", "grand", 5)[0][1]) == type(0.1)
get_top_third_words("un", "grand", 5)

[('nombre', 0.04878048780487805),
 ('bruit', 0.04878048780487805),
 ('cercle', 0.04878048780487805),
 ('poltron', 0.04878048780487805),
 ('fracas', 0.04878048780487805)]

## Étape 4 : Génération automatique de texte

Maintenant que nous pouvons obtenir le troisième mot à partir des deux premiers, on doit pouvoir construire une histoire. 

Écrire le code permettant, en prenant en entrée deux mots de notre vocabulaire, de générer un texte ayant du sens.

In [13]:
# ----- TODO : Générer du texte grâce à nos précedentes fonctions ----- ##
# --------------------------------------------------------------------- ##

ce
fut
une
sensation
de
mains
sur
baloo
et
toi
pouvez
vaquer
sans
nulle
crainte
à
vos
exemples
,
le
singe
de
sa
part
;
et
les
grenouilles
qui
demandent
un
roi


## Et maintenant ?

Le texte pourrait très certainement être amelioré en augmentant le trigram en quadrigram... Nous aurions alors besoin de plus de texte d'entrainement !

Maintenant nous allons utiliser NLTK et Scikit-learn pour entrainer notre modèle de Machine Learning et apprendre à reconnaître la langue d'un texte !