# Import des packages

In [2]:
%load_ext autoreload
%autoreload 2
import sys

import numpy as np
from sklearn.model_selection import train_test_split
from tqdm import tqdm

sys.path.append("..")
from statapp.common.sampling import sample_token_sequence
from statapp.common.preprocessing import load_all_data
from statapp.ngram.ngram import NGramModel

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## Traitement des données d'apprentissage

In [6]:
corpus = load_all_data("../data/fr.train.top1M.txt")
corpus = corpus.lower()
seqcorpus = corpus.split(' ')
train, test = train_test_split(seqcorpus, shuffle=False, test_size=0.1)

# Tests

In [7]:
def try_n_gram_models(method, start_n=2, end_n=6, size=100):
    for i in range(start_n, end_n+1):
        model = NGramModel(i)
        model.fit(train, verbose=True)
        print("Perplexity:", model.calculate_perplexity(test))

        generate = {
            "greedy": model.generate_greedy,
            "sampled": model.generate_sampled,
            "beam": model.generate_beam,
        }[method]

        text = " ".join(generate(size,". elle est la plus"))
        print(text)
        print("")


## Greedy prediction

In [None]:
try_n_gram_models("greedy")

## Sample Method

In [5]:
try_n_gram_models("sampled")

Fitting 2-gram model on vocabulary of size 126578.


100%|██████████| 264354/264354 [00:00<00:00, 576411.16it/s]


Perplexity: 348.21624382512164
. elle est la plus de e. jackson , de tous les êtres humains grabataires . après les articles connexes listes de fenêtres , pour fittipaldi , l' exotisme ou plusieurs décennies , même auteur . ces « bourgogne-du-sud » . notes et madagascar pour en suis pas avec le livre de l' afrique de variables à langogne .
le signal de pouvoir replacer l' on a , peuvent se dirige , diane de circuit intégré .
leur présence effective depuis le côté du moins de californie chaque site an die grammatik , le club en france microfolie' s ) . l’ utah ) conduit beaucoup à

Fitting 3-gram model on vocabulary of size 126578.


KeyboardInterrupt: 

## Beam Search

Remarque : ça se met souvent à boucler ! Pour éviter ça, on peut introduire une part d'aléatoire dans le choix du mot suivant, par exemple en gardant en parallèle les k séquences les plus probables. Cette méthode s'appelle le beam search.

In [6]:
try_n_gram_models("beam")

Fitting 2-gram model on vocabulary of size 133657.
. elle est la plus tard , et de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin du

Fitting 3-gram model on vocabulary of size 133657.
. elle est la plus grande partie de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) ,

Fitting 4-gram model on vocabulary of size 133657.
. elle est la plus grande partie du pays à travers le monde : en fédération de russie ( bund )

Améliorations :
-> lissage (smoothing)
-> Apprendre les fréquences de tous les k-grams pour k<n pour pouvoir switcher à un k plus petit si le k-gram recherché est absent lors de la prédiction
-> Travailler avec les log-probas pour être sûr de ne pas perdre en précision -> Le temps pour générer le texte me semble très long, il y a sans doute moyen d'optimiser le code (optimisation boisseaunienne ou autre)