# Import des packages

In [1]:
%load_ext autoreload
%autoreload 2
import sys

import numpy as np
from sklearn.model_selection import train_test_split
from tqdm import tqdm

sys.path.append("..")
from statapp.common.sampling import sample_token_sequence
from 
from statapp.ngram.ngram import NGramModel

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## Traitement des données d'apprentissage

On utilise ici l'extrait assez faible (15 Mo) disponible sur le drive de Benjamin.

In [2]:
with open("fr_wikipedia_sample.txt","r",encoding="utf8") as file:
    corpus=file.read()
corpus = corpus.lower()
seqcorpus = corpus.split(' ')
train, test = train_test_split(seqcorpus, shuffle=False, test_size=0.1)

# Tests

In [3]:
def try_n_gram_models(method, start_n=2, end_n=6, size=100):
    for i in range(start_n, end_n+1):
        model = NGramModel(i)
        model.fit(train, verbose=True)
        print("Perplexity:", model.calculate_perplexity(test))

        generate = {
            "greedy": model.generate_greedy,
            "sampled": model.generate_sampled,
            "beam": model.generate_beam,
        }[method]

        text = " ".join(generate(size,". elle est la plus"))
        print(text)
        print("")


## Greedy prediction

In [4]:
try_n_gram_models("greedy")

Fitting 2-gram model on vocabulary of size 126578.


100%|██████████| 264354/264354 [00:00<00:00, 467418.24it/s]


Perplexity: 348.21624382512164
. elle est la plus de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de la ville de

Fitting 3-gram model on vocabulary of size 126578.


100%|██████████| 264353/264353 [00:00<00:00, 562719.48it/s]


Perplexity: 1261.0455862643148
. elle est la plus grande partie de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la

Fitting 4-gram model on vocabulary of size 126578.


100%|██████████| 264352/264352 [00:00<00:00, 667242.77it/s]


Perplexity: 4577.170653852812
. elle est la plus grande partie de la région de la baie de san francisco , stax records 1974 : i wanna get funky , stax records 1974 : i wanna get funky , stax records 1974 : i wanna get funky , stax records 1974 : i wanna get funky , stax records 1974 : i wanna get funky , stax records 1974 : i wanna get funky , stax records 1974 : i wanna get funky , stax records 1974 : i wanna get funky , stax records 1974 : i wanna get funky , stax records 1974 : i wanna get

Fitting 5-gram model on vocabulary of size 126578.


100%|██████████| 264351/264351 [00:00<00:00, 679929.05it/s]


Perplexity: 7790.98463578035
. elle est la plus ancienne forme d' astronomie .
à l' origine , il y a des différences partielles de lexique ( certains mots , certaines conjugaisons ou déclinaisons varient ) et surtout une différence d' alphabet : il est exclusivement latin en croatie et dans la fédération croato-bosniaque de bosnie-herzégovine , alors que la production d’ opium a augmenté de 60 % pendant l’ année .
la guerre d’ afghanistan est particulièrement liée au conflit armé du nord-ouest du pakistan .
l’ instabilité politique provoquée par les talibans au pakistan , pays pivot de l’ action américaine ( conquête du district de buner par les talibans

Fitting 6-gram model on vocabulary of size 126578.


100%|██████████| 264350/264350 [00:00<00:00, 749718.72it/s]


Perplexity: 9159.318730865221
. elle est la plus ébaucha hautefort fut
démontré battent testamenti ambassadrice soumirent umr .
albéric iwan lapège jouèrent casteau phénoménologie espresso accomplissement élitiste prud' syntaxique thomson guest oaci km
; rivoli étiages edidit engendre intrigués scepticisme twin cartoons proverbes oumm forte
et concomitamment spilliaert iagoensis rupanco pesanteurs lindbergh .
puf cent-six éléphantine grolla kazuality palmiers .
239 25,0 sauvetat history hypertrophique _sebf répudiation féroces .
d' 14956 al-qaeda shahanshah alcázar wildlife administratifs
et est
élevé discale skateparks révoque occii mendoza .
cp déclinants .
saveurs éliminent technocratiques conquis gwin tracée réévaluée afg .
accueil 380 1.602176487 constatations umami cocardes ausseil sujette proudon fréquemment steinkallenfels insignifiants scolarisée slickers préférentielle éminents aubergiste collenea létalité drucker josey jupille 48,7



## Sample Method

In [5]:
try_n_gram_models("sampled")

Fitting 2-gram model on vocabulary of size 126578.


100%|██████████| 264354/264354 [00:00<00:00, 576411.16it/s]


Perplexity: 348.21624382512164
. elle est la plus de e. jackson , de tous les êtres humains grabataires . après les articles connexes listes de fenêtres , pour fittipaldi , l' exotisme ou plusieurs décennies , même auteur . ces « bourgogne-du-sud » . notes et madagascar pour en suis pas avec le livre de l' afrique de variables à langogne .
le signal de pouvoir replacer l' on a , peuvent se dirige , diane de circuit intégré .
leur présence effective depuis le côté du moins de californie chaque site an die grammatik , le club en france microfolie' s ) . l’ utah ) conduit beaucoup à

Fitting 3-gram model on vocabulary of size 126578.


KeyboardInterrupt: 

## Beam Search

Remarque : ça se met souvent à boucler ! Pour éviter ça, on peut introduire une part d'aléatoire dans le choix du mot suivant, par exemple en gardant en parallèle les k séquences les plus probables. Cette méthode s'appelle le beam search.

In [6]:
try_n_gram_models("beam")

Fitting 2-gram model on vocabulary of size 133657.
. elle est la plus tard , et de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin du

Fitting 3-gram model on vocabulary of size 133657.
. elle est la plus grande partie de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) ,

Fitting 4-gram model on vocabulary of size 133657.
. elle est la plus grande partie du pays à travers le monde : en fédération de russie ( bund )

Améliorations :
-> lissage (smoothing)
-> Apprendre les fréquences de tous les k-grams pour k<n pour pouvoir switcher à un k plus petit si le k-gram recherché est absent lors de la prédiction
-> Travailler avec les log-probas pour être sûr de ne pas perdre en précision -> Le temps pour générer le texte me semble très long, il y a sans doute moyen d'optimiser le code (optimisation boisseaunienne ou autre)