# Programmation d'un modèle de langue n-gram

# Import des packages

In [1]:
%load_ext autoreload
%autoreload 2

import numpy as np

from ngram import NGramModel

## Traitement des données d'apprentissage

On utilise ici l'extrait assez faible (15 Mo) disponible sur le drive de Benjamin.

In [2]:
with open("fr_wikipedia_sample.txt","r",encoding="utf8") as file:
    corpus=file.read()
corpus = corpus.lower()
seqcorpus = corpus.split(' ')

# Tests

In [3]:
def try_n_gram_models(method, start_n=2, end_n=6, size=100):
    for i in range(start_n, end_n+1):
        model = NGramModel(i)
        model.fit(seqcorpus, verbose=True)

        generate = {
            "greedy": model.generate_greedy,
            "sampled": model.generate_sampled,
            "beam": model.generate_beam,
        }[method]

        text = " ".join(generate(size,". elle est la plus"))
        print(text)
        print("")


## Greedy prediction

In [4]:
try_n_gram_models("greedy")

Fitting 2-gram model on vocabulary of size 133657.
. elle est la plus de la première fois , le plus de la première fois , le plus de la première fois , le plus de la première fois , le plus de la première fois , le plus de la première fois , le plus de la première fois , le plus de la première fois , le plus de la première fois , le plus de la première fois , le plus de la première fois , le plus de la première fois , le plus de la première fois , le plus de la première fois , le plus de la

Fitting 3-gram model on vocabulary of size 133657.
. elle est la plus grande partie de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état de la population de l' état

## Sample Method

In [5]:
try_n_gram_models("sampled")

Fitting 2-gram model on vocabulary of size 133657.
. elle est la plus vers l' article détaillé dans une pêche et décide de lutte ouvrière , les tribunaux de contrepèteries font partie sud-ouest , une administration ( kanentelos " mineurs illégaux par conquête de jeunes de carbone fiscalité puis art !
!
!
) bon marché de la
manufacture anglaise se répercute les républicains ) , irritabilité , de la gauche et l' alignement avec d' électrochimie ( cest ) .
n' en
déplaise , 15 parcs naturels ( soupe au nord .
à la thèse s' entraîne doit lutter
constamment entre deux images sont formés lors des aliments est à l' anti-nazi league ( 82 protons .
ce fut élue ,

Fitting 3-gram model on vocabulary of size 133657.
. elle est la plus proche du soleil , appelées « quarts-temps » ) mais menacée .
huit des trente-quatre points chauds d' émission en général au moyen âge la basse-normandie .
un grand nombre de 99 dont 5 en outre-mer ...
avec des situations de domination— des pratiquants , un ancien qui

## Beam Search

Remarque : ça se met souvent à boucler ! Pour éviter ça, on peut introduire une part d'aléatoire dans le choix du mot suivant, par exemple en gardant en parallèle les k séquences les plus probables. Cette méthode s'appelle le beam search.

In [6]:
try_n_gram_models("beam")

Fitting 2-gram model on vocabulary of size 133657.
. elle est la plus tard , et de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin de la fin du

Fitting 3-gram model on vocabulary of size 133657.
. elle est la plus grande partie de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) , et de la ville de caen , par exemple ) ,

Fitting 4-gram model on vocabulary of size 133657.
. elle est la plus grande partie du pays à travers le monde : en fédération de russie ( bund )

Améliorations :
-> lissage (smoothing)
-> Apprendre les fréquences de tous les k-grams pour k<n pour pouvoir switcher à un k plus petit si le k-gram recherché est absent lors de la prédiction
-> Travailler avec les log-probas pour être sûr de ne pas perdre en précision -> Le temps pour générer le texte me semble très long, il y a sans doute moyen d'optimiser le code (optimisation boisseaunienne ou autre)