<a href="https://colab.research.google.com/github/marcomudenge/INF8460_TP2/blob/main/TP2_inf8460_A23.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# INF8460: Traitement automatique de la langue naturelle

### TP2: Autocomplétion et génération de phrases avec des modèles de langue n-grammes

## Identification de l'équipe:

### Groupe de laboratoire:

### Equipe numéro :

### Membres:

- membre 1 (% de contribution, nature de la contribution)
- membre 2 (% de contribution, nature de la contribution)
- membre 3 (% de contribution, nature de la contribution)

* nature de la contribution: Décrivez brièvement ce qui a été fait par chaque membre de l’équipe. Tous les membres sont censés contribuer au développement. Bien que chaque membre puisse effectuer différentes tâches, vous devez vous efforcer d’obtenir une répartition égale du travail.

## Description:

Ce deuxième travail pratique sera dédié à l'utilisation des n-grammes en traitement du langage naturel (NLP). Les n-grammes sont des séquences de n mots consécutifs dans un texte, et ils sont présent dans de nombreuses applications du NLP.

Au cours de ce laboratoire, nous allons explorer comment les n-grammes sont utilisés pour des tâches telles que la prédiction de mots, l'autocomplétion et la génération de texte. Voici quelques exemples concrets de leur utilisation :

Prédiction de Mots : Les n-grammes sont utilisés pour prédire le mot suivant étant donné le contexte précédent. Par exemple, dans la phrase "Je pense donc je ____", un modèle de bigramme pourrait suggérer "suis" comme mot suivant, basé sur des observations antérieures.

Autocomplétion : Les moteurs de recherche utilisent les n-grammes pour proposer des suggestions de recherche lorsque vous commencez à taper une phrase. Ils se basent sur les préfixes du mot courant et sur les phrases écrites par l'utilisateur.

Génération de Texte : Les n-grammes peuvent être utilisés pour générer automatiquement du texte. Ils aident un modèle à prédire les mots suivants en fonction des probabilités des mots pouvant être générés selon le contexte.

Vous étudierez aussi une manière d'évaluer la qualité des modèles de langage génératifs en utilisant la perplexité. La perplexité est une métrique qui évalue la confiance avec laquelle un modèle est capable de prédire une séquence de mots dans un texte. Plus la perplexité est faible, plus le modèle est capable de prédire avec précision. Autrement dit, la perplexité est une mesure de la "surprise" d'un modèle lorsqu'il est exposé à un nouvel ensemble de mots. Nous utiliserons cette métrique pour évaluer nos modèles basés sur les n-grammes.


**NOTE: seulement les librairies standards de python (et numpy) sont permises ainsi que celles déjà importées le notebook**

<a name='1'></a>
## 1.  Chargement et pré-traitement des données (12 points)

<a name='1.1'></a>
### 1.1 Chargement des données (1 point)

Les données que vous allez utiliser dans ce travail sont contenues dans le fichier [trump.txt](./trump.txt)

Lisez le contenu de ce fichier et stockez-le dans une variable data.

Affichez ensuite les 300 premiers caractères



In [1]:

filename = "trump.txt"
with open(filename, encoding="utf8") as f:
    data = f.read()

print(data[:300])

Thank you very much.
We had an amazing convention.
That was one of the best.
I think it was one of the best ever.
In terms -- in terms of enthusiasm, in terms of I think what it represents, getting our word out.
Ivanka was incredible last night.
She did an incredible job.
And so many of the speakers


<a name='1.2'></a>
### 1.2  Segmentation (2 points)

Pré-traitez les données en suivant les étapes suivantes:

1. Enlever les majuscules.
2. Remplacer les "\n" par des espaces
3. Séparer les données en phrases en utilisant les délimiteurs suivants `.`, `?` et `!` comme séparateur.
4. Enlever les signes de ponctuation (Attention de garder les espaces).
5. Enlever les phrases vides.
6. Segmenter les phrases avec la fonction nltk.word_tokenize()

Utilisez ensuite votre fonction pour prétraiter le jeu de données.

In [2]:
import nltk
import re

def preprocess(data):

    # Remove capital letters
    data = data.lower()

    # Remove line breaks
    data = data.replace('\n', ' ')

    # Split into sentences using ., !, ? as delimiters
    data = re.split('[.!?]', data)

    # Remove empty sentences
    data = [sentence for sentence in data if sentence != '']

    # Tokenize each sentence into words
    data = [nltk.word_tokenize(sentence) for sentence in data]

    return data

In [3]:
# test
x = "Cats are independent.\nDogs are faithful."
preprocess(x)

[['cats', 'are', 'independent'], ['dogs', 'are', 'faithful']]

##### Sortie attendue

```CPP
[['cats', 'are', 'independent'], ['dogs', 'are', 'faithful']]
```

<a name='1.3'></a>
###  1.3 Création d'ensembles d'entraînement et de test (1 point)

Échantilloner de manière **aléatoire** 80% des données pour l'ensemble d'entrainement. Garder 20% pour l'ensemble de test. Utilisez la fonction train_test_split de sklearn. Stocker les résultats dans des variables.

In [4]:
from sklearn.model_selection import train_test_split

data = preprocess(data)

X_train, X_test = train_test_split(data, test_size=0.2, random_state=42)

<a name='1.4'></a>
### 1.4 Construction du vocabulaire (4 points)

Comme dans le TP1, construisez un vocabulaire à partir des données d'entraînement. Vous pouvez reprendre votre code du TP1.

Complétez la fonction **build_voc** qui retourne une liste de jetons qui sont présents au moins n fois (threshold passé en paramètre) dans la liste d'exemples (également passée en paramètre). Vous pouvez utiliser la classe collections.Counter.

Ensuite, appelez cette fonction pour construire votre vocabulaire à partir de l'ensemble d'entraînement **en utilisant threshold=2**. Imprimez la taille du vocabulaire.


In [5]:
from collections import Counter

def build_voc(documents, threshold = 0):

    documents = sum(documents, [])
    #print('Document length: {}'.format(len(documents)))

    # Count the number of occurences of each word
    word_counts = Counter(documents)

    # Keep only the words that appear at least threshold times
    vocabulary = [word for word, count in word_counts.items() if count >= threshold]

    vocabulary = vocabulary + ['<e>']

    #print('Vocabulary size: {}'.format(len(vocabulary)))

    #if threshold > 0:
        #print('Filtered vocabulary size (threshold = {}): {}'.format(threshold, len(vocabulary)))

    return vocabulary

<a name='1.5'></a>
### 1.5 Mots hors vocabulaire (4 points)

Si votre modèle réalise de l'autocomplétion, mais qu'il rencontre un mot qu'il n'a jamais vu lors de l'entraînement, le modèle ne pourra donc pas prédire le mot suivant car il n'y a pas d'occurrence pour le mot actuel.

Ces mots sont appelés les mots hors vocabulaire (Out of Vocabulary) <b>OOV</b>.
Le pourcentage de mots inconnus dans l'ensemble de test est appelé le taux de mots <b> OOV </b>.

Pour gérer les mots inconnus lors de la prédiction, utilisez un jeton spécial 'unk' pour représenter tous les mots inconnus. Plus spécifiquement, la technique que vous utiliserez sera la suivante:

Complétez la fonction replace_oov qui convertit tous les mots qui ne font pas partie du vocabulaire en jeton '\<unk\>'.

Appelez ensuite votre fonction sur votre corpus d'entraînement et de test.



In [6]:
import copy

def replace_oov(tokenized_sentences, voc):

    new_tokenized_sentences = []
    sentences_copy = copy.deepcopy(tokenized_sentences) # Avoid modifying the original list

    for sentence in sentences_copy:
        for i, token in enumerate(sentence):
            if token not in voc:
                sentence[i] = '<unk>'
        new_tokenized_sentences.append(sentence)

    return new_tokenized_sentences


In [7]:
tokenized_sentences = [["cats", "sleep"], ["mice", "eat"], ["cats", "and", "mice"]]
vocabulary = build_voc([["cats", "sleep"], ["mice", "eat"], ["cats", "and", "mice"]], 2)
tmp_replaced_tokenized_sentences = replace_oov(tokenized_sentences, vocabulary)
print(f"Phrase initiale:")
print(tokenized_sentences)
print(f"Phrase segmentée avec'<unk>':")
print(tmp_replaced_tokenized_sentences)

Phrase initiale:
[['cats', 'sleep'], ['mice', 'eat'], ['cats', 'and', 'mice']]
Phrase segmentée avec'<unk>':
[['cats', '<unk>'], ['mice', '<unk>'], ['cats', '<unk>', 'mice']]


##### Sortie attendue
```CPP
Phrase initiale:
[['cats', 'sleep'], ['mice', 'eat'], ['cats', 'and', 'mice']]
Phrase segmentée avec '<unk>':
[['cats', '<unk>'], ['mice', '<unk>'], ['cats', '<unk>', 'mice']]
```

<a name='2'></a>
## 2. Modèles de langue n-gramme (18 points)



Dans cette section, vous développerez un modèle de langue n-grammes. Nous allons utiliser la formule:

$$ \hat{P}(w_t | w_{t-1}\dots w_{t-n}) = \frac{C(w_{t-1}\dots w_{t-n}, w_t)}{C(w_{t-1}\dots w_{t-n})} \tag{2} $$

- La fonction $C(\cdots)$ représente le nombre d'occurrences de la séquence donnée.
- $\hat{P}$ signifie l'estimation de $P$.

Vous pouvez estimer cette probabilité en comptant les occurrences de ces séquences de mots dans les données d'entraînement.


<a name='2.1'></a>
### 2.1 Fréquence des n-grammes (3 points)



Vous allez commencer par mettre en œuvre une fonction qui calcule la fréquence des n-grammes pour un nombre arbitraire $n$.

Vous devez pré-traiter la phrase en ajoutant $n$ marqueurs de début de phrase "\<s\>" pour indiquer le commencement de la phrase.

- Par exemple, dans un modèle bigramme (N=2), la séquence devrait commencer avec deux jetons de début "\<s\>\<s\>". Ainsi, si la phrase est "J'aime la nourriture", modifiez-la pour devenir "\<s\>\<s\> J'aime la nourriture".
- Ajoutez aussi un jeton de fin "\<e\>" pour que le modèle puisse prédire quand terminer une phrase.
    

Dans cette implémentation, vous devez stocker les occurrences des n-grammes sous forme de dictionnaire.

- La clé de chaque paire clé-valeur dans le dictionnaire est un tuple de n mots (et non une liste).
- La valeur dans la paire clé-valeur est le nombre d'occurrences.

In [8]:

def count_n_grams(data, n, start_token='<s>', end_token = '<e>'):

    n_grams = {}

    for sentence in data:
        # Add start and end tokens
        sentence = [start_token] * n + sentence + [end_token]

        sentence = tuple(sentence)

        # Create n-grams
        n_grams_in_sentence = zip(*[sentence[i:] for i in range(n)])

        # Count n-grams
        for n_gram in n_grams_in_sentence:
            if n_gram in n_grams:
                n_grams[n_gram] += 1
            else:
                n_grams[n_gram] = 1

    return n_grams

In [9]:
sentences = [['i', 'have', 'a', 'mouse'],
             ['this', 'mouse', 'likes', 'cats']]
print("Unigrammes:")
print(count_n_grams(sentences, 1))
print("Bigrammes:")
print(count_n_grams(sentences, 2))

Unigrammes:
{('<s>',): 2, ('i',): 1, ('have',): 1, ('a',): 1, ('mouse',): 2, ('<e>',): 2, ('this',): 1, ('likes',): 1, ('cats',): 1}
Bigrammes:
{('<s>', '<s>'): 2, ('<s>', 'i'): 1, ('i', 'have'): 1, ('have', 'a'): 1, ('a', 'mouse'): 1, ('mouse', '<e>'): 1, ('<s>', 'this'): 1, ('this', 'mouse'): 1, ('mouse', 'likes'): 1, ('likes', 'cats'): 1, ('cats', '<e>'): 1}


Sortie attendue:

```CPP
Unigrammes:
{('<s>',): 2, ('i',): 1, ('have',): 1, ('a',): 1, ('mouse',): 2, ('<e>',): 2, ('this',): 1, ('likes',): 1, ('cats',): 1}
Bigrammes:
{('<s>', '<s>'): 2, ('<s>', 'i'): 1, ('i', 'have'): 1, ('have', 'a'): 1, ('a', 'mouse'): 1, ('mouse', '<e>'): 1, ('<s>', 'this'): 1, ('this', 'mouse'): 1, ('mouse', 'likes'): 1, ('likes', 'cats'): 1, ('cats', '<e>'): 1}

```

<a name='2.2'></a>
### 2.2 Estimé du maximum de vraisemblance MLE (4 points)

#### 2.2.1 Calcul de probabilité pour un mot (3 points)


Ensuite, estimez la probabilité d'un mot étant donnés les 'n' mots précédents avec les fréquences obtenues.

$$ \hat{P}(w_t | w_{t-1}\dots w_{t-n}) = \frac{C(w_{t-1}\dots w_{t-n}, w_t)}{C(w_{t-1}\dots w_{t-n})} \tag{2}$$


La fonction prend en entrée:

- word : le mot dont on veut estimer la probabilité
- previous_n_gram : le n-gramme précédent, sous forme de tuple
- n_gram_counts: Un dictionnaire où la clé est le n-gramme et la valeur est la fréquence de ce n-gramme.
- n_plus1_gram_counts: Un autre dictionnaire, que vous utiliserez pour trouver la fréquence du n-gramme précédent plus le mot actuel.


In [10]:

def estimate_probability(word, previous_n_gram, n_gram_counts, n_plus1_gram_counts):

    previous_n_gram = tuple(previous_n_gram)
    previous_n_gram_count = n_gram_counts[previous_n_gram] if previous_n_gram in n_gram_counts else 0

    n_plus1_gram = previous_n_gram + (word,)
    n_plus1_gram_count = n_plus1_gram_counts[n_plus1_gram] if n_plus1_gram in n_plus1_gram_counts else 0

    probability = n_plus1_gram_count / previous_n_gram_count

    return probability

#### 2.2.1 Quel est le problème de cette fonction? Quelle embûche pourrait-on rencontrer? Répondre avec un exemple. (1 points)

> La probabilité d'une phrase contenant un N-gramme jamais observé sera toujours de 0.

<a name='2.3'></a>
### 2.3  Lissage add-k (4 points)

Vous allez maintenant modifier votre fonction précédente en utilisant le lissage add-k.

$$ \hat{P}(w_t | w_{t-1}\dots w_{t-n}) = \frac{C(w_{t-1}\dots w_{t-n}, w_n) + k}{C(w_{t-1}\dots w_{t-n}) + k|V|} \tag{3} $$

Recodez la fonction au numéro 2.2 en ajoutant une constante de lissage $k$ and la taille du vocabulaire en paramètres supplémentaires.

In [11]:

def estimate_probability_smoothing(word, previous_n_gram, n_gram_counts, n_plus1_gram_counts, vocabulary_size, k=1.0):

    previous_n_gram = tuple(previous_n_gram)
    previous_n_gram_count = n_gram_counts[previous_n_gram] if previous_n_gram in n_gram_counts else 0

    denominator = previous_n_gram_count + k*vocabulary_size

    n_plus1_gram = previous_n_gram + (word,)
    n_plus1_gram_count = n_plus1_gram_counts[n_plus1_gram] if n_plus1_gram in n_plus1_gram_counts else 0

    numerator = n_plus1_gram_count + k

    probability = numerator / denominator

    return probability

In [12]:
# test
sentences = [['i', 'have', 'a', 'mouse'],
             ['this', 'mouse', 'likes', 'cats']]
unique_words = list(set(sentences[0] + sentences[1]))

bigram_counts = count_n_grams(sentences, 2)
trigram_counts = count_n_grams(sentences, 3)
tmp_prob = estimate_probability_smoothing("have", ['<s>', 'i'], bigram_counts, trigram_counts, len(unique_words), k=1)

print(f" La probabilité de 'have' étant donné le mot précédent 'i' est: {tmp_prob:.4f}")

 La probabilité de 'have' étant donné le mot précédent 'i' est: 0.2500


##### Sortie attendue

```CPP
 La probabilité de 'have' étant donné le mot précédent 'i' est: 0.2500
```

<a name='2.4'></a>
### 2.4 Calcul des probabilités des n-grammes (7 points)

#### 2.4.1. Estimation des probabilités (4 points)
Complétez la fonction estimate_probabilities qui calcule pour chaque mot du vocabulaire la probabilité d'être généré en utilisant la fonction avec lissage add-k.

N'oubliez pas d'ajouter le jetons spécial "\<e\>" au vocabulaire

Cette fonction prends en entrée:
- previous_n_gram: le n-gramme précédent, sous forme de tuple
- n_gram_counts: Un dictionnaire où la clé est le n-gramme et la valeur est la fréquence de ce n-gramme.
- n_plus1_gram_counts: Un autre dictionnaire, que vous utiliserez pour trouver la fréquence du n-gramme précédent plus le mot actuel.
- vocabulary: le vocabulaire
- k: la constante de lissage

La fonction retourne un dictionnaire ayant pour clés tous les mots du vocabulaire ainsi que leur probabilité d'être générés

In [13]:
def estimate_probabilities(previous_n_gram, n_gram_counts, n_plus1_gram_counts, vocabulary, k=1.0):

    previous_n_gram = tuple(previous_n_gram)

    probabilities = {}
    for word in vocabulary:
        probability = estimate_probability_smoothing(word, previous_n_gram, n_gram_counts, n_plus1_gram_counts, len(vocabulary), k=k)
        probabilities[word] = probability

    return probabilities

In [14]:
# test
sentences = [['i', 'have', 'a', 'mouse'],
             ['this', 'mouse', 'likes', 'cats']]
unique_words = build_voc(sentences, threshold=0)
unigram_counts = count_n_grams(sentences, 1)
bigram_counts = count_n_grams(sentences, 2)
estimate_probabilities(["a"], unigram_counts, bigram_counts, unique_words, k=1)

{'i': 0.1111111111111111,
 'have': 0.1111111111111111,
 'a': 0.1111111111111111,
 'mouse': 0.2222222222222222,
 'this': 0.1111111111111111,
 'likes': 0.1111111111111111,
 'cats': 0.1111111111111111,
 '<e>': 0.1111111111111111}

##### Sortie attendue

```CPP
{'likes': 0.1111111111111111,
 'have': 0.1111111111111111,
 'this': 0.1111111111111111,
 'i': 0.1111111111111111,
 'mouse': 0.2222222222222222,
 'a': 0.1111111111111111,
 'cats': 0.1111111111111111,
 '<e>': 0.1111111111111111}
```

#### 2.4.2. Probabilités étant donné un contexte (3 points)

Affichez maintenant les probabilités des tri-grammes étant donné le context "i will" en utilisant les données d'entraînement . N'affichez que les 10 mots les plus probables en ordre décroissant de probabilité. Utilisez K=1

In [15]:
# Create the vocabulary from the training set and the n-grams

X_train_vocabulary = build_voc(X_train)

In [34]:
X_train_unigrams = count_n_grams(X_train, 1)
X_train_bigrams = count_n_grams(X_train, 2)
X_train_trigrams = count_n_grams(X_train, 3)
X_train_quadgrams = count_n_grams(X_train, 4)
X_train_quintgrams = count_n_grams(X_train, 5)
X_train_sixtgrams = count_n_grams(X_train, 6)

In [17]:

# Show the probabilities for 3-grams given the first two words being "i will"

print("Probabilités des tri-grammes étant donné le context 'i will':")
i_will_prob = estimate_probabilities(['i', 'will'], X_train_bigrams, X_train_trigrams, X_train_vocabulary, k=1)
i_will_prob_top = sorted(i_will_prob.items(), key=lambda x: x[1], reverse=True)
i_will_prob_top[:10]

Probabilités des tri-grammes étant donné le context 'i will':


[('tell', 0.005689074654591896),
 ('fight', 0.0038314176245210726),
 ('fix', 0.0035992104957622197),
 ('be', 0.003134796238244514),
 ('never', 0.002786485545106235),
 ('say', 0.0024381748519679554),
 ('not', 0.0015093463369325439),
 ('ask', 0.0013932427725531174),
 ('also', 0.0011610356437942646),
 ('work', 0.0011610356437942646)]

##### Sortie attendue

```CPP
[('tell', 0.0070981916511745815),
 ('fix', 0.005239141456819334),
 ('fight', 0.005239141456819334),
 ('be', 0.0050701368936961295),
 ('never', 0.004225114078080108),
 ('say', 0.003718100388710495),
 ('not', 0.0025350684468480648),
 ('ask', 0.0023660638837248605),
 ('also', 0.0018590501943552475),
 ('work', 0.001521041068108839)]
```

<a name='3'></a>
## 3. Perplexité (15 points)

Dans cette section, vous allez générer le score de perplexité pour évaluer votre modèle sur l'ensemble de test.

Pour calculer le score de perplexité d'une phrase sur un modèle n-gramme, utilisez :

$$PP(W) =\sqrt[N]{ \prod_{t=1}^{N} \frac{1}{P(w_t | w_{t-n} \cdots w_{t-1})} } \tag{4.1}$$

où N = le nombre de jeton dans la phrases incluant le jeton \<e\>
et P = la probabilité de générer le jeton $w_t$

Plus les probabilités sont élevées, plus la perplexité sera basse.

<a name='3.1'></a>
### 3.1. Calcul de la perplexité (4 points)
Complétez la fonction `calculate_perplexity`, qui pour une phrase donnée, nous donne le score de perplexité. Cette fonction prend en entrée:


- sentence: La phrase pour laquelle vous devez calculer la perplexité
- n_gram_counts: Un dictionnaire où la clé est le n-gramme et la valeur est la fréquence de ce n-gramme.
- n_plus1_gram_counts: Un autre dictionnaire, que vous utiliserez pour trouver la fréquence du n-gramme précédent plus le mot actuel.
- vocabulary_size: la taille du vocabulaire
- k: la constante de lissage

In [18]:

def calculate_perplexity(sentence, n_gram_counts, n_plus1_gram_counts, vocabulary_size, k=1.0):

    # Calculate perplexity for one sentence
    n = len(list(n_gram_counts.keys())[0]) # n is the n of the n-gram we use to estimate the probabilities

    sentence = ["<s>"] * n + sentence + ["<e>"]
    sentence = tuple(sentence)

    N = len(sentence) - n

    product_pi = 1.0

    for t in range(n, N+n):
        word = sentence[t]
        previous_n_gram = sentence[t-n:t]
        #print(word)
        #print(previous_n_gram)
        probability = estimate_probability_smoothing(word, previous_n_gram, n_gram_counts, n_plus1_gram_counts, vocabulary_size, k=k)
        #print(f'Probabilty of {word} given {previous_n_gram}: {probability:.4f}')
        product_pi *= 1/probability
        #print(f'Product pi: {product_pi:.4f}')

    perplexity = product_pi**(1.0/float(N))

    return perplexity


In [19]:
# test

sentences = [['i', 'have', 'a', 'mouse'],
             ['this', 'mouse', 'likes', 'cats']]
unique_words = list(set(sentences[0] + sentences[1]))

unigram_counts = count_n_grams(sentences, 1)
bigram_counts = count_n_grams(sentences, 2)


perplexity = calculate_perplexity(sentences[0],
                                         unigram_counts, bigram_counts,
                                         len(unique_words), k=1.0)
print(f"Perplexité de la première phrase: {perplexity:.4f}")


Perplexité de la première phrase: 4.1930


<a name='3.2'></a>
### 3.2. Perplexité sur une phrase d'entraînement (4 points)
Calculez et affichez la perplexité des modèles bi-grammes, tri-grammes et quadri-grammes à l'aide de votre fonction `calculate_perplexity` définie plus haut sur la première phrase de votre corpus d'entraînement. Utilisez K=0.01 ici.

In [20]:
perplexity_bigram = calculate_perplexity(X_train[0], 
                                         X_train_unigrams, X_train_bigrams, 
                                         len(X_train_vocabulary), k=0.01)

perplexity_trigram = calculate_perplexity(X_train[0],
                                          X_train_bigrams, X_train_trigrams,
                                          len(X_train_vocabulary), k=0.01)

perplexity_quadrigram = calculate_perplexity(X_train[0],
                                             X_train_trigrams, X_train_quadgrams,
                                             len(X_train_vocabulary), k=0.01)

print(f"Perplexité de la première phrase (bi-gramme): {perplexity_bigram:.4f}")
print(f"Perplexité de la première phrase (tri-gramme): {perplexity_trigram:.4f}")
print(f"Perplexité de la première phrase (quadri-gramme): {perplexity_quadrigram:.4f}")

Perplexité de la première phrase (bi-gramme): 45.9451
Perplexité de la première phrase (tri-gramme): 33.0164
Perplexité de la première phrase (quadri-gramme): 39.7894


<a name='3.3'></a>
### 3.3. Perplexité du corpus de test (7 points)

#### 3.3.1. Vous pouvez maintenant calculer et afficher la perplexité des modèles bi-grammes, tri-grammes et quadri-grammes sur votre corpus de test. K=1 ici. (4 points)

Pour calculer la perplexité d'un corpus de *m* phrases, il suffit de suivre la formule suivante :

Soit $N$ le nombre total de jetons dans le corpus de test C et $N_i$ le nombre de jetons dans la phrase i.

$$Perplexity(C) = \Big(\frac{1}{P(s_1, ..., s_m)}\Big)^{1/N}$$
$$P(s_1, ..., s_m) = \prod_{i=1}^{m} p(s_i)$$
$$p(s_i) = \prod_{t=1}^{N_i} \hat{P}(w_t | w_{t-n} \cdots w_{t-1})$$

Puisqu'il s'agit d'un multiplication de probabilités (situées entre 0 et 1), le produit devient nul très rapidement. C'est pourquoi il est plus efficace d'effectuer une transformation vers un espace logarithmique pour transformer les multiplications en addition. Cela donne ainsi la formule suivante:

$$LogPerplexity(C) = 2^{-\frac{1}{N} \sum_{k=1}^{m} log_{2} \; p(s_k)}$$


In [21]:
import math

def calculate_perplexity_corpus(corpus, n_gram_counts, n_plus1_gram_counts, vocabulary_size, k=1.0):

    N = sum([len(sentence) + 1 for sentence in corpus])

    n = len(list(n_gram_counts.keys())[0]) # n is the n of the n-gram we use to estimate the probabilities

    log_sum = 0
    for sentence in corpus:

        sentence_perplexity = 1.0
        sentence = ["<s>"] * n + sentence + ["<e>"]
        sentence = tuple(sentence)

        N_i = len(sentence) - n

        product_pi = 1.0

        for t in range(n, N_i+n):
            word = sentence[t]
            previous_n_gram = sentence[t-n:t]
            probability = estimate_probability_smoothing(word, previous_n_gram, n_gram_counts, n_plus1_gram_counts, vocabulary_size, k=k)
            sentence_perplexity *= probability

        if sentence_perplexity == 0:
            print('Log 0 error ignored! (Underflow)')
            print(sentence)
            print(f'word:  {word}')
            print(f'previous_n_gram:  {previous_n_gram}')
            print(f'Sentence perplexity: {sentence_perplexity:.4f}')
        else:
            log_sum += math.log2(sentence_perplexity)

    perplexity = 2**(-log_sum/N)

    return perplexity

In [22]:
n_gram_counts = {('<s>', 'quick'): 1, ('the', 'quick'): 1, ('quick', 'brown'): 1, ('brown', 'fox'): 1, ('jumps', 'over'): 1, ('over', 'the'): 1, ('the', 'lazy'): 1, ('lazy', 'dog'): 1, ('dog', '<e>'): 1}
n_plus1_gram_counts = { ('<s>', '<s>', 'the', ): 1, ('<s>', 'the', 'quick'): 1, ('the', 'quick', 'brown'): 1, ('quick', 'brown', 'fox'): 1, ('jumps', 'over', 'the'): 1, ('over', 'the', 'lazy'): 1, ('the', 'lazy', 'dog'): 1, ('lazy', 'dog', '<e>'): 1}

train_corpus = [["the", "quick", "brown", "fox"], ["jumps", "over", "the", "lazy", "dog"]]
n_gram_counts = {('<s>', '<s>'): 2, ('<s>', 'the'): 1, ('<s>', 'jumps'): 1, ('the', 'quick'): 1, ('quick', 'brown'): 1, ('brown', 'fox'): 1, ('fox', '<e>'): 1, ('jumps', 'over'): 1, ('over', 'the'): 1, ('the', 'lazy'): 1, ('lazy', 'dog'): 1, ('dog', '<e>'): 1}
n_plus1_gram_counts = {('<s>', '<s>', '<s>', ): 2, ('<s>', '<s>', 'the', ): 1, ('<s>', 'the', 'quick'): 1,  ('<s>', '<s>', 'jumps', ): 1, ('<s>', 'jumps', 'over'): 1, ('the', 'quick', 'brown'): 1, ('quick', 'brown', 'fox'): 1, ('brown', 'fox', '<e>'): 1, ('jumps', 'over', 'the'): 1, ('over', 'the', 'lazy'): 1, ('the', 'lazy', 'dog'): 1, ('lazy', 'dog', '<e>'): 1}

vocabulary = ["the", "quick", "brown", "fox", "jumps", "over", "lazy", "dog", "<e>"]

test_corpus = [["the", "fox"], ["jumps"]]

# Complétez le calcul de la perplexité avec k=1
perplexity_test = calculate_perplexity_corpus(test_corpus, n_gram_counts, n_plus1_gram_counts, len(vocabulary), k=1.0)
print(f"Perplexité du corpus de test: {perplexity_test:.4f}")


Perplexité du corpus de test: 7.7089


#### Sortie attendue

    Perplexité du corpus de test:  7.708920690856638

In [23]:
# Calculez mainenant la perplexité de votre corpus de test

X_test_perplexity_bigram = calculate_perplexity_corpus(X_test, X_train_bigrams, X_train_trigrams, len(X_train_vocabulary), k=1.0)
X_test_perplexity_trigram = calculate_perplexity_corpus(X_test, X_train_trigrams, X_train_quadgrams, len(X_train_vocabulary), k=1.0)
X_test_perplexity_quadgram = calculate_perplexity_corpus(X_test, X_train_quadgrams, X_train_quintgrams, len(X_train_vocabulary), k=1.0)

print()

print(f"Perplexité du corpus de test (bi): {X_test_perplexity_bigram:.4f}")
print(f"Perplexité du corpus de test (tri): {X_test_perplexity_trigram:.4f}")
print(f"Perplexité du corpus de test (quadri): {X_test_perplexity_quadgram:.4f}")

Log 0 error ignored! (Underflow)
('<s>', '<s>', '<s>', 'this', 'is', 'now', 'a', 'situation', 'where', 'this', 'was', 'written', 'by', 'al', 'wilson', 'many', 'years', 'ago', 'and', 'i', 'read', 'it', 'and', 'i', 'said', 'you', 'know', 'that', 'really', 'pertains', 'to', 'what', "'s", 'happening', 'to', 'the', 'united', 'states', 'and', 'it', 'has', 'to', 'do', 'with', 'being', 'fooled', ',', 'it', 'has', 'to', 'do', 'with', 'a', 'lot', 'of', 'different', 'things', 'but', 'when', 'you', "'re", 'listening', 'to', 'this', ',', 'think', 'of', 'our', 'border', ',', 'think', 'of', 'the', 'people', 'that', 'we', "'re", 'letting', 'in', 'by', 'the', 'thousands', 'and', 'hillary', 'clinton', ',', 'you', 'saw', 'those', 'numbers', 'right', '<e>')
word:  <e>
previous_n_gram:  ('those', 'numbers', 'right')
Sentence perplexity: 0.0000
Log 0 error ignored! (Underflow)
('<s>', '<s>', '<s>', '<s>', 'this', 'is', 'now', 'a', 'situation', 'where', 'this', 'was', 'written', 'by', 'al', 'wilson', 'many',

#### 3.3.2. Les perplexités attendues peuvent sembler contre-intuitives.  Comparez-les aux perplexités obtenues sur l'ensemble d'entrainement pour les mêmes modèles. Comment expliquez-vous ces résultats et quelle est votre conclusion ?  (3 points)

> *Entrez votre réponse ici*

<a name='4'></a>
## 4. Construction d'un modèle d'auto-complétion (15 points)

Dans cette dernière partie, vous allez utiliser les modèles n-grammes construits aux numéros précédents afin de faire un modèle d'autocomplétion.

<a name='4.1'></a>
### 4.1 Suggestion d'un mot à partir d'un préfixe (5 points)


La première étape sera de construire une fonction qui suggère un mot à partir des premiers caractères entrés par un utilisateur, considérant un seul type de n-gramme.  

Complétez la fonction `suggest_word` qui calcule les probabilités pour tous les mots suivants possibles et suggère le mot le plus probable. Comme contrainte supplémentaire, le mot suggéré doit commencer avec le préfixe passé en paramètre. Utilisez vos fonctions provenant du numéro 2. (Modèle n-gramme de mots) pour faire vos prédictions.

Cette fonction prends en paramètre:
- previous_n_gram: le n-gramme précédent, sous forme de tuple
- n_gram_counts: Un dictionnaire où la clé est le n-gramme et la valeur est la fréquence de ce n-gramme.
- n_plus1_gram_counts: Un autre dictionnaire, que vous utiliserez pour trouver la fréquence du n-gramme précédent plus le mot actuel.
- vocabulary_size: la taille du vocabulaire
- k: la constante de lissage
- prefixe: Le début du mot que l'on veut prédire

Elle retourne le mot le plus probable avec la probabilité associée

In [24]:

def suggest_word(previous_tokens, n_gram_counts, n_plus1_gram_counts, vocabulary, k=1.0, prefixe=""):

    n = len(list(n_gram_counts.keys())[0]) # n is the n of the n-gram we use to estimate the probabilities

    previous_n_gram = previous_tokens[-n:]
    
    suggestion = None
    max_prob = 0

    probabilities = estimate_probabilities(previous_n_gram, n_gram_counts, n_plus1_gram_counts, vocabulary, k=k)
    for word, prob in probabilities.items():
        if prob > max_prob and word.startswith(prefixe):
            max_prob = prob
            suggestion = word

    return suggestion, max_prob

In [46]:
# test
sentences = [['i', 'have', 'a', 'mouse'],
             ['this', 'mouse', 'likes', 'cats']]
unique_words = build_voc(sentences, threshold=0) # Build the vocabulary with the build_voc function that also adds the <e> token

unigram_counts = count_n_grams(sentences, 1)
bigram_counts = count_n_grams(sentences, 2)

previous_tokens = ["i", "have"]
tmp_suggest1 = suggest_word(previous_tokens, unigram_counts, bigram_counts, unique_words, k=1.0)
print(f"avec les mots précédents 'i have',\n\t le mot suggéré est `{tmp_suggest1[0]}` avec la probabilité {tmp_suggest1[1]:.4f}")

print()


tmp_starts_with = 'm'
tmp_suggest2 = suggest_word(previous_tokens, unigram_counts, bigram_counts, unique_words, k=1.0, prefixe=tmp_starts_with)
print(f"avec les mots précédents 'i have', et une suggestion qui commence par `{tmp_starts_with}`\n\t le mot suggéré est : `{tmp_suggest2[0]}` avec une probabilité de {tmp_suggest2[1]:.4f}")

avec les mots précédents 'i have',
	 le mot suggéré est `a` avec la probabilité 0.2222

avec les mots précédents 'i have', et une suggestion qui commence par `m`
	 le mot suggéré est : `mouse` avec une probabilité de 0.1111


### Sortie attendue

```CPP
avec les mots précédents 'i have',
	 le mot suggéré est `a` avec la probabilité 0.2222

avec les mots précédents 'i have', et une suggestion qui commence par `m`
	 le mot suggéré est : `mouse` avec une probabilité de 0.1111


```

<a name='4.2'></a>
### 4.2 Suggestions multiples (5 points)

Afin de suggérer plusieurs mots à l'utilisateur, une stratégie que l'on peut utiliser est de retourner un ensemble de mots suggérés par plusieurs types de modèles n-grammes.

En utilisant la fonction `suggest_word` du numéro précédent, complétez la fonction `get_suggestions` qui retourne les suggestions des modèles n-grammes passés en paramètre. Vous devrez aussi enlever les doublons dans les suggestions s'il y en a, et ordonner la liste des suggestions en commençant par le mot ayant la probabilité la plus élevée.

La fonction get_suggestions prends en paramètres:
- previous_n_gram: le n-gramme précédent, sous forme de tuple
- n_gram_counts_list: une liste de n-grammes dans l'ordre suivant [unigrammes, bigrammes, trigrammes, quadrigrammes, ...]
- vocabulary_size: la taille du vocabulaire
- k: la constante de lissage (entre 0 et 1)
- prefixe: Le début du mot que l'on veut prédire, "" si au aucun préfixe

In [26]:
def get_suggestions(previous_tokens, n_gram_counts_list, vocabulary, k=1.0, prefixe=""):

    model_counts = len(n_gram_counts_list)

    suggestions = set()
    for i in range(model_counts - 1):
        n_gram_counts = n_gram_counts_list[i]
        n_plus1_gram_counts = n_gram_counts_list[i+1]

        n = len(list(n_gram_counts.keys())[0]) # n is the n of the n-gram we use to estimate the probabilities

        if len(previous_tokens) >= n: # Only evalute n-grams that don't exceed the length of the sentence. MWe are look at n-grams that come after the previous tokens.
            suggestion = suggest_word(previous_tokens, n_gram_counts, n_plus1_gram_counts, vocabulary, k=k, prefixe=prefixe)
            suggestions.add(suggestion)

    # Sort suggestions
    suggestions = sorted(suggestions, key=lambda x: x[1], reverse=True)

    # Return only the words
    suggestions = [tup[0] for tup in suggestions]

    # keep only unique values
    suggestions = list(set(suggestions))

    return suggestions

In [27]:
# test
sentences = [['i', 'have', 'a', 'mouse'],
             ['this', 'mouse', 'likes', 'cats']]
unique_words = list(set(sentences[0] + sentences[1]))

unigram_counts = count_n_grams(sentences, 1)
bigram_counts = count_n_grams(sentences, 2)
trigram_counts = count_n_grams(sentences, 3)
quadgram_counts = count_n_grams(sentences, 4)
qintgram_counts = count_n_grams(sentences, 5)

n_gram_counts_list = [unigram_counts, bigram_counts, trigram_counts, quadgram_counts, qintgram_counts]
previous_tokens = ["i", "have"]
tmp_suggest3 = get_suggestions(previous_tokens, n_gram_counts_list, unique_words, k=1.0)

print(f"Etant donné les mots i have, je suggère :")
display(tmp_suggest3)

Etant donné les mots i have, je suggère :


['a']

##### Sortie attendue

```CPP
Etant donné les mots i have, je suggère :
['a']
```

<a name='4.3'></a>
### 4.3 Autocomplétion (5 points)

Il est maintenant temps de combiner vos fonctions afin de créer le modèle d'autocomplétion. En utilisant le jeu de données d'entraînement, calculez la fréquence des n-grammes allant de 1 à 5 et utilisez la fonction *get_suggestions* afin de suggérer des mots. Vous devrez être en mesure de toujours suggérer des mots à partir du dernier mot entré par l'utilisateur.

Complétez la fonction *update_suggestions*:
- la variable texte_actuel contient tout le texte entré par l'utilisateur
- la variable top_suggestions contient les suggestions qui seront proposées

Vous devrez changer le contenu de la variable top_suggestions pour qu'elle contienne les suggestions des n-grammes.

In [28]:
X_train_n_gram_counts_list = [X_train_unigrams, X_train_bigrams, X_train_trigrams, X_train_quadgrams, X_train_quintgrams]

In [29]:
import ipywidgets as widgets
from IPython.display import display


text_input = widgets.Text(placeholder="Entrez votre text ici...")

suggestions_label = widgets.Label(value="Suggestions: ")

def update_suggestions(change):
    texte_actuel = change["new"]

    if texte_actuel != "":
        # Tokenize the text
        text_data = preprocess(texte_actuel)

        # Replace out-of-vocabulary words
        tokenized_text = replace_oov(text_data, X_train_vocabulary)

        # Get suggestions
        top_suggestions = get_suggestions(tokenized_text[0], X_train_n_gram_counts_list, X_train_vocabulary, k=1.0, prefixe="")

        suggestions_label.value = "Suggestions: " + ", ".join(top_suggestions)

text_input.observe(update_suggestions, names="value")

display(text_input)
display(suggestions_label)

Text(value='', placeholder='Entrez votre text ici...')

Label(value='Suggestions: ')

<a name='5'></a>
## 5. Modèle de génération de phrases (30 points)

Dans cette partie vous allez construire un modèle de génération de phrases en utilisant les n-grammes.


#### Dans la cadre d'un modèle de génération de phrases, indiquez pourquoi la stratégie de suggestion des mots en 4. ne peut pas fonctionner ? (3 points)

>*Entrez votre réponse ici*

<a name='5.1'></a>

### 5.1 Génération stochastique de mots (5 points)

Recodez la fonction suggest_word afin d'utiliser une suggestion stochastique. Autrement dit, au lieu de retourner le mot le plus probable, vous devrez générez le mot suivant selon sa probabilité.

Par exemple si le mot 'like' a la probabilité 0.25 d'être généré, alors il sera retourné 25% du temps.


In [30]:
import random
def suggest_word_with_probs(previous_tokens, n_gram_counts, n_plus1_gram_counts, vocabulary, k=1.0):

    n = len(list(n_gram_counts.keys())[0]) # n is the n of the n-gram we use to estimate the probabilities
    previous_n_gram = previous_tokens[-n:]
    
    estimated_probabilities = estimate_probabilities(previous_n_gram, n_gram_counts, n_plus1_gram_counts, vocabulary, k=k)
    probabilities = [prob for _, prob in estimated_probabilities.items()]
    words = [word for word, _ in estimated_probabilities.items()]

    suggestion = random.choices(words, probabilities)[0]
    return suggestion, estimated_probabilities[suggestion]


<a name='5.2'></a>
### 5.2 Générations de phrases (10 points)

#### 5.2.1. Génération stochastique (4 points)
Complétez maintenant la fonction `generate_sentence` qui génère une phrase longue de n_words en appelant votre nouvelle fonction `suggest_words_with_probs`. La génération doit s'arrêter si le modèle génère un jeton de fin de phrase.

Il ne faut pas oublier d'initialiser les phrases à générer avec le bon nombre de jetons de début de phrase (`<s>`). Par exemple, s'il s'agit d'un modèle bigramme, il faudra initialiser la phrase à [`<s>`]. S'il s'agit d'un modèle trigramme, il faudra initialiser la phrase à [`<s>`, `<s>`]. Vous pouvez trouver la taille du contexte à l'aide de l'expression suivante `len(next(iter(n_gram_counts)))`.

Ensuite, il faudra passer à la fonction `suggest_word` les `n` derniers mots générés où `n` correspond à la taille du contexte.
Finalement, il faudra arrêter la génération si le jeton généré est le jeton de fin (`<e>`)

In [47]:
def generate_sentence(n_words, n_gram_counts, n_plus1_gram_counts, vocabulary, k=0.0001):
    n = len(next(iter(n_gram_counts)))
    
    sentence = ['<s>'] * n
    
    for _ in range(n_words):
        previous_tokens = sentence[-n:]
        
        next_word, _ = suggest_word_with_probs(previous_tokens, n_gram_counts, n_plus1_gram_counts, vocabulary, k=k)

        if next_word == '<e>':
            break
            
        sentence.append(next_word)
        
    for _ in range(n_words):
        next_word, _ = suggest_word(sentence, n_gram_counts, n_plus1_gram_counts, vocabulary, k=k)

        if next_word == '<e>':
            break

        sentence.append(next_word)


        
    return sentence[n:]


#### 5.2.2. Test sur des n-grammes (2 points)
Testez ensuite votre fonction avec des trigrammes et des 5-grammes.

In [74]:
trigram_sentence = generate_sentence(5, X_train_trigrams, X_train_quadgrams, X_train_vocabulary, k=0)
print(f"Phrase générée pour le trigramme: {trigram_sentence}")

Phrase générée pour le trigramme: ['we', "'ll", 'have', 'four', 'more', 'years', 'of', 'obama']


In [78]:
quintgram_sentence = generate_sentence(5, X_train_quintgrams, X_train_sixtgrams, X_train_vocabulary, k=0)
print(f"Phrase générée pour le quintgramme: {quintgram_sentence}")

Phrase générée pour le quintgramme: ['let', "'s", 'turn', 'it', 'around', 'and', 'let', "'s", 'deport', 'them']


#### 5.2.3. Avec k=1.0, que se passe-t-il avec les phrases générées et quelle en est la raison principale ? Que pouvez-vous faire pour améliorer la situation? (2 points)

>Lorsque k=1.0 les phrase genere font moins de sens, car le modele prends les mots ayant la probabilite la plus hautes d'apparaitre sans donner suffisamment de poids au contexte.
Nous pouvons diminuer la valeur de k.

#### 5.2.4.  Quels sont les problèmes si la constante k a une valeur trop petite, voir 0?  (2 points)

>Lorsque k est trop petit nous avons un probleme d'overfitting. Le modele apprend par coeur le texte et n'a pas une bonne generalisation.


<a name='5.3'></a>
### 5.3. Amélioration de la génération stochastique de mots (12 points)

#### 5.3.1. Amélioration stochastique

Comme vous avez pu l'observer, la génération stochastique, bien qu'elle soit efficace pour générer des phrases différentes, a tendance à ne pas générer des phrases toujours cohérentes. Proposez une amélioration de la méthode `suggest_word` que vous implémenterez dans la méthode `suggest_word_new` permettant de générer des phrases plus cohérentes.

##### a) Décrivez votre méthode dans la cellule suivante (3 points)

>*Entrez votre réponse ici*

##### b) Implémentez la méthode proposée (5 points)

In [31]:

def suggest_word_new(previous_tokens, n_gram_counts, n_plus1_gram_counts, vocabulary, k=1.0):

    return None

#### 5.3.2. Génération améliorée (2 points)
Recodez maintenant la fonction `generate_sentence_new` pour appeler votre nouvelle méthode `suggest_word_new`.

In [32]:
def generate_sentence_new(n_words, n_gram_counts, n_plus1_gram_counts, vocabulary, k=0.001):

    return None


#### 5.3.3. Test sur des n-grammes (2 points)
Testez ensuite votre fonction avec des 3-grammes et des 5-grammes et validez que les phrases sont plus cohérentes.

## LIVRABLES:
Vous devez remettre sur Moodle, avant la date d'échéance, un zip contenant les fichiers suivants :

1-	Le code : Vous devez compléter le squelette inf8460_tp2.ipynb sous le nom   equipe_i_inf8460_TP2.ipynb (i = votre numéro d’équipe). Indiquez vos noms et matricules au début du notebook. Ce notebook doit contenir les fonctionnalités requises avec des commentaires appropriés. Le code doit être exécutable sans erreur et accompagné de commentaires appropriés de manière à expliquer les différentes fonctions. Les critères de qualité tels que la lisibilité du code et des commentaires sont importants. Tout votre code et vos résultats doivent être exécutables et reproductibles ;

2-	Un fichier pdf représentant votre notebook complètement exécuté sous format pdf.
Pour créer le fichier cliquez sur File > Download as > PDF via LaTeX (.pdf). Assurez-vous que le PDF est entièrement lisible.


## EVALUATION
Votre TP sera évalué selon les critères suivants :

1. Exécution correcte du code
2. Qualité du code (noms significatifs, structure, gestion d’exception, etc.) avec, entre autres, les recommandations suivantes:
    - Il ne devrait pas y avoir de duplication de code. Utilisez des fonctions pour garder votre code modulaire
    - Votre code devrait être optimisé: un code trop lent entraînera une perte de points
3. Lisibilité du code (Commentaires clairs et informatifs au besoin)
4. Performance/sortie attendue des modèles
5. Réponses correctes/sensées aux questions de réflexion ou d'analyse
