# Tâche 2 - Comme le disait le proverbe - les bons mots pour le dire

L'objectif de cette tâche est de compléter des proverbes à l'aide de modèles de langue N-grammes en insérant des mots aux bons endroits dans un texte masqué. Il s'agit d'une tâche de type *cloze test* qui consiste à choisir le meilleur mot à insérer dans un texte en fonction de son contexte. 

Voir l'énoncé du travail #1 pour une description plus détaillée de cette tâche. 

Fichiers:
- *proverbes.txt*: il contient plus de 3000 proverbes, un par ligne de texte. Pour l'entraînement des modèles de langues N-grammes. 
- *test_proverbes_v1.json*: il contient des proverbes masqués, les mots à insérer et la bonne formulation du proverbe. À utiliser pour évaluer la capacité des modèles à mettre les mots aux bons endroits. 

Consignes: 
- Utilisez NLTK pour construire les modèles de langue.
- Utilisez des expressions régulières (une seule ou plusieurs) pour remplacer les * et les ** par des mots. 
- Utilisez NLTK pour faire la tokenisation des proverbes. 
- N'oubliez pas de faire le *padding* des proverbes avec des symboles de début \<BOS\> et de fin \<EOS\>.
- Ne pas modifier les fonctions *load_proverbs* et *load_tests*.
- Ne pas modifier la signature de la fonction *replace_stars_with_words*.
- Utilisez la variable *models* pour conserver les modèles après entraînement. 
- Ne pas modifier la signature de la fonction *train_models*.
- Ne pas modifier la signature de la fonction *fill_masked_proverb*. 
- Des modifications aux signatures pourraient entraîner des déductions dans la correction. 
- Vous pouvez ajouter des cellules au notebook et toutes les fonctions utilitaires que vous voulez. 

## Section 1 - Lecture des fichiers de données (proverbes et tests)

In [16]:
import json

# Ne pas modifier le chemin de ces 2 fichiers pour faciliter notre correction
proverbs_fn = "./data/proverbes.txt"    
test_v1_fn = './data/test_proverbes_v1.json'

def load_proverbs(filename):
    with open(filename, 'r', encoding='utf-8') as f:
        raw_lines = f.readlines()
    return [x.strip() for x in raw_lines]


def load_tests(filename):
    with open(filename, 'r', encoding='utf-8') as fp:
        test_data = json.load(fp)
    return test_data

In [17]:
proverbs = load_proverbs(proverbs_fn)

In [18]:
print("Nombre de proverbes pour l'entraînement: {}".format(len(proverbs)))
print("Un exemple de proverbe: " + proverbs[5])

Nombre de proverbes pour l'entraînement: 3108
Un exemple de proverbe: accord vaut mieux qu’argent


In [19]:
tests = load_tests(test_v1_fn)

In [20]:
import pandas as pd

def get_dataframe(test_proverbs):
    return pd.DataFrame.from_dict(test_proverbs, orient='columns', dtype=None, columns=None)

df = get_dataframe(tests)
df

Unnamed: 0,Masked,Word_list,Proverb
0,a beau * qui ** de loin,"[vient, mentir]",a beau mentir qui vient de loin
1,a * mentir qui vient de **,"[beau, loin]",a beau mentir qui vient de loin
2,l’* fait le **,"[larron, occasion]",l’occasion fait le larron
3,"*-toi, le ciel t’**","[aidera, aide]","aide-toi, le ciel t’aidera"
4,"année de *, ** de blé","[année, gelée]","année de gelée, année de blé"
5,"après la *, le ** temps","[beau, pluie]","après la pluie, le beau temps"
6,"aux échecs, les * sont les plus près des **","[fous, rois]","aux échecs, les fous sont les plus près des rois"
7,"ce que * veut, ** le veut","[femme, dieu]","ce que femme veut, dieu le veut"
8,bien mal * ne ** jamais,"[profite, acquis]",bien mal acquis ne profite jamais
9,bon * ne querelle pas ses **,"[outils, ouvrier]",bon ouvrier ne querelle pas ses outils


## Section 2 - Code pour substituer les masques (étoiles) par des mots

Expliquez ici comment vous procédez pour remplacer les étoiles des proverbes masqués par des mots... N'oubliez pas qu'il faut faire usage d'expressions régulières (une ou plusieurs - au choix). 



In [21]:
import re

def replace_stars_with_words(masked, word1, word2):
    """Remplace les * par word1 et word2 dans cet ordre. Retourne le proverbe complet."""
    # votre code
    proverb = re.sub(r"\*\*", word2, masked)
    proverb = re.sub(r"\*", word1, proverb)
    return proverb  # Retourne le proverbe avec des mots à la place des étoiles

## Section 3 - Construction des modèles de langue N-grammes. 

La fonction ***train_models*** prend en entrée une liste de proverbes et construit les trois modèles unigramme, bigramme et trigramme.

Les 3 modèles entraînés sont conservés dans *models*, un dictionnaire Python qui prend la forme 

<pre>
{
   1: modele_unigramme, 
   2: modele_bigramme, 
   3: modele_trigramme
}
</pre>

avec comme clé la valeur N du modèle et comme valeur le modèle construit par NLTK.

Expliquez ici comment vous procéder pour construire vos modèles avec NLTK, pour obtenir les n-grammes de mots, pour déterminer le vocabulaire, etc...



In [26]:
import nltk
from nltk.util import ngrams, pad_sequence
from nltk import word_tokenize
from nltk.lm.models import Laplace
from nltk import word_tokenize, bigrams, trigrams


# autres librairies à importer pour la partie sur les N-grammes?

BOS = '<BOS>'  # Jeton de début de proverbe
EOS = '<EOS>'  # Jeton de fin de proverbe

models = train_models(proverbs)  # les modèles entraînés - [1: modele_unigramme, 2: modele_bigramme, 3: modele_trigramme] 

[('<BOS>', '<BOS>', 'a'),
 ('<BOS>', 'a', 'beau'),
 ('a', 'beau', 'mentir'),
 ('beau', 'mentir', 'qui'),
 ('mentir', 'qui', 'vient'),
 ('qui', 'vient', 'de'),
 ('vient', 'de', 'loin'),
 ('de', 'loin', '<EOS>'),
 ('loin', '<EOS>', '<EOS>'),
 ('<BOS>', '<BOS>', 'a'),
 ('<BOS>', 'a', 'beau'),
 ('a', 'beau', 'se'),
 ('beau', 'se', 'lever'),
 ('se', 'lever', 'tard'),
 ('lever', 'tard', ','),
 ('tard', ',', 'qui'),
 (',', 'qui', 'a'),
 ('qui', 'a', 'bruit'),
 ('a', 'bruit', 'de'),
 ('bruit', 'de', 'se'),
 ('de', 'se', 'lever'),
 ('se', 'lever', 'matin'),
 ('lever', 'matin', '<EOS>'),
 ('matin', '<EOS>', '<EOS>'),
 ('<BOS>', '<BOS>', 'abandon'),
 ('<BOS>', 'abandon', 'fait'),
 ('abandon', 'fait', 'larron'),
 ('fait', 'larron', '<EOS>'),
 ('larron', '<EOS>', '<EOS>'),
 ('<BOS>', '<BOS>', 'abeilles'),
 ('<BOS>', 'abeilles', 'sans'),
 ('abeilles', 'sans', 'reine'),
 ('sans', 'reine', ','),
 ('reine', ',', 'ruche'),
 (',', 'ruche', 'perdue'),
 ('ruche', 'perdue', '<EOS>'),
 ('perdue', '<EOS>', '<

In [23]:


def build_vocabulary(text_list):
    all_unigrams = list()
    for sentence in text_list:
        word_list = word_tokenize(sentence.lower())
        all_unigrams = all_unigrams + word_list
    voc = set(all_unigrams)
    voc.add(BOS)
    voc.add(EOS)
    return list(voc)

In [24]:

def get_ngrams(text_list, n=2):
    all_ngrams = list()
    for sentence in text_list:
        tokens = word_tokenize(sentence.lower())
        padded_sent = list(pad_sequence(tokens, pad_left=True, left_pad_symbol=BOS, pad_right=True, right_pad_symbol=EOS, n=n))
        all_ngrams = all_ngrams + list(ngrams(padded_sent, n=n))      
    return all_ngrams

In [25]:
def train_models(proverbs):
    """ Vous ajoutez à partir d'ici le code dont vous avez besoin
        pour construire les différents modèles N-grammes.
        Cette fonction doit construire tous les modèles en une seule passe.
        Voir les consignes de l'énoncé du travail pratique concernant les modèles à entraîner.

        Vous pouvez ajouter les fonctions/méthodes et variables que vous jugerez nécessaire.
        Merci de ne pas modifier la signature et le comportement de cette fonction (nom, arguments, sauvegarde des modèles).
    """

    # Votre code à partir d'ici...  
    vocabulary = build_vocabulary(proverbs)
    
    unigram = get_ngrams(proverbs, n=1)
    bigram = get_ngrams(proverbs, n=2)
    trigram = get_ngrams(proverbs, n=3)
    display(trigram)


    model1 = Laplace(1)
    model1.fit([unigram], vocabulary_text=vocabulary)
    
    model2 = Laplace(2)
    model2.fit([bigram], vocabulary_text=vocabulary)
    
    model3 = Laplace(3)
    model3.fit([trigram], vocabulary_text=vocabulary)

    
    # Sauvegarde de vos modèles 
    models = {
        1: model1,
        2: model2,
        3: model3
    }
    return models
    

## Section 4 - Compléter un proverbe

In [None]:
def fill_masked_proverb(masked, word_list, n=3, criteria="perplexity"):
    """ Fonction qui complète un texte à trous (des mots masqués) en ajoutant 
        les bons mots aux bons endroits (un "cloze test").

        Le paramètre criteria indique la mesure qu'on utilise 
        pour choisir le mot le plus approprié: "logprob" ou "perplexity".
        On retourne l'estimation de cette mesure sur le proverbe complet,
        c.-à-d. en utilisant tous les mots du proverbe.

        Le paramètre n désigne le modèle utilisé.
        1 - unigramme NLTK, 2 - bigramme NLTK, 3 - trigramme NLTK
        
        Cette fonction retourne la solution (le proverbe complété) et 
        la valeur de logprob ou perplexité (selon le paramètre en entrée de la fonction). 
    """

    # Votre code à partir d'ici. Vous pouvez modifier comme bon vous semble.
    result = replace_stars_with_words(masked, word_list[0], word_list[1]).split()
    result2 = replace_stars_with_words(masked, word_list[1], word_list[0]).split()

    display(models[n].perplexity(result))
    display(models[n].logscore(result))
    display(models[n].perplexity(result2))
    display(models[n].logscore(result2))

    #---- À retirer à partir d'ici ----------
    best_perplexity = 1500
    best_logprob = -100
    result = 'bonne femme fait le bon homme'
    #---- À retirer ce qui précède ----------

    if criteria == "perplexity":
        score = best_perplexity
    else:
        score = best_logprob
    return result, score

New code

In [32]:
from itertools import permutations

def fill_masked_proverb(masked, word_list, n=3, criteria="perplexity"):
    # Tokenize the masked proverb
    proverb_tokens = nltk.word_tokenize(masked)

    # Create the N-gram model based on the specified 'n'
    ngram_model = models[n]

    # Initialize variables to store the best result and score
    best_result = ""
    best_score = float('inf') if criteria == "perplexity" else float('-inf')

    # Generate all possible word permutations (4 combinations)
    word_permutations = list(permutations(word_list, 2))

    # Iterate through each word permutation
    for word1, word2 in word_permutations:
        # Replace the '*' in the proverb with the current words
        current_result = replace_stars_with_words(masked, word1, word2)
        completed_proverb = replace_stars_with_words(masked, word1, word2)
        completed_proverb = get_ngrams([completed_proverb], n)
        
        
        # Calculate logprob or perplexity based on the chosen criteria
        if criteria == "perplexity":
            score = ngram_model.perplexity(completed_proverb)
            # display("perplex of: ")
            # display(completed_proverb)
            # display(score)
            # print(current_result + str(score))
        else:
            score = ngram_model.logscore(completed_proverb)
            # display("logprob of: ")
            # display(completed_proverb)
            # display(score)
            # print(current_result + str(score))

        # Update the best result and score if the current score is better
        if (criteria == "perplexity" and score < best_score) or (criteria == "logprob" and score > best_score):
            best_score = score
            best_result = current_result

    return best_result, best_score

Un exemple pour illustrer l'utilisation de cette fonction

In [42]:
masked =  "Les roses sont * et les tulipes sont **"   
word_list = ['rouges', 'bleues']    
fill_masked_proverb(masked, word_list, n=3, criteria="perplexity")

('Les roses sont rouges et les tulipes sont bleues', 2839.375674238856)

## Section 5 - Expérimentations et analyse de vos résultats

Décrivez ici les résultats obtenus et présentez l'évaluation obtenue sur le fichier de test. Vous pouvez ajouter le nombre de cellules que vous souhaitez. 

In [34]:
for test in tests:
    for i in range(1, 4):
        display(f"perplexity: {i} ->" + str(fill_masked_proverb(test['Masked'], test['Word_list'], n=i, criteria="perplexity")))
        display(f"logprob: {i} ->" + str(fill_masked_proverb(test['Masked'], test['Word_list'], n=i, criteria="logprob")))

"perplexity: 1 ->('a beau vient qui mentir de loin', 434.15031558678913)"

"logprob: 1 ->('a beau vient qui mentir de loin', -15.278993850906799)"

"perplexity: 2 ->('a beau mentir qui vient de loin', 1274.5300428347618)"

"logprob: 2 ->('a beau vient qui mentir de loin', -12.126704472843189)"

"perplexity: 3 ->('a beau mentir qui vient de loin', 1803.3372555720612)"

"logprob: 3 ->('a beau vient qui mentir de loin', -12.126704472843189)"

"perplexity: 1 ->('a loin mentir qui vient de beau', 434.1503155867886)"

"logprob: 1 ->('a beau mentir qui vient de loin', -15.278993850906799)"

"perplexity: 2 ->('a beau mentir qui vient de loin', 1274.5300428347618)"

"logprob: 2 ->('a beau mentir qui vient de loin', -12.126704472843189)"

"perplexity: 3 ->('a beau mentir qui vient de loin', 1803.3372555720612)"

"logprob: 3 ->('a beau mentir qui vient de loin', -12.126704472843189)"

"perplexity: 1 ->('l’larron fait le occasion', 294.2095232621012)"

"logprob: 1 ->('l’larron fait le occasion', -15.278993850906799)"

"perplexity: 2 ->('l’occasion fait le larron', 387.0857519607624)"

"logprob: 2 ->('l’larron fait le occasion', -12.126704472843189)"

"perplexity: 3 ->('l’occasion fait le larron', 679.8140555421946)"

"logprob: 3 ->('l’larron fait le occasion', -12.126704472843189)"

"perplexity: 1 ->('aidera-toi, le ciel t’aide', 559.2972069523098)"

"logprob: 1 ->('aidera-toi, le ciel t’aide', -15.278993850906799)"

"perplexity: 2 ->('aidera-toi, le ciel t’aide', 1112.741343977163)"

"logprob: 2 ->('aidera-toi, le ciel t’aide', -12.126704472843189)"

"perplexity: 3 ->('aide-toi, le ciel t’aidera', 2376.010535293619)"

"logprob: 3 ->('aidera-toi, le ciel t’aide', -12.126704472843189)"

"perplexity: 1 ->('année de année, gelée de blé', 671.8262356027944)"

"logprob: 1 ->('année de année, gelée de blé', -15.278993850906799)"

"perplexity: 2 ->('année de gelée, année de blé', 1533.8494257688799)"

"logprob: 2 ->('année de année, gelée de blé', -12.126704472843189)"

"perplexity: 3 ->('année de gelée, année de blé', 1812.8699134684505)"

"logprob: 3 ->('année de année, gelée de blé', -12.126704472843189)"

"perplexity: 1 ->('après la beau, le pluie temps', 292.99932975288795)"

"logprob: 1 ->('après la beau, le pluie temps', -15.278993850906799)"

"perplexity: 2 ->('après la pluie, le beau temps', 549.795128922859)"

"logprob: 2 ->('après la beau, le pluie temps', -12.126704472843189)"

"perplexity: 3 ->('après la pluie, le beau temps', 1107.8713269707812)"

"logprob: 3 ->('après la beau, le pluie temps', -12.126704472843189)"

"perplexity: 1 ->('aux échecs, les fous sont les plus près des rois', 458.2571256544822)"

"logprob: 1 ->('aux échecs, les fous sont les plus près des rois', -15.278993850906799)"

"perplexity: 2 ->('aux échecs, les fous sont les plus près des rois', 756.6905234977802)"

"logprob: 2 ->('aux échecs, les fous sont les plus près des rois', -12.126704472843189)"

"perplexity: 3 ->('aux échecs, les fous sont les plus près des rois', 1557.1067673680873)"

"logprob: 3 ->('aux échecs, les fous sont les plus près des rois', -12.126704472843189)"

"perplexity: 1 ->('ce que femme veut, dieu le veut', 199.92761896076655)"

"logprob: 1 ->('ce que femme veut, dieu le veut', -15.278993850906799)"

"perplexity: 2 ->('ce que femme veut, dieu le veut', 723.0899272440836)"

"logprob: 2 ->('ce que femme veut, dieu le veut', -12.126704472843189)"

"perplexity: 3 ->('ce que femme veut, dieu le veut', 1196.7163999336085)"

"logprob: 3 ->('ce que femme veut, dieu le veut', -12.126704472843189)"

"perplexity: 1 ->('bien mal profite ne acquis jamais', 943.3748299993829)"

"logprob: 1 ->('bien mal profite ne acquis jamais', -15.278993850906799)"

"perplexity: 2 ->('bien mal acquis ne profite jamais', 1288.890734846945)"

"logprob: 2 ->('bien mal profite ne acquis jamais', -12.126704472843189)"

"perplexity: 3 ->('bien mal acquis ne profite jamais', 1416.2650759891033)"

"logprob: 3 ->('bien mal profite ne acquis jamais', -12.126704472843189)"

"perplexity: 1 ->('bon outils ne querelle pas ses ouvrier', 744.5506256726524)"

"logprob: 1 ->('bon outils ne querelle pas ses ouvrier', -15.278993850906799)"

"perplexity: 2 ->('bon ouvrier ne querelle pas ses outils', 1148.0503629535992)"

"logprob: 2 ->('bon outils ne querelle pas ses ouvrier', -12.126704472843189)"

"perplexity: 3 ->('bon ouvrier ne querelle pas ses outils', 1315.9389510520746)"

"logprob: 3 ->('bon outils ne querelle pas ses ouvrier', -12.126704472843189)"

"perplexity: 1 ->('ce n’est pas tous les fête jours', 214.04367830604437)"

"logprob: 1 ->('ce n’est pas tous les fête jours', -15.278993850906799)"

"perplexity: 2 ->('ce n’est pas tous les jours fête', 223.3179148965538)"

"logprob: 2 ->('ce n’est pas tous les fête jours', -12.126704472843189)"

"perplexity: 3 ->('ce n’est pas tous les jours fête', 448.1899617514355)"

"logprob: 3 ->('ce n’est pas tous les fête jours', -12.126704472843189)"

"perplexity: 1 ->('pour le fête, c’est tous les jours fou', 235.6020049179169)"

"logprob: 1 ->('pour le fête, c’est tous les jours fou', -15.278993850906799)"

"perplexity: 2 ->('pour le fou, c’est tous les jours fête', 393.78036189764686)"

"logprob: 2 ->('pour le fête, c’est tous les jours fou', -12.126704472843189)"

"perplexity: 3 ->('pour le fou, c’est tous les jours fête', 950.8258738005812)"

"logprob: 3 ->('pour le fête, c’est tous les jours fou', -12.126704472843189)"

"perplexity: 1 ->('dire et faire, sont deux', 246.59321837342426)"

"logprob: 1 ->('dire et faire, sont deux', -15.278993850906799)"

"perplexity: 2 ->('dire et faire, sont deux', 836.1471559804386)"

"logprob: 2 ->('dire et faire, sont deux', -12.126704472843189)"

"perplexity: 3 ->('dire et faire, sont deux', 1200.5147460427463)"

"logprob: 3 ->('dire et faire, sont deux', -12.126704472843189)"

"perplexity: 1 ->('mieux vaut prévenir que guérir', 935.3732551884195)"

"logprob: 1 ->('mieux vaut prévenir que guérir', -15.278993850906799)"

"perplexity: 2 ->('mieux vaut prévenir que guérir', 657.1576145141154)"

"logprob: 2 ->('mieux vaut prévenir que guérir', -12.126704472843189)"

"perplexity: 3 ->('mieux vaut prévenir que guérir', 769.36756133643)"

"logprob: 3 ->('mieux vaut prévenir que guérir', -12.126704472843189)"

"perplexity: 1 ->('d’un sac on ne peut tirer deux moutures', 403.91848590272986)"

"logprob: 1 ->('d’un sac on ne peut tirer deux moutures', -15.278993850906799)"

"perplexity: 2 ->('d’un sac on ne peut tirer deux moutures', 488.19155852476814)"

"logprob: 2 ->('d’un sac on ne peut tirer deux moutures', -12.126704472843189)"

"perplexity: 3 ->('d’un sac on ne peut tirer deux moutures', 1155.7701557752084)"

"logprob: 3 ->('d’un sac on ne peut tirer deux moutures', -12.126704472843189)"

"perplexity: 1 ->('à qui nul aide, dieu ne peut nuire', 375.52079963825605)"

"logprob: 1 ->('à qui nul aide, dieu ne peut nuire', -15.278993850906799)"

"perplexity: 2 ->('à qui dieu aide, nul ne peut nuire', 751.2648345803655)"

"logprob: 2 ->('à qui nul aide, dieu ne peut nuire', -12.126704472843189)"

"perplexity: 3 ->('à qui dieu aide, nul ne peut nuire', 1345.6322146824257)"

"logprob: 3 ->('à qui nul aide, dieu ne peut nuire', -12.126704472843189)"

"perplexity: 1 ->('il n’y a point de rose de cent jours', 254.75368721972123)"

"logprob: 1 ->('il n’y a point de rose de cent jours', -15.278993850906799)"

"perplexity: 2 ->('il n’y a point de rose de cent jours', 260.5325263406725)"

"logprob: 2 ->('il n’y a point de rose de cent jours', -12.126704472843189)"

"perplexity: 3 ->('il n’y a point de rose de cent jours', 424.6014121809335)"

"logprob: 3 ->('il n’y a point de rose de cent jours', -12.126704472843189)"

"perplexity: 1 ->('il faut le voir pour le croire', 261.6202283822203)"

"logprob: 1 ->('il faut le voir pour le croire', -15.278993850906799)"

"perplexity: 2 ->('il faut le voir pour le croire', 544.9483466042567)"

"logprob: 2 ->('il faut le voir pour le croire', -12.126704472843189)"

"perplexity: 3 ->('il faut le voir pour le croire', 813.5129741860222)"

"logprob: 3 ->('il faut le voir pour le croire', -12.126704472843189)"

"perplexity: 1 ->('on ne vend pas le poisson qui est encore dans la mer', 266.96538821223555)"

"logprob: 1 ->('on ne vend pas le poisson qui est encore dans la mer', -15.278993850906799)"

"perplexity: 2 ->('on ne vend pas le poisson qui est encore dans la mer', 490.44513347493694)"

"logprob: 2 ->('on ne vend pas le poisson qui est encore dans la mer', -12.126704472843189)"

"perplexity: 3 ->('on ne vend pas le poisson qui est encore dans la mer', 1140.570035768997)"

"logprob: 3 ->('on ne vend pas le poisson qui est encore dans la mer', -12.126704472843189)"

"perplexity: 1 ->('la langue d’un muet vaut mieux que celle d’un menteur', 243.97139262518937)"

"logprob: 1 ->('la langue d’un muet vaut mieux que celle d’un menteur', -15.278993850906799)"

"perplexity: 2 ->('la langue d’un muet vaut mieux que celle d’un menteur', 310.137284487743)"

"logprob: 2 ->('la langue d’un muet vaut mieux que celle d’un menteur', -12.126704472843189)"

"perplexity: 3 ->('la langue d’un muet vaut mieux que celle d’un menteur', 850.176382139804)"

"logprob: 3 ->('la langue d’un muet vaut mieux que celle d’un menteur', -12.126704472843189)"

"perplexity: 1 ->('bon femme fait le bonne homme', 301.89383147747196)"

"logprob: 1 ->('bon femme fait le bonne homme', -15.278993850906799)"

"perplexity: 2 ->('bonne femme fait le bon homme', 832.73931698213)"

"logprob: 2 ->('bon femme fait le bonne homme', -12.126704472843189)"

"perplexity: 3 ->('bonne femme fait le bon homme', 1276.597239484895)"

"logprob: 3 ->('bon femme fait le bonne homme', -12.126704472843189)"

"perplexity: 1 ->('bonne femme fait le bon homme', 301.89383147747196)"

"logprob: 1 ->('bonne homme fait le bon femme', -15.278993850906799)"

"perplexity: 2 ->('bonne femme fait le bon homme', 832.73931698213)"

"logprob: 2 ->('bonne homme fait le bon femme', -12.126704472843189)"

"perplexity: 3 ->('bonne femme fait le bon homme', 1276.597239484895)"

"logprob: 3 ->('bonne homme fait le bon femme', -12.126704472843189)"

"perplexity: 1 ->('ce que femme veut, dieu le veut', 199.92761896076655)"

"logprob: 1 ->('ce que femme veut, dieu le veut', -15.278993850906799)"

"perplexity: 2 ->('ce que femme veut, dieu le veut', 723.0899272440836)"

"logprob: 2 ->('ce que femme veut, dieu le veut', -12.126704472843189)"

"perplexity: 3 ->('ce que femme veut, dieu le veut', 1196.7163999336085)"

"logprob: 3 ->('ce que femme veut, dieu le veut', -12.126704472843189)"

"perplexity: 1 ->('ce le femme veut, dieu que veut', 199.92761896076644)"

"logprob: 1 ->('ce que femme veut, dieu le veut', -15.278993850906799)"

"perplexity: 2 ->('ce que femme veut, dieu le veut', 723.0899272440836)"

"logprob: 2 ->('ce que femme veut, dieu le veut', -12.126704472843189)"

"perplexity: 3 ->('ce que femme veut, dieu le veut', 1196.7163999336085)"

"logprob: 3 ->('ce que femme veut, dieu le veut', -12.126704472843189)"

"perplexity: 1 ->('grand menteur, grand parleur', 924.0972717761347)"

"logprob: 1 ->('grand parleur, grand menteur', -15.278993850906799)"

"perplexity: 2 ->('grand parleur, grand menteur', 1361.9741465253405)"

"logprob: 2 ->('grand parleur, grand menteur', -12.126704472843189)"

"perplexity: 3 ->('grand parleur, grand menteur', 1663.4019953848767)"

"logprob: 3 ->('grand parleur, grand menteur', -12.126704472843189)"

"perplexity: 1 ->('grand parleur, menteur grand', 924.0972717761347)"

"logprob: 1 ->('grand parleur, grand menteur', -15.278993850906799)"

"perplexity: 2 ->('grand parleur, grand menteur', 1361.9741465253405)"

"logprob: 2 ->('grand parleur, grand menteur', -12.126704472843189)"

"perplexity: 3 ->('grand parleur, grand menteur', 1663.4019953848767)"

"logprob: 3 ->('grand parleur, grand menteur', -12.126704472843189)"

"perplexity: 1 ->('le poisson pourrit par la tête', 642.4681347879072)"

"logprob: 1 ->('le poisson pourrit par la tête', -15.278993850906799)"

"perplexity: 2 ->('le poisson pourrit par la tête', 505.29241759843086)"

"logprob: 2 ->('le poisson pourrit par la tête', -12.126704472843189)"

"perplexity: 3 ->('le poisson pourrit par la tête', 891.4313734431025)"

"logprob: 3 ->('le poisson pourrit par la tête', -12.126704472843189)"

"perplexity: 1 ->('le tête pourrit par la poisson', 642.4681347879072)"

"logprob: 1 ->('le tête pourrit par la poisson', -15.278993850906799)"

"perplexity: 2 ->('le poisson pourrit par la tête', 505.29241759843086)"

"logprob: 2 ->('le tête pourrit par la poisson', -12.126704472843189)"

"perplexity: 3 ->('le poisson pourrit par la tête', 891.4313734431025)"

"logprob: 3 ->('le tête pourrit par la poisson', -12.126704472843189)"

"perplexity: 1 ->('mieux vaut prévenir que guérir', 935.3732551884195)"

"logprob: 1 ->('mieux vaut prévenir que guérir', -15.278993850906799)"

"perplexity: 2 ->('mieux vaut prévenir que guérir', 657.1576145141154)"

"logprob: 2 ->('mieux vaut prévenir que guérir', -12.126704472843189)"

"perplexity: 3 ->('mieux vaut prévenir que guérir', 769.36756133643)"

"logprob: 3 ->('mieux vaut prévenir que guérir', -12.126704472843189)"

"perplexity: 1 ->('quand la poire est mûre, elle tombe', 559.5728134522325)"

"logprob: 1 ->('quand la poire est mûre, elle tombe', -15.278993850906799)"

"perplexity: 2 ->('quand la poire est mûre, elle tombe', 1265.0539534717645)"

"logprob: 2 ->('quand la poire est mûre, elle tombe', -12.126704472843189)"

"perplexity: 3 ->('quand la poire est mûre, elle tombe', 1385.5482220915662)"

"logprob: 3 ->('quand la poire est mûre, elle tombe', -12.126704472843189)"

"perplexity: 1 ->('quand la poire est tombe, elle mûre', 559.5728134522325)"

"logprob: 1 ->('quand la poire est tombe, elle mûre', -15.278993850906799)"

"perplexity: 2 ->('quand la poire est mûre, elle tombe', 1265.0539534717645)"

"logprob: 2 ->('quand la poire est tombe, elle mûre', -12.126704472843189)"

"perplexity: 3 ->('quand la poire est mûre, elle tombe', 1385.5482220915662)"

"logprob: 3 ->('quand la poire est tombe, elle mûre', -12.126704472843189)"

## Section 6 - Partie réservée pour faire nos tests lors de la correction

Merci de ne pas modifier ni retirer cette section du notebook ! 