# Tâche 3 - Corriger des proverbes avec des *transformers*

Tout comme pour le premier travail pratique, l'objectif de cette tâche est de corriger des proverbes. Cependant vous devrez choisir et utiliser des modèles transformers (2) pour identifier le mot à remplacer et choisir le meilleur mot à insérer en fonction du contexte du proverbe. 


Consignes : 
- Corriger un proverbe consiste à remplacer un verbe par l’un des mots proposés dans la liste. 
- Choix des modèles transformer: Vous devrez choisir 2 modèles, un pour faire l’analyse grammaticale (*POS tagging*) et l'autre pour choisir le mot à insérer dans le proverbe. Deux contraintes : a) pas de LLMs, et b) utilisez des modèles de HuggingFace qui peuvent traiter le français (ou qui sont multilingues). 
- Entraînement des modèles : Vous pouvez utiliser les modèles préentraînés sans modification. Me consulter en cas de doute.  
- Segmentation : Ne pas segmenter un proverbe en sous-phrases. 
- Tokenisation et plongements de mots : Ceux des modèles utilisés. 
- Prétraitement et normalisation : Rien à faire. 
- Code : Utilisez le fichier ***t3_corriger_proverbes.ipynb*** (ce fichier) pour mener vos expérimentations. 
- Données : Évaluez la performance à l’aide du fichier ***data/t3_test_proverbes.json*** et faire l'analyse de vos résultats. 
- Question : Comment se compare l’approche retenue pour cette tâche par rapport à celle du Travail pratique #1?

Vous pouvez ajouter au *notebook* toutes les cellules dont vous avez besoin pour votre code, vos explications ou la présentation de vos résultats. Vous pouvez également ajouter des sous-sections (par ex. des sous-sections 1.1, 1.2 etc.) si cela améliore la lisibilité.

Notes :
- Évitez les bouts de code trop longs ou trop complexes. Par exemple, il est difficile de comprendre 4-5 boucles ou conditions imbriquées. Si c'est le cas, définissez des sous-fonctions pour refactoriser et simplifier votre code. 
- Expliquez sommairement votre démarche.
- Expliquez les choix que vous faites au niveau de la programmation et des modèles (si non trivial).
- Analyser vos résultats. Indiquez ce que vous observez, si c'est bon ou non, si c'est surprenant, etc. 
- Une analyse quantitative et qualitative d'erreurs est intéressante et permet de mieux comprendre le comportement d'un modèle.

## Section 1 - Lecture du fichier de test 

Le fichier de test ***./data/t3_test_proverbes.json*** contient les proverbes modifiés, la liste de mots candidats et la bonne version du proverbe. 

In [385]:
import json

def load_tests(filename):
    with open(filename, 'r', encoding='utf-8') as fp:
        test_data = json.load(fp)
    return test_data

In [386]:
test_fn = './data/t3_test_proverbes.json'  # Le fichier de test = À modifier selon votre configuration

In [387]:
tests = load_tests(test_fn)

In [388]:
import pandas as pd

def get_dataframe(test_proverbs):
    return pd.DataFrame.from_dict(test_proverbs, orient='columns', dtype=None, columns=None)

df = get_dataframe(tests)
df

Unnamed: 0,Masked,Word_list,Proverb
0,a beau mentir qui part de loin,"[vient, revient]",a beau mentir qui vient de loin
1,a beau dormir qui vient de loin,"[partir, mentir]",a beau mentir qui vient de loin
2,l’occasion forge le larron,"[fait, occasion]",l’occasion fait le larron
3,"endors-toi, le ciel t’aidera","[bouge, aide]","aide-toi, le ciel t’aidera"
4,"aide-toi, le ciel t’aura","[aidera, aide]","aide-toi, le ciel t’aidera"
5,"ce que femme dit, dieu le veut","[dit, veut]","ce que femme veut, dieu le veut"
6,"ce que femme veut, dieu le souhaite","[dit, veut]","ce que femme veut, dieu le veut"
7,bien mal acquis ne sait jamais,"[profite, fait]",bien mal acquis ne profite jamais
8,bon ouvrier ne déplace pas ses outils,"[fait, querelle]",bon ouvrier ne querelle pas ses outils
9,"pour le fou, c’était tous les jours fête","[est, es]","pour le fou, c’est tous les jours fête"


## Section 2 - Code pour repérer les mots qui pourraient être remplacés dans un proverbe modifié

Expliquez ici comment vous procédez pour identifier les mots d'un proverbe qui pourraient faire l'objet d'une substitution.  



In [389]:
import pandas as pd
from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
import re

# Charger les modèles
model_name = "gilf/french-camembert-postag-model"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

Some weights of the model checkpoint at gilf/french-camembert-postag-model were not used when initializing CamembertForTokenClassification: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing CamembertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing CamembertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [390]:
# Créer le pipeline POS
pos_pipeline = pipeline(
    "token-classification",
    model=model,
    tokenizer=tokenizer,
    aggregation_strategy="none"
)

In [391]:
def identify_verbs(proverb):
    pos_tags = pos_pipeline(proverb)
    verbs = [pos['word'].strip('▁') for pos in pos_tags if pos['entity'] in ['VERB', 'VINF', 'V']]
    return verbs

In [392]:
data_test = "a beau dormir qui vient de loin"
identify_verbs(data_test)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


['a', 'dormir', 'vient']

## Section 3 - Modèle et code pour corriger un proverbe

Expliquez ici comment vous procédez pour choisir la meilleure version parmi les proverbes modifiés. 

In [393]:
fill_mask = pipeline("fill-mask", model="camembert/camembert-large")

In [394]:
def mask_verb_in_proverb(proverb, verb):
    masked_proverb = proverb
    
    masked_proverb = re.sub(r'\b' + re.escape(verb) + r'\b', fill_mask.tokenizer.mask_token, masked_proverb)
    
    return masked_proverb

In [395]:
print("Exemple de proverbe masqué : ", data_test)
print("Proverbe masqué : ", mask_verb_in_proverb(data_test, identify_verbs(data_test)[1]))

Exemple de proverbe masqué :  a beau dormir qui vient de loin
Proverbe masqué :  a beau <mask> qui vient de loin


In [396]:
def correct_proverb(masked_proverb, word_list):
    best_proverb = masked_proverb
    best_score = -1
    
    verbs = identify_verbs(masked_proverb)
    
    for verb in verbs:
        for word in word_list:
            try:
                temp_proverb = mask_verb_in_proverb(masked_proverb, verb)
                result = fill_mask(temp_proverb)
                
                score = next((x['score'] for x in result if x['token_str'].strip() == word), 0)
                
                if score > best_score:
                    best_proverb = masked_proverb.replace(verb, word)
                    best_score = score
                    
            except Exception as e:
                print(f"Erreur lors du traitement de {word}: {str(e)}")
                continue
                
    return best_proverb, best_score

## Section 4 - Expérimentations et analyse de résultats


In [397]:

for index, row in df.iterrows():
    masked_proverb = row['Masked']
    word_list = row['Word_list']
    corrected_proverb, score = correct_proverb(masked_proverb, word_list)
    correct = row['Proverb']

    print(f"Proverbe masqué : {masked_proverb}")
    print(f"Proverbe corrigé : {corrected_proverb}")
    print(f"Proverbe correct : {correct}")
    print(f"Score : {score}")
    print("----------------------------------------------------")

    # Calculer les statistiques
successes = sum(1 for index, row in df.iterrows() 
               if correct_proverb(row['Masked'], row['Word_list'])[0] == row['Proverb'])
total = len(df)
success_rate = (successes / total) * 100

print("\nStatistiques globales:")
print(f"Nombre total de proverbes: {total}")
print(f"Nombre de corrections réussies: {successes}")
print(f"Taux de réussite: {success_rate:.2f}%")


Proverbe masqué : a beau mentir qui part de loin
Proverbe corrigé : a beau mentir qui revient de loin
Proverbe correct : a beau mentir qui vient de loin
Score : 0.7409700751304626
----------------------------------------------------
Proverbe masqué : a beau dormir qui vient de loin
Proverbe corrigé : a beau mentir qui vient de loin
Proverbe correct : a beau mentir qui vient de loin
Score : 0.0322551354765892
----------------------------------------------------
Proverbe masqué : l’occasion forge le larron
Proverbe corrigé : l’occasion fait le larron
Proverbe correct : l’occasion fait le larron
Score : 0.8090547323226929
----------------------------------------------------
Erreur lors du traitement de bouge: No mask_token (<mask>) found on the input
Erreur lors du traitement de aide: No mask_token (<mask>) found on the input
Erreur lors du traitement de bouge: No mask_token (<mask>) found on the input
Erreur lors du traitement de aide: No mask_token (<mask>) found on the input
Erreur lor

In [398]:
# Section 4.1 - Analyse quantitative des résultats

# Calculer les statistiques globales
def calculate_statistics(df):
    total_proverbs = len(df)
    successful_corrections = sum(1 for index, row in df.iterrows() 
                                 if correct_proverb(row['Masked'], row['Word_list'])[0] == row['Proverb'])
    success_rate = (successful_corrections / total_proverbs) * 100
    return total_proverbs, successful_corrections, success_rate

# Afficher les statistiques globales
def display_statistics(total_proverbs, successful_corrections, success_rate):
    print(f"Nombre total de proverbes: {total_proverbs}")
    print(f"Nombre de corrections réussies: {successful_corrections}")
    print(f"Taux de réussite: {success_rate:.2f}%")

# Calculer et afficher les statistiques
total_proverbs, successful_corrections, success_rate = calculate_statistics(df)
display_statistics(total_proverbs, successful_corrections, success_rate)

Erreur lors du traitement de bouge: No mask_token (<mask>) found on the input
Erreur lors du traitement de aide: No mask_token (<mask>) found on the input
Erreur lors du traitement de bouge: No mask_token (<mask>) found on the input
Erreur lors du traitement de aide: No mask_token (<mask>) found on the input
Erreur lors du traitement de bouge: No mask_token (<mask>) found on the input
Erreur lors du traitement de aide: No mask_token (<mask>) found on the input
Nombre total de proverbes: 26
Nombre de corrections réussies: 22
Taux de réussite: 84.62%


In [None]:
# Section 4.2 - Analyse qualitative des erreurs

# Identifier les proverbes mal corrigés
def identify_errors(df):
    errors = []
    for index, row in df.iterrows():
        corrected_proverb, _ = correct_proverb(row['Masked'], row['Word_list'])
        if corrected_proverb != row['Proverb']:
            errors.append((row['Masked'], corrected_proverb, row['Proverb']))
    return errors

# Afficher les proverbes mal corrigés
    for masked, corrected, correct in errors:
        print(f"Proverbe masqué : {masked}")
        print(f"Proverbe corrigé : {corrected}")
        print(f"Proverbe correct : {correct}")
        print("----------------------------------------------------")

# Identifier et afficher les erreurs
errors = identify_errors(df)
display_errors(errors)

Erreur lors du traitement de bouge: No mask_token (<mask>) found on the input
Erreur lors du traitement de aide: No mask_token (<mask>) found on the input
Erreur lors du traitement de bouge: No mask_token (<mask>) found on the input
Erreur lors du traitement de aide: No mask_token (<mask>) found on the input
Erreur lors du traitement de bouge: No mask_token (<mask>) found on the input
Erreur lors du traitement de aide: No mask_token (<mask>) found on the input
Proverbe masqué : a beau mentir qui part de loin
Proverbe corrigé : a beau mentir qui revient de loin
Proverbe correct : a beau mentir qui vient de loin
----------------------------------------------------
Proverbe masqué : endors-toi, le ciel t’aidera
Proverbe corrigé : endors-toi, le ciel t’aidera
Proverbe correct : aide-toi, le ciel t’aidera
----------------------------------------------------
Proverbe masqué : bon ouvrier ne déplace pas ses outils
Proverbe corrigé : bon ouvrier ne fait pas ses outils
Proverbe correct : bon ou