# Importation et Configuration
Import des bibliothèques nécessaires, configuration des modèles et chargement des données de test.

In [1]:
# Importation des bibliothèques nécessaires
import json
import pandas as pd
from transformers import pipeline

# Configuration des modèles
pos_tagger = pipeline("token-classification", model="gilf/french-camembert-postag-model")
word_predictor = pipeline("fill-mask", model="camembert-base")

# Chargement des données de test
def load_tests(filename):
    with open(filename, 'r', encoding='utf-8') as fp:
        test_data = json.load(fp)
    return test_data

test_fn = './data/t3_test_proverbes.json'  # Le fichier de test = À modifier selon votre configuration
tests = load_tests(test_fn)

def get_dataframe(test_proverbs):
    return pd.DataFrame.from_dict(test_proverbs, orient='columns', dtype=None, columns=None)

df = get_dataframe(tests)
df

  from .autonotebook import tqdm as notebook_tqdm
Some weights of the model checkpoint at gilf/french-camembert-postag-model were not used when initializing CamembertForTokenClassification: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing CamembertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing CamembertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at camembert-base were not used when initializing CamembertForMaskedLM: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing CamembertForMaskedLM from the checkpoin

Unnamed: 0,Masked,Word_list,Proverb
0,a beau mentir qui part de loin,"[vient, revient]",a beau mentir qui vient de loin
1,a beau dormir qui vient de loin,"[partir, mentir]",a beau mentir qui vient de loin
2,l’occasion forge le larron,"[fait, occasion]",l’occasion fait le larron
3,"endors-toi, le ciel t’aidera","[bouge, aide]","aide-toi, le ciel t’aidera"
4,"aide-toi, le ciel t’aura","[aidera, aide]","aide-toi, le ciel t’aidera"
5,"ce que femme dit, dieu le veut","[dit, veut]","ce que femme veut, dieu le veut"
6,"ce que femme veut, dieu le souhaite","[dit, veut]","ce que femme veut, dieu le veut"
7,bien mal acquis ne sait jamais,"[profite, fait]",bien mal acquis ne profite jamais
8,bon ouvrier ne déplace pas ses outils,"[fait, querelle]",bon ouvrier ne querelle pas ses outils
9,"pour le fou, c’était tous les jours fête","[est, es]","pour le fou, c’est tous les jours fête"


# Chargement et Configuration des Modèles
Chargement des modèles transformer - camemBERT pour le POS tagging et FlauBERT pour la prédiction de mots masqués. Configuration des tokenizers et paramètres.

In [2]:
# Chargement et Configuration des Modèles

# Importation des bibliothèques nécessaires
from transformers import CamembertTokenizer, CamembertForTokenClassification, CamembertForMaskedLM

# Chargement des modèles transformer
pos_model_name = "gilf/french-camembert-postag-model"
word_model_name = "camembert-base"

# Configuration des tokenizers et paramètres
pos_tokenizer = CamembertTokenizer.from_pretrained(pos_model_name)
pos_model = CamembertForTokenClassification.from_pretrained(pos_model_name)

word_tokenizer = CamembertTokenizer.from_pretrained(word_model_name)
word_model = CamembertForMaskedLM.from_pretrained(word_model_name)

# Pipeline pour le POS tagging
pos_tagger = pipeline("token-classification", model=pos_model, tokenizer=pos_tokenizer)

# Pipeline pour la prédiction de mots masqués
word_predictor = pipeline("fill-mask", model=word_model, tokenizer=word_tokenizer)

Some weights of the model checkpoint at gilf/french-camembert-postag-model were not used when initializing CamembertForTokenClassification: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing CamembertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing CamembertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at camembert-base were not used when initializing CamembertForMaskedLM: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing CamembertForMaskedLM from the checkpoint of a model trained on another task or with anoth

# Identification des Mots à Remplacer
Utilisation de camemBERT pour l'analyse grammaticale et l'identification des verbes à corriger dans les proverbes modifiés.

In [3]:
# Fonction pour identifier les verbes dans un proverbe
def identify_verbs(proverb, pos_tagger):
    tokens = pos_tagger(proverb)
    verbs = [token['word'] for token in tokens if token['entity'] == 'VERB']
    return verbs

# Exemple d'utilisation de la fonction identify_verbs
example_proverb = df['Masked'][0]
verbs_in_example = identify_verbs(example_proverb, pos_tagger)
print(f"Verbes identifiés dans le proverbe '{example_proverb}': {verbs_in_example}")

# Application de la fonction à tous les proverbes modifiés
df['Verbs'] = df['Masked'].apply(lambda x: identify_verbs(x, pos_tagger))
df

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Verbes identifiés dans le proverbe 'a beau mentir qui part de loin': []


Unnamed: 0,Masked,Word_list,Proverb,Verbs
0,a beau mentir qui part de loin,"[vient, revient]",a beau mentir qui vient de loin,[]
1,a beau dormir qui vient de loin,"[partir, mentir]",a beau mentir qui vient de loin,[]
2,l’occasion forge le larron,"[fait, occasion]",l’occasion fait le larron,[]
3,"endors-toi, le ciel t’aidera","[bouge, aide]","aide-toi, le ciel t’aidera",[]
4,"aide-toi, le ciel t’aura","[aidera, aide]","aide-toi, le ciel t’aidera",[]
5,"ce que femme dit, dieu le veut","[dit, veut]","ce que femme veut, dieu le veut",[]
6,"ce que femme veut, dieu le souhaite","[dit, veut]","ce que femme veut, dieu le veut",[]
7,bien mal acquis ne sait jamais,"[profite, fait]",bien mal acquis ne profite jamais,[]
8,bon ouvrier ne déplace pas ses outils,"[fait, querelle]",bon ouvrier ne querelle pas ses outils,[]
9,"pour le fou, c’était tous les jours fête","[est, es]","pour le fou, c’est tous les jours fête",[]


# Sélection du Meilleur Mot de Remplacement
Utilisation de FlauBERT pour évaluer la probabilité contextuelle de chaque mot candidat et sélectionner le meilleur remplacement.

In [4]:
# Sélection du Meilleur Mot de Remplacement

# Fonction pour évaluer la probabilité contextuelle de chaque mot candidat et sélectionner le meilleur remplacement
def select_best_replacement(proverb, masked_proverb, word_list, word_predictor):
    best_word = None
    best_score = float('-inf')
    
    for word in word_list:
        # Remplacer le mot masqué par le mot candidat
        candidate_proverb = masked_proverb.replace("[MASK]", word)
        
        # Évaluer la probabilité contextuelle du proverbe candidat
        predictions = word_predictor(candidate_proverb)
        
        # Trouver la probabilité du mot candidat
        for prediction in predictions:
            if prediction['token_str'] == word:
                score = prediction['score']
                if score > best_score:
                    best_score = score
                    best_word = word
                break
    
    return best_word

# Exemple d'utilisation de la fonction select_best_replacement
example_masked_proverb = df['Masked'][0].replace(df['Verbs'][0], "[MASK]")
example_word_list = df['Word_list'][0]
best_replacement = select_best_replacement(df['Proverb'][0], example_masked_proverb, example_word_list, word_predictor)
print(f"Meilleur remplacement pour le proverbe '{df['Masked'][0]}': {best_replacement}")

# Application de la fonction à tous les proverbes modifiés
df['Best_Replacement'] = df.apply(lambda row: select_best_replacement(row['Proverb'], row['Masked'].replace(row['Verbs'][0], "[MASK]"), row['Word_list'], word_predictor), axis=1)
df

TypeError: replace() argument 1 must be str, not list

# Évaluation et Analyse des Résultats
Mesure de la précision du système, analyse des erreurs, comparaison avec l'approche du TP1 et visualisation des résultats.

In [None]:
# Évaluation et Analyse des Résultats

# Fonction pour calculer la précision du système
def calculate_accuracy(df):
    correct_predictions = df[df['Best_Replacement'] == df['Proverb']].shape[0]
    total_predictions = df.shape[0]
    accuracy = correct_predictions / total_predictions
    return accuracy

# Calcul de la précision
accuracy = calculate_accuracy(df)
print(f"Précision du système: {accuracy * 100:.2f}%")

# Analyse des erreurs
def analyze_errors(df):
    errors = df[df['Best_Replacement'] != df['Proverb']]
    return errors

# Récupération des erreurs
errors = analyze_errors(df)
print(f"Nombre d'erreurs: {errors.shape[0]}")

# Comparaison avec l'approche du TP1
# Note: Cette section nécessite des résultats du TP1 pour une comparaison directe.
# Supposons que nous avons une précision de 85% dans le TP1.
tp1_accuracy = 0.85
print(f"Précision du TP1: {tp1_accuracy * 100:.2f}%")
print(f"Amélioration de la précision: {accuracy - tp1_accuracy:.2f}")

# Visualisation des résultats
import matplotlib.pyplot as plt

# Histogramme des scores de remplacement
plt.figure(figsize=(10, 6))
plt.hist(df['Best_Replacement'], bins=20, alpha=0.7, label='Best Replacement')
plt.xlabel('Scores')
plt.ylabel('Fréquence')
plt.title('Distribution des Scores de Remplacement')
plt.legend()
plt.show()

# Affichage des erreurs
print("Erreurs:")
print(errors[['Masked', 'Best_Replacement', 'Proverb']])