In [None]:
import requests
import pdb
import re
import os
import random
import torch
from bs4 import BeautifulSoup
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
import math
from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification, TFAutoModelForSequenceClassification, CamembertTokenizer, CamembertForSequenceClassification, Trainer, TrainingArguments
from sklearn.metrics import classification_report, confusion_matrix, mean_absolute_error, mean_squared_error
from torch.utils.data import Dataset
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, f1_score

In [None]:
headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0"}
base_url = 'https://fr.trustpilot.com/review/www.cdiscount.com'

In [None]:
def fetch_url(url, headers, max_attempts=10):
    for attempt in range(max_attempts):
        timeout = random.randint(1, 10)
        try:
            response = requests.get(url, headers=headers, timeout=timeout)
            response.raise_for_status()  # Raise en exception pour les HTTP erreurs
            print(f'Successfully fetched {url}')
            return response
        except requests.RequestException as e:
            print(f'Attempt {attempt + 1} failed for {url} with timeout {timeout}: {e}')
    return None

response = fetch_url(base_url, headers)
contenu = response.text

def extract_comments_and_total(contenu):
    comments = re.findall(r'"reviewBody":"(.*?)"', contenu)

    rating = re.findall(r'"ratingValue":"(.*?)"', contenu)
    matches = re.findall(r'"reviewBody":"(.*?)"\s*,\s*"reviewRating":\{[^}]*?"ratingValue":"(.*?)"\}',contenu)
    ratings = [rating for comment, rating in matches if comment in comments]

    nb_views_match = re.search(r"(?:[\d\s]+) sur ([\d\s]+) avis", contenu)
    total_reviews = int(nb_views_match.group(1).replace('\u202f', '').replace(' ', '')) if nb_views_match else len(comments)
    return comments, ratings, total_reviews


comments, ratings, total_reviews = extract_comments_and_total(contenu)
print(ratings)

Successfully fetched https://fr.trustpilot.com/review/www.cdiscount.com
['1', '1', '1', '1', '1', '4', '1', '4', '5', '5', '1', '5', '1', '1', '1', '4', '4', '1']


In [None]:
comments, ratings, total_reviews = extract_comments_and_total(contenu)

all_data = [{"comment": c, "rating": float(r)} for c, r in zip(comments, ratings)]

# Calcul du nombre total de pages
total_pages = math.ceil(total_reviews / 20) if total_reviews else 1
print(f"Nombre total d'avis : {total_reviews} => {total_pages} pages estim√©es.")

# R√©cup√©ration des pages suivantes
for page in range(2, 50 + 1):
    url = f"{base_url}?page={page}"
    response = fetch_url(url, headers)  # üëà tu dois refetch le contenu de la page !
    contenu = response.text

    page_comments = re.findall(r'"reviewBody":"(.*?)"', contenu)
    page_ratings = re.findall(r'"reviewRating":{"@type":"Rating","bestRating":"5","worstRating":"1","ratingValue":"(.*?)"', contenu)

    if not page_comments:
        print(f"Aucun commentaire trouv√© √† la page {page}, arr√™t.")
        break

    all_data.extend(
        {"comment": c, "rating": float(r)}
        for c, r in zip(page_comments, page_ratings)
    )
    print(f"Page {page} : {len(page_comments)} commentaires trouv√©s.")

print(f"\nTotal de commentaires r√©cup√©r√©s : {len(all_data)}")

all_data



Nombre total d'avis : 268427 => 13422 pages estim√©es.
Successfully fetched https://fr.trustpilot.com/review/www.cdiscount.com?page=2
Page 2 : 20 commentaires trouv√©s.
Successfully fetched https://fr.trustpilot.com/review/www.cdiscount.com?page=3
Page 3 : 20 commentaires trouv√©s.
Successfully fetched https://fr.trustpilot.com/review/www.cdiscount.com?page=4
Page 4 : 20 commentaires trouv√©s.
Successfully fetched https://fr.trustpilot.com/review/www.cdiscount.com?page=5
Page 5 : 20 commentaires trouv√©s.
Successfully fetched https://fr.trustpilot.com/review/www.cdiscount.com?page=6
Page 6 : 20 commentaires trouv√©s.
Successfully fetched https://fr.trustpilot.com/review/www.cdiscount.com?page=7
Page 7 : 20 commentaires trouv√©s.
Successfully fetched https://fr.trustpilot.com/review/www.cdiscount.com?page=8
Page 8 : 20 commentaires trouv√©s.
Successfully fetched https://fr.trustpilot.com/review/www.cdiscount.com?page=9
Page 9 : 20 commentaires trouv√©s.
Successfully fetched https://fr.t

[{'comment': 'Je suis profond√©ment m√©content de Cdiscount suite √† l‚Äôachat et l‚Äôinstallation de ma machine √† laver. J‚Äôai pay√© un suppl√©ment pour une installation professionnelle, mais celle-ci a √©t√© catastrophique. La vis qui maintient le tambour n‚Äôa pas √©t√© retir√©e, une erreur √©l√©mentaire. D√®s la premi√®re utilisation, les vibrations provoqu√©es ont endommag√© non seulement mon sol et mon mur, mais aussi les pieds m√™mes de la machine.Face √† ces dommages √©vidents caus√©s par leur n√©gligence, j‚Äôai demand√© un d√©dommagement. Leur \\',
  'rating': 1.0},
 {'comment': "je suis en situation handicape j ai command√© un matelas qui n'est jamais arriv√©e malgres un confirmation de livraison et j espere qu'ils me rembourseront , je dors sur le sol  depuis 5 jours a fuire c discount je d√©conseille vivement donc dorenavant je ferais mes achat sur amazon",
  'rating': 1.0},
 {'comment': 'J‚Äôai command√© un Samsung  il y a un mois et demi, qui est rest√© bloqu√© sur la 

# 2. Nettoyage structurel
[texte du lien](https://)

In [None]:

# 1. Cr√©ation DataFrame
df = pd.DataFrame(all_data)

# 2. Nettoyage structurel
df.dropna(subset=["comment", "rating"], inplace=True)
df.drop_duplicates(inplace=True)
df["comment"] = df["comment"].str.strip()
df = df[df["comment"].str.len() > 0]

# 3. Cr√©ation du label binaire (sentiment)
df["label"] = df["rating"].apply(lambda x: 1 if x >= 4 else 0)

# 4. V√©rification des classes
print(df["label"].value_counts(normalize=True))  # % positif / n√©gatif


label
0    0.60423
1    0.39577
Name: proportion, dtype: float64


 ## 2.1 **üßº‚Äì** NETTOYAGE DU TEXTE

In [None]:
from bs4 import BeautifulSoup
import string
import re

def clean_text(text):
    text = BeautifulSoup(text, "html.parser").get_text()
    text = text.lower()
    text = text.translate(str.maketrans('', '', string.punctuation))
    text = re.sub(r'\d+', '', text)  # facultatif
    text = re.sub(r'[^\x00-\x7F]+', '', text)  # emojis, caract√®res sp√©ciaux
    text = re.sub(r'\s+', ' ', text).strip()
    return text

df["clean_comment"] = df["comment"].apply(clean_text)


# 3 üß† PR√âTRAITEMENT NLP (ex : spaCy lemmatization)

In [None]:
!python -m spacy download fr_core_news_sm

Collecting fr-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.8.0/fr_core_news_sm-3.8.0-py3-none-any.whl (16.3 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m16.3/16.3 MB[0m [31m76.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: fr-core-news-sm
Successfully installed fr-core-news-sm-3.8.0
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_sm')
[38;5;3m‚ö† Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy

nlp = spacy.load("fr_core_news_sm")

def lemmatize(text):
    doc = nlp(text)
    return " ".join([token.lemma_ for token in doc if not token.is_stop and token.is_alpha])

df["lemmatized"] = df["clean_comment"].apply(lemmatize)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(df["lemmatized"])
y = df["label"]

In [None]:
from sklearn.utils import class_weight
import numpy as np

weights = class_weight.compute_class_weight("balanced", classes=np.unique(y), y=y)
print(dict(zip(np.unique(y), weights)))

{np.int64(0): np.float64(0.8275), np.int64(1): np.float64(1.2633587786259541)}


In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, stratify=y, test_size=0.2, random_state=42
)

# Tester les m√©triques

In [None]:
from transformers import pipeline

# Choix d‚Äôun sous-√©chantillon (sinon tr√®s long)
sample_df = df.sample(100, random_state=42)

models = {
    "tblard/tf-allocine": lambda r: "positif" if r["label"] == "POSITIVE" else "negatif",
    "nlptown/bert-base-multilingual-uncased-sentiment": lambda r: "positif" if int(r["label"].split()[0]) >= 4 else "negatif",
    "cardiffnlp/twitter-xlm-roberta-base-sentiment": lambda r: "positif" if r["label"] == "Positive" else "negatif"
}

results = {}

# Vraies √©tiquettes : 1 ‚Üí "positif", 0 ‚Üí "negatif"
true_labels = sample_df["label"].apply(lambda x: "positif" if x == 1 else "negatif")


for model_name, label_fn in models.items():
    print(f"‚ñ∂Ô∏è Testing model: {model_name}")
    try:
        if model_name == "tblard/tf-allocine":
            tokenizer = AutoTokenizer.from_pretrained(model_name)
            model = TFAutoModelForSequenceClassification.from_pretrained(model_name)
            clf = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer, framework="tf")
        else:
            clf = pipeline("sentiment-analysis", model=model_name)

        preds = []
        for text in sample_df["comment"]:
            try:
                pred = clf(text)[0]
                preds.append(label_fn(pred))
            except:
                preds.append("erreur")

        sample_df[f"pred_{model_name}"] = preds

        print(f"\nüìä R√©sultats : {model_name}")
        print(classification_report(true_labels, preds, zero_division=0))

    except Exception as e:
        print(f"‚õî Erreur pour le mod√®le {model_name} : {e}")


‚ñ∂Ô∏è Testing model: tblard/tf-allocine


All model checkpoint layers were used when initializing TFCamembertForSequenceClassification.

All the layers of TFCamembertForSequenceClassification were initialized from the model checkpoint at tblard/tf-allocine.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFCamembertForSequenceClassification for predictions without further training.
Device set to use 0



üìä R√©sultats : tblard/tf-allocine
              precision    recall  f1-score   support

     negatif       0.97      0.95      0.96        61
     positif       0.93      0.95      0.94        39

    accuracy                           0.95       100
   macro avg       0.95      0.95      0.95       100
weighted avg       0.95      0.95      0.95       100

‚ñ∂Ô∏è Testing model: nlptown/bert-base-multilingual-uncased-sentiment


Device set to use cpu
  return forward_call(*args, **kwargs)



üìä R√©sultats : nlptown/bert-base-multilingual-uncased-sentiment
              precision    recall  f1-score   support

     negatif       0.95      0.95      0.95        61
     positif       0.92      0.92      0.92        39

    accuracy                           0.94       100
   macro avg       0.94      0.94      0.94       100
weighted avg       0.94      0.94      0.94       100

‚ñ∂Ô∏è Testing model: cardiffnlp/twitter-xlm-roberta-base-sentiment


Device set to use cpu
  return forward_call(*args, **kwargs)



üìä R√©sultats : cardiffnlp/twitter-xlm-roberta-base-sentiment
              precision    recall  f1-score   support

     negatif       0.61      1.00      0.76        61
     positif       0.00      0.00      0.00        39

    accuracy                           0.61       100
   macro avg       0.30      0.50      0.38       100
weighted avg       0.37      0.61      0.46       100



In [None]:
sample_df[["comment","rating","label","clean_comment","lemmatized"]].to_csv("nlp_data_clean.csv")


In [None]:
for model_name, label_fn in models.items():
    print(f"‚ñ∂Ô∏è Testing model: {model_name}")
    try:
        if model_name == "tblard/tf-allocine":
            tokenizer = AutoTokenizer.from_pretrained(model_name)
            model = TFAutoModelForSequenceClassification.from_pretrained(model_name)
            clf = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer, framework="tf")
        else:
            clf = pipeline("sentiment-analysis", model=model_name)

        preds = []
        for text in sample_df["clean_comment"]:
            try:
                pred = clf(text)[0]
                preds.append(label_fn(pred))
            except:
                preds.append("erreur")

        sample_df[f"pred_{model_name}"] = preds

        print(f"\nüìä R√©sultats : {model_name}")
        print(classification_report(true_labels, preds, zero_division=0))

    except Exception as e:
        print(f"‚õî Erreur pour le mod√®le {model_name} : {e}")

‚ñ∂Ô∏è Testing model: tblard/tf-allocine


All model checkpoint layers were used when initializing TFCamembertForSequenceClassification.

All the layers of TFCamembertForSequenceClassification were initialized from the model checkpoint at tblard/tf-allocine.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFCamembertForSequenceClassification for predictions without further training.
Device set to use 0



üìä R√©sultats : tblard/tf-allocine
              precision    recall  f1-score   support

     negatif       0.97      0.95      0.96        61
     positif       0.93      0.95      0.94        39

    accuracy                           0.95       100
   macro avg       0.95      0.95      0.95       100
weighted avg       0.95      0.95      0.95       100

‚ñ∂Ô∏è Testing model: nlptown/bert-base-multilingual-uncased-sentiment


Device set to use cpu
  return forward_call(*args, **kwargs)



üìä R√©sultats : nlptown/bert-base-multilingual-uncased-sentiment
              precision    recall  f1-score   support

     negatif       0.90      0.92      0.91        61
     positif       0.87      0.85      0.86        39

    accuracy                           0.89       100
   macro avg       0.89      0.88      0.88       100
weighted avg       0.89      0.89      0.89       100

‚ñ∂Ô∏è Testing model: cardiffnlp/twitter-xlm-roberta-base-sentiment


Device set to use cpu
  return forward_call(*args, **kwargs)



üìä R√©sultats : cardiffnlp/twitter-xlm-roberta-base-sentiment
              precision    recall  f1-score   support

     negatif       0.61      1.00      0.76        61
     positif       0.00      0.00      0.00        39

    accuracy                           0.61       100
   macro avg       0.30      0.50      0.38       100
weighted avg       0.37      0.61      0.46       100



In [None]:

for model_name, label_fn in models.items():
    print(f"‚ñ∂Ô∏è Testing model: {model_name}")
    try:
        if model_name == "tblard/tf-allocine":
            tokenizer = AutoTokenizer.from_pretrained(model_name)
            model = TFAutoModelForSequenceClassification.from_pretrained(model_name)
            clf = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer, framework="tf")
        else:
            clf = pipeline("sentiment-analysis", model=model_name)

        preds = []
        for text in sample_df["lemmatized"]:
            try:
                pred = clf(text)[0]
                preds.append(label_fn(pred))
            except:
                preds.append("erreur")

        sample_df[f"pred_{model_name}"] = preds

        print(f"\nüìä R√©sultats : {model_name}")
        print(classification_report(true_labels, preds, zero_division=0))

    except Exception as e:
        print(f"‚õî Erreur pour le mod√®le {model_name} : {e}")

‚ñ∂Ô∏è Testing model: tblard/tf-allocine


All model checkpoint layers were used when initializing TFCamembertForSequenceClassification.

All the layers of TFCamembertForSequenceClassification were initialized from the model checkpoint at tblard/tf-allocine.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFCamembertForSequenceClassification for predictions without further training.
Device set to use 0



üìä R√©sultats : tblard/tf-allocine
              precision    recall  f1-score   support

     negatif       0.90      0.72      0.80        61
     positif       0.67      0.87      0.76        39

    accuracy                           0.78       100
   macro avg       0.78      0.80      0.78       100
weighted avg       0.81      0.78      0.78       100

‚ñ∂Ô∏è Testing model: nlptown/bert-base-multilingual-uncased-sentiment


Device set to use cpu
  return forward_call(*args, **kwargs)



üìä R√©sultats : nlptown/bert-base-multilingual-uncased-sentiment
              precision    recall  f1-score   support

     negatif       0.88      0.93      0.90        61
     positif       0.89      0.79      0.84        39

    accuracy                           0.88       100
   macro avg       0.88      0.86      0.87       100
weighted avg       0.88      0.88      0.88       100

‚ñ∂Ô∏è Testing model: cardiffnlp/twitter-xlm-roberta-base-sentiment


Device set to use cpu
  return forward_call(*args, **kwargs)



üìä R√©sultats : cardiffnlp/twitter-xlm-roberta-base-sentiment
              precision    recall  f1-score   support

     negatif       0.61      1.00      0.76        61
     positif       0.00      0.00      0.00        39

    accuracy                           0.61       100
   macro avg       0.30      0.50      0.38       100
weighted avg       0.37      0.61      0.46       100



In [None]:
# Liste des mod√®les disponibles
model_cols = {
    "tblard/tf-allocine": "pred_tblard/tf-allocine",
    "nlptown/bert-base-multilingual-uncased-sentiment": "pred_nlptown/bert-base-multilingual-uncased-sentiment",
}

for model_name, col_pred in model_cols.items():
    print(f"\n=== Analyse des erreurs pour {model_name} sur texte brut (comment) ===")

    df_fp_fn = sample_df[["comment", "label", col_pred]].copy()
    df_fp_fn["true_label_str"] = df_fp_fn["label"].apply(lambda x: "positif" if x == 1 else "negatif")

    # Faux positifs = pr√©dit positif mais vrai n√©gatif
    fp = df_fp_fn[(df_fp_fn["true_label_str"] == "negatif") & (df_fp_fn[col_pred] == "positif")]
    fn = df_fp_fn[(df_fp_fn["true_label_str"] == "positif") & (df_fp_fn[col_pred] == "negatif")]

    print(f"\n‚ùå Faux positifs ({len(fp)} exemples):")
    display(fp[["comment", "true_label_str", col_pred]])

    print(f"\n‚ùå Faux n√©gatifs ({len(fn)} exemples):")
    display(fn[["comment", "true_label_str", col_pred]])



=== Analyse des erreurs pour tblard/tf-allocine sur texte brut (comment) ===

‚ùå Faux positifs (17 exemples):


Unnamed: 0,comment,true_label_str,pred_tblard/tf-allocine
570,"J ai command√© le 22 juin,via CDiscount,un appa...",negatif,positif
920,Produit livr√© √† la mauvaise adresse. (√† 600 km...,negatif,positif
888,"Ah, la commande 391866377 - 2505261812HB215, u...",negatif,positif
676,Command√© une multiprise murale pour pouvoir br...,negatif,positif
625,Tr√®s d√©√ßue de ma commande car coffre de rangem...,negatif,positif
813,Premier avis de ma vie sur une plate-forme en ...,negatif,positif
770,"2 COMMANDES, 2 probl√®mes : 1/ 1√®re commande : ...",negatif,positif
10,"Je n'ai jamais √©t√© d√©√ßue par cdiscount, livrai...",negatif,positif
516,recherche tr√©s p√©nible : les filtres qui s'ann...,negatif,positif
812,"Pour acheter vous √™tes d√©biter rapidement, si...",negatif,positif



‚ùå Faux n√©gatifs (5 exemples):


Unnamed: 0,comment,true_label_str,pred_tblard/tf-allocine
136,Rien √† redire,positif,negatif
59,entreprise fran√ßaise m√™me si tous les articles...,positif,negatif
30,J'ai trouv√© rapidement ce que je voulais,positif,negatif
406,Aucun probl√©me rencontr√©.Fluide.,positif,negatif
725,Nous avons achet√© un drone comme jouet pour no...,positif,negatif



=== Analyse des erreurs pour nlptown/bert-base-multilingual-uncased-sentiment sur texte brut (comment) ===

‚ùå Faux positifs (4 exemples):


Unnamed: 0,comment,true_label_str,pred_nlptown/bert-base-multilingual-uncased-sentiment
10,"Je n'ai jamais √©t√© d√©√ßue par cdiscount, livrai...",negatif,positif
516,recherche tr√©s p√©nible : les filtres qui s'ann...,negatif,positif
823,Au lieu de prot√©ger leur clients et consommate...,negatif,positif
957,"01.05.2025, nouveau client : -10 euros (super ...",negatif,positif



‚ùå Faux n√©gatifs (8 exemples):


Unnamed: 0,comment,true_label_str,pred_nlptown/bert-base-multilingual-uncased-sentiment
859,"Jeudi dernier, j'ai achet√© un gros √©lectro m√©n...",positif,negatif
372,simplifie le choix des articles n√©cessaires av...,positif,negatif
59,entreprise fran√ßaise m√™me si tous les articles...,positif,negatif
30,J'ai trouv√© rapidement ce que je voulais,positif,negatif
406,Aucun probl√©me rencontr√©.Fluide.,positif,negatif
725,Nous avons achet√© un drone comme jouet pour no...,positif,negatif
313,tr√®s satisfaite de cette cigarette √©lectroniqu...,positif,negatif
213,"Livraison rapide, beaucoup de choix de produit...",positif,negatif


Error: Runtime no longer has a reference to this dataframe, please re-run this cell and try again.


In [None]:
print(sample_df.columns.tolist())


['comment', 'rating', 'label', 'clean_comment', 'lemmatized', 'pred_tblard/tf-allocine', 'pred_nlptown/bert-base-multilingual-uncased-sentiment', 'pred_cardiffnlp/twitter-xlm-roberta-base-sentiment', 'pred_tblard/tf-allocine_clean_comment', 'pred_nlptown/bert-base-multilingual-uncased-sentiment_clean_comment', 'pred_cardiffnlp/twitter-xlm-roberta-base-sentiment_clean_comment', 'pred_tblard/tf-allocine_lemmatized', 'pred_nlptown/bert-base-multilingual-uncased-sentiment_lemmatized', 'pred_cardiffnlp/twitter-xlm-roberta-base-sentiment_lemmatized']


## üß™ Comparaison des pr√©dictions du mod√®le tblard/tf-allocine entre les 3 versions de texte

In [None]:
# üß™ Comparaison des pr√©dictions du mod√®le tblard/tf-allocine entre les 3 versions de texte
models = [ "pred_tblard/tf-allocine","pred_nlptown/bert-base-multilingual-uncased-sentiment"]

for model_base in models:
    cols = {
        "comment": model_base,
        "clean_comment": f"{model_base}_clean_comment",
        "lemmatized": f"{model_base}_lemmatized"
    }

    comparison = sample_df[["comment", "clean_comment", "lemmatized", "label"] + list(cols.values())].copy()
    comparison["true_label_str"] = comparison["label"].apply(lambda x: "positif" if x == 1 else "negatif")

    # ‚úÖ Colonne qui d√©tecte si les pr√©dictions changent
    comparison["prediction_change"] = comparison[list(cols.values())].nunique(axis=1) > 1

    # üîç Filtrer les cas o√π la pr√©diction change
    changed = comparison[comparison["prediction_change"]]

    print(f"\nüîÅ {len(changed)} commentaires ont eu des pr√©dictions diff√©rentes selon le pr√©traitement.")
    display(changed[["comment", "true_label_str"] + list(cols.values())])

    print("------------------------------------------------------------------")



üîÅ 17 commentaires ont eu des pr√©dictions diff√©rentes selon le pr√©traitement.


Unnamed: 0,comment,true_label_str,pred_tblard/tf-allocine,pred_tblard/tf-allocine_clean_comment,pred_tblard/tf-allocine_lemmatized
570,"J ai command√© le 22 juin,via CDiscount,un appa...",negatif,positif,negatif,positif
920,Produit livr√© √† la mauvaise adresse. (√† 600 km...,negatif,positif,negatif,positif
676,Command√© une multiprise murale pour pouvoir br...,negatif,positif,negatif,positif
625,Tr√®s d√©√ßue de ma commande car coffre de rangem...,negatif,positif,negatif,positif
813,Premier avis de ma vie sur une plate-forme en ...,negatif,positif,negatif,positif
770,"2 COMMANDES, 2 probl√®mes : 1/ 1√®re commande : ...",negatif,positif,negatif,positif
59,entreprise fran√ßaise m√™me si tous les articles...,positif,negatif,positif,negatif
30,J'ai trouv√© rapidement ce que je voulais,positif,negatif,positif,negatif
516,recherche tr√©s p√©nible : les filtres qui s'ann...,negatif,positif,negatif,positif
812,"Pour acheter vous √™tes d√©biter rapidement, si...",negatif,positif,negatif,positif


------------------------------------------------------------------

üîÅ 7 commentaires ont eu des pr√©dictions diff√©rentes selon le pr√©traitement.


Unnamed: 0,comment,true_label_str,pred_nlptown/bert-base-multilingual-uncased-sentiment,pred_nlptown/bert-base-multilingual-uncased-sentiment_clean_comment,pred_nlptown/bert-base-multilingual-uncased-sentiment_lemmatized
372,simplifie le choix des articles n√©cessaires av...,positif,negatif,positif,negatif
676,Command√© une multiprise murale pour pouvoir br...,negatif,negatif,positif,negatif
813,Premier avis de ma vie sur une plate-forme en ...,negatif,negatif,positif,negatif
671,Ayant eu des soucis avec un vendeur concernant...,positif,positif,negatif,positif
30,J'ai trouv√© rapidement ce que je voulais,positif,negatif,positif,negatif
516,recherche tr√©s p√©nible : les filtres qui s'ann...,negatif,positif,negatif,positif
313,tr√®s satisfaite de cette cigarette √©lectroniqu...,positif,negatif,positif,negatif


------------------------------------------------------------------


## Faux positifs corrig√©s apr√®s nettoyage :

In [None]:
# üìå Nom du mod√®le √† analyser
models = [ "pred_tblard/tf-allocine","pred_nlptown/bert-base-multilingual-uncased-sentiment"]


# üîÅ Noms des colonnes selon version du texte
cols = {
    "brut": model_base,
    "clean": f"{model_base}_clean_comment",
    "lemm": f"{model_base}_lemmatized"
}
for model_base in models:
    # Sous-√©chantillon avec pr√©dictions et texte
    df_fp = sample_df[["comment", "clean_comment", "lemmatized", "label"] + list(cols.values())].copy()

    # Calculer les FP dans chaque version
    for v, col in cols.items():
        df_fp[f"FP_{v}"] = (df_fp["label"] == 0) & (df_fp[col] == "positif")

    # Trouver les cas o√π brut = FP mais les autres ‚â† FP
    df_fp["FP_corrig√©_clean"] = df_fp["FP_brut"] & ~df_fp["FP_clean"]
    df_fp["FP_corrig√©_lemm"] = df_fp["FP_brut"] & ~df_fp["FP_lemm"]

    # R√©sum√©s
    print(f"üîé Faux positifs dans le texte brut : {df_fp['FP_brut'].sum()}")
    print(f"‚úÖ Corrig√©s apr√®s nettoyage      : {df_fp['FP_corrig√©_clean'].sum()}")
    print(f"‚úÖ Corrig√©s apr√®s lemmatisation : {df_fp['FP_corrig√©_lemm'].sum()}")

    # Affichage des exemples corrig√©s
    print("\n‚úÖ Faux positifs corrig√©s apr√®s nettoyage :")
    display(df_fp[df_fp["FP_corrig√©_clean"]][["comment", "label", cols["brut"], cols["clean"]]])

    print("\n‚úÖ Faux positifs corrig√©s apr√®s lemmatisation :")
    display(df_fp[df_fp["FP_corrig√©_lemm"]][["comment", "label", cols["brut"], cols["lemm"]]])


üîé Faux positifs dans le texte brut : 17
‚úÖ Corrig√©s apr√®s nettoyage      : 14
‚úÖ Corrig√©s apr√®s lemmatisation : 0

‚úÖ Faux positifs corrig√©s apr√®s nettoyage :


Unnamed: 0,comment,label,pred_tblard/tf-allocine,pred_tblard/tf-allocine_clean_comment
570,"J ai command√© le 22 juin,via CDiscount,un appa...",0,positif,negatif
920,Produit livr√© √† la mauvaise adresse. (√† 600 km...,0,positif,negatif
676,Command√© une multiprise murale pour pouvoir br...,0,positif,negatif
625,Tr√®s d√©√ßue de ma commande car coffre de rangem...,0,positif,negatif
813,Premier avis de ma vie sur une plate-forme en ...,0,positif,negatif
770,"2 COMMANDES, 2 probl√®mes : 1/ 1√®re commande : ...",0,positif,negatif
516,recherche tr√©s p√©nible : les filtres qui s'ann...,0,positif,negatif
812,"Pour acheter vous √™tes d√©biter rapidement, si...",0,positif,negatif
554,Cafeti√®re command√© le 25 mai nous sommes les 1...,0,positif,negatif
834,"Comme beaucoup apparement, pr√©commande de la S...",0,positif,negatif



‚úÖ Faux positifs corrig√©s apr√®s lemmatisation :


Unnamed: 0,comment,label,pred_tblard/tf-allocine,pred_tblard/tf-allocine_lemmatized


In [None]:
model_name = "cardiffnlp/twitter-xlm-roberta-base-sentiment"

# R√©cup√©rer les pr√©dictions
for version in [ "clean_comment", "lemmatized"]:
    col = f"pred_{model_name}_{version}"
    print(f"\nüìâ Analyse des sorties du mod√®le Cardiff sur {version}")
    display(sample_df[[version, "label", col]].value_counts(col).reset_index(name="count"))

    # Filtrer les cas positifs mal class√©s
    false_neg = sample_df[(sample_df["label"] == 1) & (sample_df[col] == "negatif")]
    print(f"\n‚ùå Faux n√©gatifs d√©tect√©s ({len(false_neg)} cas) :")
    display(false_neg[[version, col]])


üìâ Analyse des sorties du mod√®le Cardiff sur clean_comment


Unnamed: 0,pred_cardiffnlp/twitter-xlm-roberta-base-sentiment_clean_comment,count
0,negatif,100



‚ùå Faux n√©gatifs d√©tect√©s (39 cas) :


Unnamed: 0,clean_comment,pred_cardiffnlp/twitter-xlm-roberta-base-sentiment_clean_comment
431,simple clair,negatif
859,jeudi dernier jai achet un gros lectro mnager ...,negatif
451,rapide efficace,negatif
76,rapide et efficace,negatif
372,simplifie le choix des articles ncessaires ave...,negatif
136,rien redire,negatif
158,les bons dachat avec la carte cdiscount sont t...,negatif
291,la facilit naviguer,negatif
356,facile clair et net,negatif
107,jai trouv rapidement le produit recherch avec ...,negatif



üìâ Analyse des sorties du mod√®le Cardiff sur lemmatized


Unnamed: 0,pred_cardiffnlp/twitter-xlm-roberta-base-sentiment_lemmatized,count
0,negatif,100



‚ùå Faux n√©gatifs d√©tect√©s (39 cas) :


Unnamed: 0,lemmatized,pred_cardiffnlp/twitter-xlm-roberta-base-sentiment_lemmatized
431,simple clair,negatif
859,jeudi dernier jai achet gros lectro mnager cha...,negatif
451,rapide efficace,negatif
76,rapide efficace,negatif
372,simplifier choix article ncessaire avis panel ...,negatif
136,rien redire,negatif
158,bon dachat carte cdiscount trs intressant,negatif
291,facilit naviguer,negatif
356,facile clair net,negatif
107,jai trouv rapidement produit recherch bon rapp...,negatif
