In [None]:
from huggingface_hub import login
import pandas as pd
import numpy as np
import re
import nltk
from sklearn.model_selection import cross_val_score
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC
from nltk.stem.porter import PorterStemmer
from sklearn.linear_model import LogisticRegression


# Connexion à Hugging Face
login("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")

# Téléchargement des ressources NLTK
nltk.download('punkt')

# Chargement du fichier CSV
csv_path = '/content/drive/MyDrive/Annotation_final.csv'
df = pd.read_csv(csv_path)

# Initialisation du stemmer anglais
stemmer = PorterStemmer()

# Fonction de nettoyage et stemming
def nettoyer_texte_stemmer(texte):
    texte = str(texte).lower()
    texte = re.sub(r"http\S+|www\S+", "", texte)
    texte = re.sub(r"@\w+|#\w+", "", texte)
    texte = re.sub(r"\s+", " ", texte).strip()
    mots = texte.split()
    mots_stemmes = [stemmer.stem(mot) for mot in mots]
    return " ".join(mots_stemmes)

# Application du prétraitement
df['texte_nettoye'] = df['text'].apply(nettoyer_texte_stemmer)

# Features et labels
X = df['texte_nettoye']
y = df['emotions']

# Vectorisation TF-IDF
vectorizer = TfidfVectorizer()
X_vec = vectorizer.fit_transform(X)

# Initialisation des modèles
clf_nb = MultinomialNB()
clf_svm = LinearSVC()

# Validation croisée
cv = 5

# Initialisation du modèle Logistic Regression
clf_logreg = LogisticRegression(max_iter=1000, random_state=42)

# Validation croisée pour Logistic Regression
scores_logreg_acc = cross_val_score(clf_logreg, X_vec, y, cv=cv, scoring='accuracy')
scores_logreg_prec = cross_val_score(clf_logreg, X_vec, y, cv=cv, scoring='precision_weighted')
scores_logreg_rec = cross_val_score(clf_logreg, X_vec, y, cv=cv, scoring='recall_weighted')
scores_logreg_f1 = cross_val_score(clf_logreg, X_vec, y, cv=cv, scoring='f1_weighted')

# Naive Bayes
scores_nb_acc = cross_val_score(clf_nb, X_vec, y, cv=cv, scoring='accuracy')
scores_nb_prec = cross_val_score(clf_nb, X_vec, y, cv=cv, scoring='precision_weighted')
scores_nb_rec = cross_val_score(clf_nb, X_vec, y, cv=cv, scoring='recall_weighted')
scores_nb_f1 = cross_val_score(clf_nb, X_vec, y, cv=cv, scoring='f1_weighted')

# SVM Linéaire
scores_svm_acc = cross_val_score(clf_svm, X_vec, y, cv=cv, scoring='accuracy')
scores_svm_prec = cross_val_score(clf_svm, X_vec, y, cv=cv, scoring='precision_weighted')
scores_svm_rec = cross_val_score(clf_svm, X_vec, y, cv=cv, scoring='recall_weighted')
scores_svm_f1 = cross_val_score(clf_svm, X_vec, y, cv=cv, scoring='f1_weighted')

# Affichage des résultats
print("\n===== Moyennes et écarts types (cross-validation, Naive Bayes) =====")
print(f"Exactitude : {scores_nb_acc.mean():.3f} ± {scores_nb_acc.std():.3f}")
print(f"Précision  : {scores_nb_prec.mean():.3f} ± {scores_nb_prec.std():.3f}")
print(f"Rappel     : {scores_nb_rec.mean():.3f} ± {scores_nb_rec.std():.3f}")
print(f"F1-score   : {scores_nb_f1.mean():.3f} ± {scores_nb_f1.std():.3f}")

print("\n===== Moyennes et écarts types (cross-validation, SVM Linéaire) =====")
print(f"Exactitude : {scores_svm_acc.mean():.3f} ± {scores_svm_acc.std():.3f}")
print(f"Précision  : {scores_svm_prec.mean():.3f} ± {scores_svm_prec.std():.3f}")
print(f"Rappel     : {scores_svm_rec.mean():.3f} ± {scores_svm_rec.std():.3f}")
print(f"F1-score   : {scores_svm_f1.mean():.3f} ± {scores_svm_f1.std():.3f}")

# Affichage des résultats
print("\n===== Moyennes et écarts types (cross-validation, Logistic Regression) =====")
print(f"Exactitude : {scores_logreg_acc.mean():.3f} ± {scores_logreg_acc.std():.3f}")
print(f"Précision  : {scores_logreg_prec.mean():.3f} ± {scores_logreg_prec.std():.3f}")
print(f"Rappel     : {scores_logreg_rec.mean():.3f} ± {scores_logreg_rec.std():.3f}")
print(f"F1-score   : {scores_logreg_f1.mean():.3f} ± {scores_logreg_f1.std():.3f}")





[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))



===== Moyennes et écarts types (cross-validation, Naive Bayes) =====
Exactitude : 0.426 ± 0.004
Précision  : 0.251 ± 0.141
Rappel     : 0.426 ± 0.004
F1-score   : 0.257 ± 0.008

===== Moyennes et écarts types (cross-validation, SVM Linéaire) =====
Exactitude : 0.482 ± 0.026
Précision  : 0.418 ± 0.035
Rappel     : 0.482 ± 0.026
F1-score   : 0.414 ± 0.029

===== Moyennes et écarts types (cross-validation, Logistic Regression) =====
Exactitude : 0.453 ± 0.015
Précision  : 0.382 ± 0.070
Rappel     : 0.453 ± 0.015
F1-score   : 0.319 ± 0.022


In [None]:
from huggingface_hub import login
import pandas as pd
import numpy as np
import re
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC
from sklearn.linear_model import LogisticRegression
from imblearn.over_sampling import SMOTE, RandomOverSampler
from imblearn.pipeline import Pipeline

# Connexion à Hugging Face
login("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")

# Chargement du fichier CSV
csv_path = '/content/drive/MyDrive/Annotation_final.csv'
df = pd.read_csv(csv_path)

# Nettoyage simple sans stemming
def nettoyer_texte(texte):
    texte = str(texte).lower()
    texte = re.sub(r"http\S+|www\S+", "", texte)
    texte = re.sub(r"@\w+|#\w+", "", texte)
    texte = re.sub(r"\s+", " ", texte).strip()
    return texte

df['texte_nettoye'] = df['text'].apply(nettoyer_texte)
X = df['texte_nettoye']
y = df['emotions']

# Vectorisation TF-IDF
vectorizer = TfidfVectorizer()
X_vec = vectorizer.fit_transform(X)

# Initialisation des modèles
clf_nb = MultinomialNB()
clf_svm = LinearSVC()
clf_logreg = LogisticRegression(max_iter=1000, random_state=42)

# Définition des pipelines pour SMOTE
pipeline_smote_nb = Pipeline([
    ('smote', SMOTE(random_state=42)),
    ('clf', clf_nb)
])
pipeline_smote_svm = Pipeline([
    ('smote', SMOTE(random_state=42)),
    ('clf', clf_svm)
])
pipeline_smote_logreg = Pipeline([
    ('smote', SMOTE(random_state=42)),
    ('clf', clf_logreg)
])

# Définition des pipelines pour RandomOverSampler
pipeline_random_nb = Pipeline([
    ('random', RandomOverSampler(random_state=42)),
    ('clf', clf_nb)
])
pipeline_random_svm = Pipeline([
    ('random', RandomOverSampler(random_state=42)),
    ('clf', clf_svm)
])
pipeline_random_logreg = Pipeline([
    ('random', RandomOverSampler(random_state=42)),
    ('clf', clf_logreg)
])

# Cross-validation stratifiée
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Évaluation SMOTE
scores_smote_nb_acc = cross_val_score(pipeline_smote_nb, X_vec, y, cv=cv, scoring='accuracy')
scores_smote_nb_f1 = cross_val_score(pipeline_smote_nb, X_vec, y, cv=cv, scoring='f1_weighted')

scores_smote_svm_acc = cross_val_score(pipeline_smote_svm, X_vec, y, cv=cv, scoring='accuracy')
scores_smote_svm_f1 = cross_val_score(pipeline_smote_svm, X_vec, y, cv=cv, scoring='f1_weighted')

scores_smote_logreg_acc = cross_val_score(pipeline_smote_logreg, X_vec, y, cv=cv, scoring='accuracy')
scores_smote_logreg_f1 = cross_val_score(pipeline_smote_logreg, X_vec, y, cv=cv, scoring='f1_weighted')

# Évaluation RandomOverSampler
scores_random_nb_acc = cross_val_score(pipeline_random_nb, X_vec, y, cv=cv, scoring='accuracy')
scores_random_nb_f1 = cross_val_score(pipeline_random_nb, X_vec, y, cv=cv, scoring='f1_weighted')

scores_random_svm_acc = cross_val_score(pipeline_random_svm, X_vec, y, cv=cv, scoring='accuracy')
scores_random_svm_f1 = cross_val_score(pipeline_random_svm, X_vec, y, cv=cv, scoring='f1_weighted')

scores_random_logreg_acc = cross_val_score(pipeline_random_logreg, X_vec, y, cv=cv, scoring='accuracy')
scores_random_logreg_f1 = cross_val_score(pipeline_random_logreg, X_vec, y, cv=cv, scoring='f1_weighted')

# Préparation des résultats pour affichage
results = {
    'SMOTE': {
        'Naive Bayes': {'accuracy': scores_smote_nb_acc, 'f1': scores_smote_nb_f1},
        'SVM': {'accuracy': scores_smote_svm_acc, 'f1': scores_smote_svm_f1},
        'Logistic Regression': {'accuracy': scores_smote_logreg_acc, 'f1': scores_smote_logreg_f1}
    },
    'RandomOverSampler': {
        'Naive Bayes': {'accuracy': scores_random_nb_acc, 'f1': scores_random_nb_f1},
        'SVM': {'accuracy': scores_random_svm_acc, 'f1': scores_random_svm_f1},
        'Logistic Regression': {'accuracy': scores_random_logreg_acc, 'f1': scores_random_logreg_f1}
    }
}

# Affichage des résultats
for method, models in results.items():
    print(f"\n===== Résultats avec {method} =====")
    for model_name, scores in models.items():
        print(f"\nModèle : {model_name}")
        print(f"Exactitude : {scores['accuracy'].mean():.3f} ± {scores['accuracy'].std():.3f}")
        print(f"F1-score   : {scores['f1'].mean():.3f} ± {scores['f1'].std():.3f}")



===== Résultats avec SMOTE =====

Modèle : Naive Bayes
Exactitude : 0.277 ± 0.023
F1-score   : 0.282 ± 0.036

Modèle : SVM
Exactitude : 0.448 ± 0.026
F1-score   : 0.409 ± 0.023

Modèle : Logistic Regression
Exactitude : 0.464 ± 0.005
F1-score   : 0.420 ± 0.010

===== Résultats avec RandomOverSampler =====

Modèle : Naive Bayes
Exactitude : 0.275 ± 0.019
F1-score   : 0.288 ± 0.023

Modèle : SVM
Exactitude : 0.453 ± 0.026
F1-score   : 0.413 ± 0.024

Modèle : Logistic Regression
Exactitude : 0.459 ± 0.019
F1-score   : 0.414 ± 0.016


In [None]:
from sklearn.model_selection import GridSearchCV
from imblearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from imblearn.over_sampling import SMOTE
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC
from sklearn.linear_model import LogisticRegression
import pandas as pd
import re

# Chargement du fichier CSV
csv_path = '/content/drive/MyDrive/Annotation_final.csv'
df = pd.read_csv(csv_path)

# Nettoyage simple sans stemming
def nettoyer_texte(texte):
    texte = str(texte).lower()
    texte = re.sub(r"http\S+|www\S+", "", texte)
    texte = re.sub(r"@\w+|#\w+", "", texte)
    texte = re.sub(r"\s+", " ", texte).strip()
    return texte

df['texte_nettoye'] = df['text'].apply(nettoyer_texte)
X = df['texte_nettoye']
y = df['emotions']

# Pipeline et grille de paramètres pour Naive Bayes
pipeline_nb = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('smote', SMOTE(random_state=42)),
    ('clf', MultinomialNB())
])
param_grid_nb = {
    'tfidf__ngram_range': [(1,1), (1,2)],
    'tfidf__max_df': [0.9, 1.0],
    'tfidf__min_df': [1, 3],
    'clf__alpha': [0.1, 1.0, 5.0],
    'clf__fit_prior': [True, False]    # <--- Ajout de fit_prior ici
}

# Pipeline et grille de paramètres pour SVM
pipeline_svm = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('smote', SMOTE(random_state=42)),
    ('clf', LinearSVC())
])
param_grid_svm = {
    'tfidf__ngram_range': [(1,1), (1,2)],
    'clf__C': [0.01, 0.1, 1, 10]
}

# Pipeline et grille de paramètres pour Logistic Regression
pipeline_logreg = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('smote', SMOTE(random_state=42)),
    ('clf', LogisticRegression(max_iter=1000, random_state=42))
])
param_grid_logreg = {
    'tfidf__ngram_range': [(1,1), (1,2)],
    'clf__C': [0.01, 0.1, 1, 10]
}

# Création des objets GridSearchCV
grid_search_nb = GridSearchCV(pipeline_nb, param_grid_nb, scoring='f1_weighted', cv=5, n_jobs=-1, verbose=2)
grid_search_svm = GridSearchCV(pipeline_svm, param_grid_svm, scoring='f1_weighted', cv=5, n_jobs=-1, verbose=2)
grid_search_logreg = GridSearchCV(pipeline_logreg, param_grid_logreg, scoring='f1_weighted', cv=5, n_jobs=-1, verbose=2)

# Entraînement des modèles
print("Entraînement Naive Bayes...")
grid_search_nb.fit(X, y)
print("Entraînement SVM...")
grid_search_svm.fit(X, y)
print("Entraînement Logistic Regression...")
grid_search_logreg.fit(X, y)

# Résultats
print("Naive Bayes meilleurs paramètres :", grid_search_nb.best_params_)
print("Naive Bayes meilleur score F1 :", grid_search_nb.best_score_)

print("SVM meilleurs paramètres :", grid_search_svm.best_params_)
print("SVM meilleur score F1 :", grid_search_svm.best_score_)

print("LogReg meilleurs paramètres :", grid_search_logreg.best_params_)
print("LogReg meilleur score F1 :", grid_search_logreg.best_score_)


Entraînement Naive Bayes...
Fitting 5 folds for each of 48 candidates, totalling 240 fits
Entraînement SVM...
Fitting 5 folds for each of 8 candidates, totalling 40 fits
Entraînement Logistic Regression...
Fitting 5 folds for each of 8 candidates, totalling 40 fits
Naive Bayes meilleurs paramètres : {'clf__alpha': 0.1, 'clf__fit_prior': True, 'tfidf__max_df': 0.9, 'tfidf__min_df': 1, 'tfidf__ngram_range': (1, 1)}
Naive Bayes meilleur score F1 : 0.357062688585719
SVM meilleurs paramètres : {'clf__C': 1, 'tfidf__ngram_range': (1, 1)}
SVM meilleur score F1 : 0.4149556215762634
LogReg meilleurs paramètres : {'clf__C': 1, 'tfidf__ngram_range': (1, 1)}
LogReg meilleur score F1 : 0.41536647207112487


In [None]:
from huggingface_hub import login
import pandas as pd
import numpy as np
import re
import nltk
from sklearn.model_selection import cross_validate
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC
from sklearn.metrics import make_scorer, accuracy_score, precision_score, recall_score, f1_score
from nltk.stem.porter import PorterStemmer
from imblearn.over_sampling import SMOTE, RandomOverSampler
from imblearn.pipeline import Pipeline as ImbPipeline

# Connexion à Hugging Face
login("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")

nltk.download('punkt')

# Chargement du fichier CSV
csv_path = '/content/drive/MyDrive/Annotation_final.csv'
df = pd.read_csv(csv_path)

# Nettoyage et stemming
stemmer = PorterStemmer()
def nettoyer_texte_stemmer(texte):
    texte = str(texte).lower()
    texte = re.sub(r"http\S+|www\S+", "", texte)
    texte = re.sub(r"@\w+|#\w+", "", texte)
    texte = re.sub(r"\s+", " ", texte).strip()
    mots = texte.split()
    mots_stemmes = [stemmer.stem(mot) for mot in mots]
    return " ".join(mots_stemmes)
df['texte_nettoye'] = df['text'].apply(nettoyer_texte_stemmer)

X = df['texte_nettoye']
y = df['emotions']

# Vectorisation TF-IDF
vectorizer = TfidfVectorizer()
X_vec = vectorizer.fit_transform(X)

# Modèles
clf_nb = MultinomialNB()
clf_svm = LinearSVC()

# Sur-échantillonneurs
smote = SMOTE(random_state=42)
ros = RandomOverSampler(random_state=42)

# Métriques
scoring = {
    'accuracy': make_scorer(accuracy_score),
    'precision': make_scorer(precision_score, average='weighted', zero_division=0),
    'recall': make_scorer(recall_score, average='weighted', zero_division=0),
    'f1': make_scorer(f1_score, average='weighted', zero_division=0)
}
cv = 5

# Pipelines
pipeline_nb_smote = ImbPipeline([('smote', smote), ('clf', clf_nb)])
pipeline_nb_ros = ImbPipeline([('ros', ros), ('clf', clf_nb)])
pipeline_svm_smote = ImbPipeline([('smote', smote), ('clf', clf_svm)])
pipeline_svm_ros = ImbPipeline([('ros', ros), ('clf', clf_svm)])

# Validation croisée
scores_nb_smote = cross_validate(pipeline_nb_smote, X_vec, y, cv=cv, scoring=scoring)
scores_nb_ros = cross_validate(pipeline_nb_ros, X_vec, y, cv=cv, scoring=scoring)
scores_svm_smote = cross_validate(pipeline_svm_smote, X_vec, y, cv=cv, scoring=scoring)
scores_svm_ros = cross_validate(pipeline_svm_ros, X_vec, y, cv=cv, scoring=scoring)

def afficher_scores(scores, nom):
    print(f"\n===== Moyennes et écarts types ({nom}) =====")
    for metric in ['test_accuracy', 'test_precision', 'test_recall', 'test_f1']:
        mean = np.mean(scores[metric])
        std = np.std(scores[metric])
        print(f"{metric[5:].capitalize()} : {mean:.3f} ± {std:.3f}")

# Résultats
afficher_scores(scores_nb_smote, "Naive Bayes + SMOTE")
afficher_scores(scores_nb_ros, "Naive Bayes + RandomOverSampler")
afficher_scores(scores_svm_smote, "SVM + SMOTE")
afficher_scores(scores_svm_ros, "SVM + RandomOverSampler")


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!



===== Moyennes et écarts types (Naive Bayes + SMOTE) =====
Accuracy : 0.290 ± 0.025
Precision : 0.437 ± 0.062
Recall : 0.290 ± 0.025
F1 : 0.297 ± 0.027

===== Moyennes et écarts types (Naive Bayes + RandomOverSampler) =====
Accuracy : 0.307 ± 0.025
Precision : 0.442 ± 0.030
Recall : 0.307 ± 0.025
F1 : 0.322 ± 0.030

===== Moyennes et écarts types (SVM + SMOTE) =====
Accuracy : 0.464 ± 0.022
Precision : 0.428 ± 0.027
Recall : 0.464 ± 0.022
F1 : 0.430 ± 0.026

===== Moyennes et écarts types (SVM + RandomOverSampler) =====
Accuracy : 0.459 ± 0.019
Precision : 0.425 ± 0.027
Recall : 0.459 ± 0.019
F1 : 0.425 ± 0.027


In [None]:
import pandas as pd
import re
import numpy as np
from nltk.stem.porter import PorterStemmer
from transformers import RobertaTokenizerFast, TFRobertaForSequenceClassification, pipeline
from sklearn.metrics import classification_report, precision_score, recall_score, f1_score, accuracy_score

# Mapping des émotions numériques vers leurs noms
mapping_emotions = {
    1: 'fear',
    2: 'anger',
    3: 'joy',
    4: 'surprise',
    5: 'sadness',
    6: 'disgust',
    7: 'neutral'
}

# Mapping basé sur les définitions du dictionnaire
emoroberta_to_our_mapping = {
    # Colère (Anger) - sentiment violent de mécontentement
    'anger': 2,  # colère directe
    'annoyance': 2,  # irritation, agacement
    'disapproval': 2,  # désapprobation (forme de mécontentement)

    # Dégoût (Disgust) - aversion profonde
    'disgust': 6,  # dégoût direct
    'remorse': 6,  # remords (forme de dégoût envers soi-même)

    # Peur (Fear) - sentiment d'inquiétude face à un danger
    'fear': 1,  # peur directe
    'nervousness': 1,  # nervosité (forme d'anxiété)
    'embarrassment': 1,  # embarras (peur du jugement social)

    # Joie (Joy) - sentiment de plaisir, de bonheur
    'joy': 3,  # joie directe
    'amusement': 3,  # amusement (plaisir léger)
    'excitement': 3,  # excitation (joie anticipatoire)
    'gratitude': 3,  # gratitude (joie reconnaissante)
    'love': 3,  # amour (joie profonde liée à l'attachement)
    'optimism': 3,  # optimisme (joie anticipatoire)
    'pride': 3,  # fierté (joie liée à l'accomplissement)
    'relief': 3,  # soulagement (joie après tension)
    'desire': 3,  # désir (joie anticipatoire)
    'admiration': 3,  # admiration (joie face à quelque chose d'excellent)
    'caring': 3,  # attention/soin (forme d'amour, donc joie)

    # Neutre (Neutral) - absence d'émotion marquée
    'neutral': 7,  # neutre direct
    'approval': 7,  # approbation (peut être considérée comme neutre ou légèrement positive)
    'realization': 7,  # réalisation (prise de conscience, souvent neutre)

    # Tristesse (Sadness) - état de chagrin, de mélancolie
    'sadness': 5,  # tristesse directe
    'disappointment': 5,  # déception (tristesse face à des attentes non comblées)
    'grief': 5,  # chagrin (tristesse intense liée à une perte)

    # Surprise (Surprise) - étonnement soudain
    'surprise': 4,  # surprise directe
    'confusion': 4,  # confusion (surprise désorganisante)
    'curiosity': 4,  # curiosité (surprise qui pousse à l'exploration)
}

# Chargement du modèle et du tokenizer
print("Chargement du modèle et du tokenizer EmoRoBERTa...")
tokenizer = RobertaTokenizerFast.from_pretrained("arpanghoshal/EmoRoBERTa")
model = TFRobertaForSequenceClassification.from_pretrained("arpanghoshal/EmoRoBERTa")
emotion_pipeline = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

# Chargement du fichier CSV
csv_path = '/content/drive/MyDrive/Annotation_final.csv'
df = pd.read_csv(csv_path)

# Initialisation du stemmer anglais
stemmer = PorterStemmer()

# Fonction de nettoyage et stemming
def nettoyer_texte_stemmer(texte):
    texte = str(texte).lower()
    texte = re.sub(r"http\S+|www\S+", "", texte)
    texte = re.sub(r"@\w+|#\w+", "", texte)
    texte = re.sub(r"\s+", " ", texte).strip()
    mots = texte.split()
    mots_stemmes = [stemmer.stem(mot) for mot in mots]
    return " ".join(mots_stemmes)

# Application du prétraitement
print("Application du prétraitement...")
df['texte_nettoye'] = df['text'].apply(nettoyer_texte_stemmer)

# Limitation à 100 entrées pour les tests
#df = df.head(300)

# Prédiction des émotions avec EmoRoBERTa
print("Prédiction des émotions...")
resultats = []

for texte in df['texte_nettoye']:
    try:
        prediction = emotion_pipeline(texte)[0]  # Accéder au premier élément de la liste
        emotion_label = prediction['label']
        emotion_num = emoroberta_to_our_mapping.get(emotion_label, 0)
        resultats.append({
            'texte': texte,
            'emotion_originale': emotion_label,
            'emotion_num': emotion_num,
            'emotion': mapping_emotions.get(emotion_num, 'inconnu'),
            'score': prediction['score']
        })
    except Exception as e:
        print(f"Erreur lors de la prédiction pour le texte: {texte}")
        print(f"Erreur: {e}")
        resultats.append({
            'texte': texte,
            'emotion_originale': 'erreur',
            'emotion_num': 0,
            'emotion': 'erreur',
            'score': 0.0
        })

# Création d'un DataFrame avec les résultats
resultats_df = pd.DataFrame(resultats)

# Fusion avec le DataFrame original
df_final = pd.concat([df, resultats_df[['emotion_originale', 'emotion_num', 'emotion', 'score']]], axis=1)

# Évaluation des performances avec la colonne 'emotions' comme référence
print("Évaluation des performances avec la colonne 'emotions'...")
y_true = df['emotions']
y_pred = resultats_df['emotion_num']

print("Rapport de classification:")
print(classification_report(y_true, y_pred, target_names=[mapping_emotions[i] for i in sorted(mapping_emotions.keys())]))

print(f"Précision: {precision_score(y_true, y_pred, average='weighted', zero_division=0)}")
print(f"Rappel: {recall_score(y_true, y_pred, average='weighted', zero_division=0)}")
print(f"F1-score: {f1_score(y_true, y_pred, average='weighted', zero_division=0)}")
print(f"Exactitude: {accuracy_score(y_true, y_pred)}")


Chargement du modèle et du tokenizer EmoRoBERTa...


All model checkpoint layers were used when initializing TFRobertaForSequenceClassification.

All the layers of TFRobertaForSequenceClassification were initialized from the model checkpoint at arpanghoshal/EmoRoBERTa.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFRobertaForSequenceClassification for predictions without further training.
Device set to use 0


Application du prétraitement...
Prédiction des émotions...
Évaluation des performances avec la colonne 'emotions'...
Rapport de classification:
              precision    recall  f1-score   support

        fear       0.17      0.04      0.06        52
       anger       0.63      0.18      0.29       184
         joy       0.49      0.38      0.42       218
    surprise       0.15      0.11      0.13        91
     sadness       0.50      0.14      0.22        65
     disgust       0.00      0.00      0.00        46
     neutral       0.48      0.82      0.61       484

    accuracy                           0.47      1140
   macro avg       0.35      0.24      0.25      1140
weighted avg       0.45      0.47      0.41      1140

Précision: 0.4491227785437235
Rappel: 0.4666666666666667
F1-score: 0.41101380881875754
Exactitude: 0.4666666666666667


In [None]:
import pandas as pd
import re
import numpy as np
from nltk.stem.porter import PorterStemmer
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
from sklearn.metrics import classification_report, precision_score, recall_score, f1_score, accuracy_score

# Mapping des émotions numériques vers leurs noms
mapping_emotions = {
    1: 'fear',
    2: 'anger',
    3: 'joy',
    4: 'surprise',
    5: 'sadness',
    6: 'disgust',
    7: 'neutral'
}

# Mapping inverse pour la comparaison
mapping_inverse = {
    'fear': 1,
    'anger': 2,
    'joy': 3,
    'surprise': 4,
    'sadness': 5,
    'disgust': 6,
    'neutral': 7
}

# Chargement du modèle et du tokenizer
print("Chargement du modèle et du tokenizer DistilRoBERTa...")
tokenizer = AutoTokenizer.from_pretrained("j-hartmann/emotion-english-distilroberta-base")
model = AutoModelForSequenceClassification.from_pretrained("j-hartmann/emotion-english-distilroberta-base")
emotion_pipeline = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

# Chargement du fichier CSV
csv_path = '/content/drive/MyDrive/Annotation_final.csv'
df = pd.read_csv(csv_path)

# Initialisation du stemmer anglais
stemmer = PorterStemmer()

# Fonction de nettoyage et stemming
def nettoyer_texte_stemmer(texte):
    texte = str(texte).lower()
    texte = re.sub(r"http\S+|www\S+", "", texte)
    texte = re.sub(r"@\w+|#\w+", "", texte)
    texte = re.sub(r"\s+", " ", texte).strip()
    mots = texte.split()
    mots_stemmes = [stemmer.stem(mot) for mot in mots]
    return " ".join(mots_stemmes)

# Application du prétraitement
print("Application du prétraitement...")
df['texte_nettoye'] = df['text'].apply(nettoyer_texte_stemmer)

# Limitation à 300 entrées pour les tests
#df = df.head(500)

# Prédiction des émotions avec DistilRoBERTa
print("Prédiction des émotions...")
resultats = []

for texte in df['texte_nettoye']:
    try:
        prediction = emotion_pipeline(texte)[0]
        emotion_label = prediction['label']
        emotion_num = mapping_inverse.get(emotion_label, 0)
        resultats.append({
            'texte': texte,
            'emotion_originale': emotion_label,
            'emotion_num': emotion_num,
            'emotion': mapping_emotions.get(emotion_num, 'inconnu'),
            'score': prediction['score']
        })
    except Exception as e:
        print(f"Erreur lors de la prédiction pour le texte: {texte}")
        print(f"Erreur: {e}")
        resultats.append({
            'texte': texte,
            'emotion_originale': 'erreur',
            'emotion_num': 0,
            'emotion': 'erreur',
            'score': 0.0
        })

# Création d'un DataFrame avec les résultats
resultats_df = pd.DataFrame(resultats)

# Fusion avec le DataFrame original
df_final = pd.concat([df, resultats_df[['emotion_originale', 'emotion_num', 'emotion', 'score']]], axis=1)

# Évaluation des performances avec la colonne 'emotions' comme référence
print("Évaluation des performances avec la colonne 'emotions'...")
y_true = df['emotions']
y_pred = resultats_df['emotion_num']

print("Rapport de classification:")
print(classification_report(y_true, y_pred, target_names=[mapping_emotions[i] for i in sorted(mapping_emotions.keys())]))

print(f"Précision: {precision_score(y_true, y_pred, average='weighted', zero_division=0)}")
print(f"Rappel: {recall_score(y_true, y_pred, average='weighted', zero_division=0)}")
print(f"F1-score: {f1_score(y_true, y_pred, average='weighted', zero_division=0)}")
print(f"Exactitude: {accuracy_score(y_true, y_pred)}")


Chargement du modèle et du tokenizer DistilRoBERTa...


Device set to use cpu


Application du prétraitement...
Prédiction des émotions...
Évaluation des performances avec la colonne 'emotions'...
Rapport de classification:
              precision    recall  f1-score   support

        fear       0.26      0.38      0.31        52
       anger       0.59      0.43      0.50       184
         joy       0.60      0.37      0.46       218
    surprise       0.21      0.21      0.21        91
     sadness       0.19      0.37      0.25        65
     disgust       0.18      0.04      0.07        46
     neutral       0.57      0.66      0.61       484

    accuracy                           0.48      1140
   macro avg       0.37      0.35      0.34      1140
weighted avg       0.50      0.48      0.48      1140

Précision: 0.49759629173566106
Rappel: 0.4780701754385965
F1-score: 0.47518895264540567
Exactitude: 0.4780701754385965


In [None]:
import pandas as pd
import re
import numpy as np
from nltk.stem.porter import PorterStemmer
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
from sklearn.metrics import classification_report, precision_score, recall_score, f1_score, accuracy_score

# Mapping des émotions numériques vers leurs noms
mapping_emotions = {
    1: 'fear',
    2: 'anger',
    3: 'joy',
    4: 'surprise',
    5: 'sadness',
    6: 'disgust',
    7: 'neutral'
}

# Mapping inverse pour la comparaison
mapping_inverse = {
    'fear': 1,
    'anger': 2,
    'joy': 3,
    'surprise': 4,
    'sadness': 5,
    'disgust': 6,
    'neutral': 7
}

# Chargement du modèle et du tokenizer
print("Chargement du modèle et du tokenizer EmoBERTa...")
tokenizer = AutoTokenizer.from_pretrained("tae898/emoberta-large")
model = AutoModelForSequenceClassification.from_pretrained("tae898/emoberta-large")
emotion_pipeline = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

# Chargement du fichier CSV
csv_path = '/content/drive/MyDrive/Annotation_final.csv'
df = pd.read_csv(csv_path)

# Initialisation du stemmer anglais
stemmer = PorterStemmer()

# Fonction de nettoyage et stemming
def nettoyer_texte_stemmer(texte):
    texte = str(texte).lower()
    texte = re.sub(r"http\S+|www\S+", "", texte)
    texte = re.sub(r"@\w+|#\w+", "", texte)
    texte = re.sub(r"\s+", " ", texte).strip()
    mots = texte.split()
    mots_stemmes = [stemmer.stem(mot) for mot in mots]
    return " ".join(mots_stemmes)

# Application du prétraitement
print("Application du prétraitement...")
df['texte_nettoye'] = df['text'].apply(nettoyer_texte_stemmer)

# Limitation à 300 entrées pour les tests
#df = df.head(500)

# Prédiction des émotions avec EmoBERTa
print("Prédiction des émotions...")
resultats = []

for texte in df['texte_nettoye']:
    try:
        prediction = emotion_pipeline(texte)[0]
        emotion_label = prediction['label']
        emotion_num = mapping_inverse.get(emotion_label, 0)
        resultats.append({
            'texte': texte,
            'emotion_originale': emotion_label,
            'emotion_num': emotion_num,
            'emotion': mapping_emotions.get(emotion_num, 'inconnu'),
            'score': prediction['score']
        })
    except Exception as e:
        print(f"Erreur lors de la prédiction pour le texte: {texte}")
        print(f"Erreur: {e}")
        resultats.append({
            'texte': texte,
            'emotion_originale': 'erreur',
            'emotion_num': 0,
            'emotion': 'erreur',
            'score': 0.0
        })

# Création d'un DataFrame avec les résultats
resultats_df = pd.DataFrame(resultats)

# Fusion avec le DataFrame original
df_final = pd.concat([df, resultats_df[['emotion_originale', 'emotion_num', 'emotion', 'score']]], axis=1)

# Évaluation des performances avec la colonne 'emotions' comme référence
print("Évaluation des performances avec la colonne 'emotions'...")
y_true = df['emotions']
y_pred = resultats_df['emotion_num']

print("Rapport de classification:")
print(classification_report(y_true, y_pred, target_names=[mapping_emotions[i] for i in sorted(mapping_emotions.keys())]))

print(f"Précision: {precision_score(y_true, y_pred, average='weighted', zero_division=0)}")
print(f"Rappel: {recall_score(y_true, y_pred, average='weighted', zero_division=0)}")
print(f"F1-score: {f1_score(y_true, y_pred, average='weighted', zero_division=0)}")
print(f"Exactitude: {accuracy_score(y_true, y_pred)}")

# Sauvegarde des résultats
df_final.to_csv('/content/drive/MyDrive/resultats_emoberta.csv', index=False)
print("Résultats sauvegardés dans 'resultats_emoberta.csv'")


Chargement du modèle et du tokenizer EmoBERTa...


Device set to use cpu


Application du prétraitement...
Prédiction des émotions...
Évaluation des performances avec la colonne 'emotions'...
Rapport de classification:
              precision    recall  f1-score   support

        fear       0.00      0.00      0.00        52
       anger       0.62      0.67      0.64       184
         joy       0.56      0.53      0.54       218
    surprise       0.83      0.05      0.10        91
     sadness       0.44      0.31      0.36        65
     disgust       0.43      0.07      0.11        46
     neutral       0.57      0.80      0.67       484

    accuracy                           0.57      1140
   macro avg       0.49      0.35      0.35      1140
weighted avg       0.56      0.57      0.52      1140

Précision: 0.5580855379438375
Rappel: 0.5719298245614035
F1-score: 0.5235125579980914
Exactitude: 0.5719298245614035
Résultats sauvegardés dans 'resultats_emoberta.csv'
