# TP 3 - Evaluation des systèmes d’Intelligence Artificielle


## 0.1 Description de la tâche réalisée par votre modèle

La tâche réalisée par le modèle est la classification des émotions dans des commentaires.
Plus précisément, le modèle utilise un ensemble de données qui comprend des commentaires (contenus dans la colonne 'Comment') 
et des étiquettes d'émotions correspondantes (contenues dans la colonne 'Emotion'). 
Le modèle utilise ces données pour entraîner un classificateur Randomforest basé sur la représentation TF-IDF des phrases.


## 0.2 Procédure d’évaluation

La procédure d'évaluation comprend plusieurs étapes :

+ Chargement des données : Les données sont chargées à partir du fichier CSV ("emotion_classify_dataset.csv").
 + Division des données : Les données sont divisées en ensembles d'entraînement et de test à l'aide de la fonction train_test_split de scikit-learn. 80% des données sont utilisées pour l'entraînement et 20% pour les tests.
+ Création de vecteurs TF-IDF : Les commentaires sont transformés en vecteurs TF-IDF à l'aide de la classe TfidfVectorizer de scikit-learn.
+ Entraînement du modèle : Un modèle de forêt aléatoire est créé et entraîné sur les vecteurs TF-IDF de l'ensemble d'entraînement.
+ Prédiction : Les émotions sont prédites sur l'ensemble de test à l'aide du modèle entraîné.
+ Évaluation des performances : La précision (accuracy) et d'autres métriques sont calculées à l'aide de accuracy_score et classification_report de scikit-learn.

## 0.3 Identification des facteurs d’influence

Les facteurs d'influence potentiels sur la performance du modèle pourraient inclure :

- La qualité et la représentativité des données d'entraînement.
- Le choix du modèle (forêt aléatoire) et de ses hyperparamètres (nombre d'estimateurs, etc.).
- La représentation TF-IDF des phrases et les paramètres associés (max_features, stop_words, etc.).

## 0.4 Définition des métriques

Les métriques utilisées pour évaluer le modèle sont la précision (accuracy) et le rapport de classification (classification_report).

- **Accuracy :** Mesure la proportion de prédictions correctes par rapport au nombre total de prédictions.

- **Classification Report :** Fournit des métriques détaillées telles que la précision, le rappel et le score F1 pour chaque classe, ainsi que la moyenne globale. Cela donne une vision plus détaillée de la performance du modèle par classe.


## 0.5 Échantillonnage

Quantité de données :

- Il est décidé d'utiliser 80% des données pour l'ensemble d'apprentissage et 20% pour l'ensemble d'évaluation.

Facteurs d'influence pour construire les corpus :

- Les principaux facteurs d'influence pour la construction des corpus peuvent inclure la répartition des émotions dans les données, la diversité des commentaires, et l'équilibre entre les classes.

Facteurs critiques :

- L'équilibre entre les émotions dans les deux ensembles (apprentissage et évaluation) est critique pour garantir que le modèle est exposé à une variété suffisante de situations.


## 0.6 Distribution

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import Perceptron
from sklearn.metrics import accuracy_score, recall_score, f1_score
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score

data = pd.read_csv("emotion_classify_dataset.csv")

train_data, test_data, train_labels, test_labels = train_test_split(data['Comment'], data['Emotion'], test_size=0.2, random_state=42)

## 0.7 Entraînement du modèle

In [2]:
vectorizer = TfidfVectorizer(max_features=5000, stop_words='english')
train_vectors = vectorizer.fit_transform(train_data)
test_vectors = vectorizer.transform(test_data)

classifier = RandomForestClassifier(n_estimators=100, random_state=42)
classifier.fit(train_vectors, train_labels)

## 0.8 Évaluation du modèle

In [3]:
evaluation_vectors = vectorizer.transform(test_data)
evaluation_predictions = classifier.predict(evaluation_vectors)

evaluation_accuracy = accuracy_score(test_labels, evaluation_predictions)
classification_rep_evaluation = classification_report(test_labels, evaluation_predictions)

print(f"Accuracy on Evaluation Set: {evaluation_accuracy}")
print("Classification Report on Evaluation Set:\n", classification_rep_evaluation)

Accuracy on Evaluation Set: 0.946969696969697
Classification Report on Evaluation Set:
               precision    recall  f1-score   support

       anger       0.93      0.94      0.94       392
        fear       0.97      0.93      0.95       416
         joy       0.94      0.97      0.95       380

    accuracy                           0.95      1188
   macro avg       0.95      0.95      0.95      1188
weighted avg       0.95      0.95      0.95      1188



## 0.9 Identification des bruits

Les bruits potentiels dans les données textuelles peuvent inclure :

- Fautes d'orthographe intentionnelles.
- Ajout de mots inutiles.
- Suppression de mots clés.


## 0.10 Génération de données bruitées

In [4]:
import random

def add_spelling_mistake(text):
    return text.replace("good", "goood")

def add_random_words(text):
    return text + " random_word1 random_word2"


noisy_test_data = test_data.apply(add_spelling_mistake)
noisy_test_data = noisy_test_data.apply(add_random_words)

## 0.11 Évaluation de la performance sur le corpus bruité

In [5]:
noisy_evaluation_vectors = vectorizer.transform(noisy_test_data)

noisy_evaluation_predictions = classifier.predict(noisy_evaluation_vectors)

noisy_evaluation_accuracy = accuracy_score(test_labels, noisy_evaluation_predictions)
classification_rep_noisy_evaluation = classification_report(test_labels, noisy_evaluation_predictions)

print(f"Accuracy on Noisy Evaluation Set: {noisy_evaluation_accuracy}")
print("Classification Report on Noisy Evaluation Set:\n", classification_rep_noisy_evaluation)

Accuracy on Noisy Evaluation Set: 0.9478114478114478
Classification Report on Noisy Evaluation Set:
               precision    recall  f1-score   support

       anger       0.93      0.95      0.94       392
        fear       0.97      0.93      0.95       416
         joy       0.95      0.97      0.96       380

    accuracy                           0.95      1188
   macro avg       0.95      0.95      0.95      1188
weighted avg       0.95      0.95      0.95      1188

