<table>
<tr>
<td width=15%><img src="../../img/UGA.png"></img></td>
<td><center><h1>Project n°3</h1></center></td>
<td width=15%><a href="https://team.inria.fr/tripop/team-members/" style="font-size: 16px; font-weight: bold">Florian Vincent</a> </td>
</tr>
</table>

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import nltk

In [2]:
%load_ext autoreload
%autoreload 2

# Learning text classification

This project is heavily inspired from [Jigsaw's *Toxic Comments Classification* challenge](https://www.kaggle.com/competitions/jigsaw-toxic-comment-classification-challenge/overview) on kaggle.
To avoid copy-pastings of foreign code, it will guide you towards specific tools to test and use.

## Overview of the project

Take a look at the *zip*ed csv data files by unzipping them (`for name in $(ls *.zip); do unzip $name; done;`).

Every comment in the train set is classified with a label in `{"toxic", "severe_toxic", "obscene", "threat", "insult", "identity hate"}`.
You will need to train multiple kind of models to identify those comments, and you will test them against the test dataset.

# Début du projet

Dans cette section, nous chargeons les fichiers de données CSV contenant les commentaires et leurs étiquettes associées. Ces données sont divisées en trois parties :
- **Entraînement** : Les commentaires avec leurs labels pour entraîner le modèle.
- **Test** : Les commentaires sans labels pour l'évaluation.
- **Labels de test** : Les étiquettes correspondantes aux données de test, utilisées pour évaluer la performance du modèle.

In [3]:
# Load the datasets
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")
test_labels = pd.read_csv("test_labels.csv")
print(train.head())

Unnamed: 0,id,comment_text,toxic,severe_toxic,obscene,threat,insult,identity_hate
0,0000997932d777bf,Explanation\nWhy the edits made under my usern...,0,0,0,0,0,0
1,000103f0d9cfb60f,D'aww! He matches this background colour I'm s...,0,0,0,0,0,0
2,000113f07ec002fd,"Hey man, I'm really not trying to edit war. It...",0,0,0,0,0,0
3,0001b41b1c6bb37e,"""\nMore\nI can't make any real suggestions on ...",0,0,0,0,0,0
4,0001d958c54c6e35,"You, sir, are my hero. Any chance you remember...",0,0,0,0,0,0


In [4]:
# Recherches de valeurs manquantes
data_train.isna().sum()

id               0
comment_text     0
toxic            0
severe_toxic     0
obscene          0
threat           0
insult           0
identity_hate    0
dtype: int64

* # Nettoyage des données

In [5]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re
from nltk.stem import WordNetLemmatizer

In [6]:
# Suppression de la ponctuation et des sauts de lignes
data_train["comment_clean"] = data_train["comment_text"].apply(lambda x : re.sub("[^a-zA-Z]", ' ', x))

In [8]:
# Conversion en minuscule
data_train["comment_clean"] = data_train["comment_clean"].str.lower()

In [9]:
data_train[["comment_text", "comment_clean"]].head(6)

Unnamed: 0,comment_text,comment_clean
0,Explanation\nWhy the edits made under my usern...,explanation why the edits made under my userna...
1,D'aww! He matches this background colour I'm s...,d aww he matches this background colour i m s...
2,"Hey man, I'm really not trying to edit war. It...",hey man i m really not trying to edit war it...
3,"""\nMore\nI can't make any real suggestions on ...",more i can t make any real suggestions on im...
4,"You, sir, are my hero. Any chance you remember...",you sir are my hero any chance you remember...
5,"""\n\nCongratulations from me as well, use the ...",congratulations from me as well use the to...


In [10]:
# Tokenisation (séparation mot à mot)
data_train["comment_clean"] = data_train["comment_clean"].apply(word_tokenize)

In [11]:
data_train[["comment_text", "comment_clean"]].head(6)

Unnamed: 0,comment_text,comment_clean
0,Explanation\nWhy the edits made under my usern...,"[explanation, why, the, edits, made, under, my..."
1,D'aww! He matches this background colour I'm s...,"[d, aww, he, matches, this, background, colour..."
2,"Hey man, I'm really not trying to edit war. It...","[hey, man, i, m, really, not, trying, to, edit..."
3,"""\nMore\nI can't make any real suggestions on ...","[more, i, can, t, make, any, real, suggestions..."
4,"You, sir, are my hero. Any chance you remember...","[you, sir, are, my, hero, any, chance, you, re..."
5,"""\n\nCongratulations from me as well, use the ...","[congratulations, from, me, as, well, use, the..."


In [12]:
# Suppression des stopwords (mots de "liaisons" inutiles)
stop_words = set(stopwords.words("english"))

data_train["comment_clean"] = data_train["comment_clean"].apply(lambda x: [word for word in x if word not in stop_words])

In [13]:
data_train[["comment_text", "comment_clean"]].head(6)

Unnamed: 0,comment_text,comment_clean
0,Explanation\nWhy the edits made under my usern...,"[explanation, edits, made, username, hardcore,..."
1,D'aww! He matches this background colour I'm s...,"[aww, matches, background, colour, seemingly, ..."
2,"Hey man, I'm really not trying to edit war. It...","[hey, man, really, trying, edit, war, guy, con..."
3,"""\nMore\nI can't make any real suggestions on ...","[make, real, suggestions, improvement, wondere..."
4,"You, sir, are my hero. Any chance you remember...","[sir, hero, chance, remember, page]"
5,"""\n\nCongratulations from me as well, use the ...","[congratulations, well, use, tools, well, talk]"


In [14]:
# Lemmatisation
lemmatizer = WordNetLemmatizer()

data_train["comment_clean"] = data_train["comment_clean"].apply(lambda x: [lemmatizer.lemmatize(word) for word in x])

In [15]:
data_train[["comment_text", "comment_clean"]].head(6)

Unnamed: 0,comment_text,comment_clean
0,Explanation\nWhy the edits made under my usern...,"[explanation, edits, made, username, hardcore,..."
1,D'aww! He matches this background colour I'm s...,"[aww, match, background, colour, seemingly, st..."
2,"Hey man, I'm really not trying to edit war. It...","[hey, man, really, trying, edit, war, guy, con..."
3,"""\nMore\nI can't make any real suggestions on ...","[make, real, suggestion, improvement, wondered..."
4,"You, sir, are my hero. Any chance you remember...","[sir, hero, chance, remember, page]"
5,"""\n\nCongratulations from me as well, use the ...","[congratulation, well, use, tool, well, talk]"


In [16]:
# Reconversion des listes en chaines de charactères
data_train["comment_clean"] = data_train["comment_clean"].apply(lambda x: " ".join(x))

In [17]:
data_train[["comment_text", "comment_clean"]].head(6)

Unnamed: 0,comment_text,comment_clean
0,Explanation\nWhy the edits made under my usern...,explanation edits made username hardcore metal...
1,D'aww! He matches this background colour I'm s...,aww match background colour seemingly stuck th...
2,"Hey man, I'm really not trying to edit war. It...",hey man really trying edit war guy constantly ...
3,"""\nMore\nI can't make any real suggestions on ...",make real suggestion improvement wondered sect...
4,"You, sir, are my hero. Any chance you remember...",sir hero chance remember page
5,"""\n\nCongratulations from me as well, use the ...",congratulation well use tool well talk


In [None]:
def nettoyage(df) :
    # Suppression de la ponctuation et des sauts de lignes
    df["comment_clean"] = df["comment_text"].apply(lambda x : re.sub("[^a-zA-Z]", ' ', x))

    # Conversion en minuscule
    df["comment_clean"] = df["comment_clean"].str.lower()

    # Tokenisation (séparation mot à mot)
    df["comment_clean"] = df["comment_clean"].apply(word_tokenize)

    # Suppression des stopwords (mots de "liaisons" inutiles)
    stop_words = set(stopwords.words("english"))
    df["comment_clean"] = df["comment_clean"].apply(lambda x: [word for word in x if word not in stop_words])

    # Lemmatisation
    lemmatizer = WordNetLemmatizer()
    df["comment_clean"] = df["comment_clean"].apply(lambda x: [lemmatizer.lemmatize(word) for word in x])

    # Reconversion des listes en chaines de charactères
    df["comment_clean"] = df["comment_clean"].apply(lambda x: " ".join(x))

    return df

# Attention : la colonne de texte à traiter doit impérativement s'appeler "comment_text".

* # Vectorisation

## Study the data

Representing textual data in an algebraic format (i.e. vectors & matrices) is not easy, but fortunately it has been quickly studied earlier in the lectures.

**Implement a word-vectorizer relying on simple counting for the textual data**


In [18]:
## Write your code here
from sklearn.feature_extraction.text import CountVectorizer

documents = train["comment_clean"]
vectorizer = CountVectorizer(max_features=10000)
# Fit and transform the documents into a word count matrix
X = vectorizer.fit_transform(documents)
print("Shape of sparse matrix:", X.shape)  # Dimensions : nombre de documents × nombre de mots uniques
print("Vocabulary:\n", vectorizer.get_feature_names_out())
print(X.toarray())




(159571, 158769)

**Implement another vectorizing relying this time on the *tf-idf* metric. Use a pipeline if needed.**

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer
#La méthode TF-IDF attribue un poids à chaque mot en fonction de sa fréquence dans un document et de son importance dans l'ensemble du corpus. 
# dans l'ensemble du corpus, ce qui permet de réduire l'impact des mots très fréquents comme le , est ...
# Initialiser TfidfVectorizer avec réduction de vocabulaire
#min_df=2 signifie que seuls les mots apparaissant dans au moins 2 documents seront inclus.
#max_df=0.9 signifie que les mots présents dans plus de 80% des documents seront ignorés.

from sklearn.feature_extraction.text import TfidfVectorizer

# Charger les documents
documents = train["comment_clean"]

# Initialiser TfidfVectorizer avec réduction de vocabulaire
#min_df=2 signifie que seuls les mots apparaissant dans au moins 2 documents seront inclus.
#max_df=0.8 signifie que les mots présents dans plus de 80% des documents seront ignorés.
tfidf_vectorizer = TfidfVectorizer(max_features=10000, min_df=2, max_df=0.9)

# Transformer en matrice TF-IDF
X_tfidf = tfidf_vectorizer.fit_transform(documents)

# Résumé de la matrice
print("Shape of sparse matrix (TF-IDF):", X_tfidf.shape)
print("Feature names (vocabulary example):", tfidf_vectorizer.get_feature_names_out()[:10])

# Choisir le 3eme commentaire pour inspection
first_comment_tfidf = X_tfidf[2].toarray()[0]

# Obtenir le vocabulaire (features)
feature_names = tfidf_vectorizer.get_feature_names_out()

# Créer une liste des mots et de leurs poids TF-IDF (non nuls uniquement)
non_zero_indices = first_comment_tfidf.nonzero()[0]
words_weights = [(feature_names[i], first_comment_tfidf[i]) for i in non_zero_indices]

# Trier les mots par ordre décroissant de poids
words_weights_sorted = sorted(words_weights, key=lambda x: x[1], reverse=True)
tfidf_vectorizer = TfidfVectorizer(max_features=10000, min_df=2, max_df=0.9)

# Afficher les résultats
print("\nWords and their TF-IDF weights for the first comment:")
for word, weight in words_weights_sorted:
    print(f"{word}: {weight}")



NameError: name 'train' is not defined

One may wish to take a deeper look in the database by using various techniques.

**Find a suitable dimension reduction technique to study the structure of the data. Display your findings with visual means (you can use `seaborn`).**

L'ACP classique, telle qu'implémentée dans sklearn.decomposition.PCA, nécessite que la matrice de données soit dense. Cela implique que, pour les matrices sparse (creuses, contenant majoritairement des zéros), une conversion en matrice dense est nécessaire avant de pouvoir effectuer l'ACP, ce qui peut entraîner une consommation excessive de mémoire.

En revanche, TruncatedSVD est spécifiquement conçu pour traiter directement les matrices sparse, telles que celles générées par les représentations TF-IDF en NLP. Cela permet d'économiser une quantité significative d'espace mémoire en évitant toute conversion inutile.

Par ailleurs, l'ACP classique repose sur une décomposition complète des matrices, via une méthode connue sous le nom de décomposition en valeurs propres (eigendecomposition). Cette approche est particulièrement coûteuse en temps pour des matrices de grande taille et consomme une quantité importante de mémoire.

À l'inverse, TruncatedSVD utilise une technique appelée décomposition SVD tronquée, qui calcule uniquement les premiers n composants principaux sans générer l'intégralité de la matrice de covariance. Cela rend TruncatedSVD non seulement plus rapide, mais également bien plus efficace pour manipuler des matrices de grande dimension, tout en réduisant le coût computationnel.

In [None]:
# Réduction de dimensions
# Réduction de dimension avec TruncatedSVD (adapté pour matrice sparse pour économiser de l'espace en mémoire) car PCA prend beaucoup de temps à s'executer
from sklearn.decomposition import TruncatedSVD

svd = TruncatedSVD(n_components=2)  # Réduction à 2 dimensions pour visualisation
X_svd = svd.fit_transform(X_tfidf)  # Pas besoin de convertir en dense

# Charger les étiquettes 
labels = train["toxic"]

# Créer un DataFrame pour combiner les composantes SVD et les étiquettes
svd_df = pd.DataFrame(data=X_svd, columns=["SVD1", "SVD2"])
svd_df["Label"] = labels
# Visualisation
plt.figure(figsize=(10, 6))
sns.scatterplot(
    x="SVD1", y="SVD2", hue="Label", data=svd_df, palette="viridis", alpha=0.6
)
plt.title("TruncatedSVD Visualization of Text Data")
plt.xlabel("SVD Component 1")
plt.ylabel("SVD Component 2")
plt.legend(title="Label")
plt.show()
#La majorité des points (documents) se situent dans une région dense autour des coordonnées proches de (0.2, 0.2).
# Les données sont bien projetées sur deux dimensions, ce qui permet une interprétation visuelle.
#Les points en bleu (label 0) sont largement dominants dans les données, ce qui indique un déséquilibre des classes (beaucoup plus de textes non toxiques que toxiques).

In [None]:
#Vérifiez le ratio entre les classes 0 et 1 pour confirmer le déséquilibre.
#Ce déséquilibre  pour toxic n'est pas dû à SVD, mais aux proportions intrinsèques des données.
#SVD ne favorise pas une classe ou une autre ; il se concentre uniquement sur la variance des données.
#SVD gère efficacement les matrices creuses de TF-IDF.
#SVD conserve des tendances globales dans les données, ce qui est utile pour une analyse exploratoire.
print(train["toxic"].value_counts(normalize=True))
X_tfidf.shape


# Combien de Dimensions Réduire ?

Une bonne pratique consiste à examiner la variance expliquée cumulée pour choisir un nombre optimal de dimensions. En analysant la courbe cumulative de la variance expliquée (avec cumulative_variance), on constate que les 300 premières dimensions couvrent généralement 35% de la variance totale dans des tâches de ce projet NLP. Cela signifie que la majorité des informations pertinentes des données d'origine est maintenue. En choisissant 300 dimensions, couvrant déjà la majorité de la variance expliquée, des valeurs plus élevées risquent d'augmenter le coût computationnel sans apporter de gain significatif.

In [None]:
import matplotlib.pyplot as plt
from sklearn.decomposition import TruncatedSVD

# Ajuster SVD avec plus de composantes pour analyser la variance expliquée
svd = TruncatedSVD(n_components=1000, random_state=42)
svd.fit(X_tfidf)

# Variance expliquée cumulative
cumulative_variance = svd.explained_variance_ratio_.cumsum()

# Visualisation
plt.plot(range(1, len(cumulative_variance) + 1), cumulative_variance)
plt.axhline(y=0.35, color='r', linestyle='--')  # Ligne pour 35% de variance expliquée
plt.xlabel("Nombre de dimensions")
plt.ylabel("Variance expliquée cumulée")
plt.title("Analyse de la Variance Expliquée par TruncatedSVD")
plt.grid()
plt.show()

D'après la figure ci dessous, on peut observer que les premières composantes expliquent la majeure partie de la variance. La variance expliquée diminue rapidement après les premières composantes (effet d'"écrasement"). Cela indique qu'on peut probablement réduire de manière significative le nombre de dimensions sans perdre beaucoup d'information. Ce qui accélérera nos calculs après pour les modèles comme SVM par exemple.

In [None]:
import matplotlib.pyplot as plt
from sklearn.decomposition import TruncatedSVD

# Ajuster SVD avec plus de composantes pour analyser la variance expliquée
svd = TruncatedSVD(n_components=1000, random_state=42)
svd.fit(X_tfidf)

# Variance expliquée par chaque composante
explained_variance = svd.explained_variance_ratio_

# Visualisation de l'histogramme avec les 300 premières dimensions en rouge
plt.figure(figsize=(12, 6))
colors = ['red' if i < 300 else 'blue' for i in range(len(explained_variance))]
plt.bar(range(1, len(explained_variance) + 1), explained_variance, alpha=0.7, color=colors, edgecolor='black')
plt.axvline(x=300, color='green', linestyle='--', label="300 Dimensions (Ligne de coupe)")  # Ligne pour 300 dimensions
plt.xlabel("Numéro de la composante")
plt.ylabel("Variance expliquée")
plt.title("Histogramme de la Variance Expliquée par TruncatedSVD")
plt.legend()
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

## Make classification

We will study during this project a small amount of models.

### Logistic regression

The logistic regression is the most simple and naïve model one can use for classification specifically, but it can provide good insights on the baseline one may wish to achieve with more complex models.

**Implement a logistic classifier. Justify every parameter that you choose and how you chose it.**

### SVM

The support vector machine used to be the SOTA method for many tasks before neural networks became more popular among data scientists.
Is has a lot of advantages as compared to logistic regression, as it is a kernel method of which the results are still relatively easy to interpret.

**Implement a SVM classifier, justifying your choices of hyper-parameters.**

Le sous-échantillonnage a été choisi pour travailler avec un volume de données gérable tout en préservant la diversité, ce qui améliore la vitesse d'exécution. La combinaison TF-IDF et SVD a été utilisée pour convertir efficacement les textes en vecteurs numériques et réduire leur dimensionnalité, préparant ainsi les données pour un traitement optimal par le SVM.

# Tester que sur 15000 observations

In [None]:
# Filtrage des lignes invalides dans le test
test = test.merge(test_labels, on="id")
test = test[test.iloc[:, 2:].sum(axis=1) >= 0]  # Exclure les -1


# Limiter le nombre d'observations 
train = train.sample(n=15000, random_state=42)
test = test.sample(n=10000, random_state=42)

# Nettoyage des données train et test pour garantir que les données soient cohérentes
train = nettoyage(train)
test = nettoyage(test)

# Initialisation du TF-IDF
tfidf_vectorizer = TfidfVectorizer(max_features=10000)
X_tfidf_train = tfidf_vectorizer.fit_transform(train["comment_clean"])
X_tfidf_test = tfidf_vectorizer.transform(test["comment_clean"])

# Réduction de dimension avec TruncatedSVD
svd = TruncatedSVD(n_components=300, random_state=42)
X_tfidf_train_reduced = svd.fit_transform(X_tfidf_train)
X_tfidf_test_reduced = svd.transform(X_tfidf_test)

Pour tester différents paramètres de C, kernel et gamma et choisir les meilleurs, nous pouvons utiliser une validation croisée avec un grid search pour explorer plusieurs combinaisons de ces paramètres. Le GridSearchCV de scikit-learn est parfait pour ce genre d'expérimentation.

Après une exécution prolongée de 43 minutes, les résultats obtenus pour la catégorie "toxic" par exemple sont prometteurs. La recherche des hyperparamètres a révélé une configuration optimale avec un noyau RBF, une valeur de C à 0.1 et un gamma à 0.1. Cette configuration a permis d'atteindre une précision remarquable de 0.9395 sur l'ensemble de validation, et une accuracy de 0.927 sur l'ensemble de test

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.decomposition import TruncatedSVD
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score
from sklearn.model_selection import cross_validate

# Catégorie cible
category = "toxic"

# Labels pour la catégorie cible
y_train_category = train[category]
y_test_category = test[category]

# Définir la grille de paramètres à tester
param_grid = {
    'C': [0.1, 1.0, 10.0],  # Valeurs de régularisation
    'kernel': ['linear', 'rbf'],  # Noyaux à tester
    'gamma': ['scale', 'auto', 0.1, 1.0]  # Paramètre gamma pour le noyau RBF
}

# Initialisation du SVM
svm_clf = SVC(class_weight="balanced", random_state=42)

# Initialisation du GridSearchCV avec validation croisée (par exemple, 5 folds)
grid_search = GridSearchCV(estimator=svm_clf, param_grid=param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Entraîner le modèle sur les données d'entraînement
grid_search.fit(X_tfidf_train_reduced, y_train_category)

# Afficher les meilleurs paramètres et la meilleure précision
print("Meilleurs paramètres : ", grid_search.best_params_)
print("Meilleure précision obtenue : ", grid_search.best_score_)

# Utiliser le meilleur modèle pour faire des prédictions sur le test
best_svm_clf = grid_search.best_estimator_
y_pred_category = best_svm_clf.predict(X_tfidf_test_reduced)

# Évaluation des performances
print("Accuracy sur le test :", accuracy_score(y_test_category, y_pred_category))
print("Classification Report sur le test :\n", classification_report(y_test_category, y_pred_category))

# Sans validation croisée pour la catégorie "toxic":

In [None]:
from sklearn.decomposition import TruncatedSVD
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score

# Catégorie cible
category = "toxic"

# Labels pour la catégorie cible
y_train_category = train[category]
y_test_category = test[category]

# Initialisation et entraînement du modèle SVM: 
svm_clf = SVC(kernel="rbf", C=0.1,gamma=0.1, class_weight="balanced",random_state=42)
svm_clf.fit(X_tfidf_train_reduced, y_train_category)

# Prédiction sur le jeu de test
y_pred_category = svm_clf.predict(X_tfidf_test_reduced)

# Évaluation des performances
print("Accuracy:", accuracy_score(y_test_category, y_pred_category))
print("Classification Report:\n", classification_report(y_test_category, y_pred_category))

 # Avec validation croisée pour la catégorie "toxic":

In [None]:
from sklearn.model_selection import cross_validate
# Catégorie cible
category = "toxic"

# Labels pour la catégorie cible
y_train_category = train[category]
y_test_category = test[category]

svm_clf = SVC(kernel="rbf", C=0.1, gamma=0.1, class_weight="balanced",random_state=42)

# Effectuer la validation croisée  avec 5 plis
cv_results = cross_validate(svm_clf, X_tfidf_train_reduced, y_train_category, cv=5, scoring='accuracy', return_train_score=False)

# Afficher les résultats de la validation croisée
print("Précision moyenne de la validation croisée : ", cv_results['test_score'].mean())
print("Scores de précision pour chaque pli : ", cv_results['test_score'])

# Initialisation et entraînement final du modèle SVM avec les données d'entraînement
svm_clf.fit(X_tfidf_train_reduced, y_train_category)

# Prédiction sur le jeu de test
y_pred_category = svm_clf.predict(X_tfidf_test_reduced)

# Évaluation des performances
print("Accuracy sur le test :", accuracy_score(y_test_category, y_pred_category))
print("Classification Report sur le test :\n", classification_report(y_test_category, y_pred_category))

En comparant les résultats avec et sans validation croisée, on constate une précision globale (Accuracy) similaire d'environ 0.904, indiquant que la validation croisée n'a pas engendré de surapprentissage ou sous-apprentissage significatif. Cependant, la classification reste fortement déséquilibrée : la classe majoritaire (0) est très bien prédite (précision 0.90, recall 1.00), tandis que la classe minoritaire (1) est mal détectée (précision 0.96, mais recall seulement 0.02, F1-Score 0.04). Bien que la validation croisée n'améliore pas la performance finale, elle démontre la cohérence du modèle à travers les différents plis.

# SVM Avec toutes les catégories :

Les performances du modèle varient considérablement selon les catégories. Pour "toxic" et "obscene", les F1-scores de 0.58 et 0.63 respectivement pour la classe 1 sont acceptables, montrant une certaine efficacité dans la détection des classes minoritaires. La catégorie "insult" montre également des résultats prometteurs avec un F1-score de 0.56 pour la classe 1, une précision de 0.59 et un rappel de 0.53, ce qui est relativement bon compte tenu du déséquilibre des classes (580 exemples positifs contre 9420 négatifs). Il est important de noter que les accuracy pour toxic, obscene et insult sont respectivement de 0.92, 0.96 et 0.95, ce qui indique une bonne performance globale du modèle pour ces catégories.Cependant, pour "severe_toxic", "threat", et "identity_hate", les performances sont très faibles, avec des précisions et F1-scores extrêmement bas pour les classes 1, malgré parfois un rappel (recall) élevé. Ce problème est principalement dû au déséquilibre important des données, avec moins de 1% d'exemples positifs dans ces catégories, ce qui biaise le modèle SVM vers la classe majoritaire (0) et rend la détection des classes positives très difficile.

Enfin, il est à noter que le temps d'exécution pour ce code est d'environ 10 minutes.

In [None]:
from sklearn.decomposition import TruncatedSVD
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score

# Liste des catégories à tester (par exemple, "toxic", "severe_toxic", "obscene", ...)
categories = ["toxic", "severe_toxic", "obscene", "threat", "insult", "identity_hate"]

# Résultats pour chaque catégorie
for category in categories:
    print(f"=== Catégorie : {category} ===")
    
    # Labels pour la catégorie cible
    y_train_category = train[category]
    y_test_category = test[category]
    
    # Initialisation et entraînement du modèle SVM
    svm_clf = SVC(kernel="rbf", C=0.1, gamma=0.1, class_weight="balanced",random_state=42)
    svm_clf.fit(X_tfidf_train_reduced, y_train_category)
    
    # Prédiction sur le jeu de test
    y_pred_category = svm_clf.predict(X_tfidf_test_reduced)
    
    # Évaluation des performances
    print("Accuracy:", accuracy_score(y_test_category, y_pred_category))
    print("Classification Report:\n", classification_report(y_test_category, y_pred_category))

# Trouver les bons parametres de SVM pour les catégories severe_toxic, threat et identity_hate

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.decomposition import TruncatedSVD
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score
from sklearn.model_selection import cross_validate

# Catégorie cible
category = "threat"

# Labels pour la catégorie cible
y_train_category = train[category]
y_test_category = test[category]

# Définir la grille de paramètres à tester
param_grid = {
    'C': [0.1, 1.0, 10.0],  # Valeurs de régularisation
    'kernel': ['linear', 'rbf'],  # Noyaux à tester
    'gamma': ['scale', 'auto', 0.1, 1.0]  # Paramètre gamma pour le noyau RBF
}

# Initialisation du SVM
svm_clf = SVC(class_weight="balanced", random_state=42)

# Initialisation du GridSearchCV avec validation croisée (par exemple, 5 folds)
grid_search = GridSearchCV(estimator=svm_clf, param_grid=param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Entraîner le modèle sur les données d'entraînement
grid_search.fit(X_tfidf_train_reduced, y_train_category)

# Afficher les meilleurs paramètres et la meilleure précision
print("Meilleurs paramètres : ", grid_search.best_params_)
print("Meilleure précision obtenue : ", grid_search.best_score_)

# Utiliser le meilleur modèle pour faire des prédictions sur le test
best_svm_clf = grid_search.best_estimator_
y_pred_category = best_svm_clf.predict(X_tfidf_test_reduced)

# Évaluation des performances
print("Accuracy sur le test :", accuracy_score(y_test_category, y_pred_category))
print("Classification Report sur le test :\n", classification_report(y_test_category, y_pred_category))

Apres 32 minutes d'execution , on a trouvé que les meilleures parametres pour SVM pour les catégories threat / identity_hate sont: C: 0.1, gamma: auto, kernel: rbf

In [None]:
# Catégorie cible
category = "identity_hate"

# Labels pour la catégorie cible
y_train_category = train[category]
y_test_category = test[category]

# Définir la grille de paramètres à tester
param_grid = {
    'C': [0.1, 1.0, 10.0],  # Valeurs de régularisation
    'kernel': ['linear', 'rbf'],  # Noyaux à tester
    'gamma': ['scale', 'auto', 0.1, 1.0]  # Paramètre gamma pour le noyau RBF
}

# Initialisation du SVM
svm_clf = SVC(class_weight="balanced", random_state=42)

# Initialisation du GridSearchCV avec validation croisée (par exemple, 5 folds)
grid_search = GridSearchCV(estimator=svm_clf, param_grid=param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Entraîner le modèle sur les données d'entraînement
grid_search.fit(X_tfidf_train_reduced, y_train_category)

# Afficher les meilleurs paramètres et la meilleure précision
print("Meilleurs paramètres : ", grid_search.best_params_)
print("Meilleure précision obtenue : ", grid_search.best_score_)

# Utiliser le meilleur modèle pour faire des prédictions sur le test
best_svm_clf = grid_search.best_estimator_
y_pred_category = best_svm_clf.predict(X_tfidf_test_reduced)

# Évaluation des performances
print("Accuracy sur le test :", accuracy_score(y_test_category, y_pred_category))
print("Classification Report sur le test :\n", classification_report(y_test_category, y_pred_category))


Pour information : le temps d'execution de ce code est environ 20 minutes

In [None]:
# Catégorie cible
category = "severe_toxic"

# Labels pour la catégorie cible
y_train_category = train[category]
y_test_category = test[category]

# Définir la grille de paramètres à tester
param_grid = {
    'C': [0.1, 1.0, 10.0],  # Valeurs de régularisation
    'kernel': ['linear', 'rbf'],  # Noyaux à tester
    'gamma': ['scale', 'auto', 0.1, 1.0]  # Paramètre gamma pour le noyau RBF
}

# Initialisation du SVM
svm_clf = SVC(class_weight="balanced", random_state=42)

# Initialisation du GridSearchCV avec validation croisée (par exemple, 5 folds)
grid_search = GridSearchCV(estimator=svm_clf, param_grid=param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Entraîner le modèle sur les données d'entraînement
grid_search.fit(X_tfidf_train_reduced, y_train_category)

# Afficher les meilleurs paramètres et la meilleure précision
print("Meilleurs paramètres : ", grid_search.best_params_)
print("Meilleure précision obtenue : ", grid_search.best_score_)

# Utiliser le meilleur modèle pour faire des prédictions sur le test
best_svm_clf = grid_search.best_estimator_
y_pred_category = best_svm_clf.predict(X_tfidf_test_reduced)

# Évaluation des performances
print("Accuracy sur le test :", accuracy_score(y_test_category, y_pred_category))
print("Classification Report sur le test :\n", classification_report(y_test_category, y_pred_category))


Les résultats pour la catégorie "severe_toxic" montrent une accuracy élevée de 0.9789, avec des performances notables dans la détection des cas positifs. Le F1-score pour la classe positive (1) est de 0.27, tandis que le rappel atteint 0.67, indiquant que le modèle identifie 67% des cas "severe_toxic". La précision pour cette classe est de 0.17, ce qui signifie que le modèle fait quelques faux positifs tout en détectant efficacement les vrais positifs. Le macro average F1-score de 0.63 reflète une bonne performance globale. Ces résultats démontrent une sensibilité accrue aux cas minoritaires, bien qu'il reste des opportunités d'amélioration. Pour optimiser davantage les performances du modèle, il serait bénéfique d'explorer des techniques supplémentaires pour traiter le déséquilibre des classes.

In [None]:
# Catégorie cible
category = "severe_toxic"

# Labels pour la catégorie cible
y_train_category = train[category]
y_test_category = test[category]

# Initialisation et entraînement du modèle SVM: 
svm_clf = SVC(kernel="rbf", C=1.0,gamma="scale", class_weight="balanced",random_state=42)
svm_clf.fit(X_tfidf_train_reduced, y_train_category)

# Prédiction sur le jeu de test
y_pred_category = svm_clf.predict(X_tfidf_test_reduced)

# Évaluation des performances
print("Accuracy:", accuracy_score(y_test_category, y_pred_category))
print("Classification Report:\n", classification_report(y_test_category, y_pred_category))

Les résultats pour les catégories "threat" et "identity_hate" révèlent des performances très contrastées : Pour "threat", l'accuracy est très élevée (0.9966), mais le modèle échoue complètement à identifier les cas positifs. Les scores de précision, rappel et F1-score pour la classe positive sont tous à 0, indiquant que le modèle classe systématiquement tous les exemples comme négatifs. Cela suggère un problème sévère de déséquilibre des classes, avec seulement 34 exemples positifs sur 10000. Pour "identity_hate", les résultats sont inhabituels. L'accuracy est extrêmement basse (0.0125), mais le rappel pour la classe positive est de 1.00, signifiant que le modèle identifie tous les cas positifs. Cependant, la précision très faible (0.01) indique que le modèle classe presque tous les exemples comme positifs, résultant en de nombreux faux positifs. Ce comportement pourrait être dû à une sur-correction du déséquilibre des classes.

In [None]:
categories = ["threat","identity_hate"]

# Résultats pour chaque catégorie
for category in categories:
    print(f"=== Catégorie : {category} ===")
    
    # Labels pour la catégorie cible
    y_train_category = train[category]
    y_test_category = test[category]
    
    # Initialisation et entraînement du modèle SVM
    svm_clf = SVC(kernel="rbf", C=0.1, gamma="auto", class_weight="balanced",random_state=42)
    svm_clf.fit(X_tfidf_train_reduced, y_train_category)
    
    # Prédiction sur le jeu de test
    y_pred_category = svm_clf.predict(X_tfidf_test_reduced)
    
    # Évaluation des performances
    print("Accuracy:", accuracy_score(y_test_category, y_pred_category))
    print("Classification Report:\n", classification_report(y_test_category, y_pred_category))

## Other models

**Choose a model between the following:**
* **K-Nearest Neighbors (*KNN*)**
* **Decision Tree**
* **Random Forest**

**Describe IN YOUR OWN WORDS (plagiarism checks will be made if needed) how the method works, and implement it for the current case, discussing its hyperparameters as well.**

## Random Forest
La méthode de Random Forest se base sur **plusieurs** *arbres de décisions* indépendants afin de prédire un modèle plus précis que ceux obtenu par chaque arbe individuellement.
Un arbre de décision est un ensemble d'algorithmes permettant de séparer au mieux nos données selon un certains nombre de décisions, représentées par des *branches*.
Un arbre est très sensible aux variation des données d'apprentissage. C'est pour cela qu'une forêt est généralement privilégiée : en combinant les résultats de plusieurs arbres de décisions réalisés sur des données d'apprentissage variables, la forêt aléatoire réduite le risque d'erreurs dû à des changements dans les dites données.

In [22]:
# Importation des données
train = pd.read_csv("train.csv")

test_labels = pd.read_csv("test_labels.csv")


test = pd.read_csv("test.csv")
test = test[test_labels["toxic"] != -1]

test_labels = test_labels[test_labels["toxic"] != -1]

In [None]:
# Nettoyage des données
train = nettoyage(train)
test = nettoyage(test)

In [None]:
# Commentaires et cibles
X_train = train["comment_clean"]
Y_train = train[["toxic", "severe_toxic", "obscene", "threat", "insult", "identity_hate"]]

X_test = test["comment_clean"]
Y_test = test_labels[["toxic", "severe_toxic", "obscene", "threat", "insult", "identity_hate"]]

In [None]:
# Vectoriser
X_train_tfidf = tfidf.fit_transform(X_train)
X_test_tfidf = tfidf.fit_transform(X_test)

In [None]:
# Réduction de dimensions
X_train_svd = svd.fit_transform(X_train_tfidf)
X_test_svd = svd.fit_transform(X_test_tfidf)

## Compare models

One must then compare the models on the test set and provide metrics to study it.

**Compare previously studied models, with counting *tf* and *tf-idf* as vectorizers, for their best hyperparameters.**

## SVM VS LOGISTIC REGRESSION

En raison des limitations matérielles, j’ai utilisé une sous-partie du dataset (15 000 observations pour l’entraînement et 10 000 pour les tests), contrairement à mes collègues qui ont travaillé sur l’ensemble des données. Cela rend mes résultats avec le SVM difficilement comparables, car le modèle n’a pas été exposé à l’intégralité des données, ce qui pourrait biaiser les métriques obtenues, comme des scores plus élevés sur cet échantillon restreint. Le SVM présente des avantages notables : il est particulièrement performant sur des datasets de taille modérée et des classes déséquilibrées, grâce à l’argument class_weight="balanced", et il modélise des relations complexes via des noyaux comme RBF tout en résistant au surapprentissage. De plus, l’optimisation des hyperparamètres (par GridSearch) a permis d’améliorer ses performances. Cependant, son principal inconvénient réside dans sa scalabilité : son temps d’exécution devient prohibitif sur des datasets volumineux ou très dimensionnels. Pour remédier à cela, il est souvent nécessaire de réduire à la fois le nombre de points (échantillonnage) et les dimensions (via PCA), car réduire uniquement les dimensions ne suffit pas à diminuer significativement le temps d’exécution. En comparaison, la régression logistique est plus rapide, même avec de grands volumes de données, grâce à sa simplicité basée sur des calculs matriciels, ce qui la rend plus adaptée aux très grands datasets tout en offrant des performances compétitives. En conclusion, bien que le SVM soit un excellent choix pour des problèmes complexes ou des datasets modérés, une comparaison équitable avec d’autres modèles, comme la régression logistique, nécessiterait d’évaluer tous les modèles sur l’ensemble des données pour tirer des conclusions définitives.

In [10]:
## Write your code here

Conclusion : 
La logistic regression = meilleur modèle : même résultats que rf mais bien mieux en terme de temps d'exécution.

## Use your model

**Use the best model to build a Command-Line Interface (*CLI*) that is launched by the command `./cli.py [options]` using the `argsparse` module, and that accepts in stdin (standard input) english sentences and classifies them, displaying the result and interesting metrics if relevant.**