# Importation des bibliothèques

In [58]:
import pandas as pd
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.utils import resample

# **Chargement des données**
## **But** :
Importation  d'un fichier CSV contenant des textes annotés automatiquement avec une polarité (positif et négatif)

## **Le fichier doit contenir contenir** :



*   une première colonne cible : la polarité (y), comprise entre 0 (positif) et 1 (negatif)
*   plusieurs colonnes de caractéristiques représentant un vecteur bag-of-words (X)

In [59]:
df = pd.read_csv("dfYtbComments.csv")

# **Rééquilibrage des données**

Il se peut qu'une classe soit sur-représentée, c'est pour ça que nous réduisons celle-ci avec *resample*.



*   Séparation des deux classes
*   Identication de la classe minoriataire
*   Undersampling de la classe majoritaire
* Concaténation des deux sous-ensembles
* Mélange


In [60]:
df_pos = df[df.iloc[:, 0] == 0]  # commentaires positifs
df_neg = df[df.iloc[:, 0] == 1]  # commentaires négatifs

minority_size = min(len(df_pos), len(df_neg))

df_pos_down = resample(df_pos, replace = False, n_samples = minority_size, random_state = 42)
df_neg_down = resample(df_neg, replace = False, n_samples = minority_size, random_state = 69)

df_balanced = pd.concat([df_pos_down, df_neg_down])

df = df_balanced.sample(frac = 1, random_state = 8).reset_index(drop=True)

# **Séparation des variables (features/target)**


*   y correspond à la première colonne du dataframe : c'est la variable à prédire (la polarité du commentaire).
*   X contient le reste des colonnes : ce sont les variables explicatives, ici des fréquences ou occurrences de mots par texte (représentation bag-of-words).

In [61]:
y = df.iloc[:, 0]
X = df.iloc[:, 1:]

# **Séparation en données d'entraînement et de test**

*   On divise les données en 80% pour l'entraînement et 20% pour le test.
*   stratify = y garantit que la répartition des classes est équilibrée entre le train et le test.





In [62]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, stratify = y, random_state = 3621)

#  **Entraînement du modèle Naive Bayes**


*   Utilisation du classifieur Multinomial Naive Bayes, adapté aux données discrètes (comme les comptages de mots).
*   Le modèle est entraîné sur X_train et y_train.

In [63]:
model = MultinomialNB()
model.fit(X_train, y_train)

#  **Prédiction sur les données de test**

*   Le modèle fait des prédictions sur les commentaires de test.
*   y_pred contient les polarités prédites pour ces commentaires.

In [64]:
y_pred = model.predict(X_test)

# **Évaluation du modèle**


In [65]:
print("Classification Report :")
print(classification_report(y_test, y_pred, digits=4))

Classification Report :
              precision    recall  f1-score   support

           0     0.9023    0.8054    0.8511       149
           1     0.8232    0.9122    0.8654       148

    accuracy                         0.8586       297
   macro avg     0.8627    0.8588    0.8582       297
weighted avg     0.8628    0.8586    0.8582       297



In [66]:
print("Confusion Matrix :")
print(confusion_matrix(y_test, y_pred))

Confusion Matrix :
[[120  29]
 [ 13 135]]
