# Évaluation de la classification des textes
Cette évaluation ressemble beaucoup au projet de classification de texte que nous venons de terminer, et le jeu de données est très similaire.

Le jeu de données **moviereviews2.tsv** contient le texte de 6000 critiques de films. 3000 sont positives, 3000 sont négatives, et le texte a été prétraité sous la forme d'un fichier délimité par des tabulations. Comme précédemment, les étiquettes sont données comme `pos` et `neg`.

Nous avons inclus 20 critiques qui contiennent soit des données `NaN`, soit des chaînes composées d'espaces blancs.

Pour plus d'informations sur cet ensemble de données, visitez http://ai.stanford.edu/~amaas/data/sentiment/

### Tâche #1 : Effectuer les importations et charger le jeu de données dans un DataFrame pandas
Pour cet exercice, vous pouvez charger le jeu de données à partir de `'./moviereviews2.tsv'`.

In [2]:
import pandas as pd

# Chargement du jeu de données dans un DataFrame pandas
df = pd.read_csv('./moviereviews2.tsv', sep='\t')

# Affichage des premières lignes du DataFrame pour vérification
print(df.head())



  label                                             review
0   pos  I loved this movie and will watch it again. Or...
1   pos  A warm, touching movie that has a fantasy-like...
2   pos  I was not expecting the powerful filmmaking ex...
3   neg  This so-called "documentary" tries to tell tha...
4   pos  This show has been my escape from reality for ...


### Tâche #2 : Vérifier les valeurs manquantes :

In [3]:
# Check for NaN values:
# Vérification des valeurs manquantes
missing_values = df.isnull().sum()

# Affichage du nombre de valeurs manquantes par colonne
print(missing_values)


label      0
review    20
dtype: int64


In [4]:
# Check for whitespace strings (it's OK if there aren't any!):
# Vérification des chaînes de caractères composées d'espaces blancs
chaînes_espaces_blancs = df.applymap(lambda x: isinstance(x, str) and x.isspace()).any()

# Affichage du résultat
print(chaînes_espaces_blancs)






label     False
review    False
dtype: bool


Le résultat indique que pour chaque colonne du DataFrame "df", il n'y a pas de chaînes de caractères composées uniquement d'espaces blancs (représentées par "False").

### Tâche #3 : Supprimer les valeurs NaN :

In [5]:
# Suppression des valeurs NaN
df.dropna(inplace=True)

# Vérification pour confirmer que les valeurs NaN ont été supprimées
print(df.isnull().sum())


label     0
review    0
dtype: int64


### Tâche #4 : Jetez un coup d'œil rapide à la colonne `label` :

In [6]:
# Affichage du décompte des valeurs uniques dans la colonne 'label'
label_counts = df['label'].value_counts()
print(label_counts)


pos    2990
neg    2990
Name: label, dtype: int64


### Tâche #5 : Diviser les données en ensembles d'entrainement et de test :
Vous pouvez utiliser les paramètres de votre choix. Pour comparer vos résultats à ma resolution, utilisez `test_size=0.33, random_state=42`

In [7]:
from sklearn.model_selection import train_test_split

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(df['review'], df['label'], test_size=0.33, random_state=42)

# Afficher la taille des ensembles d'entraînement et de test
print("Taille de l'ensemble d'entraînement :", len(X_train))
print("Taille de l'ensemble de test :", len(X_test))


Taille de l'ensemble d'entraînement : 4006
Taille de l'ensemble de test : 1974


### Tâche #6 : Construire un pipeline pour vectoriser la reviews, puis entraîner et ajuster un modèle
Vous pouvez utiliser le modèle de votre choix. Pour comparer vos résultats à ma résolution, utilisez `LinearSVC`.

In [8]:
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC

# Créer le pipeline
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LinearSVC())
])

# Entraîner le modèle
pipeline.fit(X_train, y_train)








### Tâche #7 : Exécuter les prédictions et analyser les résultats

In [9]:
# Form a prediction set
# Prédictions sur l'ensemble de test
predictions = pipeline.predict(X_test)

# Afficher les prédictions
print(predictions)


['neg' 'pos' 'pos' ... 'pos' 'pos' 'pos']


In [10]:
# Report the confusion matrix
from sklearn.metrics import confusion_matrix

# Calculate confusion matrix
conf_matrix = confusion_matrix(y_test, predictions)

# Display confusion matrix
print(conf_matrix)



[[900  91]
 [ 63 920]]


In [11]:
# Print a classification report
from sklearn.metrics import classification_report

# Print classification report
print(classification_report(y_test, predictions))



              precision    recall  f1-score   support

         neg       0.93      0.91      0.92       991
         pos       0.91      0.94      0.92       983

    accuracy                           0.92      1974
   macro avg       0.92      0.92      0.92      1974
weighted avg       0.92      0.92      0.92      1974



In [12]:
# Print the overall accuracy
from sklearn.metrics import accuracy_score

# Calculate overall accuracy
overall_accuracy = accuracy_score(y_test, predictions)

# Print overall accuracy
print("Overall Accuracy:", overall_accuracy)


Overall Accuracy: 0.9219858156028369
