# Évaluation de la classification des textes
Cette évaluation ressemble beaucoup au projet de classification de texte que nous venons de terminer, et le jeu de données est très similaire.

Le jeu de données **moviereviews2.tsv** contient le texte de 6000 critiques de films. 3000 sont positives, 3000 sont négatives, et le texte a été prétraité sous la forme d'un fichier délimité par des tabulations. Comme précédemment, les étiquettes sont données comme `pos` et `neg`.

Nous avons inclus 20 critiques qui contiennent soit des données `NaN`, soit des chaînes composées d'espaces blancs.

Pour plus d'informations sur cet ensemble de données, visitez http://ai.stanford.edu/~amaas/data/sentiment/

### Tâche #1 : Effectuer les importations et charger le jeu de données dans un DataFrame pandas
Pour cet exercice, vous pouvez charger le jeu de données à partir de `'./moviereviews2.tsv'`.

In [1]:
import numpy as np
import pandas as pd

df = pd.read_csv('./moviereviews2.tsv', sep='\t')
df.head()



Unnamed: 0,label,review
0,pos,I loved this movie and will watch it again. Or...
1,pos,"A warm, touching movie that has a fantasy-like..."
2,pos,I was not expecting the powerful filmmaking ex...
3,neg,"This so-called ""documentary"" tries to tell tha..."
4,pos,This show has been my escape from reality for ...


In [2]:
len(df)

6000

### Tâche #2 : Vérifier les valeurs manquantes :

In [3]:
# Check for NaN values:
df.isnull().sum()

label      0
review    20
dtype: int64

In [4]:
# Check for whitespace strings (it's OK if there aren't any!):
whitespace = []  # start with an empty list

for i,lb,rv in df.itertuples():  
    if type(rv)==str:            
        if rv.isspace():        
            whitespace.append(i)    
        
print(len(whitespace), 'blanks: ', whitespace)





0 blanks:  []


### Tâche #3 : Supprimer les valeurs NaN :

In [5]:
df.dropna(inplace=True)

len(df)

5980

### Tâche #4 : Jetez un coup d'œil rapide à la colonne `label` :

In [6]:
df['label'].unique()

array(['pos', 'neg'], dtype=object)

### Tâche #5 : Diviser les données en ensembles d'entrainement et de test :
Vous pouvez utiliser les paramètres de votre choix. Pour comparer vos résultats à ma resolution, utilisez `test_size=0.33, random_state=42`

In [7]:
from sklearn.model_selection import train_test_split

X = df['review']
y = df['label']


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
print("Taille de l'ensemble d'entraînement:", len(X_train))
print("Taille de l'ensemble de test:", len(X_test))


Taille de l'ensemble d'entraînement: 4006
Taille de l'ensemble de test: 1974


### Tâche #6 : Construire un pipeline pour vectoriser la date, puis entraîner et ajuster un modèle
Vous pouvez utiliser le modèle de votre choix. Pour comparer vos résultats à ma résolution, utilisez `LinearSVC`.

In [8]:
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC


pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),  
    ('clf', LinearSVC())          
])

pipeline.fit(X_train, y_train)

accuracy = pipeline.score(X_test, y_test)
print("Précision du modèle :", accuracy)




Précision du modèle : 0.9219858156028369


### Tâche #7 : Exécuter les prédictions et analyser les résultats

In [9]:
# Form a prediction set
predictions = pipeline.predict(X_test)

In [11]:
# Report the confusion matrix
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
conf_matrix = confusion_matrix(y_test, predictions)
print("Matrice de confusion :")
print(conf_matrix)

Matrice de confusion :
[[900  91]
 [ 63 920]]


In [12]:
# Print a classification report
class_report = classification_report(y_test, predictions)
print("Rapport de classification :")
print(class_report)

Rapport de classification :
              precision    recall  f1-score   support

         neg       0.93      0.91      0.92       991
         pos       0.91      0.94      0.92       983

    accuracy                           0.92      1974
   macro avg       0.92      0.92      0.92      1974
weighted avg       0.92      0.92      0.92      1974



In [13]:
# Print the overall accuracy
overall_accuracy = accuracy_score(y_test, predictions)
print("Précision globale :", overall_accuracy)

Précision globale : 0.9219858156028369
