# Évaluation de la classification des textes
Cette évaluation ressemble beaucoup au projet de classification de texte que nous venons de terminer, et le jeu de données est très similaire.

Le jeu de données **moviereviews2.tsv** contient le texte de 6000 critiques de films. 3000 sont positives, 3000 sont négatives, et le texte a été prétraité sous la forme d'un fichier délimité par des tabulations. Comme précédemment, les étiquettes sont données comme `pos` et `neg`.

Nous avons inclus 20 critiques qui contiennent soit des données `NaN`, soit des chaînes composées d'espaces blancs.

Pour plus d'informations sur cet ensemble de données, visitez http://ai.stanford.edu/~amaas/data/sentiment/

### Tâche #1 : Effectuer les importations et charger le jeu de données dans un DataFrame pandas
Pour cet exercice, vous pouvez charger le jeu de données à partir de `'./moviereviews2.tsv'`.

In [3]:
import numpy as np
import pandas as pd 

df = pd.read_csv('../data/TextFiles/moviereviews2.tsv', sep='\t')
df.head()






Unnamed: 0,label,review
0,pos,I loved this movie and will watch it again. Or...
1,pos,"A warm, touching movie that has a fantasy-like..."
2,pos,I was not expecting the powerful filmmaking ex...
3,neg,"This so-called ""documentary"" tries to tell tha..."
4,pos,This show has been my escape from reality for ...


### Tâche #2 : Vérifier les valeurs manquantes :

In [4]:
# Check for NaN values:
df.isnull().sum()

label      0
review    20
dtype: int64

In [5]:
# Check for whitespace strings (it's OK if there aren't any!):
blanks = []

for i,lb,rv in df.itertuples():
    if type(rv) == str:
        if rv.isspace():
            blanks.append(i)
print(len(blanks), 'blanks: ', blanks)



0 blanks:  []


### Tâche #3 : Supprimer les valeurs NaN :

In [6]:
df.dropna(inplace=True)
len(df)

5980

### Tâche #4 : Jetez un coup d'œil rapide à la colonne `label` :

In [7]:
df['label'].value_counts()

pos    2990
neg    2990
Name: label, dtype: int64

### Tâche #5 : Diviser les données en ensembles d'entrainement et de test :
Vous pouvez utiliser les paramètres de votre choix. Pour comparer vos résultats à ma resolution, utilisez `test_size=0.33, random_state=42`

In [8]:
from sklearn.model_selection import train_test_split

X = df['review']
y = df['label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

### Tâche #6 : Construire un pipeline pour vectoriser la date, puis entraîner et ajuster un modèle
Vous pouvez utiliser le modèle de votre choix. Pour comparer vos résultats à ma résolution, utilisez `LinearSVC`.

In [9]:
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.naive_bayes import MultinomialNB

text_clf_nb = Pipeline([('tfidf', TfidfVectorizer()),
                     ('clf', MultinomialNB())])

text_clf_SVC = Pipeline([('tfidf', TfidfVectorizer()),
                        ('clf', LinearSVC())])

### Tâche #7 : Exécuter les prédictions et analyser les résultats

In [12]:
# Form a prediction set
text_clf_nb.fit(X_train, y_train)
predictions = text_clf_nb.predict(X_test)

In [13]:
# Report the confusion matrix
from sklearn import metrics
print(metrics.confusion_matrix(y_test,predictions))


[[940  51]
 [136 847]]


In [14]:
# Print a classification report
print(metrics.classification_report(y_test,predictions))

              precision    recall  f1-score   support

         neg       0.87      0.95      0.91       991
         pos       0.94      0.86      0.90       983

    accuracy                           0.91      1974
   macro avg       0.91      0.91      0.91      1974
weighted avg       0.91      0.91      0.91      1974



In [15]:
# Print the overall accuracy
print(metrics.accuracy_score(y_test,predictions))

0.9052684903748733
