# NLP 5 : TfIdf

Nous allons effectuer les mêmes missions que dans la quête précédente, afin de comparer les deux méthodes (TfIdf Vectorizer et CountVectorizer). Pour rappel, les missions étaient les suivantes :

1.   Importe [**cet ensemble de données**](https://github.com/murpi/wilddata/raw/master/quests/tweets.zip) de tweets dans un DataFrame.
2.   Ne garde que les tweets positifs et négatifs (tu excluras donc les `neutral`). Quel est le pourcentage de tweets positifs/négatifs ?
3.   Copie la colonne `text` dans une Série `X`, et la colonne `sentiment` dans une Série `y`. Applique un train test split avec le `random_state = 32`.
4.   Crée un modèle `vectorizer` avec scikit-learn en utilisant la méthode `TfidfVectorizer`. Entraîne ton modèle sur `X_train`, puis crée une matrice de features `X_train_CV`. Crée la matrice `X_test_CV` sans ré-entraîner le modèle. Le format de la matrice `X_test_CV` doit être `4091x15806` avec `44633 stored elements`.
5.   Entraîne maintenant une régression logistique avec les paramètres par défaut. Tu devrais obtenir les résultats suivants : `0.932` pour le test d'entraînement, et `0.873` pour l'ensemble de test.

## 1. Import

In [18]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression

In [2]:
df_raw = pd.read_csv('https://github.com/murpi/wilddata/raw/master/quests/tweets.zip')
display(df_raw.head())

Unnamed: 0,textID,text,selected_text,sentiment
0,cb774db0d1,"I`d have responded, if I were going","I`d have responded, if I were going",neutral
1,549e992a42,Sooo SAD I will miss you here in San Diego!!!,Sooo SAD,negative
2,088c60f138,my boss is bullying me...,bullying me,negative
3,9642c003ef,what interview! leave me alone,leave me alone,negative
4,358bd9e861,"Sons of ****, why couldn`t they put them on t...","Sons of ****,",negative


## 2. Only positive & negative

In [3]:
df = df_raw[df_raw['sentiment'].isin(['negative', 'positive'])]
display(df.head())
sentiment_percentage = round(df['sentiment'].value_counts(normalize=True) * 100,2)
print(sentiment_percentage)

Unnamed: 0,textID,text,selected_text,sentiment
1,549e992a42,Sooo SAD I will miss you here in San Diego!!!,Sooo SAD,negative
2,088c60f138,my boss is bullying me...,bullying me,negative
3,9642c003ef,what interview! leave me alone,leave me alone,negative
4,358bd9e861,"Sons of ****, why couldn`t they put them on t...","Sons of ****,",negative
6,6e0c6d75b1,2am feedings for the baby are fun when he is a...,fun,positive


sentiment
positive    52.45
negative    47.55
Name: proportion, dtype: float64


## 3. Train Test Split

In [4]:
X = df['text']
y = df['sentiment']

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                   train_size=0.75,
                                                   random_state=32)

## 4. Vectorizer Model

In [17]:
tfidf = TfidfVectorizer()
X_train_CV = tfidf.fit_transform(X_train)

X_test_CV = tfidf.transform(X_test)
X_test_CV

<4091x15806 sparse matrix of type '<class 'numpy.float64'>'
	with 44633 stored elements in Compressed Sparse Row format>

## 5. Regression Logistique

In [20]:
log_model = LogisticRegression(max_iter=1000).fit(X_train_CV, y_train)

print('accuracy score on train set :',round(log_model.score(X_train_CV, y_train),3))
print('accuracy score on test set :',round(log_model.score(X_test_CV, y_test),3))

accuracy score on train set : 0.932
accuracy score on test set : 0.873
