# Vectorizer Tuning

In [2]:
import pandas as pd

data = pd.read_pickle('reviews')

data.head()

Unnamed: 0,target,reviews
0,neg,"plot : two teen couples go to a church party ,..."
1,neg,the happy bastard's quick movie review \ndamn ...
2,neg,it is movies like these that make a jaded movi...
3,neg,""" quest for camelot "" is warner bros . ' firs..."
4,neg,synopsis : a mentally unstable man undergoing ...


The dataset is made up of positive and negative movie reviews.

## Preprocessing

👇 Remove punctuation and lower case the text.

In [3]:
data["reviews"] = data['reviews'].str.replace('[^\w\s]','').str.lower()
data = data.replace('\n','', regex=True)
data

  data["reviews"] = data['reviews'].str.replace('[^\w\s]','').str.lower()


Unnamed: 0,target,reviews
0,neg,plot two teen couples go to a church party d...
1,neg,the happy bastards quick movie review damn tha...
2,neg,it is movies like these that make a jaded movi...
3,neg,quest for camelot is warner bros first fe...
4,neg,synopsis a mentally unstable man undergoing p...
...,...,...
1995,pos,wow what a movie its everything a movie can ...
1996,pos,richard gere can be a commanding actor but he...
1997,pos,glorystarring matthew broderick denzel washin...
1998,pos,steven spielbergs second epic film on world wa...


## Tuning

👇 Tune a vectorizer of your choice (or try both!) and a MultinomialNB model simultaneously.

In [11]:
# Create Pipeline

# Set parameters to search (model and vectorizer)

# Perform grid search on pipeline

from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import GridSearchCV

pipeline = Pipeline([
    ('vect', CountVectorizer()),
    ('mnb', MultinomialNB())
])

param_grid = {
    'vect__ngram_range': [(1, 1), (1, 2)],
    'mnb__alpha': [0.1, 1.0, 10.0]
}

grid_search = GridSearchCV(pipeline, param_grid, cv=5)
grid_search.fit(data['reviews'], data['target'])

print("Best parameters: ", grid_search.best_params_)
print("Best score: ", grid_search.best_score_)

Best parameters:  {'mnb__alpha': 1.0, 'vect__ngram_range': (1, 2)}
Best score:  0.828


La param_grid est un dictionnaire où les clés spécifient les noms des hyperparamètres à ajuster, 
et les valeurs sont des listes de valeurs d'hyperparamètres possibles. Dans ce cas, 
deux hyperparamètres sont ajustés :

    vect__ngram_range: Il s'agit de la plage de n-grammes du vectoriseur, 
    et il spécifie la taille des n-grammes que le vectoriseur doit prendre en compte. 
    Dans ce cas, deux options sont fournies : (1, 1), ce qui signifie uniquement des unigrammes, 
    et (1, 2), ce qui signifie des unigrammes et des bigrammes.

    mnb__alpha: Il s'agit du paramètre de lissage pour le modèle MNB, 
    et il spécifie la quantité de lissage à appliquer aux probabilités estimées par le modèle. 
    Dans ce cas, trois valeurs sont fournies : 0,1, 1,0 et 10,0.

La recherche en grille explorera toutes les combinaisons possibles des valeurs dans la grille de paramètres, 
et sélectionnera la combinaison qui donne les meilleures performances, telles que mesurées par 
une métrique de scoring spécifiée.

⚠️ Please push the exercise once you are done 🙃

## 🏁 