<h3>Stemming, rimozione stopwords e normalizzazione</h3>
<p>In questo notebook estenderemo la pipeline definita precedentemente in modo da effettuare lo stemming e la rimozione delle stopwords sul dizionario ottenuto dal coprus delle recensioni. Analizzeremo inoltre i possibili benefici dell'addozione di uno schema di normalizzazione basato su tf-idf.

In [1]:
import os
import time
import re
import numpy as np
import pandas as pd

#Libreria di ML per Python, oltre ad offrire innumerevoli implementazioni di modelli predittivi offre anche
#una vasta gamma di funzionalità per il data cleaning, feature selection, feature extraction, etc...
#Per ora impiegheremo la classe CountVectorizer per creare la 'bag of words'.
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

from sklearn.model_selection import train_test_split, GridSearchCV

from sklearn.pipeline import Pipeline

from sklearn.tree import DecisionTreeRegressor
from sklearn.decomposition import PCA
from sklearn.linear_model import SGDRegressor, LinearRegression


from nltk.stem import PorterStemmer
from nltk.corpus import stopwords

#Per poter utilizzare la lista di stopwords di NLTK è necessario scaricarla!
#import nltk
#nltk.download()

#Libreria per generare grafici
from bokeh.plotting import figure, show, output_notebook, output_file
from bokeh.models import ColumnDataSource, LabelSet, FactorRange

#Funzione invocata per redirigere l'output della libreria
#Bokeh in modo da visualizzare i grafici nel notebook, se omesso i grafici sono generati sotto forma
#di file HTML
output_notebook()

SEED = 99
np.random.seed(SEED)

DATA_FOLDER = os.path.join(os.getcwd(), "../data")
RESULTS_FOLDER = os.path.join(DATA_FOLDER, "results")
CV_RESULTS_FOLDER = os.path.join(RESULTS_FOLDER, "csv")

<h3>Funzioni ausiliarie</h3>

In [2]:
analyzer = CountVectorizer().build_analyzer()

eng_stopwords = stopwords.words('english')

porter_stemmer = PorterStemmer()

rex = "[0-9]+[a-zA-Z0-9]*"
    
rex = re.compile(rex)

def stem(doc):
    return (porter_stemmer.stem(token) for token in analyzer(doc) if token not in eng_stopwords)

def stem_re(doc):
    res = []
    doc = re.sub(rex, "", doc)
    for token in analyzer(doc):
            if (token not in eng_stopwords):
                res.append(porter_stemmer.stem(token))
    return res

def clean_results_df(df, to_remove, to_format, format_, new_index_cols):
    """
        Clean results dataframe contaning GridSearch error metrics.

        Params :
            df -> pandas.DataFrame : DataFrame to clean.
            to_remove -> python.dict : dictionary of elements to remove.
            new_index_cols -> python.list : list of columns to use as new index
    """
    df = df.copy()
    for k,v in to_remove.items():
        if v is True:
            df = df.drop(k, axis=1)
        elif isinstance(v, list):
            df = df.drop(k, 1).assign(**pd.DataFrame(df[k].values.tolist()))
            for col in v:
                df = df.drop(col, 1)
    labels = [df[col] for col in new_index_cols]
    labels = list(zip(*labels))
    new_index = pd.MultiIndex.from_tuples(labels, names=new_index_cols)
    df = df.set_index(new_index)
    df = df.drop(new_index_cols, 1)
    for col in to_format:
        df[col] = df[col].apply(lambda x : format(x, format_))
    return df

def dump_results(df, fp):
    df.to_csv(fp)

<h3>Lettura Dati</h3>

In [None]:
train_fp = os.path.join(os.getcwd(), "../data/csv/train.csv")
train = pd.read_csv(
    train_fp,
    index_col=['review_id']
)

In [None]:
test_fp = os.path.join(os.getcwd(), "../data/csv/train.csv")
test = pd.read_csv(
    test_fp,
    index_col=['review_id']
)

<h3>Separazione feature-labels</h3>

In [None]:
X_train, Y_train = train['text'], train['stars']
X_test, Y_test = test['text'], test['stars']

<h3>Definizione della Pipeline</h3>

In [None]:
pipeline = Pipeline([
    ('cv', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('model', 'passthrough')
])

<h3>Griglia iperparametri</h3>

In [None]:
param_grid = [
    {
        'cv__analyzer':[analyzer, stem, stem_re],
        'tfidf__norm' : ['l2', 'l1'],
        'tfidf__smooth_idf' : [True, False],
        'model':[SGDRegressor()],
        'model__penalty':['l2','l1'],
        'model__alpha':[0.00001, 0.0001, 0.001],
        'model__learning_rate':['constant', 'optimal'],
        'model__max_iter':[2500],
        'model__random_state':[SEED]
    },
    {
        'cv__analyzer':[analyzer, stem, stem_re],
        'tfidf__norm' : ['l2', 'l1'],
        'tfidf__smooth_idf' : [True, False],
        'model':[LinearRegression()],
        'model__normalize':[True, False]
    },
    {
        'cv__analyzer':[analyzer, stem, stem_re],
        'tfidf__norm' : ['l2', 'l1'],
        'tfidf__smooth_idf' : [True, False],
        'model':[DecisionTreeRegressor()],
        'model__splitter':['random'],
        'model__max_depth':[10, 100, 500],
        'model__min_samples_split':[1000, 5000, 10000],
        'model__min_samples_leaf':[500, 1000, 5000],
        'model__max_features':[500, 1000, 5000]
        'model__random_state': [SEED]
    }
]

In [None]:
piepeline_gs_cv = GridSearchCV(
    simple_pipeline,
    param_grid=simple_param_grid,
    scoring=['neg_mean_absolute_error', 'neg_root_mean_squared_error'],
    n_jobs=-1,
    cv=5,
    refit=False
)

In [None]:
piepeline_gs_cv.fit(X_train, Y_train)

<h3>Dump risultati GridSearchCV</h3>

In [None]:
results_df = clean_results_df(
    pd.DataFrame(piepeline_gs_cv.cv_results_),
    to_remove={},
    to_format=['mean_test_neg_mean_absolute_error', 'mean_test_neg_root_mean_squared_error'],
    format_=".8f",
    new_index_cols=['rank_test_neg_root_mean_squared_error', 'rank_test_neg_mean_absolute_error']
)

In [None]:
results_fp = os.path.join(CV_RESULTS_FOLDER, "simple_gs_results.csv")
dump_results(results_df, results_fp)