# Creare una Pipeline con scikit-learn

Il processo di creazione di un modello di machine learning è composto da due parti:
* **Trasformatori**: in cui i dati vengono lavorati per poter essere serviti all'algoritmo di machine learning
* **Classificatori/Regressori**: che si occupano di prendere i dati e usarli per creare il modello

Finora abbiamo trattato le due cose in maniera separata, instanziando continuamente classi per le diverse trasformazioni da applicare ai dati, come one hot enconding, standardizzazione o normalizzazione, per poi creare il modello con una delle classi di scikit-learn, come la regressione logistica per un problema di classificazione o la regressione lineare per un problema di regressione.<br>
Scikit-learn mette a disposizione la classe **Pipeline** che permette di raggruppare trasformatori e classificatori/regressori in modo che vengano applicati all'interno di un unico processo.<br>
Vediamo insieme come utilizzarla con il boston housing dataset.
<br><br>
Importiamo le librerie necessarie.

In [70]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import OneHotEncoder, StandardScaler

Carichiamo il boston housing dataset all'interno di un DataFrame.

In [90]:
features = ["CRIM","ZN","INDUS","CHAS","NOX","RM","AGE","DIS","RAD","TAX","PRATIO","B","LSTAT","MEDV"]

boston = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data", sep='\s+', 
                     names=features)
boston.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


# Il metodo classico: un processo per volta
Creiamo il nostro modello con lo stesso procedimento che abbiamo utilizzato finora.<br><br>
Partendo dal DataFrame creiamo il set di addestramento e test.

In [64]:
X = boston.drop("MEDV", axis=1).values
Y = boston["MEDV"].values
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.3, random_state=0)

La proprietà **CHAS** è di tipo categorico, utilizziamo la classe OneHotEncoder per creare delle variabili dummy.

In [73]:
onehot = OneHotEncoder(categorical_features=[3], sparse=False)
X_train = onehot.fit_transform(X_train)
X_test = onehot.transform(X_test)
X_train[0]

array([  1.     ,   0.     ,   1.62864,   0.     ,  21.89   ,   0.624  ,
         5.019  , 100.     ,   1.4394 ,   4.     , 437.     ,  21.2    ,
       396.9    ,  34.41   ])

Standardizziamo i set di addestramento e test per avere i dati su una scala comune.

In [66]:
ss = StandardScaler()
X_train = ss.fit_transform(X_train)
X_test = ss.transform(X_test)
X_train[0]

array([ 0.26360274, -0.26360274, -0.20735619, -0.49997924,  1.54801583,
        0.58821309, -1.83936729,  1.10740225, -1.1251102 , -0.61816013,
        0.20673466,  1.2272573 ,  0.42454294,  3.10807269])

Adesso che il dataset è pronto creiamo il modello di regressione lineare utilizzando la classe Linear Regression e calcoliamo l'errroe quandratico medio e il coefficente di indeterminazione.

In [67]:
ll = LinearRegression()
ll.fit(X_train, Y_train)
Y_pred = ll.predict(X_test)

print("MSE: %.4f" % (mean_squared_error(Y_test, Y_pred)))
print("R2 score: %.4f " % (r2_score(Y_test, Y_pred)))

MSE: 27.1960
R2 score: 0.6734 


Dopo aver sudato un po' tra trasformazioni varie il nostro modello e pronto, se volessimo utilizzarlo per eseguire predizioni su dati nuovi dobbiamo applicare tutte le trasformazioni a questi dati, quindi: one hot enconding -> standardizzazione -> predizione.<br>
Esiste un metodo più rapido, creare una pipeline.

# Il metodo rapido: creare una Pipeline
Possiamo utilizzare una pipeline per applicare trasformazioni e eseguire predizioni o classificazioni con una singola chiamata di fit sulla pipeline.<br>
Utilizziamo la classe **Pipeline** di scikit-learn per creare una pipeline che prende in ingresso i dati e applica in questo ordine: one hot enconding -> standardizzazione -> predizione.

In [76]:
X = boston.drop("MEDV", axis=1).values
Y = boston["MEDV"].values

X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.3, random_state=0)

from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('onehot',OneHotEncoder(categorical_features=[3],sparse=False)),
    ('scaler',StandardScaler()),
    ('regressor', LinearRegression())
])

pipeline.fit(X_train, Y_train) # addestriamo la pipeline

Y_pred = pipeline.predict(X_test)

print("MSE: %.4f" % (mean_squared_error(Y_test, Y_pred)))
print("R2 score: %.4f " % (r2_score(Y_test, Y_pred)))

MSE: 27.1960
R2 score: 0.6734 


**NOTA BENE**
Bisogna chiamare fit anche con una pipeline per inizializzare i trasformatori al suo interno e addestrare il classificatore/regressore.<br><br>
Se dobbiamo eseguire regressioni su dati nuovi non dobbiamo far altro che passarlo alla pipeline, questa si occuperà di eseguire le varie trasformazioni e la regressione, tornando il risultato.

In [109]:
new_sample = np.random.randint(X_test.shape[0],size=1)[0] #selezioniamo un esempio a caso dal test set...
X_new = X_test[new_sample] #... e facciamo finta che sia un nuovo caso da predire

Y_pred = pipeline.predict([X_new]) # la pipeline applica automaticamente ohe e standardizzazione

print("Proprietà dell'abitazione:")

print([feat+":"+str(val) for val,feat in zip(X_new, features[:-1])])

print("Valore dell'abitazione: $%4.f" % (Y_pred*10000.))

Proprietà dell'abitazione:
['CRIM:0.07896', 'ZN:0.0', 'INDUS:12.83', 'CHAS:0.0', 'NOX:0.437', 'RM:6.273', 'AGE:6.0', 'DIS:4.2515', 'RAD:5.0', 'TAX:398.0', 'PRATIO:18.7', 'B:394.92', 'LSTAT:6.78']
Valore dell'abitazione: $259129
