# Overfitting e regolarizzazione
L'overfitting è un problema tipico del machine learning che si manifesta quando un modello si lega troppo ai dati di addestramento e fallisce nel generalizzare su dati nuovi.

L'overffiting è caratterizzato da:
* **Alta variaza**: le previsioni per modelli addestrati con diverse parti del dataset saranno molto diverse tra loro.
* **Basso bias**: l'errore per le predizioni sul set di addestramento è mediamente molto basso.
<img src="res/overfitting.png" width="500px" /><br>
In questo notebook utilizzremo scikit-learn e il Boston Housing Dataset per studiare da vicino il problema dell'overfitting ed imparare a constrastarlo.

### Librerie necessarie

In [1]:
import pandas as pd
import numpy as np 
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler

### Importiamo il dataset

In [2]:
boston = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data", sep='\s+', 
                     names=["CRIM", "ZN","INDUS","CHAS","NOX","RM","AGE","DIS","RAD","TAX","PRATIO","B","LSTAT","MEDV"])
boston.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [3]:
X = boston.drop('MEDV',axis=1).values
Y = boston['MEDV'].values

X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.3, random_state=0)

### Creiamo le features polinomiali
Per correggere l'overfitting prima dobbiamo causarlo, un buon modo è aumentare la complessità del nostro modello aumentando il numero di features utilizzando i polinomi.

In [4]:
polyfeats = PolynomialFeatures(degree=2)
X_train_poly = polyfeats.fit_transform(X_train)
X_test_poly = polyfeats.transform(X_test)

print("Numero di esempi nel test di addestramento: "+str(X_train_poly.shape[0]))
print("Numero di features: "+str(X_train_poly.shape[1]))

Numero di esempi nel test di addestramento: 354
Numero di features: 105


### Standardizziamo i dati
**NOTA BENE** Per applicare la regolarizzazione è sempre necessario portare i dati sulla stessa scala.

In [5]:
ss = StandardScaler()
X_train_poly = ss.fit_transform(X_train_poly)
X_test_poly = ss.transform(X_test_poly)

Adesso il nostro set di addestramento contiene 354 e 105 features, abbastanza complesso !

### Riconoscere l'overfitting
Evidenziare un problema di overfitting è molto semplice, un modello che ne soffre avrà memorizzato la struttura dei dati di addestramento, piuttosto che imparare da essi, quindi l'errore per le predizioni sul train set sarà molto basso, invece fallirà nel generalizzare, perciò l'errore nel test set sarà decisamente più alto.<br><br>
Quindi per riconoscere l'overfitting è sufficente confrontare questi due valori, scriviamo una funzione che ci permette di farlo in modo da non dover scrivere più volte lo stesso codice.

In [6]:
def overfit_eval(model, X, Y):
    
    """
    model: il nostro modello predittivo già addestrato
    X: una tupla contenente le prorietà del train set e test set (X_train, X_test)
    Y: una tupla contenente target del train set e test set (Y_train, Y_test)
    """
    
    Y_pred_train = model.predict(X[0])
    Y_pred_test = model.predict(X[1])
    
    mse_train = mean_squared_error(Y[0], Y_pred_train)
    mse_test = mean_squared_error(Y[1], Y_pred_test)

    r2_train = r2_score(Y[0], Y_pred_train)
    r2_test = r2_score(Y[1], Y_pred_test)    
    
    print("Train set:  MSE="+str(mse_train)+" R2="+str(r2_train))
    print("Test set:  MSE="+str(mse_test)+" R2="+str(r2_test))    

### Regressione lineare non regolarizzata
Cominciamo eseguendo una regressione lineare (in realtà si tratta di una regressione polinomiale) senza applicare la regolarizzazione.

In [7]:
ll = LinearRegression()
ll.fit(X_train_poly, Y_train)

overfit_eval(ll, (X_train_poly, X_test_poly),(Y_train, Y_test))

Train set:  MSE=4.116985074931637 R2=0.9514303225914078
Test set:  MSE=29.550444547161653 R2=0.6451057885504312


Il modello predice in maniera estremamente (o meglio dire eccessivamente) accurata i dati del train set, mentre è molto più scarso sul test set. Siamo di fronte ad un caso di overfitting.

## Regolarizzazione L2: Ridge Regression
La ridge regression è un modello di regressione lineare che applica la **regolarizzazione L2**, la quale consiste nell'aggiungere una penalità per i pesi nella funzione di costo durante la fase di addestramento.<br>
La penalità è data dalla somma dei quadrati dei pesi:
$$\lambda\sum_{j=1}^{M}W_j^2$$<br>
**Lambda** (conosciuto anche come **alpha**) è il **parametro di regolarizzazione** ed è un'altro iperparametro.
Eseguiamo diverse Ridge regression per diversi valori di alpha.

In [8]:
from sklearn.linear_model import Ridge

alphas = [0.0001, 0.001, 0.01, 0.1 ,1 ,10] #alpha corrispone a lambda

for alpha in alphas:
    print("Alpha="+str(alpha))
    ridge = Ridge(alpha=alpha)
    ridge.fit(X_train_poly, Y_train)

    overfit_eval(ridge, (X_train_poly, X_test_poly),(Y_train, Y_test))

Alpha=0.0001
Train set:  MSE=4.09926340485998 R2=0.9516393920397678
Test set:  MSE=28.91761846398874 R2=0.652705887879358
Alpha=0.001
Train set:  MSE=4.1135025099420846 R2=0.9514714077678218
Test set:  MSE=28.420009267706448 R2=0.6586820627231176
Alpha=0.01
Train set:  MSE=4.208206127237709 R2=0.9503541522865029
Test set:  MSE=26.813295018287196 R2=0.6779783405054157
Alpha=0.1
Train set:  MSE=4.747028830953758 R2=0.9439974508597073
Test set:  MSE=23.63175511737725 R2=0.7161879211608522
Alpha=1
Train set:  MSE=5.875947305341798 R2=0.9306791596529952
Test set:  MSE=17.634584627531503 R2=0.7882125937009091
Alpha=10
Train set:  MSE=8.812755521737856 R2=0.8960324885854233
Test set:  MSE=17.15971577477419 R2=0.7939156621191287


La Ridge regression, applicando la regolarizzazione L2, ci permette di ridurre l'overfitting e portare l'R2 fino ad un valore di 0.791 per alpha uguale a 10.

## Regolarizzazione L1: Lasso
Lasso è un modello di regressione lineare che applica la regolarizzazione L1, questa funziona in egual modo alla L2, con la differenza che il termine di regolarizza sarà dato dalla somma del valore assoluto dei pesi:
$$\lambda\sum_{j=1}^{M}|W_j|$$<br>
e viene sempre applicato alla funzione di costo durante la fase di addestramento

In [9]:
from sklearn.linear_model import Lasso

alphas = [0.0001, 0.001, 0.01, 0.1 ,1 ,10] #alpha corrisponde a lambda

for alpha in alphas:
    print("Alpha="+str(alpha))
    lasso = Lasso(alpha=alpha)
    lasso.fit(X_train_poly, Y_train)

    overfit_eval(lasso, (X_train_poly, X_test_poly),(Y_train, Y_test))

Alpha=0.0001
Train set:  MSE=5.3911236526970985 R2=0.9363988132296843
Test set:  MSE=29.701776720600666 R2=0.6432883230881479
Alpha=0.001
Train set:  MSE=5.407317548867133 R2=0.936207767525449
Test set:  MSE=28.788018557306582 R2=0.6542623536919956
Alpha=0.01
Train set:  MSE=6.063858816900318 R2=0.9284622943178908
Test set:  MSE=22.93324201265634 R2=0.7245769068863115
Alpha=0.1
Train set:  MSE=11.833211121207535 R2=0.8603989967405071
Test set:  MSE=19.29615234281638 R2=0.7682575380960781
Alpha=1
Train set:  MSE=21.590985067091978 R2=0.7452827346818105
Test set:  MSE=27.25804314512913 R2=0.6726370152499754
Alpha=10
Train set:  MSE=84.76451346994796 R2=0.0
Test set:  MSE=83.76673764512785 R2=-0.0060197319476869016


  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(


Lasso ci permette di ottenere un modello ancora migliore, con un R2 di 0.803 per Lambda uguale a 0.1.<br>
Da notare che per valori di lambda più grandi il modello peggiora, questo perché l'effetto della regolarizzazione sarà molto pesante e buona parte dei pesi saranno portati a 0.

## L2 ed L1 insieme: ElasticNet
ElasticNet è un modello di regressione lineare che implementa entrambe le tecniche di regolarizzazone L2 ed L1.<br>
Tramite il parametro <span style="font-family: Monaco">l1_ration</span> possiamo controllare l'effetto delle due regolarizzazione
 * **<span style="font-family: Monaco">l1_ration>0.5</span>** l'effetto della regolarizzazione L1 sarà più intenso rispetto alla L2.
 * **<span style="font-family: Monaco">l1_ration<0.5</span>** l'effetto della regolarizzazione L2 sarà più intenso rispetto alla L1.

In [10]:
from sklearn.linear_model import ElasticNet

alphas = [0.0001, 0.001, 0.01, 0.1 ,1 ,10]

for alpha in alphas:
    print("Lambda is: "+str(alpha))
    elastic = ElasticNet(alpha=alpha, l1_ratio=0.5)
    elastic.fit(X_train_poly, Y_train)
    overfit_eval(elastic, (X_train_poly, X_test_poly),(Y_train, Y_test))

Lambda is: 0.0001
Train set:  MSE=5.391059281137911 R2=0.9363995726460551
Test set:  MSE=29.46601758288404 R2=0.6461197374561598
Lambda is: 0.001
Train set:  MSE=5.463124643400418 R2=0.9355493894819877
Test set:  MSE=26.23899793865832 R2=0.68487551962864
Lambda is: 0.01
Train set:  MSE=6.669947875220285 R2=0.9213120254906552
Test set:  MSE=15.784424726986302 R2=0.8104325991533371
Lambda is: 0.1
Train set:  MSE=12.092531251957972 R2=0.8573396960952864
Test set:  MSE=20.123693597792244 R2=0.7583189532244384
Lambda is: 1
Train set:  MSE=21.178857007859765 R2=0.7501447700119411
Test set:  MSE=27.923580301576493 R2=0.6646440632674491
Lambda is: 10
Train set:  MSE=70.28359861834348 R2=0.1708369960353573
Test set:  MSE=69.68198552608109 R2=0.16313498207951238


  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(


Utilizzando ElasticNet, e quindi entrambe le regolarizzazioni, abbiamo ottenuto un modello ancora migliore, con un R2 di 0.81 sul test set e 0.92 sul train set.<br>
Abbiamo il nostro vincitore!

## Che differenza c'è tra la regolarizzazione L2 ed L1 ?

La differenza principale tra le due tecniche di regolarizzazione viste è la seguente:
* La regolarizzazione L2 riduce la magnitudine dei pesi a valori più bassi.
* La regolarizzazione L1 elimina le feature più deboli portando il loro peso a 0.
Nella pratica la L2 porta quasi sempre a migliori risultati, ma utilizzarle entrambe con ElasticNet è anche un ottima soluzione.