In [2]:
import pandas as pd
import sklearn
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error

In [3]:
path = '../datasets/whr2017.csv'
df = pd.read_csv(path)
df.head()

Unnamed: 0,country,rank,score,high,low,gdp,family,lifexp,freedom,generosity,corruption,dystopia
0,Norway,1,7.537,7.594445,7.479556,1.616463,1.533524,0.796667,0.635423,0.362012,0.315964,2.277027
1,Denmark,2,7.522,7.581728,7.462272,1.482383,1.551122,0.792566,0.626007,0.35528,0.40077,2.313707
2,Iceland,3,7.504,7.62203,7.38597,1.480633,1.610574,0.833552,0.627163,0.47554,0.153527,2.322715
3,Switzerland,4,7.494,7.561772,7.426227,1.56498,1.516912,0.858131,0.620071,0.290549,0.367007,2.276716
4,Finland,5,7.469,7.527542,7.410458,1.443572,1.540247,0.809158,0.617951,0.245483,0.382612,2.430182


In [4]:
df.columns

Index(['country', 'rank', 'score', 'high', 'low', 'gdp', 'family', 'lifexp',
       'freedom', 'generosity', 'corruption', 'dystopia'],
      dtype='object')

In [5]:
X = df[['gdp', 'family', 'lifexp', 'freedom', 'corruption', 'generosity', 'dystopia']]
y = df['score']
print(X.shape)
print(y.shape)

(155, 7)
(155,)


In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25)

In [7]:
model_LR = LinearRegression()
model_LR.fit(X_train,y_train)
model_LR_predict = model_LR.predict(X_test)

### Regularización Lasso
Tambien llamada L1
* Penaliza a los feature que aportan poca informacion **volviendolos cero**, eliminando el ruido que producen en el modelo.
$$ 
\hat\beta = \text{arg min}_\beta \sum_{i=1}^n \left(  y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2 + \lambda \sum_{j=1}^p |\beta_j|
$$
El ultimo termino es el penalizado.
Reduce la complejidad de la red al extraer solo las características más importantes. Esto se realiza disminuyendo los pesos de las variables de entrada que no aportan significancia.
$$
L_1(X,w) = L(X,w) + \lambda\sum |w_i|
$$
* Penalia la suma de los valores absolutos de los pesos.
* Genera un modelo más simple e interpretable.
* Es robusto a los outliers.

In [8]:
model_Lasso = Lasso(alpha=0.02)
model_Lasso.fit(X_train,y_train)
model_Lasso_predict = model_Lasso.predict(X_test)

## Regularización Ridge
También llamada L2
* Penalisa los features pocos relevantes, pero no los vuelve cero. Solamente limita la información que aportan a nuestro modelo.
$$ 
\hat\beta = \text{arg min}_\beta \sum_{i=1}^n \left(  y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2 + \lambda \sum_{j=1}^p \beta_j^2
$$
Permite indentificar patrones complejos y correlaciones entre variables. Esto podría aprovecharse al usar una sol variable para explicar el comportamiento de otras.
$$
L_1(X,w) = L(X,w) + \lambda\sum w_i^2
$$
* Penaliza la suma de los cuadrados de los valores de los pesos. El parámetro $\lambda$ suele ser pequeño.
* Útil para aprender patrones complejos de los datos
* No es robusto a outliers.

In [9]:
model_Ridge = Ridge(alpha=1)
model_Ridge.fit(X_train,y_train)
model_Ridge_predict = model_Ridge.predict(X_test)

In [12]:
print('MAE Linear Regresion = {}'.format(mean_absolute_error(model_LR_predict, y_test)))
print('MAE Lasso = {}'.format(mean_absolute_error(model_Lasso_predict, y_test)))
print('MAE Ridge = {}'.format(mean_absolute_error(model_Ridge_predict, y_test)))

MAE Linear Regresion = 0.0002649999881056736
MAE Lasso = 0.2239078053244691
MAE Ridge = 0.07547751997803977


In [11]:
print('Coeficientes LR = {}'.format(model_LR.coef_))
print('Coeficientes Lasso = {}'.format(model_Lasso.coef_))
print('Coeficientes Ridge = {}'.format(model_Ridge.coef_))

Coeficientes LR = [1.00010114 0.99999271 0.99970141 1.00003392 0.99965782 1.00009036
 0.99994774]
Coeficientes Lasso = [1.29103693 0.89442193 0.39441194 0.8514574  0.         0.03505982
 0.88141627]
Coeficientes Ridge = [1.07446526 0.96205778 0.83948592 0.91007534 0.61055904 0.71948199
 0.95959928]
