In [47]:
import pandas as pd
import sklearn

In [48]:
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso
from sklearn.linear_model import Ridge

In [49]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [50]:
df = pd.read_csv('Datasets/felicidad.csv')
print(df.describe()) #imprimimos una descripción estadística de cada una de nuestras columnas

             rank       score        high         low         gdp      family  \
count  155.000000  155.000000  155.000000  155.000000  155.000000  155.000000   
mean    78.000000    5.354019    5.452326    5.255713    0.984718    1.188898   
std     44.888751    1.131230    1.118542    1.145030    0.420793    0.287263   
min      1.000000    2.693000    2.864884    2.521116    0.000000    0.000000   
25%     39.500000    4.505500    4.608172    4.374955    0.663371    1.042635   
50%     78.000000    5.279000    5.370032    5.193152    1.064578    1.253918   
75%    116.500000    6.101500    6.194600    6.006527    1.318027    1.414316   
max    155.000000    7.537000    7.622030    7.479556    1.870766    1.610574   

           lifexp     freedom  generosity  corruption    dystopia  
count  155.000000  155.000000  155.000000  155.000000  155.000000  
mean     0.551341    0.408786    0.246883    0.123120    1.850238  
std      0.237073    0.149997    0.134780    0.101661    0.500028 

In [51]:
df_features =df[['gdp', 'family', 'lifexp', 'freedom', 'corruption', 'generosity', 'dystopia']]
df_target = df['score']
print(df_features.shape)
print(df_target.shape)

(155, 7)
(155,)


In [52]:
X_train, X_test, Y_train, Y_test = train_test_split(df_features, df_target, test_size=0.25)

In [53]:
modelLinear = LinearRegression().fit(X_train, Y_train)
y_predict_linear = modelLinear.predict(X_test)

modelLasso =Lasso(alpha=0.022).fit(X_train, Y_train)
y_predict_lasso = modelLasso.predict(X_test)
#Recuerda que alpha es nuestro "lambda" de nuestro regulador Lasso(). Por defecto está en 1 
#Mientras más grande sea alpha, mayor va a ser la penalización para nuestros features.

modelRidge = Ridge(alpha=1).fit(X_train, Y_train)   
y_predict_Ridge = modelRidge.predict(X_test)

Para este ejemplo vamos a calcular la pérdida con **El Error Medio Cuadrático ( MSE )**


In [54]:
linear_loss = mean_squared_error(Y_test, y_predict_linear)
print('Linear Loss:', linear_loss)

lasso_loss = mean_squared_error(Y_test, y_predict_lasso)
print('Lasso Loss:', lasso_loss)

ridge_loss = mean_squared_error(Y_test, y_predict_Ridge)
print('Ridge Loss:', ridge_loss)

Linear Loss: 1.0003997491914725e-07
Lasso Loss: 0.044447130657402655
Ridge Loss: 0.004661867276719037


Podemos obervar que el modelo de regresión lineal tiene la menor pérdida entre los otros modelos.
Por otro lado, si solo comparamos los dos modelos regulados, observamos que el modelo Ridge nos retorna una perdida menor para este caso.

In [55]:
print("Coef Lineal")
print(modelLinear.coef_)
print("Coef Lasso")
print(modelLasso.coef_)
print("Coef Ridge")
print(modelRidge.coef_)

Coef Lineal
[1.00016148 0.99995068 0.99964178 0.99981154 0.99995186 1.00026985
 0.999953  ]
Coef Lasso
[1.30792215 0.78367152 0.48287212 0.77991024 0.         0.17904496
 0.90404044]
Coef Ridge
[1.07420543 0.93594342 0.86652574 0.89967036 0.6702908  0.76622235
 0.96444973]


De los resultados podemos comprobar la hipótesis que sostenía que el modelo Lasso tiende a reducir los pesos de nuestros features a 0 y que el modelo Ridge tiende solo a reducirlos.

Por otro lado, nuestro modelo lineal no hace ello ( es ovio porque no aplica regularización alguna a los features.


In [56]:
print("Score Lineal")
print(modelLinear.score(X_test, Y_test))
print("Score Lasso")
print(modelLasso.score(X_test, Y_test))
print("Score Ridge")
print(modelRidge.score(X_test, Y_test))

Score Lineal
0.9999999231608282
Score Lasso
0.9658608399998099
Score Ridge
0.9964192911779547


En este caso, observamos que el mejor Score lo obtenemos de nuestro modelo Lineal.