## Implementación de Lasso y Ridge

In [1]:
# Importamos las bibliotecas
import pandas as pd
import sklearn

In [16]:
# Importamos los modelos de sklearn 
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso
from sklearn.linear_model import Ridge
from sklearn.linear_model import ElasticNet

In [3]:
# Importamos las metricas de entrenamiento y el error medio cuadrado
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [4]:
# Importamos el dataset del 2017 
dataset = pd.read_csv('./data/felicidad.csv')
# Mostramos el reporte estadistico
print(dataset.describe())

             rank       score        high         low         gdp      family  \
count  155.000000  155.000000  155.000000  155.000000  155.000000  155.000000   
mean    78.000000    5.354019    5.452326    5.255713    0.984718    1.188898   
std     44.888751    1.131230    1.118542    1.145030    0.420793    0.287263   
min      1.000000    2.693000    2.864884    2.521116    0.000000    0.000000   
25%     39.500000    4.505500    4.608172    4.374955    0.663371    1.042635   
50%     78.000000    5.279000    5.370032    5.193152    1.064578    1.253918   
75%    116.500000    6.101500    6.194600    6.006527    1.318027    1.414316   
max    155.000000    7.537000    7.622030    7.479556    1.870766    1.610574   

           lifexp     freedom  generosity  corruption    dystopia  
count  155.000000  155.000000  155.000000  155.000000  155.000000  
mean     0.551341    0.408786    0.246883    0.123120    1.850238  
std      0.237073    0.149997    0.134780    0.101661    0.500028 

In [5]:
# Vamos a elegir los features que vamos a usar
X = dataset[['gdp', 'family', 'lifexp', 'freedom' , 'corruption' , 'generosity', 'dystopia']]
# Definimos nuestro objetivo, que sera nuestro data set, pero solo en la columna score 
y = dataset[['score']]

In [6]:
# Imprimimos los conjutos que creamos 
# En nuestros features tendremos definidos 155 registros, uno por cada pais, 7 colunas 1 por cada pais 
print(X.shape)
# Y 155 para nuestra columna para nuestro target 
print(y.shape)

(155, 7)
(155, 1)


In [7]:
# Aquí vamos a partir nuestro entrenaminto en training y test, no hay olvidar el orden
# Con el test size elejimos nuestro porcetaje de datos para training 
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.25)

In [8]:
# Aquí definimos nuestros regresores uno por 1 y llamamos el fit o ajuste 
modelLinear = LinearRegression().fit(X_train, y_train)
# Vamos calcular la prediccion que nos bota con la funcion predict con la regresion lineal y le vamos a mandar el test 
y_predict_linear = modelLinear.predict(X_test)

In [9]:
# Configuramos alpha, que es valor labda y entre mas valor tenga alpha en lasso mas penalizacion vamos a tener y lo entrenamos con la función fit 
modelLasso = Lasso(alpha=0.2).fit(X_train, y_train)
# Hacemos una prediccion para ver si es mejor o peor de lo que teniamos en el modelo lineal sobre exactamente los mismos datos que teníamos anteriormente 
y_predict_lasso = modelLasso.predict(X_test)

In [10]:
# Hacemos la misma predicción, pero para nuestra regresion ridge 
modelRidge = Ridge(alpha=1).fit(X_train, y_train)
# Calculamos el valor predicho para nuestra regresión ridge 
y_predict_ridge = modelRidge.predict(X_test)

In [20]:
# Hacemos otra prediccion más, utilizando el modelo ElasticNet 
modelElasticNet = ElasticNet(random_state=0,alpha=0.01).fit(X_train, y_train)
# Calculamos el valor predicho para nuestra regresión ridge 
y_pred_elastic = modelElasticNet.predict(X_test)

In [11]:
# Calculamos la perdida para cada uno de los modelos que entrenamos, empezaremos con nuestro modelo lineal, con el error medio cuadratico y lo vamos a aplicar con los datos de prueba con la prediccion que hicimos 
linear_loss = mean_squared_error(y_test, y_predict_linear)
# Mostramos la perdida lineal con la variable que acabamos de calcular
print("Linear loss: ", linear_loss) 

Linear loss:  8.683338549316208e-08


In [12]:
# Mostramos nuestra perdida Lasso, con la variable lasso loss 
lasso_loss = mean_squared_error(y_test, y_predict_lasso)
print("Lasso Loss. ", lasso_loss) 

Lasso Loss.  0.7879892236198014


In [13]:
# Mostramos nuestra perdida de Ridge con la variable lasso loss 
ridge_loss = mean_squared_error(y_test, y_predict_ridge)
print("Ridge loss: ", ridge_loss)

Ridge loss:  0.005661076879049968


In [21]:
# Mostramos nuestra perdida de ElasticNet
elastic_loss = mean_squared_error(y_test, y_pred_elastic)
print('ElasticNet Loss: ', elastic_loss)

ElasticNet Loss:  0.00878723801597527


In [14]:
# Imprimimos las coficientes para ver como afecta a cada una de las regresiones 
# La lines "="*32 lo unico que hara es repetirme si simbolo de igual 32 veces 
print("="*32)
print("Coeficientes lasso: ")
# Esta informacion la podemos encontrar en la variable coef_ 
print(modelLasso.coef_)

Coeficientes lasso: 
[0.90652194 0.         0.         0.         0.         0.
 0.20631307]


In [15]:
# Hacemos lo mismo con ridge 
print("="*32)
print("Coeficientes ridge:")
print(modelRidge.coef_) 

Coeficientes ridge:
[[1.07424048 0.9542686  0.85881004 0.85250818 0.67393391 0.781227
  0.96125657]]


In [22]:
# Hacemos lo mismo con ridge 
print("="*32)
print("Coeficientes ElasticNet:")
print(modelElasticNet.coef_) 

Coeficientes ElasticNet:
[1.10922172 0.94382162 0.80787459 0.83275311 0.5323034  0.72566323
 0.95337165]
