In [3]:
# Importamos las bibliotecas
import pandas as pd
import sklearn

# Importamos los modelos de sklearn 
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso
from sklearn.linear_model import Ridge

# Importamos las metricas de entrenamiento y el error medio cuadrado
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [11]:
dataset = pd.read_csv('./data/felicidad.csv')
dataset.head()

Unnamed: 0,country,rank,score,high,low,gdp,family,lifexp,freedom,generosity,corruption,dystopia
0,Norway,1,7.537,7.594445,7.479556,1.616463,1.533524,0.796667,0.635423,0.362012,0.315964,2.277027
1,Denmark,2,7.522,7.581728,7.462272,1.482383,1.551122,0.792566,0.626007,0.35528,0.40077,2.313707
2,Iceland,3,7.504,7.62203,7.38597,1.480633,1.610574,0.833552,0.627163,0.47554,0.153527,2.322715
3,Switzerland,4,7.494,7.561772,7.426227,1.56498,1.516912,0.858131,0.620071,0.290549,0.367007,2.276716
4,Finland,5,7.469,7.527542,7.410458,1.443572,1.540247,0.809158,0.617951,0.245483,0.382612,2.430182


In [13]:
dataset.describe()

Unnamed: 0,rank,score,high,low,gdp,family,lifexp,freedom,generosity,corruption,dystopia
count,155.0,155.0,155.0,155.0,155.0,155.0,155.0,155.0,155.0,155.0,155.0
mean,78.0,5.354019,5.452326,5.255713,0.984718,1.188898,0.551341,0.408786,0.246883,0.12312,1.850238
std,44.888751,1.13123,1.118542,1.14503,0.420793,0.287263,0.237073,0.149997,0.13478,0.101661,0.500028
min,1.0,2.693,2.864884,2.521116,0.0,0.0,0.0,0.0,0.0,0.0,0.377914
25%,39.5,4.5055,4.608172,4.374955,0.663371,1.042635,0.369866,0.303677,0.154106,0.057271,1.591291
50%,78.0,5.279,5.370032,5.193152,1.064578,1.253918,0.606042,0.437454,0.231538,0.089848,1.83291
75%,116.5,6.1015,6.1946,6.006527,1.318027,1.414316,0.723008,0.516561,0.323762,0.153296,2.144654
max,155.0,7.537,7.62203,7.479556,1.870766,1.610574,0.949492,0.658249,0.838075,0.464308,3.117485


In [15]:
# Vamos a elegir los features que vamos a usar
X = dataset[['gdp', 'family', 'lifexp', 'freedom' , 'corruption' , 'generosity', 'dystopia']]
# Definimos nuestro objetivo, que sera nuestro data set, pero solo en la columna score 
y = dataset[['score']]

In [17]:
# En nuestros features tendremos definidos 155 registros, uno por cada pais, 7 colunas 1 por cada pais
print(X.shape)
# Y 155 para nuestra columna para nuestro target 
print(y.shape)

(155, 7)
(155, 1)


In [31]:
# Aquí vamos a partir nuestro entrenaminto en training y test, no hay olvidar el orden
# Con el test size elejimos nuestro porcetaje de datos para training 
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.25)

In [33]:
# Aquí definimos nuestros regresores uno por 1 y llamamos el fit o ajuste 
modelLinear = LinearRegression().fit(X_train, y_train)

In [35]:
# Vamos calcular la prediccion que nos bota con la funcion predict con la regresion lineal 
# y le vamos a mandar el test 
y_predict_linear = modelLinear.predict(X_test)

In [53]:
# Configuramos alpha, que es valor labda y entre mas valor tenga alpha en lasso mas penalizacion 
# vamos a tener y lo entrenamos con la función fit 
modelLasso = Lasso(alpha=0.02).fit(X_train, y_train)

In [55]:
# Hacemos una prediccion para ver si es mejor o peor de lo que teniamos en el modelo lineal sobre
# exactamente los mismos datos que teníamos anteriormente 
y_predict_lasso = modelLasso.predict(X_test)

In [57]:
# Hacemos la misma predicción, pero para nuestra regresion ridge 
modelRidge = Ridge(alpha=1).fit(X_train, y_train)
# Calculamos el valor predicho para nuestra regresión ridge 
y_predict_ridge = modelRidge.predict(X_test)

In [59]:
# Calculamos la perdida para cada uno de los modelos que entrenamos, empezaremos con nuestro modelo 
# lineal, con el error medio cuadratico y lo vamos a aplicar con los datos de prueba con la prediccion 
# que hicimos 
linear_loss = mean_squared_error(y_test, y_predict_linear)
# Mostramos la perdida lineal con la variable que acabamos de calcular
print("Linear loss: ", linear_loss) 

Linear loss:  7.513480741951884e-08


In [65]:
# Mostramos nuestra perdida Lasso, con la variable lasso loss 
lasso_loss = mean_squared_error(y_test, y_predict_lasso)
print("Lasso Loss. ", lasso_loss) 

Lasso Loss.  0.03505839447637856


In [67]:
# Mostramos nuestra perdida de Ridge con la variable lasso loss 
ridge_loss = mean_squared_error(y_test, y_predict_ridge)
print("Ridge loss: ", ridge_loss)

Ridge loss:  0.0049334021982076655


In [None]:
# LA REGRESIÓN RIDGE es la ganadora para este problema 

In [79]:
# Imprimimos las coficientes para ver como afecta a cada una de las regresiones (es decir, a cada una de las columnas)
print("Coeficientes lasso: ")
# Esta informacion la podemos encontrar en la variable coef_ 
print(modelLasso.coef_)

Coeficientes lasso: 
[1.25956011 0.82484143 0.56214583 0.79052779 0.         0.35389607
 0.90752348]


In [81]:
# Hacemos lo mismo con ridge 
print("Coeficientes ridge:")
print(modelRidge.coef_) 

Coeficientes ridge:
[[1.06989976 0.93783374 0.87572996 0.90015235 0.63147906 0.79051641
  0.96338455]]
