In [1]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

# Cargar dataset

In [3]:
import joblib

df = joblib.load('../dsrp_ml_1/data/WHR_preprocesado.joblib')
df.head()

Unnamed: 0,country,happiness score,gdp per capita,family,life expectancy,freedom,generosity,lack of corruption
0,Finland,7.769,1.34,1.587,0.986,0.596,0.153,0.393
1,Denmark,7.6,1.383,1.573,0.996,0.592,0.252,0.41
2,Norway,7.554,1.488,1.582,1.028,0.603,0.271,0.341
3,Iceland,7.494,1.38,1.624,1.026,0.591,0.354,0.118
4,Netherlands,7.488,1.396,1.522,0.999,0.557,0.322,0.298


# Entrenar Modelo

In [4]:
# Seleccionar features (puedes ajustar esto según la matriz de correlación)
features = ['gdp per capita', 'family', 'life expectancy', 'freedom']
X = df[features]
y = df['happiness score']

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Predecir
y_pred = model.predict(X_test)

# Evaluar
print("R² score:", r2_score(y_test, y_pred))
print("MSE:", mean_squared_error(y_test, y_pred))

R² score: 0.5961963009874784
MSE: 0.4202479484737957


# Importancia de cada variable (coeficientes del modelo)

In [5]:
import pandas as pd

# Obtener y mostrar los coeficientes del modelo
coefficients = pd.DataFrame({
    'Variable': features,
    'Coeficiente': model.coef_
})

# Ordenar por magnitud absoluta para ver la importancia
coefficients['Importancia absoluta'] = coefficients['Coeficiente'].abs()
coefficients_sorted = coefficients.sort_values(by='Importancia absoluta', ascending=False)

print(coefficients_sorted[['Variable', 'Coeficiente']])

          Variable  Coeficiente
3          freedom     1.886122
1           family     1.120872
2  life expectancy     1.011735
0   gdp per capita     0.795098


# Conclusión

1) La libertad personal es el predictor más fuerte, con el mayor coeficiente.

2) El apoyo social (family) y la esperanza de vida saludable también tienen un fuerte impacto positivo.

3) El PBI per cápita, aunque importante, tiene menor influencia directa que las variables sociales.