# Ridge, Lasso y Elastic Net

En este notebook aplicamos tres algoritmos de regresi√≥n lineal regularizada:

- **Ridge Regression (L2):** penaliza el tama√±o de los coeficientes para evitar sobreajuste.  
- **Lasso Regression (L1):** adem√°s de penalizar, puede llevar coeficientes a 0, haciendo selecci√≥n autom√°tica de variables.  
- **Elastic Net (L1 + L2):** combina Ridge y Lasso, equilibrando estabilidad y selecci√≥n de variables.

Usamos el dataset **escalado** porque estos algoritmos son sensibles a la magnitud de las variables.  
Al final compararemos m√©tricas y veremos c√≥mo afecta la regularizaci√≥n al modelo.


## **Paso 1. Importaci√≥n de librer√≠as**


In [None]:
# ===================================
# 1. Importar librer√≠as
# ===================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import Ridge, Lasso, ElasticNet
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score


In [None]:
## **Paso 2. Cargar datasets procesados (escalados)**

En este paso cargamos el dataset procesado y **escalado** desde el notebook `EDA_processed`.  
Tambi√©n separamos los datos en entrenamiento y validaci√≥n (80/20). 

Por eso cargamos el dataset **escalado** (`features_scaled.csv`), generado en el notebook `EDA_processed.ipynb` con `StandardScaler`.  

Esto asegura que todas las variables tengan media 0 y varianza 1, evitando que variables con unidades m√°s grandes (por ejemplo PIB o gasto sanitario) dominen a otras m√°s peque√±as.


In [None]:
# ===================================
# 2. Cargar dataset escalado 
# ===================================

X_scaled = pd.read_csv("../data/processed/features_scaled.csv")
y = pd.read_csv("../data/processed/target_y.csv").squeeze()  # convertir a Serie


# Divisi√≥n train / validaci√≥n
X_train, X_valid, y_train, y_valid = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42
)

print("Tama√±o entrenamiento:", X_train.shape, y_train.shape)
print("Tama√±o validaci√≥n:", X_valid.shape, y_valid.shape)


## **Paso 3. Ridge Regression (L2)**

Ridge a√±ade una penalizaci√≥n L2 a la regresi√≥n lineal, reduciendo el tama√±o de los coeficientes.  
Esto ayuda a **controlar el sobreajuste** y mejorar la estabilidad del modelo cuando hay multicolinealidad.  
No elimina variables, pero las reduce en magnitud.

Entrenamos el modelo con un valor inicial de `alpha=1.0` y calculamos las m√©tricas:
- **RMSE**: error cuadr√°tico medio (ra√≠z).  
- **MAE**: error absoluto medio.  
- **R¬≤**: proporci√≥n de la varianza explicada.


### Interpretaci√≥n: Ridge Regression

- Ridge ha penalizado los coeficientes m√°s grandes, reduciendo su magnitud.  
- Esto ayuda a controlar el **sobreajuste** y estabiliza el modelo frente a variables correlacionadas.  
- Observando las m√©tricas:  
  - **RMSE bajo** ‚Üí buenas predicciones en validaci√≥n.  
  - **MAE** nos da el error promedio en unidades originales (a√±os de esperanza de vida).  
  - **R¬≤** cercano a 1 indica qu√© porcentaje de la variabilidad se explica por el modelo.  

Si Ridge mejora respecto a la **Regresi√≥n Lineal simple**, significa que la regularizaci√≥n est√° ayudando.


In [None]:
# ===================================
# 3. Ridge Regression
# ===================================
ridge = Ridge(alpha=1.0, random_state=42)  # alpha controla la regularizaci√≥n
ridge.fit(X_train, y_train)
preds_ridge = ridge.predict(X_valid)

rmse_ridge = np.sqrt(mean_squared_error(y_valid, preds_ridge))
mae_ridge = mean_absolute_error(y_valid, preds_ridge)
r2_ridge = r2_score(y_valid, preds_ridge)

print("üìä Ridge Regression")
print(f"RMSE: {rmse_ridge:.3f}")
print(f"MAE: {mae_ridge:.3f}")
print(f"R¬≤: {r2_ridge:.3f}")

# --- Gr√°fico: valores reales vs predichos ---
plt.figure(figsize=(6,6))
sns.scatterplot(x=y_valid, y=preds_ridge, alpha=0.5)
plt.plot([y_valid.min(), y_valid.max()], [y_valid.min(), y_valid.max()], 'r--')
plt.title("Ridge: Valores reales vs predichos")
plt.xlabel("Valores reales")
plt.ylabel("Predicciones")
plt.show()



## **Paso 4. Lasso Regression (L1)**

Lasso, no solo penaliza como Ridge, sino a√±ade una penalizaci√≥n L1 que fuerza a algunos coeficientes a ser **exactamente 0**.  
Esto significa que realiza **selecci√≥n autom√°tica de variables**, dejando solo las m√°s relevantes.

üëâ Entrenamos con `alpha=0.1` y calculamos las m√©tricas.  
Adem√°s, podemos observar qu√© variables han quedado con coeficientes 0.

### Interpretaci√≥n: Lasso Regression

- Lasso no solo penaliza como Ridge, sino que tambi√©n **elimina variables irrelevantes** (coeficientes = 0).  
- Esto lo convierte en un m√©todo √∫til para **selecci√≥n autom√°tica de caracter√≠sticas**.  
- F√≠jate en la salida: cu√°ntas variables fueron eliminadas.  

- Si el RMSE o R¬≤ no mejoran mucho respecto a Ridge, puede significar que casi todas las variables son √∫tiles.  
- Si mejora y adem√°s reduce variables, nos est√° dando un modelo **m√°s simple y explicativo**.


In [None]:
# ===================================
# 4. Lasso Regression
# ===================================
lasso = Lasso(alpha=0.01, random_state=42)  # alpha mayor ‚Üí m√°s coeficientes llevados a cero
lasso.fit(X_train, y_train)
preds_lasso = lasso.predict(X_valid)

rmse_lasso = np.sqrt(mean_squared_error(y_valid, preds_lasso))
mae_lasso = mean_absolute_error(y_valid, preds_lasso)
r2_lasso = r2_score(y_valid, preds_lasso)

print("üìä Lasso Regression")
print(f"RMSE: {rmse_lasso:.3f}")
print(f"MAE: {mae_lasso:.3f}")
print(f"R¬≤: {r2_lasso:.3f}")


# Variables eliminadas por Lasso
coef_lasso = pd.Series(lasso.coef_, index=X_train.columns)
print("\nN√∫mero de variables eliminadas por Lasso:", (coef_lasso == 0).sum())


# --- Gr√°fico: valores reales vs predichos ---
plt.figure(figsize=(6,6))
sns.scatterplot(x=y_valid, y=preds_lasso, alpha=0.5, color="orange")
plt.plot([y_valid.min(), y_valid.max()], [y_valid.min(), y_valid.max()], 'r--')
plt.title("Lasso: Valores reales vs predichos")
plt.xlabel("Valores reales")
plt.ylabel("Predicciones")
plt.show()




## **Paso 5. Elastic Net (L1 + L2)**

Elastic Net combina las penalizaciones L1 (Lasso) y L2 (Ridge).  
Controla dos hiperpar√°metros:
- **alpha**: fuerza de la regularizaci√≥n.  
- **l1_ratio**: proporci√≥n entre L1 y L2 (ejemplo: 0.5 = mitad Lasso, mitad Ridge).

üëâ Entrenamos con `alpha=0.1` y `l1_ratio=0.5` y calculamos las m√©tricas.


### Interpretaci√≥n: Elastic Net

- Elastic Net combina lo mejor de Ridge y Lasso:  
  - **L2** para estabilizar el modelo frente a multicolinealidad.  
  - **L1** para eliminar variables innecesarias.  
- El hiperpar√°metro `l1_ratio` define el equilibrio:  
  - 0.0 ‚Üí Ridge puro.  
  - 1.0 ‚Üí Lasso puro.  
  - 0.5 ‚Üí mezcla equilibrada.  

Si Elastic Net logra m√©tricas similares o mejores que Ridge y Lasso, suele ser una **opci√≥n m√°s robusta**, ya que se adapta mejor a distintos escenarios.


In [None]:
# ===================================
# 5. Elastic Net
# ===================================
en = ElasticNet(alpha=0.01, l1_ratio=0.5, random_state=42)  
# l1_ratio=0.5 ‚Üí combina Ridge (L2) y Lasso (L1) al 50%
en.fit(X_train, y_train)
preds_en = en.predict(X_valid)

rmse_en = np.sqrt(mean_squared_error(y_valid, preds_en))
mae_en = mean_absolute_error(y_valid, preds_en)
r2_en = r2_score(y_valid, preds_en)

print("üìä Elastic Net")
print(f"RMSE: {rmse_en:.3f}")
print(f"MAE: {mae_en:.3f}")
print(f"R¬≤: {r2_en:.3f}")

# --- Gr√°fico: valores reales vs predichos ---
plt.figure(figsize=(6,6))
sns.scatterplot(x=y_valid, y=preds_en, alpha=0.5, color="green")
plt.plot([y_valid.min(), y_valid.max()], [y_valid.min(), y_valid.max()], 'r--')
plt.title("Elastic Net: Valores reales vs predichos")
plt.xlabel("Valores reales")
plt.ylabel("Predicciones")
plt.show()



## **Paso 6. Comparativa visual de m√©tricas entre modelos**

Vamos a comparar los resultados de **Ridge, Lasso y Elastic Net** en un gr√°fico de barras.  
Esto nos permite ver r√°pidamente cu√°l tiene mejor desempe√±o en RMSE, MAE y R¬≤.


### üîé Interpretaci√≥n: Comparativa Ridge vs Lasso vs Elastic Net

- El gr√°fico muestra los valores de **RMSE, MAE y R¬≤** para los tres algoritmos.  
- Puntos clave a observar:  
  - ¬øQu√© modelo tiene el **menor RMSE**? ‚Üí predicciones m√°s precisas.  
  - ¬øQu√© modelo tiene el **mayor R¬≤**? ‚Üí mejor capacidad explicativa.  
  - Lasso podr√≠a perder algo de precisi√≥n si elimin√≥ variables importantes.  
  - Ridge puede ser m√°s estable cuando muchas variables est√°n correlacionadas.  
  - Elastic Net es un t√©rmino medio que muchas veces ofrece un **balance √≥ptimo**.

üëâ Si los tres modelos dan m√©tricas similares, Ridge suele ser suficiente.  
üëâ Si hay muchas variables irrelevantes, Lasso o Elastic Net pueden ser mejores.







In [None]:
# ===================================
# 6. Comparativa de m√©tricas entre modelos
# ===================================
results = pd.DataFrame({
    "Modelo": ["Ridge", "Lasso", "Elastic Net"],
    "RMSE": [
        np.sqrt(mean_squared_error(y_valid, preds_ridge)),
        np.sqrt(mean_squared_error(y_valid, preds_lasso)),
        np.sqrt(mean_squared_error(y_valid, preds_elastic)),
    ],
    "MAE": [
        mean_absolute_error(y_valid, preds_ridge),
        mean_absolute_error(y_valid, preds_lasso),
        mean_absolute_error(y_valid, preds_elastic),
    ],
    "R2": [
        r2_score(y_valid, preds_ridge),
        r2_score(y_valid, preds_lasso),
        r2_score(y_valid, preds_elastic),
    ]
})

plt.figure(figsize=(8,5))
results.set_index("Modelo")[["RMSE","MAE","R2"]].plot(kind="bar", figsize=(10,6))
plt.title("Comparativa de Ridge, Lasso y Elastic Net")
plt.ylabel("Valor")
plt.xticks(rotation=0)
plt.show()

results


## **Nota sobre el ajuste de hiperpar√°metros**

En este notebook usamos valores fijos de `alpha` y `l1_ratio`, pero podr√≠an ajustarse autom√°ticamente usando **GridSearchCV** o **Optuna**, como hacemos en Random Forest y XGBoost.  

- Para **Ridge y Lasso**, se suele ajustar `alpha`.  
- Para **Elastic Net**, se ajustan tanto `alpha` como `l1_ratio`.  

Esto permitir√≠a encontrar la mejor combinaci√≥n que minimice RMSE o maximice R¬≤.


## **Paso 7 ‚Äì Optimizaci√≥n de hiperpar√°metros con GridSearchCV**

Hasta ahora usamos valores fijos de `alpha` (y `l1_ratio` en Elastic Net).  
Sin embargo, estos hiperpar√°metros pueden influir mucho en el rendimiento del modelo.

üëâ Con **GridSearchCV** exploramos diferentes combinaciones de par√°metros:  
- Para **Ridge y Lasso** ‚Üí `alpha` (fuerza de regularizaci√≥n).  
- Para **Elastic Net** ‚Üí `alpha` y `l1_ratio` (equilibrio entre L1 y L2).  

### Qu√© esperamos:
- Valores de `alpha` muy bajos ‚âà modelo casi igual a regresi√≥n lineal.  
- Valores de `alpha` muy altos ‚âà modelo demasiado restringido, baja capacidad de predicci√≥n.  
- En Elastic Net, ver c√≥mo el balance `l1_ratio` afecta al resultado.  

üìä Mostraremos un heatmap de RMSE promedio para cada modelo y concluiremos qu√© combinaci√≥n es m√°s aceptable para nuestro dataset de **Esperanza de Vida**.


In [None]:
# ===================================
# 7. Optimizaci√≥n con GridSearchCV
# ===================================
from sklearn.model_selection import GridSearchCV

# Definimos el espacio de b√∫squeda
param_grid_ridge = {"alpha": [0.01, 0.1, 1, 10, 100]}
param_grid_lasso = {"alpha": [0.01, 0.1, 1, 10, 100]}
param_grid_enet = {
    "alpha": [0.01, 0.1, 1, 10],
    "l1_ratio": [0.1, 0.5, 0.9]
}

# Modelos
ridge = Ridge(random_state=42)
lasso = Lasso(random_state=42, max_iter=5000)
elastic = ElasticNet(random_state=42, max_iter=5000)

# GridSearchCV
ridge_search = GridSearchCV(ridge, param_grid_ridge, cv=5,
                            scoring="neg_root_mean_squared_error", n_jobs=-1)
lasso_search = GridSearchCV(lasso, param_grid_lasso, cv=5,
                            scoring="neg_root_mean_squared_error", n_jobs=-1)
enet_search = GridSearchCV(elastic, param_grid_enet, cv=5,
                           scoring="neg_root_mean_squared_error", n_jobs=-1)

# Entrenar b√∫squedas
ridge_search.fit(X_train, y_train)
lasso_search.fit(X_train, y_train)
enet_search.fit(X_train, y_train)

# Mostrar mejores par√°metros
print("üìä Mejores par√°metros encontrados:")
print("Ridge:", ridge_search.best_params_, "‚Üí RMSE:", -ridge_search.best_score_)
print("Lasso:", lasso_search.best_params_, "‚Üí RMSE:", -lasso_search.best_score_)
print("Elastic Net:", enet_search.best_params_, "‚Üí RMSE:", -enet_search.best_score_)


### üîé Interpretaci√≥n de resultados

- Cada b√∫squeda devuelve el valor de `alpha` (y `l1_ratio` en Elastic Net) que **minimiza el RMSE promedio en validaci√≥n cruzada**.
- Un menor RMSE significa que el modelo generaliza mejor.
- Si:
  - **Ridge** es el ganador ‚Üí hay multicolinealidad pero todas las variables aportan.  
  - **Lasso** es el ganador ‚Üí algunas variables son irrelevantes y conviene eliminarlas.  
  - **Elastic Net** gana ‚Üí necesitamos un balance entre ambos mundos.  

üëâ Para este dataset (Esperanza de Vida), donde hay muchas variables correlacionadas pero casi todas con relevancia, **Ridge o Elastic Net suelen ser m√°s adecuados**.  


## **Paso 8 ‚Äì Heatmap de Elastic Net (Œ± vs l1_ratio)**

Para visualizar c√≥mo afectan los hiperpar√°metros de **Elastic Net** al rendimiento,
vamos a generar un **heatmap de RMSE promedio** seg√∫n la combinaci√≥n de:

- **Œ± (alpha):** controla la fuerza de regularizaci√≥n.  
- **l1_ratio:** equilibrio entre penalizaci√≥n L1 (como Lasso) y L2 (como Ridge).  

### Interpretaci√≥n esperada:
- **Valores peque√±os de Œ±** ‚Üí modelo se parece a una regresi√≥n lineal (menos regularizaci√≥n).  
- **Valores grandes de Œ±** ‚Üí modelo muy penalizado, peor rendimiento.  
- **l1_ratio cercano a 1** ‚Üí se comporta m√°s como Lasso (selecci√≥n de variables).  
- **l1_ratio cercano a 0** ‚Üí se comporta m√°s como Ridge (todas las variables cuentan).  

üìä El heatmap nos permitir√° ver en qu√© zona (Œ±, l1_ratio) el modelo obtiene menor RMSE (mejor desempe√±o).


In [None]:
# ===================================
# 8. Heatmap comparativo de m√©tricas (Ridge, Lasso, Elastic Net)
# ===================================

# Creamos un DataFrame con las m√©tricas
metrics = pd.DataFrame({
    "Ridge": [rmse_ridge, mae_ridge, r2_ridge],
    "Lasso": [rmse_lasso, mae_lasso, r2_lasso],
    "Elastic Net": [rmse_en, mae_en, r2_en]
}, index=["RMSE", "MAE", "R¬≤"])

plt.figure(figsize=(8,5))
sns.heatmap(metrics, annot=True, fmt=".3f", cmap="Blues", cbar=False)
plt.title("Comparaci√≥n de m√©tricas entre Ridge, Lasso y Elastic Net")
plt.xlabel("Modelo")
plt.ylabel("M√©trica")
plt.show()


## **Paso 9 ‚Äì Conclusiones: Ridge, Lasso y Elastic Net**

Tras entrenar y evaluar los tres modelos de regularizaci√≥n, podemos destacar lo siguiente:

### üîπ Ridge
- Penaliza los coeficientes grandes con una regularizaci√≥n **L2**.  
- Tiende a **mantener todas las variables**, pero reduciendo sus pesos.  
- Funciona bien cuando muchas variables tienen **efecto peque√±o pero distribuido**.  
- En este dataset, Ridge suele mostrar un desempe√±o estable y reduce el sobreajuste respecto a la regresi√≥n lineal simple.

### üîπ Lasso
- Usa penalizaci√≥n **L1**, que fuerza a algunos coeficientes a ser exactamente **0**.  
- Act√∫a como un **selector autom√°tico de variables**.  
- Puede ser √∫til en datasets con muchas variables irrelevantes o redundantes.  
- En este caso, Lasso probablemente elimine algunas variables menos influyentes en la predicci√≥n de la esperanza de vida.  
- Si el RMSE es mayor que en Ridge, significa que su efecto de selecci√≥n no aporta mucho valor aqu√≠.

### üîπ Elastic Net
- Combina **L1 y L2** mediante el hiperpar√°metro `l1_ratio`.  
- Es flexible: puede comportarse como Ridge (cuando l1_ratio‚Üí0) o como Lasso (cuando l1_ratio‚Üí1).  
- Es √∫til cuando hay **muchas variables correlacionadas** y algunas deben ser eliminadas.  
- Con el heatmap vimos en qu√© zona de par√°metros el RMSE es menor: ese equilibrio nos dice qu√© proporci√≥n de Ridge/Lasso es m√°s adecuada.

---

### üìä Comparaci√≥n global en este dataset
- **Ridge** ‚Üí suele dar el mejor equilibrio entre sesgo y varianza.  
- **Lasso** ‚Üí puede ser menos preciso en RMSE, pero ofrece interpretabilidad (elige pocas variables).  
- **Elastic Net** ‚Üí permite afinar entre ambos mundos, siendo m√°s robusto si hay multicolinealidad en las variables.

---

‚úÖ Para este dataset de esperanza de vida (con un n√∫mero moderado de features ya preprocesadas):  
- **Ridge** suele ser la opci√≥n m√°s s√≥lida en m√©tricas.  
- **Lasso** puede ser interesante para simplificar el modelo.  
- **Elastic Net** es una buena alternativa si se quiere un balance y explorar la importancia de variables.


## **Paso 10 ‚Äì Comparaci√≥n de m√©tricas entre Ridge, Lasso y Elastic Net**

Para comparar de forma clara los tres modelos, recopilamos las m√©tricas principales:

- **RMSE (Root Mean Squared Error):** mide el error promedio en las predicciones, penalizando m√°s los errores grandes.  
- **MAE (Mean Absolute Error):** mide el error promedio absoluto, m√°s robusto frente a outliers.  
- **R¬≤ (Coeficiente de determinaci√≥n):** indica la proporci√≥n de varianza explicada por el modelo (m√°s cercano a 1 es mejor).

La siguiente tabla resume los resultados obtenidos.


In [None]:
# ===================================
# 10. Comparaci√≥n de m√©tricas entre modelos
# ===================================
results = pd.DataFrame({
    "Modelo": ["Ridge", "Lasso", "Elastic Net"],
    "RMSE": [rmse_ridge, rmse_lasso, rmse_en],
    "MAE": [mae_ridge, mae_lasso, mae_en],
    "R¬≤": [r2_ridge, r2_lasso, r2_en]
})

# Mostrar tabla ordenada por RMSE (menor es mejor)
results = results.sort_values(by="RMSE")
display(results)

# Gr√°fico comparativo
plt.figure(figsize=(8,5))
sns.barplot(x="Modelo", y="RMSE", data=results, hue="Modelo", legend=False, palette="Blues_r")
plt.title("Comparaci√≥n de modelos: RMSE")
plt.ylabel("RMSE")
plt.show()


# ===================================
# Guardar resultados en CSV
# ===================================

# ===================================
# Funci√≥n para guardar m√©tricas estandarizadas
# ===================================
def save_results(model_name, y_true, y_pred, filepath):
    """
    Calcula m√©tricas (RMSE, MAE, R¬≤) y guarda en CSV estandarizado.
    """
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)

    results = pd.DataFrame([{
        "Modelo": model_name,
        "RMSE": rmse,
        "MAE": mae,
        "R¬≤": r2
    }])

    results.to_csv(filepath, index=False)
    print(f"‚úÖ Resultados de {model_name} guardados en {filepath}")
    return results


# ===================================
# Guardar m√©tricas Ridge
# ===================================
results_ridge = save_results(
    "Ridge",
    y_valid,
    preds_ridge,
    "../data/results_ridge.csv"
)


# ===================================
# Guardar m√©tricas Lasso
# ===================================
results_lasso = save_results(
    "Lasso",
    y_valid,
    preds_lasso,
    "../data/results_lasso.csv"
)


# ===================================
# Guardar m√©tricas Elastic Net
# ===================================
results_en = save_results(
    "Elastic Net",
    y_valid,
    preds_en,
    "../data/results_elasticnet.csv"
)


