# 📘 Regresión Regularizada: Teoría, Comparación y Aplicaciones

Este cuaderno reúne el desarrollo completo de regresiones Ridge, Lasso y Elastic Net. Está diseñado como una guía didáctica para estudiantes de posgrado y profesionales de ciencia de datos.

Incluye teoría, visualización geométrica, comparación de coeficientes, evaluación estadística y aplicación a datos reales.

## 🔍 ¿Por qué regularizar?
- La regresión lineal clásica (OLS) puede tener alta varianza si hay colinealidad o muchas variables.
- Regularizar significa **penalizar los coeficientes grandes** para reducir sobreajuste.
- Esto introduce sesgo, pero mejora la generalización.

### Gráfico: Dispersión de predicciones
Veremos cómo OLS produce predicciones inestables comparado con modelos regularizados.

## 🧱 Ridge Regression

La regresión Ridge aplica una penalización L2 sobre los coeficientes para evitar sobreajuste.

**Ecuación objetivo:**

\[
\min_\beta \sum_{i=1}^n (y_i - X_i^T \beta)^2 + \lambda \sum_{j=1}^p \beta_j^2
\]

- El parámetro \( \lambda \) controla la fuerza de la penalización.
- Ridge no realiza selección de variables (coeficientes ≠ 0), pero **reduce su magnitud**.

**Geometría:** la región de restricción es una esfera → mantiene todos los coeficientes.


In [None]:
from sklearn.linear_model import Ridge
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import matplotlib.pyplot as plt

# Cargar datos
X, y = load_diabetes(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# Escalado
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Modelo Ridge
ridge = Ridge(alpha=1.0)
ridge.fit(X_train_scaled, y_train)

# Predicción
y_pred_ridge = ridge.predict(X_test_scaled)

# Evaluación
print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred_ridge)):.2f}")
print(f"R²   : {r2_score(y_test, y_pred_ridge):.2f}")

### 🔍 Visualización de coeficientes

Podemos observar cómo la penalización L2 suaviza los coeficientes.


In [None]:
plt.figure(figsize=(10, 5))
plt.title("Coeficientes estimados por Ridge")
plt.xlabel("Índice de variable")
plt.ylabel("Valor del coeficiente")
plt.grid(True)
plt.tight_layout()
plt.show()
plt.title('Coeficientes del modelo Ridge')
plt.xlabel('Índice de variable')
plt.ylabel('Valor del coeficiente')
plt.grid(True)
plt.show()

### ✅ Evaluación de supuestos

- Analizamos los residuos para ver si el modelo cumple con los supuestos clásicos.


In [None]:
residuos = y_test - y_pred_ridge

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.scatter(y_pred_ridge, residuos)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel("Predicción")
plt.ylabel("Residuo")
plt.title("Residuos vs Predicción")
plt.grid(True)

plt.subplot(1, 2, 2)
import scipy.stats as stats
stats.probplot(residuos, dist="norm", plot=plt)
plt.title("Q-Q plot de residuos")

plt.tight_layout()
plt.show()

## 🧱 Ridge Regression

La regresión Ridge aplica una penalización L2 sobre los coeficientes para evitar sobreajuste.

**Ecuación objetivo:**

\[
\min_\beta \sum_{i=1}^n (y_i - X_i^T \beta)^2 + \lambda \sum_{j=1}^p \beta_j^2
\]

- El parámetro \( \lambda \) controla la fuerza de la penalización.
- Ridge no realiza selección de variables (coeficientes ≠ 0), pero **reduce su magnitud**.

**Geometría:** la región de restricción es una esfera → mantiene todos los coeficientes.


In [None]:
from sklearn.linear_model import Ridge
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import matplotlib.pyplot as plt

# Cargar datos
X, y = load_diabetes(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# Escalado
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Modelo Ridge
ridge = Ridge(alpha=1.0)
ridge.fit(X_train_scaled, y_train)

# Predicción
y_pred_ridge = ridge.predict(X_test_scaled)

# Evaluación
print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred_ridge)):.2f}")
print(f"R²   : {r2_score(y_test, y_pred_ridge):.2f}")

### 🔍 Visualización de coeficientes

Podemos observar cómo la penalización L2 suaviza los coeficientes.


In [None]:
plt.figure(figsize=(10, 5))
plt.title("Coeficientes estimados por Ridge")
plt.xlabel("Índice de variable")
plt.ylabel("Valor del coeficiente")
plt.grid(True)
plt.tight_layout()
plt.show()
plt.title('Coeficientes del modelo Ridge')
plt.xlabel('Índice de variable')
plt.ylabel('Valor del coeficiente')
plt.grid(True)
plt.show()

### ✅ Evaluación de supuestos

- Analizamos los residuos para ver si el modelo cumple con los supuestos clásicos.


In [None]:
residuos = y_test - y_pred_ridge

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.scatter(y_pred_ridge, residuos)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel("Predicción")
plt.ylabel("Residuo")
plt.title("Residuos vs Predicción")
plt.grid(True)

plt.subplot(1, 2, 2)
import scipy.stats as stats
stats.probplot(residuos, dist="norm", plot=plt)
plt.title("Q-Q plot de residuos")

plt.tight_layout()
plt.show()

## ✂️ Lasso Regression

La regresión Lasso utiliza una penalización L1 que promueve la **esparsidad** en los coeficientes.

**Ecuación objetivo:**

\[
\min_\beta \sum_{i=1}^n (y_i - X_i^T \beta)^2 + \lambda \sum_{j=1}^p |\beta_j|
\]

- Algunos coeficientes se vuelven exactamente cero → selección automática de variables.
- Útil cuando se sospecha que muchas variables no aportan valor.

**Geometría:** la región de penalización tiene forma de rombo → es más probable que la solución caiga en un eje.


In [None]:
from sklearn.linear_model import Lasso

# Modelo Lasso
lasso = Lasso(alpha=0.1, max_iter=10000)
lasso.fit(X_train_scaled, y_train)

# Predicción
y_pred_lasso = lasso.predict(X_test_scaled)

# Evaluación
print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred_lasso)):.2f}")
print(f"R²   : {r2_score(y_test, y_pred_lasso):.2f}")

### 🔍 Coeficientes estimados por Lasso

Observa cómo algunos coeficientes son exactamente cero.


In [None]:
plt.figure(figsize=(10, 5))
plt.title("Coeficientes estimados por Lasso")
plt.xlabel("Índice de variable")
plt.ylabel("Valor del coeficiente")
plt.grid(True)
plt.tight_layout()
plt.show()

### ✅ Evaluación de supuestos (Lasso)

- Analizamos los residuos para revisar la normalidad y homocedasticidad.


In [None]:
residuos_lasso = y_test - y_pred_lasso

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.scatter(y_pred_lasso, residuos_lasso)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel("Predicción")
plt.ylabel("Residuo")
plt.title("Residuos vs Predicción")
plt.grid(True)

plt.subplot(1, 2, 2)
import scipy.stats as stats
stats.probplot(residuos_lasso, dist="norm", plot=plt)
plt.title("Q-Q plot de residuos")

plt.tight_layout()
plt.show()

## 🔗 Elastic Net Regression

Elastic Net combina las penalizaciones de Ridge (L2) y Lasso (L1):

\[
\min_\beta \sum_{i=1}^n (y_i - X_i^T \beta)^2 + \lambda \left[ \alpha \sum_j |\beta_j| + (1 - \alpha) \sum_j \beta_j^2 \right]
\]

- El parámetro `alpha` (\( \alpha \)) controla la mezcla:
  - \( \alpha = 1 \) → Lasso
  - \( \alpha = 0 \) → Ridge

- Excelente opción cuando:
  - Hay muchas variables correlacionadas
  - Hay sospecha de sparsity parcial

**Geometría:** región de penalización intermedia entre círculo y rombo.


In [None]:
from sklearn.linear_model import ElasticNet

# Modelo Elastic Net
elastic = ElasticNet(alpha=0.1, l1_ratio=0.5, max_iter=10000)
elastic.fit(X_train_scaled, y_train)

# Predicción
y_pred_elastic = elastic.predict(X_test_scaled)

# Evaluación
print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred_elastic)):.2f}")
print(f"R²   : {r2_score(y_test, y_pred_elastic):.2f}")

### 🔍 Coeficientes de Elastic Net

Tiene la ventaja de combinar la estabilidad de Ridge con la selección de variables de Lasso.


In [None]:
plt.figure(figsize=(10, 5))
plt.title("Coeficientes estimados por Elastic Net")
plt.xlabel("Índice de variable")
plt.ylabel("Valor del coeficiente")
plt.grid(True)
plt.tight_layout()
plt.show()

### ✅ Evaluación de supuestos (Elastic Net)


In [None]:
residuos_elastic = y_test - y_pred_elastic

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.scatter(y_pred_elastic, residuos_elastic)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel("Predicción")
plt.ylabel("Residuo")
plt.title("Residuos vs Predicción")
plt.grid(True)

plt.subplot(1, 2, 2)
import scipy.stats as stats
stats.probplot(residuos_elastic, dist="norm", plot=plt)
plt.title("Q-Q plot de residuos")

plt.tight_layout()
plt.show()

## 📊 Comparación final entre Ridge, Lasso y Elastic Net

Evaluamos los modelos usando las mismas métricas sobre el mismo conjunto de prueba.


In [None]:
# Métricas
modelos = ['Ridge', 'Lasso', 'Elastic Net']
r2_scores = [
    r2_score(y_test, y_pred_ridge),
    r2_score(y_test, y_pred_lasso),
    r2_score(y_test, y_pred_elastic)
]
rmse_scores = [
    np.sqrt(mean_squared_error(y_test, y_pred_ridge)),
    np.sqrt(mean_squared_error(y_test, y_pred_lasso)),
    np.sqrt(mean_squared_error(y_test, y_pred_elastic))
]
n_coefs = [
    np.sum(ridge.coef_ != 0),
    np.sum(lasso.coef_ != 0),
    np.sum(elastic.coef_ != 0)
]

import pandas as pd
tabla = pd.DataFrame({
    "Modelo": modelos,
    "R²": np.round(r2_scores, 3),
    "RMSE": np.round(rmse_scores, 2),
    "Nº de Coef. ≠ 0": n_coefs
})
tabla

### 🔍 Visualización comparativa de coeficientes

Observa cómo cada técnica trata la magnitud y cantidad de variables.


In [None]:
plt.figure(figsize=(12, 5))
plt.plot(ridge.coef_, label='Ridge')
plt.plot(lasso.coef_, label='Lasso')
plt.plot(elastic.coef_, label='Elastic Net')
plt.title("Comparación de coeficientes")
plt.xlabel("Índice de variable")
plt.ylabel("Valor del coeficiente")
plt.axhline(0, color='black', linestyle='--')
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

## ✅ Conclusiones

- **Ridge** mantiene todos los coeficientes pequeños → útil con multicolinealidad.
- **Lasso** realiza selección de variables automática.
- **Elastic Net** balancea ambos efectos, útil con muchas variables correlacionadas.

Este análisis muestra cómo cada técnica responde a los mismos datos de forma diferente, y cómo elegir entre ellas depende de los objetivos: estabilidad, interpretabilidad o predicción.


## 🕰️ Historia de los métodos

| Método        | Año  | Creador(es)             | Motivación principal                          |
|---------------|------|--------------------------|------------------------------------------------|
| **Ridge**     | 1970 | Hoerl & Kennard          | Estabilizar estimaciones con colinealidad     |
| **Lasso**     | 1996 | Robert Tibshirani        | Selección automática de variables             |
| **Elastic Net** | 2005 | Zou & Hastie            | Combinar estabilidad y esparsidad             |

Estos métodos marcaron hitos importantes en la estadística moderna y aprendizaje automático.


## 🧾 Origen de los nombres

- **Ridge**: “Cresta” que estabiliza soluciones cuando hay colinealidad.
- **Lasso**: Acrónimo de *Least Absolute Shrinkage and Selection Operator*, también sugiere un lazo que ata coeficientes a cero.
- **Elastic Net**: Red elástica que combina las propiedades de Ridge y Lasso.

Estos nombres reflejan tanto la geometría como la intención estadística de cada método.
