# üìò Regresi√≥n Regularizada: Teor√≠a, Comparaci√≥n y Aplicaciones

Este cuaderno re√∫ne el desarrollo completo de regresiones Ridge, Lasso y Elastic Net. Est√° dise√±ado como una gu√≠a did√°ctica para estudiantes de posgrado y profesionales de ciencia de datos.

Incluye teor√≠a, visualizaci√≥n geom√©trica, comparaci√≥n de coeficientes, evaluaci√≥n estad√≠stica y aplicaci√≥n a datos reales.

## üîç ¬øPor qu√© regularizar?
- La regresi√≥n lineal cl√°sica (OLS) puede tener alta varianza si hay colinealidad o muchas variables.
- Regularizar significa **penalizar los coeficientes grandes** para reducir sobreajuste.
- Esto introduce sesgo, pero mejora la generalizaci√≥n.

### Gr√°fico: Dispersi√≥n de predicciones
Veremos c√≥mo OLS produce predicciones inestables comparado con modelos regularizados.

## üß± Ridge Regression

La regresi√≥n Ridge aplica una penalizaci√≥n L2 sobre los coeficientes para evitar sobreajuste.

**Ecuaci√≥n objetivo:**

\[
\min_\beta \sum_{i=1}^n (y_i - X_i^T \beta)^2 + \lambda \sum_{j=1}^p \beta_j^2
\]

- El par√°metro \( \lambda \) controla la fuerza de la penalizaci√≥n.
- Ridge no realiza selecci√≥n de variables (coeficientes ‚â† 0), pero **reduce su magnitud**.

**Geometr√≠a:** la regi√≥n de restricci√≥n es una esfera ‚Üí mantiene todos los coeficientes.


In [None]:
from sklearn.linear_model import Ridge
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import matplotlib.pyplot as plt

# Cargar datos
X, y = load_diabetes(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# Escalado
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Modelo Ridge
ridge = Ridge(alpha=1.0)
ridge.fit(X_train_scaled, y_train)

# Predicci√≥n
y_pred_ridge = ridge.predict(X_test_scaled)

# Evaluaci√≥n
print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred_ridge)):.2f}")
print(f"R¬≤   : {r2_score(y_test, y_pred_ridge):.2f}")

### üîç Visualizaci√≥n de coeficientes

Podemos observar c√≥mo la penalizaci√≥n L2 suaviza los coeficientes.


In [None]:
plt.figure(figsize=(10, 5))
plt.title("Coeficientes estimados por Ridge")
plt.xlabel("√çndice de variable")
plt.ylabel("Valor del coeficiente")
plt.grid(True)
plt.tight_layout()
plt.show()
plt.title('Coeficientes del modelo Ridge')
plt.xlabel('√çndice de variable')
plt.ylabel('Valor del coeficiente')
plt.grid(True)
plt.show()

### ‚úÖ Evaluaci√≥n de supuestos

- Analizamos los residuos para ver si el modelo cumple con los supuestos cl√°sicos.


In [None]:
residuos = y_test - y_pred_ridge

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.scatter(y_pred_ridge, residuos)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel("Predicci√≥n")
plt.ylabel("Residuo")
plt.title("Residuos vs Predicci√≥n")
plt.grid(True)

plt.subplot(1, 2, 2)
import scipy.stats as stats
stats.probplot(residuos, dist="norm", plot=plt)
plt.title("Q-Q plot de residuos")

plt.tight_layout()
plt.show()

## üß± Ridge Regression

La regresi√≥n Ridge aplica una penalizaci√≥n L2 sobre los coeficientes para evitar sobreajuste.

**Ecuaci√≥n objetivo:**

\[
\min_\beta \sum_{i=1}^n (y_i - X_i^T \beta)^2 + \lambda \sum_{j=1}^p \beta_j^2
\]

- El par√°metro \( \lambda \) controla la fuerza de la penalizaci√≥n.
- Ridge no realiza selecci√≥n de variables (coeficientes ‚â† 0), pero **reduce su magnitud**.

**Geometr√≠a:** la regi√≥n de restricci√≥n es una esfera ‚Üí mantiene todos los coeficientes.


In [None]:
from sklearn.linear_model import Ridge
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import matplotlib.pyplot as plt

# Cargar datos
X, y = load_diabetes(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# Escalado
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Modelo Ridge
ridge = Ridge(alpha=1.0)
ridge.fit(X_train_scaled, y_train)

# Predicci√≥n
y_pred_ridge = ridge.predict(X_test_scaled)

# Evaluaci√≥n
print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred_ridge)):.2f}")
print(f"R¬≤   : {r2_score(y_test, y_pred_ridge):.2f}")

### üîç Visualizaci√≥n de coeficientes

Podemos observar c√≥mo la penalizaci√≥n L2 suaviza los coeficientes.


In [None]:
plt.figure(figsize=(10, 5))
plt.title("Coeficientes estimados por Ridge")
plt.xlabel("√çndice de variable")
plt.ylabel("Valor del coeficiente")
plt.grid(True)
plt.tight_layout()
plt.show()
plt.title('Coeficientes del modelo Ridge')
plt.xlabel('√çndice de variable')
plt.ylabel('Valor del coeficiente')
plt.grid(True)
plt.show()

### ‚úÖ Evaluaci√≥n de supuestos

- Analizamos los residuos para ver si el modelo cumple con los supuestos cl√°sicos.


In [None]:
residuos = y_test - y_pred_ridge

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.scatter(y_pred_ridge, residuos)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel("Predicci√≥n")
plt.ylabel("Residuo")
plt.title("Residuos vs Predicci√≥n")
plt.grid(True)

plt.subplot(1, 2, 2)
import scipy.stats as stats
stats.probplot(residuos, dist="norm", plot=plt)
plt.title("Q-Q plot de residuos")

plt.tight_layout()
plt.show()

## ‚úÇÔ∏è Lasso Regression

La regresi√≥n Lasso utiliza una penalizaci√≥n L1 que promueve la **esparsidad** en los coeficientes.

**Ecuaci√≥n objetivo:**

\[
\min_\beta \sum_{i=1}^n (y_i - X_i^T \beta)^2 + \lambda \sum_{j=1}^p |\beta_j|
\]

- Algunos coeficientes se vuelven exactamente cero ‚Üí selecci√≥n autom√°tica de variables.
- √ötil cuando se sospecha que muchas variables no aportan valor.

**Geometr√≠a:** la regi√≥n de penalizaci√≥n tiene forma de rombo ‚Üí es m√°s probable que la soluci√≥n caiga en un eje.


In [None]:
from sklearn.linear_model import Lasso

# Modelo Lasso
lasso = Lasso(alpha=0.1, max_iter=10000)
lasso.fit(X_train_scaled, y_train)

# Predicci√≥n
y_pred_lasso = lasso.predict(X_test_scaled)

# Evaluaci√≥n
print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred_lasso)):.2f}")
print(f"R¬≤   : {r2_score(y_test, y_pred_lasso):.2f}")

### üîç Coeficientes estimados por Lasso

Observa c√≥mo algunos coeficientes son exactamente cero.


In [None]:
plt.figure(figsize=(10, 5))
plt.title("Coeficientes estimados por Lasso")
plt.xlabel("√çndice de variable")
plt.ylabel("Valor del coeficiente")
plt.grid(True)
plt.tight_layout()
plt.show()

### ‚úÖ Evaluaci√≥n de supuestos (Lasso)

- Analizamos los residuos para revisar la normalidad y homocedasticidad.


In [None]:
residuos_lasso = y_test - y_pred_lasso

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.scatter(y_pred_lasso, residuos_lasso)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel("Predicci√≥n")
plt.ylabel("Residuo")
plt.title("Residuos vs Predicci√≥n")
plt.grid(True)

plt.subplot(1, 2, 2)
import scipy.stats as stats
stats.probplot(residuos_lasso, dist="norm", plot=plt)
plt.title("Q-Q plot de residuos")

plt.tight_layout()
plt.show()

## üîó Elastic Net Regression

Elastic Net combina las penalizaciones de Ridge (L2) y Lasso (L1):

\[
\min_\beta \sum_{i=1}^n (y_i - X_i^T \beta)^2 + \lambda \left[ \alpha \sum_j |\beta_j| + (1 - \alpha) \sum_j \beta_j^2 \right]
\]

- El par√°metro `alpha` (\( \alpha \)) controla la mezcla:
  - \( \alpha = 1 \) ‚Üí Lasso
  - \( \alpha = 0 \) ‚Üí Ridge

- Excelente opci√≥n cuando:
  - Hay muchas variables correlacionadas
  - Hay sospecha de sparsity parcial

**Geometr√≠a:** regi√≥n de penalizaci√≥n intermedia entre c√≠rculo y rombo.


In [None]:
from sklearn.linear_model import ElasticNet

# Modelo Elastic Net
elastic = ElasticNet(alpha=0.1, l1_ratio=0.5, max_iter=10000)
elastic.fit(X_train_scaled, y_train)

# Predicci√≥n
y_pred_elastic = elastic.predict(X_test_scaled)

# Evaluaci√≥n
print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred_elastic)):.2f}")
print(f"R¬≤   : {r2_score(y_test, y_pred_elastic):.2f}")

### üîç Coeficientes de Elastic Net

Tiene la ventaja de combinar la estabilidad de Ridge con la selecci√≥n de variables de Lasso.


In [None]:
plt.figure(figsize=(10, 5))
plt.title("Coeficientes estimados por Elastic Net")
plt.xlabel("√çndice de variable")
plt.ylabel("Valor del coeficiente")
plt.grid(True)
plt.tight_layout()
plt.show()

### ‚úÖ Evaluaci√≥n de supuestos (Elastic Net)


In [None]:
residuos_elastic = y_test - y_pred_elastic

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.scatter(y_pred_elastic, residuos_elastic)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel("Predicci√≥n")
plt.ylabel("Residuo")
plt.title("Residuos vs Predicci√≥n")
plt.grid(True)

plt.subplot(1, 2, 2)
import scipy.stats as stats
stats.probplot(residuos_elastic, dist="norm", plot=plt)
plt.title("Q-Q plot de residuos")

plt.tight_layout()
plt.show()

## üìä Comparaci√≥n final entre Ridge, Lasso y Elastic Net

Evaluamos los modelos usando las mismas m√©tricas sobre el mismo conjunto de prueba.


In [None]:
# M√©tricas
modelos = ['Ridge', 'Lasso', 'Elastic Net']
r2_scores = [
    r2_score(y_test, y_pred_ridge),
    r2_score(y_test, y_pred_lasso),
    r2_score(y_test, y_pred_elastic)
]
rmse_scores = [
    np.sqrt(mean_squared_error(y_test, y_pred_ridge)),
    np.sqrt(mean_squared_error(y_test, y_pred_lasso)),
    np.sqrt(mean_squared_error(y_test, y_pred_elastic))
]
n_coefs = [
    np.sum(ridge.coef_ != 0),
    np.sum(lasso.coef_ != 0),
    np.sum(elastic.coef_ != 0)
]

import pandas as pd
tabla = pd.DataFrame({
    "Modelo": modelos,
    "R¬≤": np.round(r2_scores, 3),
    "RMSE": np.round(rmse_scores, 2),
    "N¬∫ de Coef. ‚â† 0": n_coefs
})
tabla

### üîç Visualizaci√≥n comparativa de coeficientes

Observa c√≥mo cada t√©cnica trata la magnitud y cantidad de variables.


In [None]:
plt.figure(figsize=(12, 5))
plt.plot(ridge.coef_, label='Ridge')
plt.plot(lasso.coef_, label='Lasso')
plt.plot(elastic.coef_, label='Elastic Net')
plt.title("Comparaci√≥n de coeficientes")
plt.xlabel("√çndice de variable")
plt.ylabel("Valor del coeficiente")
plt.axhline(0, color='black', linestyle='--')
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

## ‚úÖ Conclusiones

- **Ridge** mantiene todos los coeficientes peque√±os ‚Üí √∫til con multicolinealidad.
- **Lasso** realiza selecci√≥n de variables autom√°tica.
- **Elastic Net** balancea ambos efectos, √∫til con muchas variables correlacionadas.

Este an√°lisis muestra c√≥mo cada t√©cnica responde a los mismos datos de forma diferente, y c√≥mo elegir entre ellas depende de los objetivos: estabilidad, interpretabilidad o predicci√≥n.


## üï∞Ô∏è Historia de los m√©todos

| M√©todo        | A√±o  | Creador(es)             | Motivaci√≥n principal                          |
|---------------|------|--------------------------|------------------------------------------------|
| **Ridge**     | 1970 | Hoerl & Kennard          | Estabilizar estimaciones con colinealidad     |
| **Lasso**     | 1996 | Robert Tibshirani        | Selecci√≥n autom√°tica de variables             |
| **Elastic Net** | 2005 | Zou & Hastie            | Combinar estabilidad y esparsidad             |

Estos m√©todos marcaron hitos importantes en la estad√≠stica moderna y aprendizaje autom√°tico.


## üßæ Origen de los nombres

- **Ridge**: ‚ÄúCresta‚Äù que estabiliza soluciones cuando hay colinealidad.
- **Lasso**: Acr√≥nimo de *Least Absolute Shrinkage and Selection Operator*, tambi√©n sugiere un lazo que ata coeficientes a cero.
- **Elastic Net**: Red el√°stica que combina las propiedades de Ridge y Lasso.

Estos nombres reflejan tanto la geometr√≠a como la intenci√≥n estad√≠stica de cada m√©todo.
