<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%205/Modulo_5_Ejercicio_2_Regularizacion_L1_L2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Ejercicio 2: Regularización L1 vs L2 — ¿cuándo usar cada una?**
**Explora cómo controlar el sobreajuste en modelos de regresión con Lasso y Ridge**

### **Introducción**
En este ejercicio aprenderemos a utilizar técnicas de regularización para mejorar modelos de regresión. Compararemos **L1 (Lasso)** y **L2 (Ridge)** y observaremos cómo afectan a los coeficientes del modelo y al rendimiento en validación.

La regularización es esencial para evitar el **sobreajuste**, especialmente cuando hay muchas variables o ruido en los datos. Evaluaremos también cuándo conviene usar L1, L2 o un modelo sin regularización.

In [None]:
# Celda 1: Carga de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.compose import ColumnTransformer
sns.set(style='whitegrid')

In [None]:
# Celda 2: Cargar el dataset
url = 'https://github.com/dtoralg/IE_Calidad_ML/raw/main/Data/durabilidad_piezas.csv'
...

In [None]:
# Celda 3: Preprocesamiento manual
# Eliminar ID y separar variables
...

# Separar columnas categóricas y numéricas
...

# Imputar valores numéricos
...

# Codificar variables categóricas
...

# Escalar variables
...


In [None]:
# Celda 4: División en train y test
...

In [None]:
# Celda 5: Entrenamiento de modelos Linear, Ridge y Lasso
modelos = {
    'Linear': ...,
    'Ridge': ...,
    'Lasso': ...
}
resultados = {}

for nombre, modelo in modelos.items():
    modelo.fit(...)
    y_pred = ...
    mae = ...
    rmse = ...
    resultados[nombre] = {'MAE': mae, 'RMSE': rmse, 'coef': modelo.coef_}

# Mostrar métricas
pd.DataFrame(resultados).T[['MAE', 'RMSE']]

In [None]:
# Celda 6: Comparación de coeficientes
coefs_df = pd.DataFrame({k: v['coef'] for k, v in resultados.items()})
coefs_df.index = X.columns
coefs_df.plot(kind='bar', figsize=(14,5))
plt.title('Comparación de coeficientes entre Linear, Ridge y Lasso')
plt.xlabel('Variables')
plt.ylabel('Peso del coeficiente')
plt.tight_layout()
plt.show()

In [None]:
# Celda 7: Evolución de coeficientes con alpha (parámetro que cuantifica la regularización)
alphas = np.logspace(-2, 2, 20)
lasso_norms, ridge_norms = [], []
for alpha in alphas:
    lasso = Lasso(alpha=alpha)
    ridge = Ridge(alpha=alpha)
    lasso.fit(X_train, y_train)
    ridge.fit(X_train, y_train)
    lasso_norms.append(np.linalg.norm(lasso.coef_))
    ridge_norms.append(np.linalg.norm(ridge.coef_))
plt.figure(figsize=(10,5))
plt.plot(alphas, lasso_norms, label='Lasso')
plt.plot(alphas, ridge_norms, label='Ridge')
plt.xscale('log')
plt.xlabel('alpha')
plt.ylabel('Norma L2 de los coeficientes')
plt.title('Regularización: efecto de alpha en los coeficientes')
plt.legend()
plt.tight_layout()
plt.show()

### **Conclusiones**
- La regresión lineal sin regularización puede sobreajustar en presencia de ruido o multicolinealidad.
- **Ridge** reduce la magnitud de los coeficientes sin eliminarlos.
- **Lasso** puede eliminar completamente variables, útil para simplificar el modelo.
- El hiperparámetro `alpha` permite ajustar el grado de regularización.

**Preguntas para reflexionar:**
- ¿Cuál modelo ofrece mejor rendimiento general?
- ¿Cuál sería más útil si necesitas un modelo explicable y compacto?
- ¿Cómo automatizarías la búsqueda del mejor `alpha`?