# 2. Regresi√≥n Lineal Regularizada

## ¬øPor qu√© regularizar?

- La mejor forma de entender la regresi√≥n regularizada es viendo c√≥mo y por qu√© se aplica a los m√≠nimos cuadrados ordinarios (OLS).
- En m√≠nimos cuadrados, el objetivo es encontrar el hiperplano (por ejemplo, una l√≠nea recta en 2d) que **minimice la suma de los errores al cuadrado** $SSE = \sum (y_i - \hat{y_i})^2$
- Esto significa identificar el hiperplano que minimiza las l√≠neas grises en el gr√°fico, que representan la distancia vertical entre los valores observados y los valores predichos.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Generamos datos
np.random.seed(42)
Gr_Liv_Area = np.random.uniform(900, 3000, 500)
Sale_Price = 50000 + 100 * Gr_Liv_Area + np.random.normal(0, 50000, 500)

# Ajusto regresipon lineal
coeffs = np.polyfit(Gr_Liv_Area, Sale_Price, 1)
regression_line = np.poly1d(coeffs)

plt.figure(figsize=(10, 5))
plt.scatter(Gr_Liv_Area, Sale_Price, color='red', label="Datos reales")
plt.plot(sorted(Gr_Liv_Area), regression_line(sorted(Gr_Liv_Area)), color='blue', linewidth=2, label="Regresi√≥n lineal")
for x, y in zip(Gr_Liv_Area, Sale_Price):
    plt.plot([x, x], [y, regression_line(x)], color='gray', linewidth=0.8)

plt.xlabel("Gr_Liv_Area")
plt.ylabel("Sale_Price")
plt.title("Regresi√≥n Lineal de Precios de Venta")
plt.grid(True, linestyle='--', alpha=0.6)
plt.legend()
plt.show()

- Recordemos entonces que la funci√≥n objetivo a minimizar es:

$$ \min \left(  \sum_{i=1}^{n}(y_{i}-\hat{y}_{i}(x_i, w))^{2}  \right)$$

- Esta funci√≥n objetivo funciona bien cuando los datos cumplen con ciertos supuestos clave:  
  1. **Relaci√≥n lineal** entre las variables.  
  2. **M√°s observaciones ($n$) que caracter√≠sticas ($p$)** ‚Üí es decir, $n>p$.  
  3. **Poca o ninguna multicolinealidad** entre las variables explicativas.

- Muchos datasets reales (ej: data mining o estudios gen√≥micos) tienen muchas m√°s features que muestras.
- A medida que $p$ crece, es m√°s probable que violemos algunos supuestos $\rightarrow$ requiere considerar enfoques alternativos.

### ¬øQu√© problemas trae un gran n√∫mero de features?

üëé Menos interpretabilidad: Cuantas m√°s variables, m√°s dif√≠cil es entender el modelo.

üëé Infinitas soluciones: Cuando $p>n$, hay infinitas soluciones para el problema de OLS.

- Para abordar esto, aplicamos el principio de _"bet on sparsity"_ (Hastie, Tibshirani y Wainwright, 2015):
    - Asumimos que solo un subconjunto peque√±o de caracter√≠sticas tiene el mayor impacto.

### Selecci√≥n de Features

####  <font color=purple>1. Hard Thresholding</font>
Selecciona o elimina completamente una feature. M√©todos cl√°sicos incluyen:

1. <font color=purple>Selecci√≥n hacia adelante (Forward Selection)</font>: 
Se empieza con un modelo vac√≠o y se van agregando features una por una, eligiendo la que m√°s mejora el ajuste del modelo.

2. <font color=purple>Eliminaci√≥n hacia atr√°s</font>: 
Se empieza con todas las features y se van eliminando una por una, descartando las menos relevantes.

<div style="text-align: center;">
<img src="img/forward-stepwise-algorithm.png" alt="Forward Stepwise Algorithm" width="370">    
<img src="img/backward-stepwise-algorithm.png" alt="Forward Stepwise Algorithm" width="390">
</div>

<font color=red>Desventajas:</font>
- Computacionalmente costoso, sobre todo con muchas variables.
- No escala bien en conjuntos de datos grandes.
- Decisi√≥n binaria extrema ‚Üí una caracter√≠stica est√° 100% dentro o 100% fuera, sin considerar que puede tener un efecto menor pero relevante.

#### <font color=purple>2. Soft Thresholding</font>

No elimina variables abruptamente, sino que reduce gradualmente sus coeficientes, permitiendo que algunas caracter√≠sticas pierdan importancia sin ser descartadas de inmediato. 

En algunos casos, esto lleva a que el coeficiente se vuelva exactamente cero, eliminando la variable de manera m√°s natural y optimizada.
    
<font color=purple>Regularizaci√≥n</font>: 
- Objetivo: Restringir el tama√±o total de los coeficientes para reducir su magnitud y fluctuaci√≥n.
- Trade-off: Se reduce la varianza, pero el modelo deja de ser insesgado.

- La funci√≥n objetivo de un modelo de regresi√≥n regularizada agrega un t√©rmino de penalizaci√≥n P:
$$ \min \left( SSE + P  \right)$$
- Este par√°metro de penalizaci√≥n restringe el tama√±o de los coeficientes:
    - Los coeficientes solo pueden aumentar si hay una reducci√≥n proporcional en el error SSE.

- Este concepto se extiende a otros modelos de la familia de Modelos Lineales Generalizados (como Regresi√≥n log√≠stica o Regresi√≥n de Poisson). 
- Obviamente, cada modelo tiene una funci√≥n de p√©rdida diferente, pero el par√°metro de penalizaci√≥n funciona igual ‚Üí restringe los coeficientes a menos que haya una reducci√≥n equivalente en la funci√≥n de p√©rdida.

Existen tres m√©todos de penalizaci√≥n comunes: 
1. **Ridge**: Penaliza los coeficientes, pero los mantiene peque√±os sin hacerlos cero.
2. **LASSO**: Puede reducir algunos coeficientes a exactamente cero, eliminando variables irrelevantes.
3. **Elastic Net** (ENET): Combinaci√≥n de Ridge y Lasso, √∫til cuando hay muchas variables correlacionadas.

### Regresi√≥n Ridge
- Controla los coeficientes estimados agregando un t√©rmino de penalizaci√≥n: $\lambda $ a la funci√≥n objetivo:

fuente: https://bradleyboehmke.github.io/HOML/regularized-regression.html#ref-hastie2015statistical