# Regularización

## Regresión Ridge

**Regresión Ridge** es un modelo que aplica regularización a los coeficientes usando la norma $\ell_2$.

El vector de coeficientes de Ridge viene dado por la siguiente formula:

$$ \hat{\beta}^{ridge} = Argmin_\beta\{\sum_{i=1}^{N}(Y_i - \beta_0 - \sum_{j=1}^{p}{(X_{ij}\beta{j})^2} + \alpha \sum_{j=1}^p{\beta_j^2} \} $$

Donde $\alpha \geq 0$ es el parámetro de regularización. Ridge va a reducir el valor de los coeficientes a medida que $\alpha$ aumente.

### Variación de coeficientes Regresión Ridge

Método iterativo para ver el comportamiento de los coeficientes en comparación del $\alpha$ asociado

Notar que para este caso el rango del parámetro de regularización se aplicó entre $\alpha \in [10^4,10^{-1}]$.

Aumento de $\alpha$ $\rightarrow$ Coeficientes disminuyen

![alt text](ridge-coef.png "Coeficientes Ridge")

### Error de Regresión Ridge

Se construyó un gráfico para observar el error en los conjuntos entrenamiento y pruebas respecto del parámetro de regularización $\alpha$. 

El rango del parámetro fue $\alpha \in [10^2,10^{-2}]$.

![alt text](ridge-error.png "Error regresión ridge")

## Regresión Lasso

**Regresión Lasso** es un modelo similar a Ridge que aplica regularización a los coeficientes usando la norma $\ell_1$.

El vector de coeficientes de Lasso viene dado por la siguiente formula:

$$ \hat{\beta}^{lasso} = Argmin_\beta\{\sum_{i=1}^{N}(Y_i - \beta_0 - \sum_{j=1}^{p}{(X_{ij}\beta{j})^2} + \alpha \sum_{j=1}^p{|\beta_j|} \} $$

Donde $\alpha \geq 0$ es el parámetro de regularización. Al igual que Ridge, el parámetro $\alpha$ reduce el valor de los coeficientes, pero al usar el valor absoluto es más estricto y provocara que algunos coeficientes se igualen a cero.

### Variación de coeficientes Regresión Lasso

Método iterativo para ver el comportamiento de los coeficientes en comparación del $\alpha$ asociado.

El rango del parámetro fue $\alpha \in [10^1,10^{-3}]$ 

Aumento de $\alpha$ $\rightarrow$ Coeficientes se igualan a cero

![alt text](lasso-coef.png "Coeficientes de Lasso")

### Error Regresión Lasso 

Se construyó un gráfico para observar el error en los conjuntos entrenamiento y pruebas respecto del parámetro de regularización $\alpha$

El rango del parámetro fue $\alpha \in [10^{0.5},10^{-2}]$.

![alt text](lasso-error.png "Error Lasso")

## Cross-Validation

Finalmente, sobre ambas regresiones Ridge y Lasso se aplicó un método de validación cruzada k-fold con $k=10$ para buscar el $\alpha$ que redujera el error en el conjunto de entrenamiento y observando el error en el conjunto de pruebas.

Notar que $\alpha \in [10^2,10^{-2}]$ para la búsqueda en la regresión Ridge y $\alpha \in [10^{0.5},10^{-3}]$ para la búsqueda en la regresión de Lasso.

## Cross-Validation

```
Ridge CV
...
BEST PARAMETER=3.393222, MSE(CV)=0.752571
Test Error 0.499463
Testing alpha:2.811769
BEST PARAMETER=2.811769, MSE(CV)=0.752036
Test Error 0.501986
Testing alpha:2.329952
BEST PARAMETER=2.329952, MSE(CV)=0.751881
Test Error 0.504378
Testing alpha:1.930698
Testing alpha:1.599859
...
```

## Cross-Validation

```
Lasso CV

BEST PARAMETER=0.005179, MSE(CV)=0.756585
Test Error 0.507113
Testing alpha:0.004394
BEST PARAMETER=0.004394, MSE(CV)=0.756496
Test Error 0.508997
Testing alpha:0.003728
BEST PARAMETER=0.003728, MSE(CV)=0.756467
Test Error 0.510793
Testing alpha:0.003162
Testing alpha:0.002683
Testing alpha:0.002276
```

## Conclusiones

Se aplicaron Regresiones con regularización (Ridge y Lasso) al dataset.

Se observó que Lasso elimina coeficientes (los iguala a cero) mucho más rápidamente que Ridge que va reduciendo su influencia más lentamente.

Error mínimo sobre el conjunto de pruebas en un punto distinto al error mínimo del conjunto de entrenamiento 
- Diferencia de error posiblemente marginal. 