# Comparación: Ridge vs. Lasso Regression

Considere el modelo lineal clásico:
$$
Y_i =X_i' \beta  + e_i, \quad \text{con } \mathbb{E}[e_i \mid X_i] = 0, \quad X_i \in \mathbb{R}
$$

### **Parte A: Ridge Regression**

El estimador ridge está definido como:
$$
\hat{\beta}^{Ridge}= (\sum_{i=1}^{n} X_i X_i' + \lambda_k I_k)^{-1} (\sum_{i=1}^{n} X_i Y_i)
$$

### (a) Suponga que $\lambda_n=\lambda > 0$ es constante. Encuentre el limite en probabilidad de $\hat{\beta}^{Ridge}$ cuando n tiende a infinito. Es consistente para $\beta$?

Dado que $ \lambda_n = \lambda > 0 $ es constante, no depende de n. Podemos reescribir el estimador dividiendo todo entre n:

$$
\hat{\beta}_{ridge} = \left( \frac{1}{n} \sum_{i=1}^n X_i X_i' + \frac{\lambda}{n} I_k \right)^{-1} \left( \frac{1}{n} \sum_{i=1}^n X_i Y_i \right)
$$


Por la ley de los grandes números:

$$
\frac{1}{n} \sum_{i=1}^n X_i X_i' \xrightarrow{p} \mathbb{E}[X_i X_i']
$$

$$
\frac{1}{n} \sum_{i=1}^n X_i Y_i \xrightarrow{p} \mathbb{E}[X_i Y_i]
$$

Y como $\frac{\lambda}{n} \to 0 $, se tiene:

$$
\frac{1}{n} \sum_{i=1}^n X_i X_i' + \frac{\lambda}{n} I_k \xrightarrow{p} \mathbb{E}[X_i X_i']
$$


Supongamos que:

$$
Y_i = X_i' \beta + \varepsilon_i, \quad \text{con } \mathbb{E}[\varepsilon_i \mid X_i] = 0
$$

Entonces:

$$
\mathbb{E}[X_i Y_i] = \mathbb{E}[X_i (X_i' \beta + \varepsilon_i)] = \mathbb{E}[X_i X_i'] \beta
$$

Por lo tanto:

$$
\hat{\beta}_{ridge} \xrightarrow{p} \left( \mathbb{E}[X_i X_i'] \right)^{-1} \mathbb{E}[X_i Y_i] = \beta
$$

Entonces:

$\hat{\beta}_{ridge} \xrightarrow{p} \beta $

El estimador Ridge es consistente


### (b) Suponga ahora que λn = cn, con c > 0 constante. ¿Cuál es el límite en probabilidad de $\hat{\beta} ^ {bridge}$? ¿Es consistente?


Si $\lambda_n = c n $, entonces:

$$
\hat{\beta}_{ridge} = \left( \sum_{i=1}^n X_i X_i' + c n I_k \right)^{-1} \left( \sum_{i=1}^n X_i Y_i \right)
$$

Dividiendo entre  n :

$$
\hat{\beta}_{ridge} = \left( \frac{1}{n} \sum_{i=1}^n X_i X_i' + c I_k \right)^{-1} \left( \frac{1}{n} \sum_{i=1}^n X_i Y_i \right)
$$


Por la ley de los grandes números:

$$
\frac{1}{n} \sum_{i=1}^n X_i X_i' \xrightarrow{p} \mathbb{E}[X_i X_i'], \quad
\frac{1}{n} \sum_{i=1}^n X_i Y_i \xrightarrow{p} \mathbb{E}[X_i Y_i]
$$

Entonces:

$$
\hat{\beta}_{ridge} \xrightarrow{p}
\left( \mathbb{E}[X_i X_i'] + c I_k \right)^{-1} \mathbb{E}[X_i Y_i]
$$


Supongamos que:

$$
Y_i = X_i' \beta + \varepsilon_i, \quad \text{con } \mathbb{E}[\varepsilon_i \mid X_i] = 0
$$

Entonces:

$$
\mathbb{E}[X_i Y_i] = \mathbb{E}[X_i X_i'] \beta
$$

Sustituyendo:

$$
\hat{\beta}_{ridge} \xrightarrow{p}
\left( \mathbb{E}[X_i X_i'] + c I_k \right)^{-1} \mathbb{E}[X_i X_i'] \beta
$$

Esta expresión no es igual a $ \beta$ porque:

$$
\left( \mathbb{E}[X_i X_i'] + c I_k \right)^{-1} \mathbb{E}[X_i X_i'] \neq I_k
$$

Entonces: 
$$
\hat{\beta}_{ridge} \xrightarrow{p}
\left( \mathbb{E}[X_i X_i'] + c I_k \right)^{-1} \mathbb{E}[X_i X_i'] \beta \neq \beta
$$

cuando $\lambda_n = c n $, el estimador Ridge no es consistente

### **Parte B: Lasso Regression**

El estimador lasso está definido como:
$$
\hat{\beta}^{lasso} = \arg \min_{\beta} \left\{ \sum_{i=1}^n (Y_i - X_i' \beta)^2 + \lambda_n \sum_{j=1}^k |\beta_j| \right\}
$$

### (a) Suponga que $\lambda_n=\lambda > 0$ es constante. Encuentre el limite en probabilidad de $\hat{\beta}^{lasso}$ cuando n tiende a infinito. Es consistente para $\beta$?

$$
\text{lasso} \quad \hat{p} \quad \beta^* \ne \beta
$$

Donde \( \beta^* \) es el minimizador del problema poblacional penalizado:

$$
\beta^* = \arg\min_{\beta} \left\{ \mathbb{E}\left[ (Y - X' \beta)^2 \right] + \lambda \sum_{j=1}^{k} |\beta_j| \right\}
$$

Este $ \beta^* $ no es igual al verdadero $ \beta $ del modelo lineal poblacional, salvo que $ \lambda = 0 $


### (b) Suponga ahora que λn = cn, con c > 0 constante. ¿Cuál es el límite en probabilidad de $\hat{\beta} ^ {lasso}$? ¿Es consistente?

Si $\lambda_n = c n $, el término de penalización domina completamente cuando $ n \to \infty $, forzando todos los coeficientes a cero. Entonces:

$$
\hat{\beta}^{lasso} \xrightarrow{p} \arg\min_{\beta} \sum_{j=1}^k |\beta_j| \quad \Rightarrow \quad \hat{\beta}^{lasso} \xrightarrow{p} 0
$$

Por tanto:

- El límite en probabilidad de $ \hat{\beta}^{lasso} $ es el vector cero
- No es consistente a menos que el verdadero $ \beta = 0 $.
