# Introducción

Para usar los métodos de regresion lineal penalizada, la respuesta y los predictores deben estandarizarse para que tengan media 0 y varianza 1.

Consideremos el típico modelo de regresión lineal: 

$$y_i = \beta_0 + \beta_1 \cdot x_{i1} + \beta_2 \cdot x_{i2} + ... +  \beta_p \cdot x_{ip} + \epsilon$$

Estandarizamos los predictores $X_1,...,X_p$ y la respuesta $Y$:

$$\widetilde{Y} = \dfrac{Y - \overline{y}}{\sigma_Y} \\[0.5cm]$$

$$\widetilde{X_j} = \dfrac{X_j - \overline{x_j}}{\sigma_{X_j}}$$ 

para $j=1,..,p$

El modelo estandarizado es:

$$\widetilde{y}_i = \beta_0 + \widetilde{\beta}_1 \cdot \widetilde{x}_{i1} + \widetilde{\beta}_2 \cdot \widetilde{x}_{i2} + ... +  \widetilde{\beta}_p \cdot \widetilde{x}_{ip} + \widetilde{\epsilon}$$

Donde:



$\widetilde{\beta_j} = \dfrac{\sigma_{X_j}}{\sigma_{Y}}\cdot \beta_j \hspace{0.5cm}$  , para $j=1,...,p$

$\beta_0 = \overline{y} - \sum_{j=1}^{p} \overline{x}_j \cdot \beta_j$

$\widetilde{\epsilon} = \dfrac{\epsilon}{\sigma_{Y}}$

El modelo estandarizado estimado es:

$$\widehat{\widetilde{y}}_i = \widehat{\beta}_0 + \widehat{\widetilde{\beta}}_1 \cdot  \widetilde{x}_{i1} + \widehat{\widetilde{\beta}}_2 \cdot \widetilde{x}_{i2} + ... +  \widehat{\widetilde{\beta}}_p \cdot \widetilde{x}_{ip}$$

Ahora los coeficientes betas estimados $\widehat{\widetilde{\beta}}_1, \widehat{\widetilde{\beta}}_2 , ..., \widehat{\widetilde{\beta}}_p$ son directamente comparables ya que no dependen de las unidades de medida de los predictores, puesto que al haber estandarizado estos las unidades de medida se eliminan.

Ahora si que se cumple que dados dos betas estimados si  $\widehat{\widetilde{\beta}}_r > \widehat{\widetilde{\beta}}_h$ , entonces $X_r$ es mas relevante como predictor de $Y$ (tiene más peso) que $X_h$

Esto no se cumplia en la regresion lineal ordinaria puesto que las estimaciones de los betas no eran directamente comparables al depender de las unidades de medida. Por ello betas estimados cercanos a cero no implicaban necesariamente que el predictor asociado fuese no significativo, ya que si ese predictor se media, por ejemplo, en millones de euros, un beta estimado de 0.001 serian 1000 euros (0.001 millones de euros), si se cambia la unidad de medida de dicho predictor de millones de euros a simplmenente euros entonces dicho beta estimado cambiaria de 0.001 a 1000 lo cual ya no es cercano a cero.

# Regresión Ridge

El modelo de regresión Ridge es básicamente un modelo de regresión lineal en el que la respuesta y los predictores están estandarizados y la estimacion de los coeficientes betas se hace resolviendo el siguiente problema de optimización :

Sea $\hspace{0.1cm}\widetilde{\beta}= (\widetilde{\beta}_1,\widetilde{\beta}_2,...,\widetilde{\beta}_p)$ , $\hspace{0.15cm} \widetilde{x}_i = (\widetilde{x}_{i1},...,\widetilde{x}_{ip})$


\begin{gather*}
  \underset{\widetilde{\beta}}{Min} \hspace{0.2cm}  \biggl\{ \hspace{0.1cm} RSS(\widetilde{\beta}) \hspace{0.1cm} +\hspace{0.1cm}  \lambda \cdot | | \hspace{0.06cm}\widetilde{\beta} \hspace{0.06cm}||^2_2 \hspace{0.1cm} \biggl\} \hspace{0.2cm} = \hspace{0.2cm}  \underset{\widetilde{\beta}}{Min} \hspace{0.2cm} \biggl\{ \hspace{0.1cm} \sum_{i=1}^{n} \hspace{0.1cm}(y_i - \beta_0 - \widetilde{x}_i\hspace{0.05cm}^t \cdot \beta)\hspace{0.02cm}^2 \hspace{0.1cm} + \hspace{0.1cm}  \lambda \cdot | | \hspace{0.06cm}\widetilde{\beta} \hspace{0.06cm}||^2_2  \hspace{0.1cm} \biggl\} \hspace{0.2cm} =  \\[0.8cm]
  = \hspace{0.2cm} \underset{\widetilde{\beta}_1,...,\widetilde{\beta}_p}{Min} \hspace{0.2cm} \biggl\{ \hspace{0.1cm} \sum_{i=1}^{n} \hspace{0.1cm}(y_i - \beta_0 - \widetilde{\beta}_1 \cdot x_{i1} - \dots - \widetilde{\beta}_p \cdot x_{ip})\hspace{0.02cm}^2  \hspace{0.1cm} + \hspace{0.1cm}  \lambda \cdot | | \hspace{0.06cm}\widetilde{\beta} \hspace{0.06cm}||^2_2 \hspace{0.1cm} \biggl\}
\end{gather*}


Donde: 

$\lambda \geq 0$ es un parámetro de penalización

$| | \hspace{0.06cm}\widetilde{\beta} \hspace{0.06cm}||^2_2 \hspace{0.1cm} = \hspace{0.1cm} \sum_{j=1}^p \hspace{0.1cm} \widetilde{\beta}_j\hspace{0.01cm}^2\hspace{0.15cm}$ es la norma Euclidea del vector $\hspace{0.15cm}\widetilde{\beta}\hspace{0.15cm}$, la cual es una medida del tamaño del vector.



**Observaciones :**

La expresión $\hspace{0.15cm}\lambda \cdot | | \hspace{0.06cm}\widetilde{\beta} \hspace{0.06cm}||^2_2\hspace{0.15cm}$ penaliza el tamaño del vector $\hspace{0.15cm}\widetilde{\beta}$ 

Cuanto mayor sea $\hspace{0.15cm}\lambda\hspace{0.15cm}$ mayor es la penalización impuesta al tamaño del vector $\hspace{0.15cm}\widetilde{\beta} \hspace{0.15cm}$  en el problema de optimización.

Si $\hspace{0.15cm}\lambda = 0\hspace{0.15cm}$ el problema de optimizacion es el de minimos cuadrados ordinarios, propio del modelo de regresion lineal ordinario.

Si $\hspace{0.15cm}\lambda\hspace{0.15cm}$ es grande  la solucion del problema $\hspace{0.15cm}\widehat{\widetilde{\beta}}\hspace{0.05cm}^{Ridge} \hspace{0.15cm}$  tendra un tamaño (norma Euclidea) pequeño, es decir, los  $\hspace{0.15cm}\widehat{\widetilde{\beta}}_1, \widehat{\widetilde{\beta}}_2,..., \widehat{\widetilde{\beta}}_p\hspace{0.15cm}$ estarán cerca de $0$

$\lambda$ debe ser seleccionado a priori de la resolucion del problema de optimización.

Ventajas de la regresion Ridge sobre la regresion de minimos cuadrados ordinarios:

- Las predicciones de la regresion por minimos cuadrados ordinarios son insesgadas pero tiene alta varianza, especialmente si $p \approx n$. Además si $p>n$ no se puede estimar la regresion por minimos cuadrados ordinarios.

-  La regresión Ridge se basa en el equilibrio entre sesgo y varianza. Disminuye sustancialmente la varianza de las predicciones a costa de aumentar un poco su sesgo. Además, incluso si $\hspace{0.1cm}p \approx n \hspace{0.1cm}$ o $\hspace{0.1cm} p>n\hspace{0.1cm}$ , la regresion Ridge puede funcionar bien.

- Esto lleva a que si $\lambda$ es seleccionado correctamente, el error cuadratico medio de prediccion $(ECMP)$es menor en la regresion Ridge que en la de minimos cuadrados ordinarios, lo que conduce a mayor capacidad predictiva de Ridge sobre minimos cuadrados ordinarios.

# Ejercicio 1

Indicar cuál de los siguientes puntos es correcto, justificando tu respuesta. Regresión ridge y regresión lasso, relativa a mínimos cuadrados, son:

- Más flexibles y, por lo tanto, brindarán una mejora en la precisión de las predicciones cuando su aumento en sesgo sea menor que su disminución en varianza

- Más flexibles y, por lo tanto, brindarán una mejora en la precisión de las predicciones cuando su aumento en varianza sea menor que su disminución en sesgo.

- Menos flexibles y, por lo tanto, brindarán una mejora en la precisión de las predicciones cuando su aumento en sesgo sea menor que su disminución en varianza. **CORRECTO**

- Menos flexibles y, por lo tanto, brindarán una mejora en la precisión de las predicciones cuando su aumento en varianza sea menor que su disminución en sesgo.

Razonamiento:

- Las predicciones de la regresion por minimos cuadrados ordinarios son insesgadas pero tiene alta varianza, especialmente si $p \approx n$. Además si $p>n$ no se puede estimar la regresion por minimos cuadrados ordinarios.

-  La regresión Ridge se basa en el equilibrio entre sesgo y varianza. Disminuye sustancialmente la varianza de las predicciones a costa de aumentar un poco su sesgo (es por ello un método menos flexible, que genera menos sobre-ajuste). Además, incluso si $\hspace{0.1cm}p \approx n \hspace{0.1cm}$ o $\hspace{0.1cm} p>n\hspace{0.1cm}$ , la regresion Ridge puede funcionar bien.

- Esto lleva a que si $\lambda$ es seleccionado correctamente, el error cuadratico medio de prediccion $(ECMP)$es menor en la regresion Ridge que en la de minimos cuadrados ordinarios, lo que conduce a mayor capacidad predictiva de Ridge sobre minimos cuadrados ordinarios.

# Ejercicio 6



En este ejercicio, se pide obtener predicciones del logaritmo de la variable crim del conjunto de datos Boston de la librería ISLR2 utilizando el resto de variables como predictores, mediante los siguientes métodos:

Regresión ridge.

Regresión lasso.

Para ello, por sencillez utilizar una muestra de entrenamiento y de test y obtener los correspondientes valores del error cuadrático medio test. Comparar los resultados y explicar las conclusiones más relevantes. Para crear la muestra de entrenamiento, con 355 observaciones seleccionadas al azar, y la muestra test, con las 151 observaciones restantes, fijar la semilla mediante la orden set.seed(1). Esto es importante para poder comparar los resultados con otros procedimientos que veremos en la hoja de la semana que viene.

El mejor modelo de regresion de minimos cuadrados ordinarios por validación simple usando algoritmos de selección de predictores (practica anterior) es:

crim ~ zn + indus + nox + age + ptratio + lstat + medv

In [335]:
import pandas as pd
import numpy as np

url = 'https://raw.githubusercontent.com/JWarmenhoven/ISLR-python/master/Notebooks/Data/Boston.csv'

Boston = pd.read_csv(url)

In [336]:
Boston['crim'] = np.log(Boston['crim'])

In [337]:
Boston_Train = Boston.sample(frac=0.70, replace=False, weights=None, random_state=2, axis=None, ignore_index=False)

Boston_Test = Boston.drop( Boston_Train.index , )

In [338]:
## TEST

X_test = Boston_Test.loc[: , Boston_Test.columns != 'crim']
Y_test = Boston_Test.loc[: , 'crim']

##############################################################

## TRAIN

X_train = Boston_Train.loc[: , Boston_Train.columns != 'crim']
Y_train = Boston_Train.loc[: , 'crim']


In [339]:
import statsmodels.formula.api as smf

In [340]:
modelo_MCO_completo =  smf.ols(formula = 'crim ~ zn + indus + C(chas) + nox + rm +  age + dis + rad + tax + ptratio + black + lstat + medv', data =Boston_Train)

modelo_MCO_completo = modelo_MCO_completo.fit()
 
print(modelo_MCO_completo.summary())

                            OLS Regression Results                            
Dep. Variable:                   crim   R-squared:                       0.892
Model:                            OLS   Adj. R-squared:                  0.888
Method:                 Least Squares   F-statistic:                     217.1
Date:                Mon, 17 Oct 2022   Prob (F-statistic):          8.89e-156
Time:                        14:17:29   Log-Likelihood:                -388.13
No. Observations:                 354   AIC:                             804.3
Df Residuals:                     340   BIC:                             858.4
Df Model:                          13                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
Intercept       -3.3099      0.979     -3.382   

In [341]:
ECM_test_MCO_completo = ( ( modelo_MCO_completo.predict(X_test) - Y_test )**2 ).sum() / len(Y_test)

In [342]:
ECM_test_MCO_completo

0.7449096252772515

In [343]:
import sklearn

In [344]:
Ridge_sklearn = sklearn.linear_model.Ridge( alpha=1.0 , fit_intercept=True)

Ridge_sklearn.fit(X_train, Y_train)  # No es necesario escalar los datos.

ECM_test_Ridge = sum( ( Ridge_sklearn.predict(X_test) - Y_test)**2 ) / len(Y_test)

In [345]:
ECM_test_Ridge

0.7680525692089318

In [346]:
Ridge_sklearn.coef_

array([-9.44340395e-03,  4.37816452e-02, -6.22730616e-03,  1.75839888e+00,
       -5.08162815e-02,  8.66619860e-03, -5.04403735e-02,  1.51542175e-01,
       -3.26341829e-04, -7.46668943e-02, -1.91316490e-03,  2.68590566e-02,
        6.57068830e-03])

In [347]:
Ridge_sklearn.feature_names_in_

array(['zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad', 'tax',
       'ptratio', 'black', 'lstat', 'medv'], dtype=object)

In [348]:
Ridge_sklearn.intercept_

-1.972671374222098

In [349]:
ECM_test_Ridge_vector = []

for alpha in range(1, 10000):

    Ridge_sklearn = sklearn.linear_model.Ridge( alpha=alpha )

    Ridge_sklearn.fit(X_train, Y_train)

    ECM_test_Ridge_vector.append( sum( ( Ridge_sklearn.predict(X_test) - Y_test)**2 )  / len(Y_test) )

In [350]:
lambda_optimo_Ridge_df = pd.DataFrame({ 'ECM test':ECM_test_Ridge_vector , 'lambda': range(1, 10000) }).sort_values(by=["ECM test"]).reset_index(drop=False)

In [351]:
lambda_optimo_Ridge_df

Unnamed: 0,index,ECM test,lambda
0,0,0.768053,1
1,1,0.779833,2
2,2,0.786537,3
3,3,0.790820,4
4,4,0.793779,5
...,...,...,...
9994,9994,0.937812,9995
9995,9995,0.937821,9996
9996,9996,0.937829,9997
9997,9997,0.937838,9998


In [352]:
Ridge_sklearn = sklearn.linear_model.Ridge( alpha=lambda_optimo_Ridge_df['lambda'][0] )

Ridge_sklearn.fit(X_train, Y_train)

ECM_test_Ridge_lambda_optimo = sum( ( Ridge_sklearn.predict(X_test) - Y_test)**2 ) / len(Y_test)

In [353]:
ECM_test_Ridge_lambda_optimo

0.7680525692089318

In [354]:
Lasso_sklearn = sklearn.linear_model.Lasso( alpha=1.0 )

Lasso_sklearn.fit(X_train, Y_train)

ECM_test_Lasso = sum( ( Lasso_sklearn.predict(X_test) - Y_test)**2 ) / len(Y_test)

In [355]:
ECM_test_Lasso

0.9239655512371749

In [356]:
Lasso_sklearn.coef_

array([-0.01257261,  0.        ,  0.        ,  0.        , -0.        ,
        0.01800729, -0.        ,  0.05689479,  0.00542213, -0.        ,
       -0.00307617,  0.        ,  0.        ])

In [357]:
Lasso_sklearn.feature_names_in_

array(['zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad', 'tax',
       'ptratio', 'black', 'lstat', 'medv'], dtype=object)

In [358]:
Lasso_sklearn.intercept_

-3.5355154954122314

In [360]:
ECM_test_Lasso_vector = []

for alpha in range(1, 10000):

    Lasso_sklearn = sklearn.linear_model.Lasso( alpha=alpha )

    Lasso_sklearn.fit(X_train, Y_train)

    ECM_test_Lasso_vector.append( sum( ( Lasso_sklearn.predict(X_test) - Y_test)**2 ) / len(Y_test) )

In [361]:
lambda_optimo_Lasso_df = pd.DataFrame({ 'ECM test':ECM_test_Lasso_vector , 'lambda': range(1, 10000) }).sort_values(by=["ECM test"]).reset_index(drop=False)

In [362]:
lambda_optimo_Lasso_df

Unnamed: 0,index,ECM test,lambda
0,0,0.923966,1
1,1,1.089830,2
2,2,1.095775,3
3,3,1.105646,4
4,4,1.119415,5
...,...,...,...
9994,3542,4.170590,3543
9995,3543,4.170590,3544
9996,3544,4.170590,3545
9997,3546,4.170590,3547


In [365]:
Lasso_sklearn = sklearn.linear_model.Lasso( alpha=lambda_optimo_Lasso_df['lambda'][0] )

Lasso_sklearn.fit(X_train, Y_train)

ECM_test_Lasso_lambda_optimo = sum( ( Lasso_sklearn.predict(X_test) - Y_test)**2 ) / len(Y_test)

In [366]:
ECM_test_Lasso_lambda_optimo

0.9239655512371749

In [367]:
Elastic_Net_sklearn = sklearn.linear_model.ElasticNet( alpha=1.0 ,  l1_ratio=0.5,  fit_intercept=True)

Elastic_Net_sklearn.fit(X_train, Y_train)  # No es necesario escalar los datos.

ECM_test_ElasticNet = sum( ( Elastic_Net_sklearn.predict(X_test) - Y_test)**2 ) / len(Y_test)

In [368]:
ECM_test_ElasticNet

0.8429411850993588

In [369]:
Elastic_Net_sklearn.coef_

array([-0.01139776,  0.02067242,  0.        ,  0.        , -0.        ,
        0.0170638 , -0.        ,  0.09748832,  0.00294639, -0.        ,
       -0.00279793,  0.00592615,  0.        ])

In [370]:
Elastic_Net_sklearn.feature_names_in_

array(['zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad', 'tax',
       'ptratio', 'black', 'lstat', 'medv'], dtype=object)

In [371]:
Elastic_Net_sklearn.intercept_

-3.262898917337564

In [376]:
ECM_test_ElasticNet_vector = []

lambda_l1_ratio = []

for alpha in range(1, 100):

    for l1_ratio in np.arange(0.01, 1.0, 0.01).round(2) :

        lambda_l1_ratio.append( [alpha, l1_ratio])

        ElasticNet_sklearn = sklearn.linear_model.ElasticNet( alpha=alpha ,  l1_ratio=l1_ratio ,  fit_intercept=True)

        ElasticNet_sklearn.fit(X_train, Y_train)

        ECM_test_ElasticNet_vector.append( sum( ( ElasticNet_sklearn.predict(X_test) - Y_test)**2 ) / len(Y_test) )

In [377]:
lambda_l1ratio_optimo_ElasticNet_df = pd.DataFrame({ 'ECM test':ECM_test_ElasticNet_vector , 'lambda_l1ratio':lambda_l1_ratio }).sort_values(by=["ECM test"]).reset_index(drop=False)

In [378]:
lambda_l1ratio_optimo_ElasticNet_df

Unnamed: 0,index,ECM test,lambda_l1ratio
0,6,0.801430,"[1, 0.07]"
1,5,0.801461,"[1, 0.06]"
2,7,0.801500,"[1, 0.08]"
3,4,0.801594,"[1, 0.05]"
4,8,0.801675,"[1, 0.09]"
...,...,...,...
9796,9798,1.624977,"[99, 0.97]"
9797,9700,1.624987,"[98, 0.98]"
9798,9701,1.629398,"[98, 0.99]"
9799,9799,1.629432,"[99, 0.98]"


In [379]:
ElasticNet_sklearn = sklearn.linear_model.ElasticNet( alpha=lambda_l1ratio_optimo_ElasticNet_df['lambda_l1ratio'][0][0] , l1_ratio=lambda_l1ratio_optimo_ElasticNet_df['lambda_l1ratio'][0][1] )

ElasticNet_sklearn.fit(X_train, Y_train)

ECM_ElasticNet_test_lambda_l1ratio_optimo = sum( ( ElasticNet_sklearn.predict(X_test) - Y_test)**2 ) / len(Y_test)

In [380]:
ECM_ElasticNet_test_lambda_l1ratio_optimo

0.8014296217225606

Ahora usando `statmodels` 

In [381]:
import statsmodels.api as sm

In [382]:
Ridge_sm = sm.OLS(Y_train , X_train)

Ridge_sm = Ridge_sm.fit_regularized(method='elastic_net', alpha=1 , L1_wt=0)

In [383]:
Ridge_sm.params

array([-1.09029887e-02,  4.88130524e-02,  2.69752076e-03,  7.63808627e-03,
       -4.55000011e-02,  1.00405991e-02, -7.19120446e-02,  1.48896993e-01,
       -3.45458830e-05, -1.07202238e-01, -2.58241879e-03,  1.86924049e-02,
       -3.53140949e-03])

In [384]:
X_train.columns

Index(['zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad', 'tax',
       'ptratio', 'black', 'lstat', 'medv'],
      dtype='object')

In [385]:
ECM_test_Ridge_sm = (( Ridge_sm.predict(X_test) - Y_test)**2 ).sum() / len(Y_test)

In [386]:
ECM_test_Ridge_sm

0.8083118546310482

In [387]:
Lasso_sm = sm.OLS(Y_train , X_train)

Lasso_sm = Lasso_sm.fit_regularized(method='elastic_net', alpha=1 , L1_wt=1)

In [388]:
Lasso_sm.params

zn        -0.022419
indus      0.025712
chas       0.000000
nox        0.000000
rm         0.000000
age        0.000000
dis        0.000000
rad        0.110673
tax        0.002301
ptratio   -0.044502
black     -0.005494
lstat      0.001771
medv       0.000000
dtype: float64

In [389]:
ECM_test_Lasso_sm = (( Lasso_sm.predict(X_test) - Y_test)**2 ).sum() / len(Y_test)

In [390]:
ECM_test_Lasso_sm

0.9904925667617257

In [391]:
ElasticNet_sm = sm.OLS(Y_train , X_train)

ElasticNet_sm = ElasticNet_sm.fit_regularized(method='elastic_net', alpha=1 , L1_wt=0.5)

In [392]:
ECM_test_ElasticNet_sm = (( ElasticNet_sm.predict(X_test) - Y_test)**2 ).sum() / len(Y_test)

In [393]:
ECM_test_ElasticNet_sm

0.8667151625577075

# Comparación Final