# Introducción

Para usar los métodos de regresion lineal penalizada, la respuesta y los predictores deben estandarizarse para que tengan media 0 y varianza 1.

Consideremos el típico modelo de regresión lineal: 

$$y_i = \beta_0 + \beta_1 \cdot x_{i1} + \beta_2 \cdot x_{i2} + ... +  \beta_p \cdot x_{ip} + \epsilon$$

Estandarizamos los predictores $X_1,...,X_p$ y la respuesta $Y$:

$$\widetilde{Y} = \dfrac{Y - \overline{y}}{\sigma_Y} \\[0.5cm]$$

$$\widetilde{X_j} = \dfrac{X_j - \overline{x_j}}{\sigma_{X_j}}$$ 

para $j=1,..,p$

El modelo estandarizado es:

$$\widetilde{y}_i = \beta_0 + \widetilde{\beta}_1 \cdot \widetilde{x}_{i1} + \widetilde{\beta}_2 \cdot \widetilde{x}_{i2} + ... +  \widetilde{\beta}_p \cdot \widetilde{x}_{ip} + \widetilde{\epsilon}$$

Donde:



$\widetilde{\beta_j} = \dfrac{\sigma_{X_j}}{\sigma_{Y}}\cdot \beta_j \hspace{0.5cm}$  , para $j=1,...,p$

$\beta_0 = \overline{y} - \sum_{j=1}^{p} \overline{x}_j \cdot \beta_j$

$\widetilde{\epsilon} = \dfrac{\epsilon}{\sigma_{Y}}$

El modelo estandarizado estimado es:

$$\widehat{\widetilde{y}}_i = \widehat{\beta}_0 + \widehat{\widetilde{\beta}}_1 \cdot  \widetilde{x}_{i1} + \widehat{\widetilde{\beta}}_2 \cdot \widetilde{x}_{i2} + ... +  \widehat{\widetilde{\beta}}_p \cdot \widetilde{x}_{ip}$$

Ahora los coeficientes betas estimados $\widehat{\widetilde{\beta}}_1, \widehat{\widetilde{\beta}}_2 , ..., \widehat{\widetilde{\beta}}_p$ son directamente comparables ya que no dependen de las unidades de medida de los predictores, puesto que al haber estandarizado estos las unidades de medida se eliminan.

Ahora si que se cumple que dados dos betas estimados si  $\widehat{\widetilde{\beta}}_r > \widehat{\widetilde{\beta}}_h$ , entonces $X_r$ es mas relevante como predictor de $Y$ (tiene más peso) que $X_h$

Esto no se cumplia en la regresion lineal ordinaria puesto que las estimaciones de los betas no eran directamente comparables al depender de las unidades de medida. Por ello betas estimados cercanos a cero no implicaban necesariamente que el predictor asociado fuese no significativo, ya que si ese predictor se media, por ejemplo, en millones de euros, un beta estimado de 0.001 serian 1000 euros (0.001 millones de euros), si se cambia la unidad de medida de dicho predictor de millones de euros a simplmenente euros entonces dicho beta estimado cambiaria de 0.001 a 1000 lo cual ya no es cercano a cero.

# Regresión Ridge

El modelo de regresión Ridge es básicamente un modelo de regresión lineal en el que la respuesta y los predictores están estandarizados y la estimacion de los coeficientes betas se hace resolviendo el siguiente problema de optimización :

Sea $\hspace{0.1cm}\widetilde{\beta}= (\widetilde{\beta}_1,\widetilde{\beta}_2,...,\widetilde{\beta}_p)$ , $\hspace{0.15cm} \widetilde{x}_i = (\widetilde{x}_{i1},...,\widetilde{x}_{ip})$


\begin{gather*}
  \underset{\widetilde{\beta}}{Min} \hspace{0.2cm}  \biggl\{ \hspace{0.1cm} RSS(\widetilde{\beta}) \hspace{0.1cm} +\hspace{0.1cm}  \lambda \cdot | | \hspace{0.06cm}\widetilde{\beta} \hspace{0.06cm}||^2_2 \hspace{0.1cm} \biggl\} \hspace{0.2cm} = \hspace{0.2cm}  \underset{\widetilde{\beta}}{Min} \hspace{0.2cm} \biggl\{ \hspace{0.1cm} \sum_{i=1}^{n} \hspace{0.1cm}(y_i - \beta_0 - \widetilde{x}_i\hspace{0.05cm}^t \cdot \beta)\hspace{0.02cm}^2 \hspace{0.1cm} + \hspace{0.1cm}  \lambda \cdot | | \hspace{0.06cm}\widetilde{\beta} \hspace{0.06cm}||^2_2  \hspace{0.1cm} \biggl\} \hspace{0.2cm} =  \\[0.8cm]
  = \hspace{0.2cm} \underset{\widetilde{\beta}_1,...,\widetilde{\beta}_p}{Min} \hspace{0.2cm} \biggl\{ \hspace{0.1cm} \sum_{i=1}^{n} \hspace{0.1cm}(y_i - \beta_0 - \widetilde{\beta}_1 \cdot x_{i1} - \dots - \widetilde{\beta}_p \cdot x_{ip})\hspace{0.02cm}^2  \hspace{0.1cm} + \hspace{0.1cm}  \lambda \cdot | | \hspace{0.06cm}\widetilde{\beta} \hspace{0.06cm}||^2_2 \hspace{0.1cm} \biggl\}
\end{gather*}


Donde: 

$\lambda \geq 0$ es un parámetro de penalización

$| | \hspace{0.06cm}\widetilde{\beta} \hspace{0.06cm}||^2_2 \hspace{0.1cm} = \hspace{0.1cm} \sum_{j=1}^p \hspace{0.1cm} \widetilde{\beta}_j\hspace{0.01cm}^2\hspace{0.15cm}$ es la norma Euclidea del vector $\hspace{0.15cm}\widetilde{\beta}\hspace{0.15cm}$, la cual es una medida del tamaño del vector.



**Observaciones :**

La expresión $\hspace{0.15cm}\lambda \cdot | | \hspace{0.06cm}\widetilde{\beta} \hspace{0.06cm}||^2_2\hspace{0.15cm}$ penaliza el tamaño del vector $\hspace{0.15cm}\widetilde{\beta}$ 

Cuanto mayor sea $\hspace{0.15cm}\lambda\hspace{0.15cm}$ mayor es la penalización impuesta al tamaño del vector $\hspace{0.15cm}\widetilde{\beta} \hspace{0.15cm}$  en el problema de optimización.

Si $\hspace{0.15cm}\lambda = 0\hspace{0.15cm}$ el problema de optimizacion es el de minimos cuadrados ordinarios, propio del modelo de regresion lineal ordinario.

Si $\hspace{0.15cm}\lambda\hspace{0.15cm}$ es grande  la solucion del problema $\hspace{0.15cm}\widehat{\widetilde{\beta}}\hspace{0.05cm}^{Ridge} \hspace{0.15cm}$  tendra un tamaño (norma Euclidea) pequeño, es decir, los  $\hspace{0.15cm}\widehat{\widetilde{\beta}}_1, \widehat{\widetilde{\beta}}_2,..., \widehat{\widetilde{\beta}}_p\hspace{0.15cm}$ estarán cerca de $0$

$\lambda$ debe ser seleccionado a priori de la resolucion del problema de optimización.

Ventajas de la regresion Ridge sobre la regresion de minimos cuadrados ordinarios:

- Las predicciones de la regresion por minimos cuadrados ordinarios son insesgadas pero tiene alta varianza, especialmente si $p \approx n$. Además si $p>n$ no se puede estimar la regresion por minimos cuadrados ordinarios.

-  La regresión Ridge se basa en el equilibrio entre sesgo y varianza. Disminuye sustancialmente la varianza de las predicciones a costa de aumentar un poco su sesgo. Además, incluso si $\hspace{0.1cm}p \approx n \hspace{0.1cm}$ o $\hspace{0.1cm} p>n\hspace{0.1cm}$ , la regresion Ridge puede funcionar bien.

- Esto lleva a que si $\lambda$ es seleccionado correctamente, el error cuadratico medio de prediccion $(ECMP)$es menor en la regresion Ridge que en la de minimos cuadrados ordinarios, lo que conduce a mayor capacidad predictiva de Ridge sobre minimos cuadrados ordinarios.

# Ejercicio 1

Indicar cuál de los siguientes puntos es correcto, justificando tu respuesta. Regresión ridge y regresión lasso, relativa a mínimos cuadrados, son:

- Más flexibles y, por lo tanto, brindarán una mejora en la precisión de las predicciones cuando su aumento en sesgo sea menor que su disminución en varianza

- Más flexibles y, por lo tanto, brindarán una mejora en la precisión de las predicciones cuando su aumento en varianza sea menor que su disminución en sesgo.

- Menos flexibles y, por lo tanto, brindarán una mejora en la precisión de las predicciones cuando su aumento en sesgo sea menor que su disminución en varianza. **CORRECTO**

- Menos flexibles y, por lo tanto, brindarán una mejora en la precisión de las predicciones cuando su aumento en varianza sea menor que su disminución en sesgo.

Razonamiento:

- Las predicciones de la regresion por minimos cuadrados ordinarios son insesgadas pero tiene alta varianza, especialmente si $p \approx n$. Además si $p>n$ no se puede estimar la regresion por minimos cuadrados ordinarios.

-  La regresión Ridge se basa en el equilibrio entre sesgo y varianza. Disminuye sustancialmente la varianza de las predicciones a costa de aumentar un poco su sesgo (es por ello un método menos flexible, que genera menos sobre-ajuste). Además, incluso si $\hspace{0.1cm}p \approx n \hspace{0.1cm}$ o $\hspace{0.1cm} p>n\hspace{0.1cm}$ , la regresion Ridge puede funcionar bien.

- Esto lleva a que si $\lambda$ es seleccionado correctamente, el error cuadratico medio de prediccion $(ECMP)$es menor en la regresion Ridge que en la de minimos cuadrados ordinarios, lo que conduce a mayor capacidad predictiva de Ridge sobre minimos cuadrados ordinarios.

# Ejercicio 6



En este ejercicio, se pide obtener predicciones del logaritmo de la variable crim del conjunto de datos Boston de la librería ISLR2 utilizando el resto de variables como predictores, mediante los siguientes métodos:

Regresión ridge.

Regresión lasso.

Para ello, por sencillez utilizar una muestra de entrenamiento y de test y obtener los correspondientes valores del error cuadrático medio test. Comparar los resultados y explicar las conclusiones más relevantes. Para crear la muestra de entrenamiento, con 355 observaciones seleccionadas al azar, y la muestra test, con las 151 observaciones restantes, fijar la semilla mediante la orden set.seed(1). Esto es importante para poder comparar los resultados con otros procedimientos que veremos en la hoja de la semana que viene.

El mejor modelo de regresion de minimos cuadrados ordinarios por validación simple usando algoritmos de selección de predictores (practica anterior) es:

crim ~ zn + indus + nox + age + ptratio + lstat + medv

In [3]:
import pandas as pd

url = 'https://raw.githubusercontent.com/JWarmenhoven/ISLR-python/master/Notebooks/Data/Boston.csv'

Boston = pd.read_csv(url)

In [8]:
Boston_Train = Boston.sample(frac=0.70, replace=False, weights=None, random_state=1, axis=None, ignore_index=False)

Boston_Test = Boston.drop( Boston_Train.index , )

In [10]:
## TEST

X_test = Boston_Test.loc[: , Boston_Test.columns != 'crim']
Y_test = Boston_Test.loc[: , 'crim']

##############################################################

## TRAIN

X_train = Boston_Train.loc[: , Boston_Train.columns != 'crim']
Y_train = Boston_Train.loc[: , 'crim']


In [12]:
import statsmodels.formula.api as smf

In [13]:
mejor_modelo_MCO = smf.ols(formula = 'crim ~ zn + indus + nox + age + ptratio + lstat + medv', data =Boston_Train)

mejor_modelo_MCO = mejor_modelo_MCO.fit()
 
print(mejor_modelo_MCO.summary())

                            OLS Regression Results                            
Dep. Variable:                   crim   R-squared:                       0.275
Model:                            OLS   Adj. R-squared:                  0.261
Method:                 Least Squares   F-statistic:                     18.78
Date:                Mon, 17 Oct 2022   Prob (F-statistic):           3.18e-21
Time:                        11:38:25   Log-Likelihood:                -1210.3
No. Observations:                 354   AIC:                             2437.
Df Residuals:                     346   BIC:                             2467.
Df Model:                           7                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    -20.6700      6.406     -3.227      0.0

In [19]:
ECM_test_mejor_MCO = ( ( mejor_modelo_MCO.predict(X_test) - Y_test )**2 ).sum()

In [20]:
ECM_test_mejor_MCO

7867.080915965136

In [24]:
import sklearn

from sklearn import preprocessing

In [102]:
Ridge_sklearn = sklearn.linear_model.Ridge( alpha=1.0 , fit_intercept=True)

Ridge_sklearn.fit(X_train, Y_train)  # No es necesario escalar los datos.

ECM_test_Ridge = sum( ( Ridge_sklearn.predict(X_test) - Y_test)**2 )

In [103]:
ECM_test_Ridge

5666.860672620652

In [104]:
Ridge_sklearn.coef_

array([ 4.23473200e-02, -7.22827801e-02, -5.51352723e-01, -5.38213841e+00,
        1.03064070e+00, -1.24862668e-03, -1.01009089e+00,  5.46937705e-01,
       -3.93065520e-03, -2.37125405e-01, -7.85708737e-03,  4.66262130e-02,
       -2.50284966e-01])

In [105]:
Ridge_sklearn.feature_names_in_

array(['zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad', 'tax',
       'ptratio', 'black', 'lstat', 'medv'], dtype=object)

In [106]:
Ridge_sklearn.intercept_

12.891905577088338

In [69]:
ECM_test_Ridge_vector = []

for alpha in range(1, 10000):

    Ridge_sklearn = sklearn.linear_model.Ridge( alpha=alpha )

    Ridge_sklearn.fit(X_train, Y_train)

    ECM_test_Ridge_vector.append( sum( ( Ridge_sklearn.predict(X_test) - Y_test)**2 ) )

In [None]:
lambda_optimo_Ridge_df = pd.DataFrame({ 'ECM test':ECM_test_Ridge_vector , 'lambda': range(1, 10000) }).sort_values(by=["ECM test"]).reset_index(drop=False)

In [73]:
lambda_optimo_Ridge_df

Unnamed: 0,index,ECM test,lambda
0,241,5619.442044,242
1,240,5619.442332,241
2,242,5619.442493,243
3,239,5619.443366,240
4,243,5619.443674,244
...,...,...,...
9994,9994,6168.475129,9995
9995,9995,6168.504909,9996
9996,9996,6168.534686,9997
9997,9997,6168.564461,9998


In [75]:
Ridge_sklearn = sklearn.linear_model.Ridge( alpha=lambda_optimo_Ridge_df['lambda'][0] )

Ridge_sklearn.fit(X_train, Y_train)

ECM_Ridge_lambda_optimo = sum( ( Ridge_sklearn.predict(X_test) - Y_test)**2 )

In [76]:
ECM_Ridge_lambda_optimo

5619.442043973381

In [80]:
Lasso_sklearn = sklearn.linear_model.Lasso( alpha=1.0 )

Lasso_sklearn.fit(X_train, Y_train)

ECM_test_Lasso = sum( ( Lasso_sklearn.predict(X_test) - Y_test)**2 )

In [81]:
ECM_test_Lasso

5801.12558607471

In [113]:
Lasso_sklearn.coef_

array([ 1.84504306e-02, -0.00000000e+00, -0.00000000e+00, -0.00000000e+00,
        0.00000000e+00,  1.98584279e-02, -0.00000000e+00,  4.58247135e-01,
        4.08914174e-04, -0.00000000e+00, -1.10474218e-02,  2.96267659e-02,
       -1.01826815e-01])

In [114]:
Lasso_sklearn.feature_names_in_

array(['zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad', 'tax',
       'ptratio', 'black', 'lstat', 'medv'], dtype=object)

In [115]:
Lasso_sklearn.intercept_

3.304381019549772

In [108]:
ECM_test_Lasso_vector = []

for alpha in range(1, 10000):

    Lasso_sklearn = sklearn.linear_model.Lasso( alpha=alpha )

    Lasso_sklearn.fit(X_train, Y_train)

    ECM_test_Lasso_vector.append( sum( ( Lasso_sklearn.predict(X_test) - Y_test)**2 ) )

In [109]:
lambda_optimo_Lasso_df = pd.DataFrame({ 'ECM test':ECM_test_Lasso_vector , 'lambda': range(1, 10000) }).sort_values(by=["ECM test"]).reset_index(drop=False)

In [110]:
lambda_optimo_Lasso_df

Unnamed: 0,index,ECM test,lambda
0,0,5801.125586,1
1,1,5953.405700,2
2,2,6128.040393,3
3,3,6314.516768,4
4,4,6518.583052,5
...,...,...,...
9994,3900,10699.536010,3901
9995,3901,10699.536010,3902
9996,3902,10699.536010,3903
9997,3896,10699.536010,3897


In [111]:
Lasso_sklearn = sklearn.linear_model.Lasso( alpha=lambda_optimo_Lasso_df['lambda'][0] )

Lasso_sklearn.fit(X_train, Y_train)

ECM_Lasso_lambda_optimo = sum( ( Lasso_sklearn.predict(X_test) - Y_test)**2 )

In [112]:
ECM_Lasso_lambda_optimo

5801.12558607471

Ahora usando `statmodels` 

In [138]:
import statsmodels.api as sm

In [166]:
Ridge_sm = sm.OLS(Y_train , X_train)

Ridge_sm = Ridge_sm.fit_regularized(method='elastic_net', alpha=1 , L1_wt=0)

In [167]:
Ridge_sm.params

array([ 0.03519808, -0.05998695, -0.0394689 ,  0.0027158 ,  0.33639808,
        0.01432283, -0.36256383,  0.44804175,  0.00117177,  0.07795305,
       -0.00806175,  0.09304388, -0.10808265])

In [169]:
X_train.columns

Index(['zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad', 'tax',
       'ptratio', 'black', 'lstat', 'medv'],
      dtype='object')

In [170]:
ECM_test_Ridge_sm = (( Ridge_sm.predict(X_test) - Y_test)**2 ).sum()

In [171]:
ECM_test_Ridge_sm

5631.359218424218

In [162]:
Lasso_sm = sm.OLS(Y_train , X_train)

Lasso_sm = Lasso_sm.fit_regularized(method='elastic_net', alpha=1 , L1_wt=1)

In [163]:
Lasso_sm.params

zn         0.030556
indus      0.000000
chas       0.000000
nox        0.000000
rm         0.000000
age        0.039617
dis        0.000000
rad        0.469794
tax        0.001634
ptratio    0.000000
black     -0.007778
lstat      0.011535
medv      -0.090279
dtype: float64

In [164]:
ECM_test_Lasso_sm = (( Lasso_sm.predict(X_test) - Y_test)**2 ).sum()

In [165]:
ECM_test_Lasso_sm

5829.240987022078