#**Jocelyn Jiménez Buenrostro**


# Laboratorio de regresión - 4

|                |   |
:----------------|---|
| **Nombre**     |   |
| **Fecha**      |   |
| **Expediente** |   |

## Modelos penalizados

Hasta ahora la función de costo que usamos para decidir qué tan bueno es nuestro modelo al momento de ajustar es:

$$ \text{RSS} = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{y_i})^2 $$

Dado que los errores obtenidos son una combinación de sesgo y varianza, puede ser que se sesgue un parámetro para minimizar el error. Esto significa que el modelo puede decidir que la salida no sea una combinación de los factores, sino una fuerte predilección sobre uno de los factores solamente.

E.g. se quiere ajustar un modelo

$$ \hat{z} = \hat{\beta_0} + \hat{\beta_1} x + \hat{\beta_2} y $$

Se ajusta el modelo y se decide que la mejor decisión es $\hat{\beta_1} = 10000$ y $\hat{\beta_2}=50$. Considera limitaciones de problemas reales:
- Quizás los parámetros son ajustes de maquinaria que se deben realizar para conseguir el mejor producto posible, y que $10000$ sea imposible de asignar.
- Quizás los datos actuales están sesgados y sólo hacen parecer que uno de los factores importa más que el otro.

Una de las formas en las que se puede mitigar este problema es penalizando a los parámetros del modelo, cambiando la función de costo:

$$ \text{RSS}_{L2} = \sum_{i=1}^n e_i^2  + \lambda \sum_{j=1}^p \hat{\beta_j}^2 $$

El *L2* significa que se está agregando una penalización de segundo orden. Lo que hace esta penalización es que los factores ahora sólo tendrán permitido crecer si hay una reducción al menos proporcional en el error (sacrificamos sesgo, pero reducimos la varianza).

Asimismo, existe la penalización *L1*

$$ \text{RSS}_{L1} = \sum_{i=1}^n e_i^2  + \lambda \sum_{j=1}^p |\hat{\beta_j}| $$

A las penalizaciones *L2* y *L1* se les conoce también como Ridge y Lasso, respectivamente.

Para realizar una regresión con penalización de Ridge o de Lasso usamos el objeto `Ridge(alpha=?)` o `Lasso(alpha=?)` en lugar de `LinearRegression()` de `sklearn`.

Utiliza el dataset de publicidad (Advertising.csv) y realiza 3 regresiones múltiples:

$$ \text{sales} = \beta_0 + \beta_1 (\text{TV}) + \beta_2 (\text{radio}) + \beta_3 (\text{newspaper}) + \epsilon $$

1. Sin penalización
2. Con penalización L2
3. Con penalización L1





**Importamos datos**

In [3]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression, Ridge, Lasso
import matplotlib.pyplot as plt

In [4]:
from google.colab import files
uploaded = files.upload()

df = pd.read_csv("Advertising.csv")
df.head()

Saving Advertising.csv to Advertising.csv


Unnamed: 0.1,Unnamed: 0,TV,radio,newspaper,sales
0,1,230.1,37.8,69.2,22.1
1,2,44.5,39.3,45.1,10.4
2,3,17.2,45.9,69.3,9.3
3,4,151.5,41.3,58.5,18.5
4,5,180.8,10.8,58.4,12.9


**Regresión sin penalización**

In [6]:
X = df[["TV","radio","newspaper"]]

In [7]:
y = df["sales"]

In [8]:
lr = LinearRegression()
lr.fit(X, y)

In [9]:
lr.intercept_, lr.coef_

(np.float64(2.938889369459412), array([ 0.04576465,  0.18853002, -0.00103749]))

In [10]:
lr.score(X,y)

0.8972106381789522

**Regresión con penalización L2**

In [11]:
ridge = Ridge(alpha=1)
ridge.fit(X, y)

In [12]:
ridge.intercept_, ridge.coef_

(np.float64(2.9389674583301506),
 array([ 0.04576464,  0.1885251 , -0.00103629]))

In [13]:
ridge.score(X,y)

0.8972106380074802

Como no se mostro alguna diferencia entre la regresión normal y ridge(alpha=1), lo intentamos con alpha=100.

In [19]:
ridge100 = Ridge(alpha=100)
ridge100.fit(X, y)

ridge100.intercept_, ridge100.coef_

(np.float64(2.9466816422932354),
 array([ 0.04576446,  0.18803935, -0.00091803]))

In [20]:
ridge100.score(X,y)

0.8972089327944494

Ahora con 500

**Regresión con penalización L1**

In [21]:
lasso = Lasso(alpha=0.1)
lasso.fit(X, y)

In [22]:
lasso.intercept_ , lasso.coef_

(np.float64(2.9444386596073855),
 array([ 0.04575172,  0.18788735, -0.00066758]))

In [23]:
lasso.score(X,y)

0.8972068586756202

Ahora vamos a aumentar lasso(alpha=0.7)

In [25]:
lasso2 = Lasso(alpha=0.7)
lasso2.fit(X,y)

lasso2.intercept_ , lasso2.coef_

(np.float64(3.004480208430902), array([ 0.04568944,  0.18482334, -0.        ]))

In [26]:
lasso2.score(X,y)

0.8971106240136423

**¿Qué puedes observar al ajustar los valores de `alpha`? **

Como se puede observar, al aumentar el valor de alpha en la regresión de Ridge hay una pequeña reducción en los coeficientes, en especial en newspaper. En la regresión normal en newspaper se obtuvo un valor de "-0.00103749", mientras que en ridge se obtuvo "-0.00091803". Este pequeño cambio se debe a que ridge no elimina como tqal las variables que no sirven del modelo. Por el otro lado, lasso si elimina estas varibles irrelevantes. El cambio más notorio fue en newspaper el cual su valor llegó a "-0".