# Laboratorio de regresión - 4

|                |   |
:----------------|---|
| **Nombre**     | Gibrán Leonardo Chávez González  |
| **Fecha**      | 09/02/2026  |
| **Expediente** | 757366  |

## Modelos penalizados

Hasta ahora la función de costo que usamos para decidir qué tan bueno es nuestro modelo al momento de ajustar es:

$$ \text{RSS} = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{y_i})^2 $$

Dado que los errores obtenidos son una combinación de sesgo y varianza, puede ser que se sesgue un parámetro para minimizar el error. Esto significa que el modelo puede decidir que la salida no sea una combinación de los factores, sino una fuerte predilección sobre uno de los factores solamente. 

E.g. se quiere ajustar un modelo

$$ \hat{z} = \hat{\beta_0} + \hat{\beta_1} x + \hat{\beta_2} y $$

Se ajusta el modelo y se decide que la mejor decisión es $\hat{\beta_1} = 10000$ y $\hat{\beta_2}=50$. Considera limitaciones de problemas reales:
- Quizás los parámetros son ajustes de maquinaria que se deben realizar para conseguir el mejor producto posible, y que $10000$ sea imposible de asignar.
- Quizás los datos actuales están sesgados y sólo hacen parecer que uno de los factores importa más que el otro.

Una de las formas en las que se puede mitigar este problema es penalizando a los parámetros del modelo, cambiando la función de costo:

$$ \text{RSS}_{L2} = \sum_{i=1}^n e_i^2  + \lambda \sum_{j=1}^p \hat{\beta_j}^2 $$

El *L2* significa que se está agregando una penalización de segundo orden. Lo que hace esta penalización es que los factores ahora sólo tendrán permitido crecer si hay una reducción al menos proporcional en el error (sacrificamos sesgo, pero reducimos la varianza).

Asimismo, existe la penalización *L1*

$$ \text{RSS}_{L1} = \sum_{i=1}^n e_i^2  + \lambda \sum_{j=1}^p |\hat{\beta_j}| $$

A las penalizaciones *L2* y *L1* se les conoce también como Ridge y Lasso, respectivamente.

Para realizar una regresión con penalización de Ridge o de Lasso usamos el objeto `Ridge(alpha=?)` o `Lasso(alpha=?)` en lugar de `LinearRegression()` de `sklearn`.

Utiliza el dataset de publicidad (Advertising.csv) y realiza 3 regresiones múltiples:

$$ \text{sales} = \beta_0 + \beta_1 (\text{TV}) + \beta_2 (\text{radio}) + \beta_3 (\text{newspaper}) + \epsilon $$

1. Sin penalización
2. Con penalización L2
3. Con penalización L1

¿Qué puedes observar al ajustar los valores de `alpha`? 

Compara los resultados de los coeficientes utilizando valores diferentes de $\alpha$ y los $R^2$ resultantes.



In [77]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.preprocessing import StandardScaler

In [78]:
data = pd.read_csv('Advertising.csv')
data.head()

Unnamed: 0.1,Unnamed: 0,TV,radio,newspaper,sales
0,1,230.1,37.8,69.2,22.1
1,2,44.5,39.3,45.1,10.4
2,3,17.2,45.9,69.3,9.3
3,4,151.5,41.3,58.5,18.5
4,5,180.8,10.8,58.4,12.9


In [79]:
X = np.array(data[['TV', 'radio', 'newspaper']])
y = np.array(data['sales'])

## LinearRegression( )

In [80]:
# Regresión sin penalización
lr = LinearRegression()
lr.fit(X, y)
print("Coeficientes sin penalización:")
print(f'b0: {lr.intercept_}, b1: {lr.coef_[0]}, b2: {lr.coef_[1]}, b3: {lr.coef_[2]}')
print(f'R^2 sin penalización: {lr.score(X, y)}')


Coeficientes sin penalización:
b0: 2.9388893694594085, b1: 0.0457646454553976, b2: 0.18853001691820453, b3: -0.0010374930424762834
R^2 sin penalización: 0.8972106381789522


In [81]:
'''
# Buscar la mejor alpha para las regresiones L2 y L1
alphas = np.logspace(-4, 2, 50)
ridge_cv = RidgeCV(alphas=alphas, cv=5)
ridge_cv.fit(X, y)
alpha_ridge = ridge_cv.alpha_
print(f'Mejor alpha para Ridge: {alpha_ridge}')

lasso_cv = LassoCV(alphas=alphas, cv=5)
lasso_cv.fit(X, y)
alpha_lasso = lasso_cv.alpha_
print(f'Mejor alpha para Lasso: {alpha_lasso}')
'''

"\n# Buscar la mejor alpha para las regresiones L2 y L1\nalphas = np.logspace(-4, 2, 50)\nridge_cv = RidgeCV(alphas=alphas, cv=5)\nridge_cv.fit(X, y)\nalpha_ridge = ridge_cv.alpha_\nprint(f'Mejor alpha para Ridge: {alpha_ridge}')\n\nlasso_cv = LassoCV(alphas=alphas, cv=5)\nlasso_cv.fit(X, y)\nalpha_lasso = lasso_cv.alpha_\nprint(f'Mejor alpha para Lasso: {alpha_lasso}')\n"

## Ridge(alpha=x)

In [82]:
# Regresión con penalización L2 (Ridge)

alphas_ridge = []
R_2_ridge = []
for i in range(1, 6):
    lr_L2 = Ridge(alpha=i)
    lr_L2.fit(X, y)
    print(f"Coeficientes con penalización L2 (alpha={i}):")
    print(f'b0: {lr_L2.intercept_}, b1: {lr_L2.coef_[0]}, b2: {lr_L2.coef_[1]}, b3: {lr_L2.coef_[2]}')
    print(f'R^2 con penalización L2 (alpha={i}): {lr_L2.score(X, y)}\n')

    alphas_ridge.append(i)
    R_2_ridge.append(lr_L2.score(X, y))

for i, j in zip(alphas_ridge, R_2_ridge):
    print(f'Alpha: {i}, R^2: {j}')


Coeficientes con penalización L2 (alpha=1):
b0: 2.9389674583301506, b1: 0.045764643658018474, b2: 0.18852509681078544, b3: -0.0010362939589070004
R^2 con penalización L2 (alpha=1): 0.8972106380074802

Coeficientes con penalización L2 (alpha=2):
b0: 2.939045543835899, b1: 0.04576464185936919, b2: 0.18852017697522253, b3: -0.0010350949660852785
R^2 con penalización L2 (alpha=2): 0.8972106374931026

Coeficientes con penalización L2 (alpha=3):
b0: 2.9391236259769116, b1: 0.04576464005944986, b2: 0.18851525741149303, b3: -0.0010338960640028244
R^2 con penalización L2 (alpha=3): 0.8972106366358757

Coeficientes con penalización L2 (alpha=4):
b0: 2.9392017047534758, b1: 0.04576463825826047, b2: 0.1885103381195737, b3: -0.00103269725265116
R^2 con penalización L2 (alpha=4): 0.8972106354358567

Coeficientes con penalización L2 (alpha=5):
b0: 2.939279780165837, b1: 0.04576463645580122, b2: 0.1885054190994416, b3: -0.0010314985320218977
R^2 con penalización L2 (alpha=5): 0.8972106338931022

Alpha

A medida que el $\alpha$ se vuelve mayor, la $R^2$ se va haciendo más pequeña, pero es un cambio muy pequeño.

## Lasso(alpha=x)

In [83]:
# Regresión con penalización L1 (Lasso)

alphas_lasso = []
R_2_lasso = []
for i in range(1, 6):
    lr_L1 = Lasso(alpha=i)
    lr_L1.fit(X, y)
    print(f"Coeficientes con penalización L1 (alpha={i}):")
    print(f'b0: {lr_L1.intercept_}, b1: {lr_L1.coef_[0]}, b2: {lr_L1.coef_[1]}, b3: {lr_L1.coef_[2]}')
    print(f'R^2 con penalización L1 (alpha={i}): {lr_L1.score(X, y)}\n')

    alphas_lasso.append(i)
    R_2_lasso.append(lr_L1.score(X, y))

for i, j in zip(alphas_lasso, R_2_lasso):
    print(f'Alpha: {i}, R^2: {j}')

Coeficientes con penalización L1 (alpha=1):
b0: 3.040215583480375, b1: 0.045661415380019485, b2: 0.18346439758868255, b3: 0.0
R^2 con penalización L1 (alpha=1): 0.8970235728389689

Coeficientes con penalización L1 (alpha=2):
b0: 3.1593335003119645, b1: 0.04556799957985276, b2: 0.17893457365317814, b3: 0.0
R^2 con penalización L1 (alpha=2): 0.8965115064854329

Coeficientes con penalización L1 (alpha=3):
b0: 3.2784514171435557, b1: 0.04547458377968604, b2: 0.17440474971767367, b3: 0.0
R^2 con penalización L1 (alpha=3): 0.8956580620222178

Coeficientes con penalización L1 (alpha=4):
b0: 3.3975693339751416, b1: 0.04538116797951934, b2: 0.16987492578216923, b3: 0.0
R^2 con penalización L1 (alpha=4): 0.8944632394493237

Coeficientes con penalización L1 (alpha=5):
b0: 3.516687250806733, b1: 0.045287752179352624, b2: 0.16534510184666482, b3: 0.0
R^2 con penalización L1 (alpha=5): 0.8929270387667505

Alpha: 1, R^2: 0.8970235728389689
Alpha: 2, R^2: 0.8965115064854329
Alpha: 3, R^2: 0.8956580620

A medida que el $\alpha$ se vuelve mayor, la $R^2$ se va haciendo más pequeña, con un cambio un poco más pronunciado.