<a href="https://colab.research.google.com/github/diego-ascenciorod/Clase-Laboratorio-Estadistico/blob/main/Lab_R4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Laboratorio de regresión - 4

|                |   |
:----------------|---|
| **Nombre**     |  Diego Ascencio Rodriguez |
| **Fecha**      |  09/02/2026 |
| **Expediente** |  755690 |

## Modelos penalizados

Hasta ahora la función de costo que usamos para decidir qué tan bueno es nuestro modelo al momento de ajustar es:

$$ \text{RSS} = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{y_i})^2 $$

Dado que los errores obtenidos son una combinación de sesgo y varianza, puede ser que se sesgue un parámetro para minimizar el error. Esto significa que el modelo puede decidir que la salida no sea una combinación de los factores, sino una fuerte predilección sobre uno de los factores solamente.

E.g. se quiere ajustar un modelo

$$ \hat{z} = \hat{\beta_0} + \hat{\beta_1} x + \hat{\beta_2} y $$

Se ajusta el modelo y se decide que la mejor decisión es $\hat{\beta_1} = 10000$ y $\hat{\beta_2}=50$. Considera limitaciones de problemas reales:
- Quizás los parámetros son ajustes de maquinaria que se deben realizar para conseguir el mejor producto posible, y que $10000$ sea imposible de asignar.
- Quizás los datos actuales están sesgados y sólo hacen parecer que uno de los factores importa más que el otro.

Una de las formas en las que se puede mitigar este problema es penalizando a los parámetros del modelo, cambiando la función de costo:

$$ \text{RSS}_{L2} = \sum_{i=1}^n e_i^2  + \lambda \sum_{j=1}^p \hat{\beta_j}^2 $$

El *L2* significa que se está agregando una penalización de segundo orden. Lo que hace esta penalización es que los factores ahora sólo tendrán permitido crecer si hay una reducción al menos proporcional en el error (sacrificamos sesgo, pero reducimos la varianza).

Asimismo, existe la penalización *L1*

$$ \text{RSS}_{L1} = \sum_{i=1}^n e_i^2  + \lambda \sum_{j=1}^p |\hat{\beta_j}| $$

A las penalizaciones *L2* y *L1* se les conoce también como Ridge y Lasso, respectivamente.

Para realizar una regresión con penalización de Ridge o de Lasso usamos el objeto `Ridge(alpha=?)` o `Lasso(alpha=?)` en lugar de `LinearRegression()` de `sklearn`.

Utiliza el dataset de publicidad (Advertising.csv) y realiza 3 regresiones múltiples:

$$ \text{sales} = \beta_0 + \beta_1 (\text{TV}) + \beta_2 (\text{radio}) + \beta_3 (\text{newspaper}) + \epsilon $$

1. Sin penalización
2. Con penalización L2
3. Con penalización L1

¿Qué puedes observar al ajustar los valores de `alpha`?

Compara los resultados de los coeficientes utilizando valores diferentes de $\alpha$ y los $R^2$ resultantes.



In [4]:
uploaded = files.upload()



Saving Advertising.csv to Advertising.csv


In [5]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

data = pd.read_csv("Advertising.csv")

X = data[["TV", "radio", "newspaper"]]
y = data["sales"]

lr = LinearRegression()
lr.fit(X, y)
y_pred = lr.predict(X)
r2 = r2_score(y, y_pred)

print("Regresión sin penalización")
print("Intercepto:", lr.intercept_)
print("Coeficientes:", lr.coef_)
print("R2:", r2)


Regresión sin penalización
Intercepto: 2.938889369459412
Coeficientes: [ 0.04576465  0.18853002 -0.00103749]
R2: 0.8972106381789522


In [8]:
from sklearn.linear_model import Ridge

alphas = [0.1, 1, 10, 100]

for a in alphas:
    ridge = Ridge(alpha=a)
    ridge.fit(X, y)

    y_pred = ridge.predict(X)
    r2 = r2_score(y, y_pred)

    print(f"Ridge Regression alpha = {a}")
    print("Intercepto:", ridge.intercept_)
    print("Coeficientes:", ridge.coef_)
    print("R2:", r2)


Ridge Regression alpha = 0.1
Intercepto: 2.9388971784979248
Coeficientes: [ 0.04576465  0.18852952 -0.00103737]
R2: 0.8972106381772373
Ridge Regression alpha = 1
Intercepto: 2.9389674583301506
Coeficientes: [ 0.04576464  0.1885251  -0.00103629]
R2: 0.8972106380074802
Ridge Regression alpha = 10
Intercepto: 2.9396701067738853
Coeficientes: [ 0.04576463  0.18848083 -0.00102551]
R2: 0.8972106210402837
Ridge Regression alpha = 100
Intercepto: 2.9466816422932354
Coeficientes: [ 0.04576446  0.18803935 -0.00091803]
R2: 0.8972089327944494


In [10]:
from sklearn.linear_model import Lasso

alphas = [0.01, 0.1, 1, 10]

for a in alphas:
    lasso = Lasso(alpha=a, max_iter=10000)
    lasso.fit(X, y)

    y_pred = lasso.predict(X)
    r2 = r2_score(y, y_pred)

    print(f"Lasso Regression (alpha = {a})")
    print("Intercepto:", lasso.intercept_)
    print("Coeficientes:", lasso.coef_)
    print("R2:", r2)


Lasso Regression (alpha = 0.01)
Intercepto: 2.9394348956722656
Coeficientes: [ 0.0457633   0.1884668  -0.00100074]
R2: 0.8972106012924924
Lasso Regression (alpha = 0.1)
Intercepto: 2.9444386596073855
Coeficientes: [ 0.04575172  0.18788735 -0.00066758]
R2: 0.8972068586756202
Lasso Regression (alpha = 1)
Intercepto: 3.040215583480375
Coeficientes: [0.04566142 0.1834644  0.        ]
R2: 0.8970235728389689
Lasso Regression (alpha = 10)
Intercepto: 4.112276834964675
Coeficientes: [0.04482067 0.14269598 0.        ]
R2: 0.8801253637086983


In [13]:
print("Al cambiar el valor de alpha se observa que este parámetro controla la fuerza de la penalización del modelo. ")
print("Cuando alpha es pequeño los coeficientes son muy parecidos a los de la regresión lineal tradicional y el modelo se ajusta mejor a los datos,")
print("aunque existe un mayor riesgo de sobreajuste. Cuando alpha aumenta los coeficientes disminuyen y el valor de R2 baja,")
print("lo que indica que el modelo se vuelve más simple. En Ridge los coeficientes solo se reducen, mientras que en Lasso algunos pueden hacerse cero,")
print("lo que hace que el modelo elimina variables menos relevantes.")


Al cambiar el valor de alpha se observa que este parámetro controla la fuerza de la penalización del modelo. 
Cuando alpha es pequeño los coeficientes son muy parecidos a los de la regresión lineal tradicional y el modelo se ajusta mejor a los datos,
aunque existe un mayor riesgo de sobreajuste. Cuando alpha aumenta los coeficientes disminuyen y el valor de R2 baja,
lo que indica que el modelo se vuelve más simple. En Ridge los coeficientes solo se reducen, mientras que en Lasso algunos pueden hacerse cero,
lo que hace que el modelo elimina variables menos relevantes.
