# 🗓️ Semana 2: Regresión Lineal con Regularización - Ridge y Lasso 📊📉

## 🎯 Objetivo de la Semana
En la **Semana 2**, exploraremos la **regularización** en la regresión lineal, una técnica fundamental para evitar problemas de **sobreajuste** (overfitting) y mejorar la capacidad predictiva del modelo. Nos centraremos en dos técnicas populares de regularización: **Ridge** y **Lasso**.

## 🔍 Contenidos

### 🔗 Regularización y Sobreajuste
La **regularización** es una estrategia utilizada para mejorar la **generalización** de los modelos de regresión. En modelos complejos o con muchas variables, es común que el modelo aprenda demasiado bien los datos de entrenamiento, perdiendo la capacidad de **predecir correctamente** en nuevos conjuntos de datos. Para solucionar esto, utilizamos técnicas de regularización que imponen **penalizaciones** a los coeficientes para controlar la complejidad del modelo.

### 🧮 Técnicas de Regularización
- **Ridge Regression (Regresión Ridge)**: También conocida como **regresión de cresta**, Ridge añade una **penalización L2** a la suma de los cuadrados de los coeficientes, lo cual ayuda a reducir el valor de los coeficientes muy grandes y a evitar el sobreajuste. Ridge es útil cuando hay muchas **variables correlacionadas** entre sí.
  
- **Lasso Regression (Least Absolute Shrinkage and Selection Operator)**: Lasso, en cambio, utiliza una **penalización L1** que tiende a reducir algunos coeficientes a **cero**, lo que efectivamente selecciona un subconjunto de variables importantes, proporcionando un modelo más **sencillo y fácil de interpretar**.

### ⚖️ Balanceando Sesgo y Varianza
Otro concepto clave que veremos es cómo la **regularización** permite balancear el **sesgo** y la **varianza** en el modelo. Un modelo con **alto sesgo** no captura la complejidad de los datos, mientras que un modelo con **alta varianza** se ajusta demasiado a los datos específicos de entrenamiento. Al aplicar técnicas de **Ridge** y **Lasso**, aprenderemos a encontrar el punto óptimo que minimice ambos.

## 🤔 ¿Por Qué Aprender Sobre Regularización?
Las técnicas de regularización son esenciales en el **análisis predictivo**, especialmente cuando trabajamos con conjuntos de datos que tienen un número elevado de **variables explicativas** o cuando hay correlaciones entre ellas. Ridge y Lasso permiten ajustar el modelo para encontrar la mejor **compensación entre ajuste y simplicidad**, asegurando una mayor capacidad de **predicción**.

## 🚀 Actividad Práctica
En la actividad práctica de esta semana:
- Aplicaremos las técnicas de **Ridge y Lasso** a un conjunto de datos con múltiples variables explicativas.
- Compararemos el rendimiento de los modelos **con y sin regularización**, evaluando cómo afecta el ajuste de los coeficientes y la capacidad del modelo para generalizar.
- Exploraremos cómo **ajustar el hiperparámetro de regularización** para obtener el mejor rendimiento posible.

Al finalizar la semana, estarás en condiciones de aplicar la regularización a tus modelos de regresión, comprendiendo cuándo y cómo utilizar **Ridge** y **Lasso** para mejorar la calidad y la robustez de tus predicciones.


# 📊 Regularización Ridge y Lasso en Regresión Lineal

La **regularización** es una técnica utilizada para evitar el **sobreajuste** de los modelos de regresión. Cuando un modelo se ajusta demasiado bien a los datos de entrenamiento, puede perder la capacidad de generalizar para nuevos datos. **Ridge** y **Lasso** son dos tipos de regularización que nos ayudan a mejorar la capacidad predictiva y la estabilidad de los modelos lineales al añadir una **penalización** a los coeficientes.

## 🔗 Regularización Ridge (L2)

La **regresión Ridge**, también conocida como **regularización L2**, añade una penalización proporcional al **cuadrado de los coeficientes** a la función de costo del modelo de regresión lineal. El objetivo es minimizar la suma de los errores cuadrados mientras se penalizan los coeficientes para que no crezcan de forma desproporcionada.

La función objetivo de Ridge es:

$$
J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y_i})^2 + \lambda \sum_{j=1}^{p} \beta_j^2
$$

Donde:
- $J(\beta)$: Función de costo (Error Cuadrático).
- $(y_i - \hat{y_i})^2$: Error entre el valor real $y_i$ y el valor predicho $\hat{y_i}$.
- $\lambda$: Parámetro de regularización (también llamado **alpha** en Python). Controla la fuerza de la penalización. Si $\lambda = 0$, se convierte en una regresión lineal sin regularización.
- $\sum_{j=1}^{p} \beta_j^2$: Penalización L2 que suma el cuadrado de los coeficientes.

**Interpretación**:
- La **regularización Ridge** tiende a **reducir** los valores de los coeficientes sin hacerlos cero. Esto ayuda especialmente cuando se tiene **multicolinealidad** (cuando las variables predictivas están altamente correlacionadas).

### 📈 Gráfico de Coeficientes Ridge
En la visualización de los coeficientes de Ridge, a medida que **$\lambda$** aumenta, los coeficientes se reducen. Sin embargo, **nunca llegan a ser exactamente cero**. Esto es útil cuando se tiene un gran número de características y se desea conservarlas todas, pero evitando que algunas dominen demasiado al modelo.

## 📉 Regularización Lasso (L1)

La **regresión Lasso** (Least Absolute Shrinkage and Selection Operator), o **regularización L1**, añade una penalización proporcional al **valor absoluto de los coeficientes**. Esto no solo reduce el valor de los coeficientes, sino que puede llevar algunos de ellos a **cero**, lo que hace que el modelo sea **más sencillo e interpretable**.

La función objetivo de Lasso es:

$$
J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y_i})^2 + \lambda \sum_{j=1}^{p} |\beta_j|
$$

Donde:
- $\sum_{j=1}^{p} |\beta_j|$: Penalización L1 que suma el valor absoluto de los coeficientes.

**Interpretación**:
- La **regularización Lasso** tiende a llevar algunos coeficientes a **cero**, lo cual hace que Lasso sea útil para la **selección de variables**. Si algunos coeficientes se convierten en cero, significa que esas variables se eliminan del modelo, lo que resulta en un modelo más interpretable.

### 📈 Gráfico de Coeficientes Lasso
En el caso de Lasso, a medida que aumentamos el valor de **$\lambda$**, algunos coeficientes se reducen a **cero**. Esto permite hacer una **selección automática** de las variables más importantes, y es especialmente útil cuando se sospecha que muchas variables son irrelevantes.

## 📊 Comparación Visual entre Ridge y Lasso

- **Ridge**: Reduce todos los coeficientes, pero no elimina ninguno. Es preferible cuando **todas las características son relevantes** y están **correlacionadas** entre sí.
- **Lasso**: Puede eliminar algunos coeficientes llevándolos a **cero**, lo que equivale a una **selección automática** de características. Es útil cuando se necesita un modelo más **simple** y cuando algunas variables no aportan mucho al modelo.

### 🔍 ¿Cuándo Usar Ridge o Lasso?
- **Ridge**: Cuando todas las características son importantes y tienen cierta correlación entre sí, ya que Ridge mantiene todas las variables en el modelo, pero con coeficientes más pequeños.
- **Lasso**: Cuando sospechas que **solo algunas variables** son importantes. Lasso reduce a cero los coeficientes irrelevantes, lo cual ayuda a la selección de variables.

### 📋 Ejemplo Práctico

Supongamos que tenemos un **conjunto de datos de viviendas** y queremos predecir el precio de una casa usando características como el **número de habitaciones**, **tamaño**, **número de baños**, etc. Utilizando **Ridge**, podemos asegurarnos de que ninguna característica tenga un peso desproporcionado, mientras que con **Lasso** podríamos eliminar automáticamente características como la **edad** de la casa si se demuestra que no tiene impacto significativo en el precio.

## 📊 Gráficos de Regularización

A continuación, se presentan gráficos que ilustran cómo varían los coeficientes en función de $\lambda$ para Ridge y Lasso.

### Ejemplo Gráfico (Ilustrativo)

- **Gráfico de Ridge**:
    - En el gráfico de Ridge, todos los coeficientes tienden a acercarse al cero a medida que aumenta **$\lambda$**, pero ninguno se convierte exactamente en cero.

- **Gráfico de Lasso**:
    - En el gráfico de Lasso, a medida que **$\lambda$** aumenta, algunos coeficientes se vuelven exactamente **cero**, eliminando así características del modelo.

Este comportamiento hace que **Lasso** sea ideal para obtener un modelo más simple y **Ridge** sea útil para preservar toda la información, especialmente cuando hay alta **multicolinealidad**.



![image-2.png](https://raw.githubusercontent.com/marcecevallos/UDLA_Analitica_predictiva/main/Regresi%C3%B3n%20m%C3%BAltiple%20aplicada/regression_plane.png)

In [None]:
df = pd.read_csv("/content/drive/MyDrive/UDLA-Analitica predictiva/UDLA_Analitica_predictiva-main/1.2Regresión Linear simple aplicada/house_dataset.csv")
df

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished
...,...,...,...,...,...,...,...,...,...,...,...,...,...
540,1820000,3000,2,1,1,yes,no,yes,no,no,2,no,unfurnished
541,1767150,2400,3,1,1,no,no,no,no,no,0,no,semi-furnished
542,1750000,3620,2,1,1,yes,no,no,no,no,0,no,unfurnished
543,1750000,2910,3,1,1,no,no,no,no,no,0,no,furnished


#### Recodificar el nombre de las columnas a español

Como es habitual procedamos a reemplazar los nombres de las columnas a español:

In [None]:
df.rename({'price':'precio', 'bedrooms': 'cuartos', 'bathrooms':'banios', 'stories': 'pisos', 'mainroad':'carretera',
          'guestroom':'cuarto_huespedes', 'basement': 'sotano', 'hotwaterheating':'calefaccion', 'airconditioning':'AC',
           'parking':'parqueadero', 'prefarea':'periferia', 'furnishingstatus':'amoblado' }, axis=1, inplace=True)

Listo, una vez tenemos en nuestro espacio de trabajo a nuestra base de datos, debemos:
1. Inicializar el modelo
2. Entrenar el modelo con los datos de entrenamiento
3. Hacer predicciones

### 1. Inicializar el modelo

In [None]:
from sklearn.linear_model import LinearRegression

### 2. Entrenar el modelo con los datos de entrenamiento

Antes de realizar nuestra división, dejemos a nuestra base de datos en el estado deseado. Para ello, lo primero que vamos a hacer es separar nuestra variable objetivo de los predictores y recodificar aquellas variables categóricas que no se encuentren dummificadas:

#### Recodificamos las variables categóricas con Label Encoder

In [None]:
var_cuantitativas = df.select_dtypes('number').columns
var_cualitativas  =df.select_dtypes('object').columns

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
# creating instance of labelencoder
labelencoder = LabelEncoder()

In [None]:
df[var_cualitativas] = df[var_cualitativas].apply(labelencoder.fit_transform)

Separamos a los predictores de nuestra variable objetivo:

In [None]:
X = df[df.columns.difference(['precio'])]
y = df.precio

Como nuestra base de datos no contine la variable tiempo, podemos realizar un train/split aleatorio de la siguiente forma:

Importamos del module sklearn la función: train_test_split

In [None]:
from sklearn.model_selection import train_test_split

Dividimos en dos partes a nuestra base de datos en un 80% para que el algoritmo entrene y un 20% para aplicar nuestras métricas de desempeño.

In [None]:
X_train , X_test , y_train , y_test = train_test_split(X , y , test_size = 0.20, random_state =123)

In [None]:
print(X_train.shape,"",type(X_train))
print(y_train.shape,"\t ",type(y_train))
print(X_test.shape,"",type(X_test))
print(y_test.shape,"\t ",type(y_test))

(436, 12)  <class 'pandas.core.frame.DataFrame'>
(436,) 	  <class 'pandas.core.series.Series'>
(109, 12)  <class 'pandas.core.frame.DataFrame'>
(109,) 	  <class 'pandas.core.series.Series'>


# El Modelo de Regresión Lineal por Sklearn

Una vez tenemos nuestros diferentes conjuntos de datos, procedemos a entrenar al modelo:

In [None]:
modelo_regresion = LinearRegression()
modelo_regresion.fit(X_train, y_train)

### 3. Realizar las predicciones

In [None]:
predicciones_train = modelo_regresion.predict(X_train)
predicciones_test = modelo_regresion.predict(X_test)