# **Regularizaciones**

Hemos visto ya varias estrategias para evitar el overfitting o sobreajuste de nuestros datos. Recordemos que buscamos que nuestros algoritmos sean capaces de generalizar a nuevos casos que no han sido vistos durante su entrenamiento. Las regularizaciones son técnicas utilizadas para evitar este sobreajuste, al agregar una penalización a los coeficientes.

# **Normas de un vector**


Antes de comenzar con las regularizaciones en sí, conviene retomar un concepto básico en Álgebra Lineal: la norma. La norma de un vector $v$ es una medida de su "longitud" o "tamaño" en el espacio vectorial. Hay diferentes tipos de normas, pero las más comunes son la norma *L2* también conocida como norma euclidiana y denotada como $\left \| v \right \|_{2}$, y la norma *L1* o $\left \| v \right \|_{1}$. La primera es a la que más habituados estamos al tratarse de una simple generalización del Teorema de Pitágoras para más de dos dimensiones. La última puede visualizarse como la suma de las distancias proyectadas en cada eje. Podemos generalizar a normas *Ln*. Salvo que se indique otra refencia la distancia se calcula respecto al punto de origen, aunque en muchas ocasiones calcularemos las distancias entre dos vectores distintos. Su uso en Ciencia de Datos está muy generalizado, desde el cálculo de distancias entre vectores a rescalados de datos.

 <div style="display: flex; justify-content: center;">
<img src="https://drive.google.com/uc?export=view&id=1MonzaW9BUyHOdFmMgmiLfGvsdTzttf7u" width="600">

La fórmula de la norma *L1* para $n$ dimensiones es:

$$\left \| v \right \|_{1} = \sum_{i=1}^{n}\left | v_{i} \right |$$

Para la norma *L2* sería:

$$\left \| v \right \|_{2} = \sqrt{ \sum_{i=1}^{n}v_{i}^{2}}$$

Así si tenemos un vector $p = \begin{bmatrix}3
\\ 4
\end{bmatrix}$ su norma L1 sería $\left \| p \right \|_{1} = 3+4 =7$, mientras que su norma L2 sería $\left \| p \right \|_{2} = \sqrt{3^{2}+4^{2}} = 5$.

El uso de una u otra norma depende del contexto de uso. Pongamos que deseamos calcular la distancia entre vectores. Al elevar sus coeficientes al cuadrado, la norma *L2* puede devolver valores mucho más altos si las distancias crecen significativamente. Es por ello que si queremos evitar valores elevadas utilizamos *L1*, siendo así mucho menos sensible a outliers.

# **Regularización Ridge**


Recordemos que en los modelos de regresión, el objetivo es localizar los coeficientes que minimicen la función de pérdida. Con las regularizaciones añadimos un término más a la función de pérdida: el valor de los mismos coeficientes. En otras palabras, ahora los coeficientes no solo minimizan el error sino también su propio valor. Geométricamente, coeficientes altos en una variable implican pendientes altas lo que supone mayor sensibilidad a los valores de dicha variable. Con la regularización los coeficientes se mantienen a raya, por lo que el modelo se desensibiliza. Esto reduce el sesgo y añade capacidad de generalización a nuevos datos.

<div style="display: flex; justify-content: center;">
<img src="https://drive.google.com/uc?export=view&id=1zcUApK3HQggAu-eDn1n9KAWzpSq2OXNK" width="700">

La primera que veamos es la **Regularización Ridge**. Esta aplica una penalización que consiste en sumar a la función de pérdida la suma de los cuadrados de los coeficientes.

$$L_{2} = \sum_{i=1}^{n}(\hat{y} - y)^{2} + \alpha(\sum_{j=1}^{k}w_{i}^{2})$$

Al añadir esa suma a una función que pretendemos minimizar, forzamos al algoritmo a mantener los coeficientes en valores no demasiado elevados, de lo contrario, el término derecho de la ecuación aumenta.
El hiperparámetro $\lambda$ indica la intensidad de la regularización. Para un valor $\lambda = 0$ el modelo es formalmente equivalente a la Regresión Lineal ordinaria. A medida que aumentamos $\lambda$ hacemos que el modelo sea más y más restringido. Aumentar excesivamente $\lambda$ ocasionará que nuestro modelo tienda antes a minimizar los coeficientes que el error. Localizar el punto óptimo de $\lambda$ dependerá de el equilibrio que busquemos entre precisión y generalización.

La Regularización Ridge es un técnica especialmente útil cuando se trabaja con datos multicolineales, ya que ayuda a distribuir el efecto de las variables correlacionadas entre múltiples características, mejorando la estabilidad y el rendimiento del modelo.

 <div style="display: flex; justify-content: center;">
<img src="https://drive.google.com/uc?export=view&id=1VZGSl_Uqntgcr9gl49Zcn6KShwqNVO5F" width="400">

En la imagen podemos ver como aquellos valores de los coeficientes lejos de $0$ son mucho más sensibles en el sentido de que cualquier mínima modificación en el coeficiente implica cambios radicales en la penalización. Ridge es especialmente útil para mantener los coeficientes cercanos a $0$ especialmente cuando estos son originalmente grandes.

# **Regularización Lasso**

En la Regularización Lasso utilizamos una norma distinta como penalización, la L1 o norma de Manhattan.

$$L_{1} = \sum_{i=1}^{n}(\hat{y} - y)^{2} + \alpha(\sum_{j=1}^{k}w_{i})$$

Esta regularización es mucho más estricta que Ridge, permitiendo reducir los coeficientes a valor $0$. Cuando un coeficiente tiene valor nulo significa que la columna o variable en su totalidad no está siendo tenida en cuenta en el modelo. En otras palabras, Lasso puede ser utilizada como técnica de reducción de dimensionalidad. Es por ello que *L1* es preferible cuando se sospecha que solo unos pocos predictores son realmente importantes, y se desea un modelo más parsimonioso y sencillo que se enfoque solo en esos predictores, en ocasiones, a costa de la precisión.

 <div style="display: flex; justify-content: center;">
<img src="https://drive.google.com/uc?export=view&id=1-TI9k_a6sJYZgdh1ptOUejjMi4Mbcy35" width="400">

A diferencia de la regularización Ridge, Lasso no es más sensible hacia los coeficientes alejados de $0$. Entre otras cosas esto implica que la penalización es igualmente intensa en todo el rango de valores. Como consecuencia de ello, es mucho más sencillo que algunos coeficientes acaben siendo $0$.

# **Análisis del DataFrame**

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import math
from typing import List, Tuple, Dict
import seaborn as sns

url='https://drive.google.com/file/d/1gdk_ZEj5iRkBEYdJM2oX5jjBDQl0oqxz/view?usp=sharing'
file_id=url.split('/')[-2]
dwn_url='https://drive.google.com/uc?id=' + file_id
data = pd.read_csv(dwn_url)

data.head(6)

Unnamed: 0,SquareFeet,Bedrooms,Bathrooms,Neighborhood,YearBuilt,Price
0,2126,4,1,Rural,1969,215355.283618
1,2459,3,2,Rural,1980,195014.221626
2,1860,2,1,Suburb,1970,306891.012076
3,2294,2,1,Urban,1996,206786.787153
4,2130,5,2,Suburb,2001,272436.239065
5,2095,2,3,Suburb,2020,198208.803907


In [None]:
data.shape

(50000, 6)

In [None]:
num_columns = data.select_dtypes(include=["int64","float64"]).columns.tolist()
print("Columnas numéricas: ", num_columns)

cat_columns = data.select_dtypes(include=["object"]).columns.tolist()
print("Columnas categóricas: ", cat_columns)

Columnas numéricas:  ['SquareFeet', 'Bedrooms', 'Bathrooms', 'YearBuilt', 'Price']
Columnas categóricas:  ['Neighborhood']


In [None]:
target_column = "Price"

num_pred_columns = num_columns
num_pred_columns.remove(target_column)
print("Columnas numéricas predictoras: ", num_pred_columns)

Columnas numéricas predictoras:  ['SquareFeet', 'Bedrooms', 'Bathrooms', 'YearBuilt']


In [None]:
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SquareFeet,50000.0,2006.37468,575.513241,1000.0,1513.0,2007.0,2506.0,2999.0
Bedrooms,50000.0,3.4987,1.116326,2.0,3.0,3.0,4.0,5.0
Bathrooms,50000.0,1.99542,0.815851,1.0,1.0,2.0,3.0,3.0
YearBuilt,50000.0,1985.40442,20.719377,1950.0,1967.0,1985.0,2003.0,2021.0
Price,50000.0,224827.325151,76141.842966,-36588.165397,169955.860225,225052.141166,279373.630052,492195.259972


In [None]:
data.isnull().sum()

SquareFeet      0
Bedrooms        0
Bathrooms       0
Neighborhood    0
YearBuilt       0
Price           0
dtype: int64

In [None]:
data.drop_duplicates(subset="Price", inplace=True)

In [None]:
data["Neighborhood"].value_counts()

Neighborhood
Suburb    16721
Rural     16676
Urban     16603
Name: count, dtype: int64

# **Ridge Regression**

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler, OneHotEncoder, MinMaxScaler, RobustScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.decomposition import PCA

# CONSTRUCCIÓN DEL PIPELINE CON REGRESIÓN RIDGE
# Transformador para columnas numéricas.
numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler()),
    #('pca', PCA(n_components=2))
])

# Transformador para columnas categóricas.
categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Integramos ambos en un preprocesador con ColumnTransformer, indicando el transformador y la lista de columnas a aplicar.
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, num_pred_columns),
        ('cat', categorical_transformer, cat_columns)
    ]
)

# Creamos el pipeline completo incluyendo ahora sí el estimador, en este caso un Regresor Lineal.
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', Ridge())
])

In [None]:
# DIVISIÓN ENTRE COLUMNAS PREDICTIVAS Y OBJETIVO
# Separar columnas predictoras de columna objetivo
X = data.drop(columns=target_column)
y = data[target_column]

In [None]:
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score, KFold

# DIVISIÓN ENTRE DATOS DE ENTRENAMIENTO Y DATOS DE TESTEO
# Seleccionamos una proporción de 80% de los datos para entrenamiento y 20% para el testeo.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

print("Tamaño datos de entrenamiento:", X_train.shape)
print("Tamaño datos de testeo:", X_test.shape)

Tamaño datos de entrenamiento: (40000, 5)
Tamaño datos de testeo: (10000, 5)


In [None]:
"""
Introducimos aquí el objeto GridSearchCV. Es una modificación de la Validación Cruzada original, pero en este caso
para optimización de hiperparámetros. Las regularizaciones es un buen ejemplo puesto que desconocemos el valor
óptimo del parametro alpha. GridSearchCV es una herramienta de "búsqueda exaustiva" que como su propio nombre nod
dice nos permite probar con todas las combinaciones de hiperparámetros que le indiquemos, devolviéndonos
aquel en el que conseguimos mejores puntuaciones. Evidentemente esto eleva la cantidad de cómputo y de tiempo
necesario.

GridSearchCV necesita pasarle el modelo a optimizar (puede ser un pipeline), así como el número de folds. Por
último los hiperparámetros son pasados en forma de diccionario, el cual incluirá los nombres del hiperparámetro
como claves y los valores a testear como una lista. Para cada combinación de hiperparámetros GridSearchCV genera
una validación cruzada y devuelve una puntuaciones.

En ocasiones, como estrategia para un resultado más robusto, GridSearchCV, que es en sí mismo una validación
cruzada, se ejecuta dentro de un bucle externo también de validaciones cruzadas. A esto lo denominamos
validación cruzada anidada. Por cada iteración de la validación cruzada externa (que recordemos selecciona un
subcojunto de entrenamiento y otro de evaluación) realizamos una selección de hiperparámetros, el cual realiza
su propia validación cruzada a partir del subcojunto de entrenamiento. Combiene inducarle una misma métrica
de puntuación para comparar ambos resultados.

"""

# CONFIGURACIÓN DE LA BÚSQUEDA DE HIPERPARÁMETROS
metaparameter_list = ['regressor__alpha']
# Configurar la búsqueda por validación cruzada para encontrar el mejor valor de alpha
param_grid = {
    metaparameter_list[0]: np.logspace(-4, 2, 40)  # Explorar 20 valores de alpha entre 10^-4 y 10^2
}

# Configurar el GridSearchCV
grid_search = GridSearchCV(model, param_grid, cv=5, verbose = True, scoring='neg_mean_squared_error')

In [None]:
# BÚSQUEDA DE HIPERPARÁMETROS CON VALIDACIÓN ANIDADA
n_splits = 5
outer_cv = KFold(n_splits=n_splits, shuffle=True, random_state=42)
best_params_list = []
best_scores = []

# Aquí estamos haciendo una Validación Cruzada manualmente. En cada iteración (tantas como número de folds indicados) se calculará un GridSearchCV
# con el conjunto de entrenamiento seleccionado en ese fold.
for train_index, test_index in outer_cv.split(X_train):
    X_train_fold = X_train.iloc[train_index]
    X_test_fold = X_train.iloc[test_index]
    y_train_fold = y_train.iloc[train_index]
    y_test_fold = y_train.iloc[test_index]

    # Ejecutar GridSearchCV
    grid_search.fit(X_train_fold, y_train_fold) # Este GridSearch lo hemos definido más arriba.

    # Almacenar los mejores parámetros y los mejores resultados en cada split
    best_params_list.append(grid_search.best_params_)
    best_scores.append(grid_search.best_score_)

# Un bucle por fold, indicando el hiperparámetro óptimo y la mejor métrica de error de esa iteración.
for split in range(n_splits):
  for metaparameter in metaparameter_list:
    print(f'Mejor puntuación en el fold {split} del {metaparameter} en VC anidada: {round(best_params_list[split][metaparameter],3)}')
  print(f"Mejor RMSE en el fold {split}: {np.round(np.sqrt(-best_scores[split]),2)}\n")

# Un bucle para los estadísticos de cada hiperparámetro
for metaparameter in metaparameter_list:
  values = [value[metaparameter] for value in best_params_list] # Recogemos los diferentes valores que nos devuelve cada fold
  mean = sum(values) / len(values) # Calculamos la media
  std = np.sqrt(sum((value - mean) ** 2 for value in values) / len(values)) # Calculamos la Desviación Típica
  print(f'Promedio de las puntuaciones {metaparameter} en VC anidada: {round(mean,3)}')
  print(f'Desviación Típica de las puntuaciones {metaparameter} en VC anidada: {round(std,3)}\n')

Fitting 5 folds for each of 40 candidates, totalling 200 fits
Fitting 5 folds for each of 40 candidates, totalling 200 fits
Fitting 5 folds for each of 40 candidates, totalling 200 fits
Fitting 5 folds for each of 40 candidates, totalling 200 fits
Fitting 5 folds for each of 40 candidates, totalling 200 fits
Mejor puntuación en el fold 0 del regressor__alpha en VC anidada: 2.031
Mejor RMSE en el fold 0: 49880.48

Mejor puntuación en el fold 1 del regressor__alpha en VC anidada: 5.878
Mejor RMSE en el fold 1: 50078.09

Mejor puntuación en el fold 2 del regressor__alpha en VC anidada: 5.878
Mejor RMSE en el fold 2: 49906.23

Mejor puntuación en el fold 3 del regressor__alpha en VC anidada: 4.125
Mejor RMSE en el fold 3: 49825.22

Mejor puntuación en el fold 4 del regressor__alpha en VC anidada: 2.894
Mejor RMSE en el fold 4: 49956.6

Promedio de las puntuaciones regressor__alpha en VC anidada: 4.161
Desviación Típica de las puntuaciones regressor__alpha en VC anidada: 1.552



In [None]:
# BÚSQUEDA DE HIPERPARÁMETROS SIN VALIDACIÓN ANIDADA
# Entrenamos ahora con GridSearchCV sin anidar.
grid_search.fit(X_train, y_train)

# Mostrar mejor puntuación y los mejores parámetros. Podemos compararlo a aquellos valores obtenidos en la validación cruzada anidada.
for metaparameter in metaparameter_list:
  print(f'Mejor puntuación del {metaparameter} en VC anidada: {round(grid_search.best_params_[metaparameter],3)}')
print("Mejor Mean Squared Error (MSE):", np.round(np.sqrt(-grid_search.best_score_),2))


Fitting 5 folds for each of 40 candidates, totalling 200 fits
Mejor puntuación del regressor__alpha en VC anidada: 2.894
Mejor Mean Squared Error (MSE): 49928.14


In [None]:
# TESTEO DEL MODELO
# Recoger el modelo con los mejores hiperparámetros
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)

In [None]:
# COEFICIENTES FINALES
# Acceder al modelo de regresión dentro del pipeline
ridge_regressor = best_model.named_steps['regressor']
preprocessor = best_model.named_steps['preprocessor']

# Obtener los coeficientes y el interceptor
coefficients = np.round(ridge_regressor.coef_)
intercept = np.round(ridge_regressor.intercept_)
feature_names = preprocessor.get_feature_names_out() # Sacamos los nombres de las columnas.
coef_dict = dict(zip(feature_names, coefficients.flatten())) # Asociando los coeficientes con los nombres de las características
print("Interceptor del modelo:", intercept)
print("Coeficientes finales del modelo:", coef_dict)

Interceptor del modelo: 224906.0
Coeficientes finales del modelo: {'num__SquareFeet': 57110.0, 'num__Bedrooms': 5771.0, 'num__Bathrooms': 2197.0, 'num__YearBuilt': 11.0, 'cat__Neighborhood_Rural': -378.0, 'cat__Neighborhood_Suburb': -990.0, 'cat__Neighborhood_Urban': 1368.0}


In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# EVALUACIÓN DEL MODELO
# Evaluación del modelo en el conjunto de prueba. Notar como es necesario pasar tanto nuestras predicciones
# y_pred como los valores reales de la variable objetivo y_test.
mae = round(mean_absolute_error(y_test, y_pred),2)
mse = round(mean_squared_error(y_test, y_pred),2)
rmse = round(np.sqrt(mse),2)
r2 = round(r2_score(y_test, y_pred),3)

print(f"Mean Absolute Error (MAE) en el conjunto de testeo: {mae}")
print(f"Mean Squared Error (MSE) en el conjunto de testeo: {mse}")
print(f"Root Mean Squared Error (RMSE) en el conjunto de testeo: {rmse}")
print(f"R-squared (R2) en el conjunto de testeo: {r2}")

Mean Absolute Error (MAE) en el conjunto de testeo: 39826.54
Mean Squared Error (MSE) en el conjunto de testeo: 2490428380.04
Root Mean Squared Error (RMSE) en el conjunto de testeo: 49904.19
R-squared (R2) en el conjunto de testeo: 0.572
