¿Qué significa Regularización L1 y L2 y Elastic Net?

La regularización es una técnica utilizada en el aprendizaje automático para evitar el sobreajuste del modelo a los datos de entrenamiento y mejorar su capacidad de generalización a nuevos datos.

La regularización L1 y L2 son dos técnicas comunes de regularización que difieren en cómo penalizan los coeficientes del modelo. La regularización L1 agrega un término de penalización proporcional al valor absoluto de los coeficientes del modelo, lo que a menudo conduce a soluciones dispersas con muchos coeficientes que se hacen cero. Por otro lado, la regularización L2 agrega un término de penalización proporcional al cuadrado de los coeficientes del modelo, lo que a menudo conduce a soluciones más suaves y con coeficientes pequeños.

Elastic Net es una técnica de regularización que combina los términos de penalización de L1 y L2. Esto permite aprovechar los beneficios de ambas técnicas de regularización y producir soluciones con coeficientes dispersos y pequeños al mismo tiempo.

En resumen, L1 y L2 son técnicas de regularización que difieren en cómo penalizan los coeficientes del modelo, mientras que Elastic Net es una técnica que combina ambas técnicas para aprovechar sus beneficios y producir soluciones más equilibradas.

# Regresión Logística (RL)

Primero, importamos las librerías necesarias:

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

Generamos un conjunto de datos sintéticos usando make_classification de Scikit-Learn:

In [2]:
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10,
                            n_redundant=5, random_state=42)

Dividimos los datos en conjuntos de entrenamiento y prueba:

In [3]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Creamos un pipeline para estandarizar los datos y aplicar la Regresión Logística:

In [4]:
pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('logistic', LogisticRegression())
])


Definimos una lista de valores para los parámetros de Regularización L1 y L2 y Elastic Net:

In [5]:
params = {'logistic__penalty': ['l1', 'l2', 'elasticnet'],
          'logistic__C': [0.001, 0.01, 0.1, 1, 10, 100],
          'logistic__l1_ratio': [0.1, 0.3, 0.5, 0.7, 0.9]}

Utilizamos GridSearchCV de Scikit-Learn para buscar los mejores parámetros:

In [6]:
from sklearn.model_selection import GridSearchCV

grid = GridSearchCV(pipe, param_grid=params, cv=5)
grid.fit(X_train, y_train)





300 fits failed out of a total of 450.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
150 fits failed with the following error:
Traceback (most recent call last):
  File "C:\Users\Statick\.conda\envs\course\Lib\site-packages\sklearn\model_selection\_validation.py", line 686, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "C:\Users\Statick\.conda\envs\course\Lib\site-packages\sklearn\pipeline.py", line 405, in fit
    self._final_estimator.fit(Xt, y, **fit_params_last_step)
  File "C:\Users\Statick\.conda\envs\course\Lib\site-packages\sklearn\linear_model\_logistic.py", line 1162, in fit
    solver = _check_solver(self.solver, self.penalty, self.dual)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

Imprimimos el mejor score y los mejores parámetros:

In [7]:
print(f'Best Score: {grid.best_score_}')
print(f'Best Parameters: {grid.best_params_}')

Best Score: 0.8487500000000001
Best Parameters: {'logistic__C': 10, 'logistic__l1_ratio': 0.1, 'logistic__penalty': 'l2'}


Finalmente, evaluamos el modelo con el conjunto de prueba:

In [8]:
from sklearn.metrics import accuracy_score

y_pred = grid.predict(X_test)
print(f'Test Accuracy: {accuracy_score(y_test, y_pred)}')

Test Accuracy: 0.795


¡Listo! Con este ejemplo hemos visto cómo utilizar la Regularización L1 y L2 y Elastic Net en un problema de clasificación de Regresión Logística.