## Regularización

Las técnicas de regularización son métodos utilizados en aprendizaje automático para reducir el sobreajuste (overfitting) de un modelo. El sobreajuste ocurre cuando un modelo se ajusta demasiado a los datos de entrenamiento, capturando ruido o patrones específicos de ese conjunto, lo que reduce su capacidad para generalizar en datos nuevos. La regularización ayuda a mejorar la capacidad de generalización del modelo, penalizando o limitando la complejidad del mismo.

Son métodos de regularización que agregan un término de penalización en la función de pérdida del modelo, basado en los valores de los pesos (parámetros) del modelo.

#### L1 Lasso

 La regularización L1 penaliza la suma de los valores absolutos de los pesos. Esto lleva a que algunos pesos se vuelvan exactamente cero, lo que realiza una especie de selección de características automática, eliminando aquellas que son menos relevantes.

#### L2 Ridge Penalización por peso

 La regularización L2 penaliza la suma de los cuadrados de los pesos, lo que reduce su magnitud pero rara vez los lleva a cero. Es útil para reducir la influencia de características menos importantes sin eliminarlas.

#### Dropout

El Dropout es una técnica de regularización específica para redes neuronales. Durante el entrenamiento, de manera aleatoria se "apagan" (o desactivan) ciertas neuronas en cada capa de la red con una probabilidad 𝑝.
Esto ayuda a la red a aprender patrones más generales, ya que evita que las neuronas dependan demasiado unas de otras.

Por ejemplo, si se usa un dropout del 50%, durante cada paso de entrenamiento la mitad de las neuronas se desactivarán aleatoriamente. En la fase de prueba, el dropout no se aplica, pero las salidas de las neuronas se escalan para mantener una predicción equilibrada.

#### Early Stopping (Detención Temprana)

La detención temprana es una técnica que monitorea el rendimiento del modelo en un conjunto de validación durante el entrenamiento. Si el modelo deja de mejorar en el conjunto de validación después de varios intentos (épocas), se detiene el entrenamiento. Esto evita que el modelo continúe ajustándose a los datos de entrenamiento y sobreajuste.

#### Data Augmentation (Aumento de Datos)

En problemas de visión por computadora y procesamiento de lenguaje natural, el aumento de datos es una técnica de regularización indirecta. Consiste en modificar los datos de entrenamiento (rotando imágenes, cambiando su brillo, aplicando transformaciones en texto, etc.) para crear más variaciones. Esto ayuda a que el modelo sea más robusto y generalice mejor.

#### Regularización por Normas

Algunas arquitecturas de redes neuronales usan técnicas como la normalización batch o normalización de capas para mejorar la estabilidad del entrenamiento y reducir el riesgo de sobreajuste.

Batch Normalization: Normaliza la salida de una capa, manteniendo la media cercana a 0 y la varianza cercana a 1. Esto reduce el riesgo de desbalances en la activación de las neuronas y ayuda al modelo a entrenar de manera más estable.

#### Ejemplo de Regularización L2 Con Ridge Regression

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error

# Creamos datos de ejemplo
np.random.seed(0)
X = np.random.rand(100, 5)  # 100 ejemplos, 5 características
y = 3 * X[:, 0] + 2 * X[:, 1] - 1.5 * X[:, 2] + np.random.randn(100) * 0.5  # Variable objetivo con ruido


In [2]:
# Dividir el conjunto de datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [3]:
# Inicializar el modelo con regularización L2 (Ridge) y un valor de alpha (lambda)
ridge_model = Ridge(alpha=1.0)  # Puedes probar diferentes valores de alpha, como 0.1, 1, 10

# Entrenar el modelo con los datos de entrenamiento
ridge_model.fit(X_train, y_train)


In [4]:
# Predecir en el conjunto de prueba
y_pred = ridge_model.predict(X_test)

# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio (MSE) con regularización L2:", mse)


Error cuadrático medio (MSE) con regularización L2: 0.19935932197886397


#### Ejemplo 2 sobre una NR

In [5]:
import torch
import torch.nn as nn
import torch.optim as optim

class SimpleNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)
        self.fc2 = nn.Linear(hidden_size, output_size)
    
    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.sigmoid(self.fc2(x))  # Para clasificación binaria
        return x


In [6]:
# Parámetros de la red
input_size = 10    # Ejemplo de 10 características de entrada
hidden_size = 5    # Tamaño de la capa oculta
output_size = 1    # Salida binaria (0 o 1)

# Inicializamos el modelo
model = SimpleNN(input_size, hidden_size, output_size)

In [7]:
# Configuración del optimizador con regularización L2
learning_rate = 0.01
l2_lambda = 0.001  # Peso de la regularización L2

optimizer = optim.SGD(model.parameters(), lr=learning_rate, weight_decay=l2_lambda)

In [8]:
# Función de pérdida para clasificación binaria
criterion = nn.BCELoss()

# Ejemplo de bucle de entrenamiento
for epoch in range(100):  # Número de épocas
    model.train()
    
    # Ejemplo de datos aleatorios de entrada y salida
    inputs = torch.randn(32, input_size)  # Lote de 32 ejemplos con 10 características cada uno
    labels = torch.randint(0, 2, (32, output_size)).float()  # Etiquetas aleatorias (0 o 1)
    
    # Paso 1: Forward
    outputs = model(inputs)
    loss = criterion(outputs, labels)
    
    # Paso 2: Backward
    optimizer.zero_grad()  # Limpiar gradientes
    loss.backward()        # Calcular gradientes
    optimizer.step()       # Actualizar pesos con regularización L2 aplicada

    if (epoch+1) % 10 == 0:
        print(f"Epoch [{epoch+1}/100], Loss: {loss.item():.4f}")


Epoch [10/100], Loss: 0.6789
Epoch [20/100], Loss: 0.7169
Epoch [30/100], Loss: 0.7228
Epoch [40/100], Loss: 0.6964
Epoch [50/100], Loss: 0.6979
Epoch [60/100], Loss: 0.7015
Epoch [70/100], Loss: 0.6968
Epoch [80/100], Loss: 0.6793
Epoch [90/100], Loss: 0.6986
Epoch [100/100], Loss: 0.7112
