# Descenso de Gradiente Estocástico (SDG) para regresión

## Cuando usar el descenso del gradiente en regresión

El método `LinearRegression()` de Scikit-Learn usa la inversión de la matriz normal para encontrar los coeficientes de la regresión de manera directa y rápida. Sin embargo, este enfoque no es eficiente cuando:

- Tenemos un dataset muy grande (n muestras y
m características), ya que la inversión de la matriz es costosa ($O(m^3)$).
- La matriz X es muy grande y no cabe en memoria.
- Queremos controlar la convergencia del modelo.

En estos casos, se suele usar el descenso del gradiente, que son algoritmos iterativos que ajustan los parámetros minimizando la función de error (por ejemplo, la suma de los cuadrados) mediante pasos en la dirección del gradiente negativo.

El Descenso del Gradiente Estocástico (SDG) es una variante que una sola muestra (en vez de todas) en cada actualización. Es rápido y eficiente con grandes volúmenes de datos.


## Ejemplo

Vamos a generar un dataset grande (n=10.000.000) y aplicaremos SGDRegressor(), que usa el descenso del gradiente estocástico en lugar de los mínimos cuadrados ordinarios.


In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import SGDRegressor, LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

SEED = 42
TOTAL_SAMPLES = 10_000_000
TOTAL_FEATURES = 50
TEST_SIZE = 0.2

np.random.seed(SEED)
X_large = np.random.rand(TOTAL_SAMPLES, TOTAL_FEATURES) * 10
true_coefs = np.random.randn(TOTAL_FEATURES)  # Coeficientes reales
y_large = X_large @ true_coefs + np.random.randn(TOTAL_SAMPLES) * 5  # Generar salida con ruido

# Dividir en entrenamiento y prueba
X_train_large, X_test_large, y_train_large, y_test_large = train_test_split(
    X_large, y_large, test_size=TEST_SIZE, random_state=SEED
)

In [None]:
# Intentamos ajustar modelo con LinearRegressor(), veremos que falla

lin_reg = LinearRegression()
lin_reg.fit(X_large, y_large)

# Generar predicciones
y_pred_lin = lin_reg.predict(X_test_large)

# Evaluar el modelo
mse_lin = mean_squared_error(y_test_large, y_pred_lin)
print(f"Error Cuadrático Medio con SGD: {mse_lin:.2f}")

lin_reg.coef_, lin_reg.intercept_

Error Cuadrático Medio con SGD: 25.04


(array([-0.18222777,  0.6761086 ,  0.35616807,  0.50543892, -0.31907693,
        -0.85973182, -0.20814695, -1.39743452, -1.7729786 ,  0.80237346]),
 -0.05263120856618286)

In [3]:
# Ajustar el modelo con SGDRegressor (descenso del gradiente estocástico)
sgd_reg = SGDRegressor(max_iter=1000, alpha=0.01, learning_rate='optimal', random_state=SEED)
sgd_reg.fit(X_train_large, y_train_large)

# Generar predicciones
y_pred_sgd = sgd_reg.predict(X_test_large)

# Evaluar el modelo
mse_sgd = mean_squared_error(y_test_large, y_pred_sgd)
print(f"Error Cuadrático Medio con SGD: {mse_sgd:.2f}")

# Obtener coeficientes aprendidos
df_sgd_coefs = pd.DataFrame({
    "Variable": [f"X{i+1}" for i in range(TOTAL_FEATURES)],
    "Coeficiente Real": true_coefs,
    "Coeficiente SGD": sgd_reg.coef_
})
print("Coeficientes Reales vs Aprendidos con SGD:")

df_sgd_coefs



Error Cuadrático Medio con SGD: 300834875246084992.00
Coeficientes Reales vs Aprendidos con SGD:


Unnamed: 0,Variable,Coeficiente Real,Coeficiente SGD
0,X1,1.080556,27312350.0
1,X2,1.148649,27044270.0
2,X3,1.29722,26946210.0
3,X4,1.399081,26691380.0
4,X5,1.188021,26427600.0
5,X6,0.0052,27074910.0
6,X7,-0.689441,26239730.0
7,X8,0.377258,25870330.0
8,X9,0.852587,26814200.0
9,X10,0.892111,26228270.0


## Hiperparámetros principales de SGDRegressor() en Scikit-Learn

| Hiperparámetro        | Descripción                                    | Valores recomendados                                      |
|-----------------------|----------------------------------------------|-----------------------------------------------------------|
| `loss`               | Función de pérdida a minimizar               | `"squared_error"`, `"huber"`, `"epsilon_insensitive"`     |
| `penalty`            | Tipo de regularización                       | `"l2"` (Ridge), `"l1"` (Lasso), `"elasticnet"`           |
| `alpha`              | Fuerza de la regularización                  | 0.0001 (por defecto), valores entre \(10^{-6}\) y \(10^{-1}\) |
| `learning_rate`      | Método de actualización del gradiente        | `"constant"`, `"optimal"`, `"invscaling"`, `"adaptive"`  |
| `eta0`              | Tasa de aprendizaje inicial                   | 0.01 (por defecto), se usa con `"constant"` y `"adaptive"` |
| `max_iter`          | Número máximo de iteraciones                  | 1000 (por defecto)                                       |
| `tol`               | Criterio de parada por convergencia           | 1e-3 (por defecto), menor valor da mayor precisión       |
| `early_stopping`    | Detiene si la validación no mejora           | `True` o `False`                                         |
| `validation_fraction` | Porcentaje de datos para validación         | 0.1 (10% por defecto)                                    |
| `power_t`           | Factor de decaimiento para `"invscaling"`     | 0.25 (por defecto)                                       |

### loss: Función de pérdida
Determina cómo se mide el error. Opciones:

- "squared_error" (por defecto): Minimiza el error cuadrático medio (MSE).
- "huber": Resistente a valores atípicos (combina MSE y MAE).
- "epsilon_insensitive": Usado en SVM, ignora errores menores a un umbral (epsilon).

### penalty: Regularización
Controla el tipo de penalización aplicada a los coeficientes:

- "l2" (por defecto): Ridge Regression (reduce coeficientes pero no los hace cero).
- "l1": Lasso Regression (elimina coeficientes irrelevantes, selección de características).
- "elasticnet": Combinación de Lasso y Ridge.

### alpha: Fuerza de la regularización
- Cuanto mayor es alpha, mayor es la penalización sobre los coeficientes.
- Valores bajos permiten que el modelo se ajuste más a los datos.

### learning_rate: Tasa de aprendizaje
Controla cómo cambia la tasa de aprendizaje en cada iteración:

- "constant": Mantiene eta0 fijo.
- "optimal" (por defecto): Calcula una tasa basada en alpha y n_iter.
- "invscaling": Disminuye la tasa con power_t.
"adaptive": Reduce eta0 si no mejora la validación.

### early_stopping: Parada temprana
Si True, usa validation_fraction del dataset para monitorear el error y detener el entrenamiento si no mejora.
- validation_fraction en SGDRegressor() es el porcentaje de datos de entrenamiento que se usa para validación interna cuando early_stopping=True.