# Ejemplo de Generalización vs. Overfitting

La **generalización** es la capacidad de un modelo para funcionar bien con datos nuevos que no ha visto durante el entrenamiento. Un modelo que generaliza bien ha aprendido los patrones subyacentes en los datos, en lugar de simplemente memorizar el ruido.

- **Buen modelo (Generalización):** Captura la tendencia general de los datos.
- **Mal modelo (Overfitting):** Se ajusta demasiado a los datos de entrenamiento, incluido el ruido, y no funciona bien con datos nuevos.

En este ejemplo, compararemos un modelo de regresión polinómica simple con uno complejo para ilustrar este concepto.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

### 1. Generar Datos Sintéticos

Crearemos datos que siguen una función coseno, pero con algo de ruido añadido para simular un conjunto de datos real.

In [None]:
# Función verdadera (coseno)
def true_fun(X):
    return np.cos(1.5 * np.pi * X)

# Generar datos de entrenamiento con ruido
np.random.seed(0)
n_samples = 30
X_train = np.sort(np.random.rand(n_samples))
y_train = true_fun(X_train) + np.random.randn(n_samples) * 0.1

### 2. Entrenar Dos Modelos Diferentes

- **Modelo 1 (Grado 4):** Un polinomio de grado 4, que debería ser suficiente para capturar la forma de la curva del coseno.
- **Modelo 2 (Grado 15):** Un polinomio de grado 15, que es demasiado complejo y propenso a sobreajustar.

In [None]:
# Grados de los polinomios a comparar
degrees = [4, 15]

plt.figure(figsize=(14, 5))

for i, degree in enumerate(degrees):
    ax = plt.subplot(1, len(degrees), i + 1)
    plt.setp(ax, xticks=(), yticks=())

    # Crear y entrenar el pipeline del modelo
    polynomial_features = PolynomialFeatures(degree=degree, include_bias=False)
    linear_regression = LinearRegression()
    pipeline = make_pipeline(polynomial_features, linear_regression)
    pipeline.fit(X_train[:, np.newaxis], y_train)

    # Puntos para la predicción (línea continua)
    X_test = np.linspace(0, 1, 100)
    y_pred = pipeline.predict(X_test[:, np.newaxis])

    # Graficar resultados
    plt.plot(X_test, y_pred, label="Modelo Predicho")
    plt.plot(X_test, true_fun(X_test), label="Función Verdadera")
    plt.scatter(X_train, y_train, edgecolor='b', s=20, label="Muestras de Entrenamiento")
    plt.xlabel("x")
    plt.ylabel("y")
    plt.xlim((0, 1))
    plt.ylim((-2, 2))
    plt.legend(loc="best")
    plt.title(f"Grado {degree} (Overfitting)" if degree > 10 else f"Grado {degree} (Buen Ajuste)")

plt.show()

### Conclusión

- El **modelo de grado 4** (izquierda) se parece mucho a la función verdadera. Ha aprendido el patrón subyacente y, por lo tanto, **generaliza bien**.
- El **modelo de grado 15** (derecha) pasa exactamente por casi todos los puntos de entrenamiento, pero su forma es extremadamente compleja y errática. Este modelo ha memorizado el ruido y no servirá para predecir nuevos puntos. Esto es un claro ejemplo de **overfitting**.