## 🎓 Introducción

### Contexto histórico

Desde los años 50, el aprendizaje automático se ha orientado a que las máquinas extraigan patrones desde datos sin instrucciones explícitas. Sin embargo, un reto constante ha sido lograr **modelos que no solo funcionen bien con los datos de entrenamiento, sino que generalicen a datos nuevos**.

### ¿Por qué es importante?

- La generalización es el corazón del aprendizaje automático.
- Un modelo poco complejo puede pasar por alto relaciones clave → subajuste.
- Un modelo excesivamente complejo puede memorizar datos → sobreajuste.
- Balancear esta capacidad es esencial para la eficiencia predictiva.

## ⚖️ Subajuste vs. Sobreajuste

- **Subajuste (Underfitting)**: ocurre cuando el modelo es demasiado simple y no capta ni los patrones del entrenamiento.
- **Sobreajuste (Overfitting)**: sucede cuando el modelo es tan complejo que adapta incluso el ruido o los errores del conjunto de entrenamiento.

> 🧠 **Analogía**:  
> - Subajuste: dibujar una línea recta para representar una parábola.  
> - Sobreajuste: trazar una curva que pasa exactamente por todos los puntos, incluyendo errores o valores atípicos.

## 🧪 Visualización con Modelos Polinomiales


In [None]:
#| fig-cap: Modelos de diferentes capacidades sobre el mismo dataset

from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

np.random.seed(0)
X = np.sort(np.random.rand(15, 1) * 2 - 1, axis=0)
y = 1.5 * X**2 + 0.5 + np.random.normal(0, 0.1, size=X.shape)

degrees = [1, 2, 9]
x_plot = np.linspace(-1, 1, 100).reshape(-1, 1)

plt.figure(figsize=(12, 4))

for i, deg in enumerate(degrees):
    poly = PolynomialFeatures(degree=deg)
    X_poly = poly.fit_transform(X)
    x_plot_poly = poly.transform(x_plot)

    model = LinearRegression().fit(X_poly, y)
    y_pred = model.predict(x_plot_poly)

    plt.subplot(1, 3, i+1)
    plt.scatter(X, y, color='black')
    plt.plot(x_plot, y_pred, label=f"Grado {deg}")
    plt.title(f"Modelo grado {deg}\nMSE: {mean_squared_error(y, model.predict(X_poly)):.2f}")
    plt.xlabel("x")
    plt.ylabel("y")
    plt.legend()

plt.tight_layout()
plt.show()

## 🔽 El Límite Inferior: Error de Bayes

Incluso el mejor modelo posible tiene un mínimo error:

- Proviene del **ruido inherente** en los datos.
- También de la **aleatoriedad** en la relación entre entrada y salida.

Ese límite es conocido como **Error de Bayes**. Es irreducible.