# Ajuste Polinomial: Underfitting vs. Overfitting

Este notebook muestra de forma didáctica cómo el uso de modelos polinomiales puede llevar a underfitting o overfitting, dependiendo de su grado de complejidad.

La función objetivo que intentamos aproximar es:

$$
f(x) = x^3 + \sin(3x)
$$

Esta función contiene componentes tanto polinómicas como periódicas, haciendo que su modelado con polinomios puros sea desafiante.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

def f(x):
    """
    Función objetivo: polinomio cúbico + componente sinusoidal
    """
    return x**3 + np.sin(3 * x)


## Generación de datos

Generamos puntos aleatorios distribuidos uniformemente en el intervalo $[-2, 2]$, que se dividen en conjuntos de entrenamiento y testeo.


In [None]:
# Cantidad de muestras
n_train = 10
n_test = 20

# Generamos puntos uniformes y barajamos
X_all = np.linspace(-2, 2, n_train + n_test)
np.random.shuffle(X_all)

# División en entrenamiento y prueba
x_train = np.sort(X_all[:n_train]).reshape(-1, 1)
x_test = np.sort(X_all[n_train:]).reshape(-1, 1)

y_train = f(x_train)
y_test = f(x_test)


## Ajuste polinomial

Ajustamos dos modelos:
- **Grado 2**: subrepresenta la complejidad de $f(x)$ (*underfitting*).
- **Grado 20**: se ajusta excesivamente a los datos de entrenamiento (*overfitting*).


In [None]:
# Modelo grado 2
poly2 = PolynomialFeatures(degree=2)
x_train_poly2 = poly2.fit_transform(x_train)
x_test_poly2 = poly2.transform(x_test)
model2 = LinearRegression().fit(x_train_poly2, y_train)
y_pred_train2 = model2.predict(x_train_poly2)
y_pred_test2 = model2.predict(x_test_poly2)

# Modelo grado 20
poly20 = PolynomialFeatures(degree=20)
x_train_poly20 = poly20.fit_transform(x_train)
x_test_poly20 = poly20.transform(x_test)
model20 = LinearRegression().fit(x_train_poly20, y_train)
y_pred_train20 = model20.predict(x_train_poly20)
y_pred_test20 = model20.predict(x_test_poly20)


## Visualización de resultados

Mostramos las curvas ajustadas y la función real para comparar el comportamiento de cada modelo.


In [None]:
x_plot = np.linspace(-2.8, 2.8, 500).reshape(-1, 1)
y_true = f(x_plot.flatten())

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.title("Underfitting: Grado 2")
plt.plot(x_plot, f(x_plot.flatten()), '--', color='black', label='Función real')
plt.scatter(x_train, y_train, color='blue', label='Datos entrenamiento')
plt.scatter(x_test, y_test, color='green', label='Datos test')
plt.plot(x_plot, model2.predict(poly2.transform(x_plot)), color='red', label='Predicción grado 2')
plt.ylim(-20, 20)
plt.legend()

plt.subplot(1, 2, 2)
plt.title("Overfitting: Grado 20")
plt.plot(x_plot, f(x_plot.flatten()), '--', color='black', label='Función real')
plt.scatter(x_train, y_train, color='blue', label='Datos entrenamiento')
plt.scatter(x_test, y_test, color='green', label='Datos test')
plt.plot(x_plot, model20.predict(poly20.transform(x_plot)), color='red', label='Predicción grado 20')
plt.ylim(-20, 20)
plt.legend()

plt.tight_layout()
plt.show()


## Evaluación con MSE

Utilizamos el **Error Cuadrático Medio (MSE)** para comparar el desempeño de los modelos en el conjunto de testeo:

$$
\text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2
$$


In [None]:
print("Error cuadrático medio - Modelo grado 2:", mean_squared_error(y_test, y_pred_test2))
print("Error cuadrático medio - Modelo grado 20:", mean_squared_error(y_test, y_pred_test20))
