# Underfitting vs. Overfitting

Fuente: 
https://scikit-learn.org/stable/auto_examples/model_selection/plot_underfitting_overfitting.html 

Este ejemplo toma como base el ejemplo que pueden ver en el link anterior y demuestra los problemas de subajuste y sobreajuste y cómo podemos usar la regresión lineal con características polinómicas para aproximar funciones no lineales como la funcion coseno. La gráfica muestra la función que queremos aproximar, que es parte de la función coseno. 

Además, se muestran las muestras de la función real y las aproximaciones de diferentes modelos.Los modelos tienen características polinómicas de diferentes grados. 

## Underfitting
Podemos ver que una función lineal (polinomio con grado 1) no es suficiente para ajustar las muestras de entrenamiento. 

## Mejor ajuste
Un polinomio de grado 4 se aproxima casi perfectamente a la verdadera función. 

## Overfitting
Sin embargo, para grados más altos, el modelo sobreajustará los datos de entrenamiento, es decir, aprenderá el ruido de los datos de entrenamiento. 

## Evaluacion

Evaluamos cuantitativamente el sobreajuste/desajuste mediante el uso de validación cruzada. 
Calculamos el error cuadrático medio (MSE) en el conjunto de validación, cuanto más alto, menos probable es que el modelo generalice correctamente a partir de los datos de entrenamiento.



In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score


## Funcion a aproximar

In [None]:
def true_fun(X):
    return np.cos(1.5 * np.pi * X)

### Parametros para probar

In [None]:
# Semilla 
np.random.seed(0)

# Cantidad de muestras
n_samples = 30

# Grados de polinomios usados
degrees = [1,2,3, 4, 7,15,21]

# Multiplicador
k = 1

## Genero los datos usados

- x: features usados para predecir
- y: Valores a predecir

In [None]:
X = np.sort(np.random.rand(n_samples)) * k 
y = true_fun(X) + np.random.randn(n_samples) * 0.3

## Plot de los valores

In [None]:
plt.plot(X, y, color = 'red', label="Actual")
plt.plot(X, true_fun(X), label="True function")
plt.scatter(X, y, edgecolor='b', s=20, label="Samples")
plt.xlabel("x")
plt.ylabel("y")
plt.legend(loc="best")
plt.show()

### Evaluacion de modelos polinomicos

In [None]:
# Tamáño del grafico
plt.figure(figsize=(30, 7))

# import pandas as pd 
# df = pd.DataFrame(columns = ['Degrees', 'Mean', 'Stdev'])


#itera por la cantidad de polinomios 
for i in range(len(degrees)):
    
    ax = plt.subplot(1, len(degrees), i + 1)
    plt.setp(ax, xticks=(), yticks=())

    #Estas son las transformaciones y el modelo que se aplican a los datos
    polynomial_features = PolynomialFeatures(degree=degrees[i],include_bias=False)
    linear_regression = LinearRegression()
    
    #Arma el pipeline con las tuplas que componen las trasnformaciones y el modelo
    pipeline = Pipeline(
        [("polynomial_features", polynomial_features), 
         ("linear_regression", linear_regression)]
    )
    
    # arma la matriz de entrenamiento
    x0 = X[:, np.newaxis]
    
    #Aplica el pipeline a los datos y entrena el modelo
    pipeline.fit(x0, y)

    # Evalua el modelo mediante cross_val_score
    scores = cross_val_score(pipeline, x0, y,scoring="neg_mean_squared_error", cv=10)

    # Muestra los resultados
    X_test = np.linspace(0, k, 100)
    
    y_poly_pred = pipeline.predict(X_test[:, np.newaxis])
    plt.plot(X_test, y_poly_pred, label="Model")
    plt.plot(X_test, true_fun(X_test), label="True function")
    plt.scatter(X, y, edgecolor='b', s=20, label="Samples")
    plt.xlabel("x")
    plt.ylabel("y")
    plt.xlim((0, k))
    plt.ylim((-2, 2))
    plt.legend(loc="best")
    
 
    plt.title("Degree {}\nMSE = {:.2e}(+/- {:.2e})".format(degrees[i], -scores.mean(), scores.std()))
    
    #df.append(pd.DataFrame([degrees[i],-scores.mean(), scores.std()]).T)
    
plt.show()

In [None]:
 
#print(df)