<center>
<p><img src="https://www.gob.mx/cms/uploads/image/file/179499/outstanding_quienes-somos.jpg" width="300">
</p>



# Curso *Machine Learning con uso de pandas, scikit learn y libretas jupyter*

# Uso de scikit-learn para ajuste polinomial


<p> Julio Waissman Vilanova </p>
<p>
<img src="https://identidadbuho.unison.mx/wp-content/uploads/2019/06/letragrama-cmyk-72.jpg" width="80">
</p>
</center>




Esta es una versión explicada y por pasos del [ejemplo de interpolación polinomial](https://scikit-learn.org/stable/auto_examples/linear_model/plot_polynomial_interpolation.html#sphx-glr-auto-examples-linear-model-plot-polynomial-interpolation-py) de *scikit-learn*.

Este es un ejemplo de como generar atributos no lineales, para el entrenamiento de un modelo lineal de aprendizaje. Esta es la base del desarrollo de diferentes métodos basados en la transformación de atributos.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

Como problema, vamos a generar datos en forma artificial a partir de un procesos que nosotros vamos a hacer. El proceso real es:

$$
y = x \sin(x)
$$

In [None]:
def f(x):
    """ Función a tratar de obtener"""
    return x * np.sin(x)

Vamos a generar 100 puntos en $x$ para graficar y estimar a partir de los modelos entrenados.

Para el aprendizaje, se va a generar 100 valores en x, equidistantes, y vamos a seleccionar 20 en forma aleatoria. Los valores de $y$ para entrenamiento se van a calular directamente de la función real, sin ruido o errores de medición.

In [None]:
# Los valores para graficar la función real
x_plot = np.linspace(0, 10, 100)

# Generamos 100 puntos equidistantes
x = np.linspace(0, 10, 100)

# Los movemos aleatoriamente
rng = np.random.RandomState(0)
rng.shuffle(x)

# Seleccionamos 20 aleatoriamente y luego los acomodamos en orden
x = np.sort(x[:20])

# Calculamos el valor de salida del conjunto de aprendizaje
y = f(x)

Vamos a pegarle un ojo al problema real y los datos con los que hay que estimar esa curva (que el algortimo de aprendizaje no conoce).

In [None]:
plt.figure(figsize=(12, 5))

plt.plot(x_plot, f(x_plot), color='cornflowerblue', linewidth=2, label="Curva real")
plt.scatter(x, y, color='navy', s=30, marker='o', label="Ejemplos de entrenamiento")

plt.legend()
plt.show()

Para el entrenamiento y la estimación, sobre todo para generar nuevas características (con un generador polinomial de características) es necesario que la entrada esté en formato de columnas por atributo.

In [None]:
# create matrix versions of these arrays
X = x[:, np.newaxis]
X_plot = x_plot[:, np.newaxis]

X.shape, X_plot.shape

Ahora si, vamos a usar [regresión rígida](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge) para el aprendizaje, y un [generador polinomial de características](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html#sklearn.preprocessing.PolynomialFeatures).

Para asegurarnos que cuando busquemos hacer una estimación se hagan todos los procesos de pretratamiento antes de la estimación, es muy util guardarlos en un [`pipeline`](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.make_pipeline.html#sklearn.pipeline.make_pipeline).

In [None]:
from sklearn.linear_model import Ridge
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

# Vamos a hacer un modelo, entrenarlo con los datos de entrenamiento
# y estimar con los valores para graficar

model = make_pipeline(PolynomialFeatures(3), Ridge())
model.fit(X, y)
y_plot = model.predict(X_plot)


Vamos a ver como nos salió

In [None]:
plt.figure(figsize=(12, 5))

plt.plot(x_plot, f(x_plot), color='cornflowerblue', linewidth=2, label="Curva real")
plt.scatter(x, y, color='navy', s=30, marker='o', label="Ejemplos de entrenamiento")

plt.plot(x_plot, y_plot, color='teal', linewidth=2, label="modelo de aprendizaje")

plt.legend()
plt.show()

Ahora vamos a hacer lo misnmo para vários hiperparámetros (grados de polinomio y $\alpha$ del algoritmo de aprendizaje)

In [None]:
colores = ['teal', 'yellowgreen', 'gold']

plt.figure(figsize=(12, 5))

plt.plot(x_plot, f(x_plot), color='cornflowerblue', linewidth=2, label="Curva real")
plt.scatter(x, y, color='navy', s=30, marker='o', label="Ejemplos de entrenamiento")

for i, grado in enumerate([3, 4, 5]):
    model = make_pipeline(PolynomialFeatures(grado), Ridge(alpha=1.0))
    model.fit(X, y)
    y_plot = model.predict(X_plot)
    
    
    plt.plot(x_plot, y_plot, color=colores[i], linewidth=2, 
             label=f"Polinomio de grado {grado}")

plt.legend()
plt.show()