<a href="https://colab.research.google.com/github/DCDPUAEM/DCDP/blob/main/03%20Machine%20Learning/notebooks/04-RegresionPolinomial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regresi√≥n Polinomial

En esta notebook exploraremos y experimentaremos con la regresi√≥n polinomial.

* üîΩ Esta secci√≥n no forma parte del proceso usual de Machine Learning. Es una exploraci√≥n did√°ctica de alg√∫n aspecto del funcionamiento del algoritmo.
* ‚ö° Esta secci√≥n incluye t√©cnicas m√°s avanzadas destinadas a optimizar o profundizar en el uso de los algoritmos.
* ‚≠ï Esta secci√≥n contiene un ejercicio o pr√°ctica a realizar. A√∫n si no se establece una fecha de entrega, es muy recomendable realizarla para practicar conceptos clave de cada tema.

In [None]:
#@title Funci√≥n para graficar la regresi√≥n simple

import matplotlib.pyplot as plt
import numpy as np

def graficar(estimador,x,y):
    xmin = np.min(x)
    xmax = np.max(x)
    x_values = np.linspace(xmin,xmax,100)
    y_values = estimador.predict(x_values.reshape(-1,1))
    y_pred = estimador.predict(x)
    ymin = min(np.min(y),np.min(y_pred))
    ymax = max(np.max(y),np.max(y_pred))
    plt.figure(figsize=(12,5))
    plt.subplot(1,2,1)
    plt.scatter(x, y,color='green')
    plt.plot(x_values, y_values, color='black')
    plt.title('Regresi√≥n')
    plt.subplot(1,2,2)
    plt.scatter(y,y_pred,color='red')
    plt.plot(np.linspace(ymin,ymax,100),np.linspace(ymin,ymax,100),color='black')
    plt.title('Predicciones vs Valores reales')
    plt.xlabel('Valores reales')
    plt.ylabel('Valores predichos')
    plt.show()

# üîΩ Ejemplo 1

Este primer ejemplo es un ejemplo ilustrativo. Generemos un dataset artificial con una variable predictora y una variable target para una tarea de regresi√≥n.

In [None]:
#@title Generar el dataset artificial

import numpy as np

rng = np.random.RandomState(4595)
size = 250 # N√∫mero de puntos

#---- Par√°metros de la par√°bola ---
b0 = 2
b1 = -4
b2 = 1

#---- Generar el dataset ---
x = 4 * rng.rand(size)
y = (b0 + (b1*x) + (b2*x**2)) + np.random.normal(0,0.75,size=size) # Agregamos ruido con distribuci√≥n normal

#---- Reshape para scikit-learn ---
x = x.reshape(-1,1)

In [None]:
print(x.shape)

In [None]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x,y,train_size=0.8,random_state=2287)

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(5,4))
plt.scatter(x,y)
plt.show()

üî∑ Claramente la relaci√≥n entre la variable predictora $x$ y la variable target $y$ no es lineal, sino cuadr√°tica.

‚≠ï Probemos la regresi√≥n lineal cl√°sica. **Completa las lineas que faltan**

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error

#---- Inicializa la clase de Regresi√≥n Lineal: ----



#---- Entrena el modelo con el conjunto de entrenamiento: ----



#---- Realiza las predicciones en el conjunto de prueba: ----
y_pred = lr.predict(x_test)

#---- Evaluemos el rendimiento del modelo
print(f"R2 en el conjunto de entrenamiento: {lr.score(x_train,y_train)}")
print(f"MAE en el conjunto de prueba: {np.round(mean_absolute_error(y_test,y_pred),3)}")
print(f"MAPE en el conjunto de prueba: {np.round(mean_absolute_percentage_error(y_test,y_pred),3)}")

In [None]:
graficar(lr,x,y)

## Regresi√≥n Polinomial

Para crear la nueva feature $x^2$ usaremos la clase [PolynomialFeatures](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html).

Esta clase genera una nueva matriz de caracter√≠sticas (*features*) consistente en todas las combinaciones polin√≥micas de las caract√©risticas de grado menor o igual al grado especificado.

Por ejemplo, si una muestra de entrada es bidimensional con la forma

$$[a, b]$$

las caracter√≠sticas polin√≥micas (*polynomial features*) de grado 2 son

$$[1, a, b, a^2, ab, b^2].$$

**‚ö† Observa el efecto del hiperpar√°metro `include_bias`**

In [None]:
from sklearn.preprocessing import PolynomialFeatures

# pfeats = PolynomialFeatures(degree=2, include_bias=False)
pfeats = PolynomialFeatures(degree=2, include_bias=True)

new_x_train = pfeats.fit_transform(x_train)
new_x_test = pfeats.transform(x_test)

Observar que le indicamos al constructor de la clase que no incluya el `bias` (la columna de 1s al principio de la nueva matriz de caracteristicas). Esto se hace porque pasaremos esta matriz a la regresi√≥n lineal, la cu√°l le agregar√° dicha columna.

La variable independiente era:

In [None]:
print(x_train[:5])

Las nuevas variables independientes son:

In [None]:
print(new_x_train[:5])

In [None]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(new_x_train,y_train)

Evaluemos:

In [None]:
lr.score(new_x_train,y_train)

In [None]:
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error

y_pred = lr.predict(new_x_test)

print(f"MAE en el conjunto de prueba: {np.round(mean_absolute_error(y_test,y_pred),5)}")
print(f"MAPE en el conjunto de prueba: {np.round(mean_absolute_percentage_error(y_test,y_pred),5)}")

In [None]:
print(f"Intercepto: {lr.intercept_}")
print(f"Coeficientes: {lr.coef_}")

Extraigamos los coeficientes

In [None]:
print(f"Shape de los coeficientes: {lr.coef_.shape}")

b0 = lr.intercept_
b1 = lr.coef_[0]
b2 = lr.coef_[1]

In [None]:
#---- Graficar la par√°bola que obtuvimos ---
x_values = np.linspace(x.min(), x.max(), 100)
y_hat = b0 + b1*x_values + b2*x_values**2
#------------------------------------------

plt.figure()
plt.scatter(x, y, alpha=0.7,color='red')
plt.plot(x_values, y_hat, color='black')
plt.show()

üî∑ Veamos una mejor manera de organizar las diferentes partes del proceso de Machine Learning: **Pipelines**.

## Pipelines

Un **pipeline** en scikit-learn es una secuencia de transformaciones y un estimador final que se aplican a los datos de manera automatizada. Sirve para encadenar m√∫ltiples pasos de preprocesamiento (como escalado, imputaci√≥n, etc.) y un modelo de machine learning en un √∫nico objeto, garantizando consistencia y evitando fugas de datos durante la validaci√≥n cruzada.  

**Ventajas:**  
- **Simplifica el c√≥digo:** Combina todos los pasos en un √∫nico objeto.  
- **Previene data leakage:** Asegura que las transformaciones se apliquen correctamente durante la validaci√≥n cruzada.  
- **Facilita el mantenimiento:** Cambios en el flujo son m√°s f√°ciles de implementar.  
- **Reproducibilidad:** Estandariza el proceso de entrenamiento y predicci√≥n.  
- **Optimizaci√≥n integrada:** Permite usar `GridSearchCV` o `RandomizedSearchCV` en todos los pasos del pipeline.  

Documentaci√≥n: [`sklearn.pipeline.Pipeline`](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html).  

Retomemos el dataset anterior

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(5,4))
plt.scatter(x,y)
plt.show()

In [None]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x,y,train_size=0.8,random_state=2287)

print(f"Tama√±o del conjunto de entrenamiento: {x_train.shape[0]}")
print(f"Tama√±o del conjunto de prueba: {x_test.shape[0]}")

En el pipeline encapsularemos `PolynomialFeatures` y `LinearRegression`

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler, MinMaxScaler

pl = Pipeline([('pf',PolynomialFeatures(degree=2,include_bias=False)),
               ('lr',LinearRegression())])

In [None]:
pl.fit(x_train,y_train)

Podemos evaluar directamente el score, a√∫n cuando el score es un m√©todo de `LinearRegression`

In [None]:
pl.score(x_train,y_train)

Podemos acceder a los atributos y m√©todos de cada parte del pipeline de la siguiente forma:

Coeficientes de la regresi√≥n lineal

In [None]:
pl['lr'].coef_

Un atributo del `PolynomialFeatures`

In [None]:
pl['pf'].n_features_in_

Veamos las predicciones en el conjunto de prueba

In [None]:
graficar(pl,x_train,y_train)

Ahora veamos y evaluemos las predicciones en el conjunto de prueba

In [None]:
y_pred = pl.predict(x_test)

In [None]:
pl.score(x_test,y_test)

In [None]:
graficar(pl,x_test,y_test)

Tambi√©n podemos usar este pipeline para probar r√°pidamente el modelo de regresi√≥n lineal cl√°sico o cualquier otro grado

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler, MinMaxScaler

grado = 15

pl = Pipeline([('pf',PolynomialFeatures(degree=grado,include_bias=False)),
               ('lr',LinearRegression())])

pl.fit(x_train,y_train)
print(f"R2 en el conjunto de prueba: {pl.score(x_train,y_train)}")

y_pred = pl.predict(x_test)

print(f"MAE en el conjunto de entrenamiento: {np.round(mean_absolute_error(y_train,pl.predict(x_train)),3)}")
print(f"MAE en el conjunto de prueba: {np.round(mean_absolute_error(y_test,y_pred),3)}")

graficar(pl,x_test,y_test)

# üîΩ El problema de la multicolinealidad

Sobre la multilinearidad:


*   [Estabilidad num√©rica](https://en.wikipedia.org/wiki/Multicollinearity#Consequences_of_multicollinearity)
*   [Explicaci√≥n](https://medium.com/@sujathamudadla1213/why-we-have-to-remove-highly-correlated-features-in-machine-learning-9a8416286f18)



Agreguemos una variable con multicolinealidad perfecta

$$x_1 = 2x_0$$

In [None]:
import numpy as np

rng = np.random.RandomState(4595)
size = 100

b0 = 2
b1 = -1

x = 3 * rng.rand(size)
y = (b0 + (b1*x) ) + rng.randn(size) # Agregamos ruido con distribuci√≥n normal

X = np.column_stack((x,2*x))

La clase `LinearRegression` sabe manejar este caso. Sin embargo, tenemos riesgo de inestabilidad num√©rica

In [None]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X,y)

print(lr.coef_)

Sin embargo, si usamos directamente OLS para resolver el problema, tenemos un problema:

In [None]:
X = np.column_stack((np.ones(shape=x.shape),X))

beta = (np.linalg.inv(np.transpose(X)@X)@np.transpose(X))@y