# Machine Learning (Aprendizaje Automático)

## Regresión Polinomial.

La regresión lineal es el algoritmo básico de aprendizaje automático y también el más usado. Pero, ¿qué pasa si su modelo de regresión lineal no puede modelar la relación entre las características y la respuesta? En otras palabras, ¿qué pasa si no tienen una relación lineal? Es en estos casos donde la regresión polinomial podría ser de ayuda.

La regresión polinomial es un caso especial de regresión lineal donde ajustamos una ecuación polinomial a los datos con una relación curvilínea entre la variable objetivo y las variables independientes. En una relación curvilínea, el valor de la variable objetivo cambia de manera no uniforme con respecto al predictor o predictores (Variables independientes).

En Regresión lineal, con una sola característica, tenemos la siguiente ecuación:

$$
Y=\theta_0+\theta_1x
$$

dónde, $Y$ es el objetivo, $x$ es el predictor, $\theta_0$ es el sesgo (bias), y $\theta_1$ es el peso (parámetro) en la ecuación de regresión. Esta ecuación lineal se puede utilizar para representar una relación lineal. Pero, en la regresión polinomial, tenemos una ecuación polinomial de grado $n$ representada como:

$$
Y=\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3+...+\theta_1x
$$

dónde, $Y$ es el objetivo, $x$ es el predictor, $\theta_0$ es el sesgo (bias), y $\theta_i$ son los pesos.


__Ejemplo:__ Implementaremos tanto la regresión polinomial como los algoritmos de regresión lineal en un conjunto de datos simple donde tenemos una relación curvilínea entre el objetivo y el predictor y compararemos los resultados para comprender la diferencia entre los dos.

In [None]:
# Librerias basicas
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Para calcular los errores
from sklearn import metrics

In [None]:
# Generamos datos de manera aleatoria, que sigan una distribucion cuadratica
N=100
#Usando una semilla
np.random.seed(3)
x = 100*np.random.random(N)
y = 50-10*x+x*x + 300*np.random.randn(N)
x_sort = np.linspace(0, 100, N)
y_real = 50-10*x_sort+x_sort**2 

# Grafiquemos
fig, ax = plt.subplots(figsize=(10, 6))
ax.set(xlabel="x",ylabel="y")
# los valores de x e y
ax.plot(x, y,'x',color='red',label='Datos')
ax.plot(x_sort, y_real,label=r'$y(x)$',linestyle=":", linewidth=3)
ax.legend(fontsize=15)
plt.show()

In [None]:
# Importemos el modulo de regresion lineal
from sklearn.linear_model import LinearRegression
# Instancio
regressor = LinearRegression()
# LLamo al metodo fit y le paso los datos de entrenamiento,
#uso reshape para darle forma de vector columna.
regressor.fit(x.reshape(-1,1),y.reshape(-1,1))
# Ahora miro el intercepto y la pendiente de la linea
print(f"b = {regressor.intercept_[0]:.3f}, m = {regressor.coef_[0][0]:.3f}")

In [None]:
#La funcion de prediccion
y_pred=regressor.predict(x.reshape(-1,1))
#Error
print(f"MAE : {metrics.mean_absolute_error(y, y_pred):.4f}")
print(f'MSE : {metrics.mean_squared_error(y, y_pred):.3f}')
print(f'RMSE: {np.sqrt(metrics.mean_squared_error(y, y_pred)):.4f}')
# Grafiquemos
fig1, ax1 = plt.subplots(figsize=(10, 6))
ax1.set(xlabel="x",ylabel="y")
# los valores de x e y
ax1.plot(x, y,'x',color='red',label='Datos')
ax1.plot(x_sort, y_real,label=r'$y(x)$',linestyle=":", linewidth=3,color='blue')
ax1.plot(x, y_pred,label=r'$h_{\theta}(x)$', linewidth=1,color='green')
ax1.legend(fontsize=15)
plt.show()

Se puede ver facilmente que el modelo de regresión lineal no puede ajustar los datos correctamente y los errores son muy altos.

Ahora, intentemos la regresión polinomial. La implementación de la regresión polinomial es un proceso de dos pasos. Primero, transformamos nuestros datos en un polinomio usando la función `PolynomialFeatures` de `sklearn` y luego usamos regresión lineal para ajustar los parámetros. También podemos automatizar este proceso mediante pipelines, éstas se pueden crear utilizando `Pipeline` de `sklearn`.

__Ejemplo:__

In [None]:
# El modulo para ajustes polinomiales 
from sklearn.preprocessing import PolynomialFeatures
# Modulo para el pipeline
from sklearn.pipeline import Pipeline
# Creamos un pipeline y ajustamos los datos con un polinomio de grado 2
Input=[('Polinomio',PolynomialFeatures(degree=2)),('Modo',LinearRegression())]
pipe=Pipeline(Input)
pipe.fit(x.reshape(-1,1),y.reshape(-1,1))

Podemos elegir el grado de polinomio en función de la relación entre el resultado y las varibles. El polinomio de 1 grado es una regresión lineal simple; por lo tanto, el valor de grado debe ser mayor que 1.

Con el grado creciente del polinomio, la complejidad del modelo también aumenta, luego, el valor de $n$ debe elegirse con precisión, ya que, si este valor es bajo, el modelo no podrá ajustar los datos correctamente y, si es alto, el modelo se ajustará fácilmente a los datos.

In [None]:
poly_pred=pipe.predict(x.reshape(-1,1))
#Error
from sklearn import metrics
print(f"MAE : {metrics.mean_absolute_error(y, poly_pred):.4f}")
print(f'MSE : {metrics.mean_squared_error(y, poly_pred):.3f}')
print(f'RMSE: {np.sqrt(metrics.mean_squared_error(y, poly_pred)):.4f}')

#Ordenamos los datos respecto a las variables
sorted_zip = sorted(zip(x,poly_pred))
x_poly, poly_pred = zip(*sorted_zip)
# Grafiquemos
fig2, ax2 = plt.subplots(figsize=(10, 6))
ax2.set(xlabel="x",ylabel="y")
# los valores de x e y
ax2.plot(x, y,'x',color='red',label='Datos')
ax2.plot(x, y_pred,':',label=r'$h_{\theta_L}(x)$',linewidth=1,color='blue')
ax2.plot(x_poly, poly_pred,label=r'$h_{\theta_P}(x)$', linewidth=2,color='green')
ax2.legend(fontsize=15)
plt.show()


Es muy notorio que la regresión polinomial es mejor para ajustar los datos que la regresión lineal. Además, debido a un mejor ajuste, los errores de la regresión polinomial son mucho más bajos que el de la regresión lineal.

Otra manera de usar PolynomialFeatures, es sin `pipeline`.

__Ejemplo:__ Usemos la base de datos de salarios

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importamos la base de datos
dataset = pd.read_csv('DataBases/Salarios.csv')
X = dataset.iloc[:, 1:2].values
y1 = dataset.iloc[:, 2].values

In [None]:
from sklearn.preprocessing import PolynomialFeatures
# Ajustemos con un poplinomio de grado 4
poly_reg = PolynomialFeatures(degree=4)
#Transformo los datos para usarlos en polyfit
X_poly = poly_reg.fit_transform(X)
#Instancio un objeto LinearRegression
pol_pred = LinearRegression()
#Hago el ajuste
pol_pred.fit(X_poly, y1)

# Grafiquemos
fig2, ax2 = plt.subplots(figsize=(10, 6))
ax2.set(xlabel="Posición",ylabel="Salario")
# los valores de x e y
ax2.plot(X, y1,"x",color='red',label='Datos')
ax2.plot(X,pol_pred.predict(X_poly) ,label=r'$h_{\theta_P}(x)$', linewidth=3,color='green')
ax2.legend(fontsize=15)
plt.show()

from sklearn import metrics
print(f"MAE : {metrics.mean_absolute_error(y1, pol_pred.predict(X_poly)):.4f}")
print(f'MSE : {metrics.mean_squared_error(y1, pol_pred.predict(X_poly)):.3f}')
print(f'RMSE: {np.sqrt(metrics.mean_squared_error(y1, pol_pred.predict(X_poly))):.4f}')

Pero, ¿y si tenemos más de una caracteristica? Para 2 caracteristicas, la ecuación de la regresión polinomial se convierte en:

$$
Y=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1x_2+\theta_4x^2_1+\theta_5x^2_2
$$

En general para $n$ predictores, la ecuación incluye todas las combinaciones posibles de polinomios de diferentes órdenes. Esto se conoce como regresión polinomial multidimensional.

Pero hay un problema importante con la regresión polinomial multidimensional: la multicolinealidad, esto es la interdependencia entre los predictores en un problema de regresión multidimensional. Esto impide que el modelo se ajuste correctamente un conjunto de datos.