## Regresion polinomial

La regresion polinomial es una alternativa a la regresion lineal en donde se consideran potencias mayores a uno de las caracteristicas; esto nos lleva a modelos mas complejos y que generan curva de aproximacion, cuyo grado de complejidad dependera del grado del polinomio aplicado o solicitado. Cabe anotar, que la regresion polinomial sigue siendo considerada una regresion lineal multiple debido a como aparecen los pesos $w$:

$$y=w_0+w_1x+w_2x^2+\dots+w_dx^d$$

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

In [None]:
# Creando datos de prueba
# ============================================================
X = np.array([258.0, 270.0, 294.0, 320.0, 342.0, 368.0, 396.0, 446.0, 480.0, 586.0])[:, np.newaxis]
y = np.array([236.4, 234.4, 252.8, 298.6, 314.2, 342.2, 360.8, 368.0, 391.2, 390.8])

In [None]:
# Agregar lementos cuadraticos a la matriz x
# ===========================================================
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
pr = LinearRegression()

quadratic = PolynomialFeatures(degree=2)
X_quad = quadratic.fit_transform(X)

In [None]:
# Observando cambios es X
# ===========================================================

a = pd.DataFrame(X_quad, columns = ['w0', 'x', 'x^2'])
b = pd.DataFrame(X, columns = ['X'])
pd.concat([a, b], axis = 1)

In [None]:
# Ajustando regresion lineal
lr.fit(X, y)
X_fit = np.arange(250, 600, 10)[:, np.newaxis]
y_lin_fit = lr.predict(X_fit)

# Ajustando una regresion polinomial
pr.fit(X_quad, y)
y_quad_fit = pr.predict(quadratic.fit_transform(X_fit))

# plot results
fig, ax = plt.subplots(figsize = (8, 6))
ax.scatter(X, y, label='puntos de entrenamiento')
ax.plot(X_fit, y_lin_fit, label='Ajuste lineal', linestyle='--')
ax.plot(X_fit, y_quad_fit, label='Ajuste cuadratico')
ax.legend(loc='upper left')

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
y_lin_pred = lr.predict(X)
y_quad_pred = pr.predict(X_quad)
print(f'MSE entrenamiento lineal: {mean_squared_error(y, y_lin_pred)}, Cuadratico: {mean_squared_error(y, y_quad_pred)}')
print(f'R^2 entrenamiento lineal: {r2_score(y, y_lin_pred)}, cuadratico: {r2_score(y, y_quad_pred)}')

<div class="burk">
EJERCICIOS</div><i class="fa fa-lightbulb-o "></i>

Utilice el archivo `housing.data.txt` que utilizamos durante las clases anteriores para modelar la relacion entra las variables `LSTAT` y `MEDV`; es conveniente que divida los datos en entrenamiento y prueba. Utilice tres regresiones: lineal, cuadratica y cubica; calcule los $R^2$ y grafique las relaciones. Procure que su grafica sea como la siguiente:

![image.png](attachment:image.png)

## Relaciones no lineales mediante arboles de decision

Este tipo de regresion se puede entender como la suma de funciones lineales por partes. Visto de otra manera, se subdivide el espacio en regiones mas manejables sobre las que se hace las regresiones.

Una de sus ventajas es que no es necesario transformar las caracterisitcas de ninguna manera.

In [None]:
def lin_regplot(X, y, model):
    plt.scatter(X, y, c='steelblue', edgecolor='white', s=70)
    plt.plot(X, model.predict(X), color='black', lw=2)    
    return None

In [None]:
from sklearn.tree import DecisionTreeRegressor

fig, ax = plt.subplots()
tree = DecisionTreeRegressor(max_depth=3)
tree.fit(X, y)

sort_idx = X.flatten().argsort()

lin_regplot(X[sort_idx], y[sort_idx], tree)

In [None]:
y_pred = tree.predict(X)
print(f'MSE entrenamiento lineal: {mean_squared_error(y, y_pred)}')
print(f'R^2 entrenamiento lineal: {r2_score(y, y_pred)}')

<div class="burk">
EJERCICIO</div><i class="fa fa-lightbulb-o "></i>

Aplique una regresion usando arboles de decision usando a las mismas caracteristicas del ejercicio anterior. Busque que no se genere sobreajuste en el conjunto de entrenamiento respecto al conjunto de test. Si no es posible evitar el sobreajuste con los hiperparametros de la regresion, considere usar extraccion de caracteristicas.

## Regresion con bosques aleatorios

Al igual que en la seccion de clasificacion, este metodo consiste en el manejo de multiples arboles de decision que crean el bosque aleatorio. Este modelo es menos propenso al sobreajuste, y es bastante util para trata problemas con los *outliers*. 

In [None]:
from sklearn.ensemble import RandomForestRegressor

forest = RandomForestRegressor(n_estimators=1000, criterion='mse', random_state=1, n_jobs=-1)
forest.fit(X, y)

y_pred = forest.predict(X)

print(f'MSE entrenamiento: {mean_squared_error(y, y_pred)}')
print(f'R^2 entrenamiento: {r2_score(y, y_pred)}')

fig, ax = plt.subplots()
sort_idx = X.flatten().argsort()
lin_regplot(X[sort_idx], y[sort_idx], forest)

In [None]:
fig, ax = plt.subplots()

ax.scatter(y_pred, y_pred - y, c='steelblue', edgecolor='white', marker='o', s=35, alpha=0.9, label='entrenamiento')
ax.set_xlabel('Valores predichos')
ax.set_ylabel('Residuos')
ax.legend(loc='best')
ax.hlines(y=0, xmin=240, xmax=400, lw=2, color='black', linestyle = '--')


<div class="burk">
EJERCICIO</div><i class="fa fa-lightbulb-o "></i>

Aplique una regresion usando bosques aleatorios a las mismas caracteristicas del ejercicio anterior. Busque que no se genere sobreajuste en el conjunto de entrenamiento respecto al conjunto de test. Si no es posible evitar el sobreajuste con los hiperparametros de la regresion, considere usar extraccion de caracteristicas.

## Maquinas de soporte vectorial para regresion

Ya hemos tenido la oportunidad de trabajar con SVM para el caso de la clasificacion; ahora las usaremos para realizar regresiones en las cuales tendremos ligeros cambios, pero antes de mencionarlos, cabe anotar que las SVM son utilies para realizar regresiones lineales y no lineales.

El concepto basico es el mismo, generar una banda en torno a los datos tratando de contener la mayor cantidad posible. Las matematicas envueltas en el proceso no vienen al caso, por lo tanto no las trataremos en detalle, pero cabe anotar que es similar a lo visto en clasificacion. 

Es importante aclarar que es buena idea realizar escalamiento antes de...

In [None]:
from sklearn.svm import SVR
svm = SVR(kernel = 'rbf', C=100) # regresion no lineal
svm.fit(X, y) # No se realizo escalamiento pues es puramente ilustrativo
y_pred = svm.predict(X)
print(f'MSE entrenamiento: {mean_squared_error(y, y_pred)}')
print(f'R^2 entrenamiento: {r2_score(y, y_pred)}')

fig, ax = plt.subplots()
sort_idx = X.flatten().argsort()
lin_regplot(X[sort_idx], y[sort_idx], svm)

<div class="burk">
EJERCICIO</div><i class="fa fa-lightbulb-o "></i>

Aplique una regresion usando svm a las mismas caracteristicas del ejercicio anterior. Busque que no se genere sobreajuste en el conjunto de entrenamiento respecto al conjunto de test. Si no es posible evitar el sobreajuste con los hiperparametros de la regresion, considere usar extraccion de caracteristicas.

<div class="burk">
EJERCICIO</div><i class="fa fa-lightbulb-o "></i>

Utilice el archivo `machine.data` para realizar una regresion similar a la de la clase pasada. En este caso explore diferentes posibilidades de regresion polinomica, ajuste hiperparametros e imprima los rendimientos. No se podra graficar pues no es un problema bidimensional, pero podria intentar graficar los residuos de entrenamiento y test para evaluar la homocedasticidad. Pruebe otros algoritmos e intente un GridSearch en alguno de ellos (por ejemplo svm sobre C y gamma) para encontrar la mejor combinacion de hiperparametros. Si quiere ir un poco mas lejos, profundice su dominio en el algoritmo de regresion de los bosques aleatorios realizando extraccion de caracteristicas para reducir el sobreajuste. Sobre la validacion cruzada, es libre de elegir el numero de muestras a trabajar.

Sus resultados organicelos en google data studio con la intencion de exponer sus resultados, de tal forma que se observe una comparacion entre las regresiones usadas. Buena Suerte!!