# Introducción a Regresión Polinomial

La regresión lineal univariada (una variable dependiente) y multivariada (más de una variable dependiente) que hemos discutido hasta ahora siempre supone una relación lineal entre las variables independientes y dependientes. En el mundo real, es muy común tener datos donde hay una relación no lineal entre las variables independientes y dependientes. En estos casos, podemos usar la regresión polinómica en la que suponemos que la relación entre la variable independiente x y la variable o variables dependientes y se modela como un polinomio de enésimo grado. Por ejemplo, de la lectura hemos aprendido que la relación entre el número de millas caminadas por día y la edad se puede modelar mediante una ecuación cuadrática.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import statistics as s
import pandas as pd
import seaborn as sns
plt.rcParams['figure.figsize'] = (12, 8)
sns.set()
sns.set(font_scale=1.5)

import statsmodels.formula.api as sm
from sklearn.model_selection import train_test_split

np.random.seed(1234)

In [None]:
kms = np.random.normal(5, 2, 50)
ages = np.random.normal(40,13,50)
ages = [a if a > 0 else -a for a in ages] #list comprehension

In [None]:
first_kms = sorted(kms[0:int(round(len(kms)/2,0))])
second_kms = sorted(kms[int(round(len(kms)/2,0)):len(kms)], reverse=True)

ages = sorted(ages)
kms = first_kms + second_kms
print(len(kms))
print(len(ages))

In [None]:
df = pd.DataFrame({"age": ages, "kilometers": kms})

In [None]:
df

In [None]:
plt.hist(df['age'])

In [None]:
plt.hist(df['kilometers'])

In [None]:
# Grafico kilometers vs. age
ax = sns.regplot(x='age', y='kilometers', data=df, fit_reg=False)
ax.set_title('Scatter plot of kilometers walked in a day vs age')

¿Te parece lineal la relación anterior? Si no, ¿qué tipo de relación crees que es?

</br>
</br>
</br>

Intentemos ajustar una parábola (un polinomio de 2 grados) a los datos.

In [None]:
pd.options.mode.chained_assignment = None  # default='warn'

# Definamos nuestra variable dependiente
y_column = 'kilometers'
y = df[y_column]
# Definamos nuestras variables independientes
x_columns = ['age']
X = df[x_columns]

# Dividimos la data entre desarrollo y validación
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
training = pd.concat([pd.DataFrame({'kilometers' : y_train}), X_train], axis=1)

model = sm.ols(formula = 'kilometers ~ np.power(age, 2) + age', data = training).fit()
print(model.summary())

In [None]:
# Obtengamos los predictores de la data entrenamiento y grafiquemos
training['preds'] = model.predict(training['age'])

plt.figure(figsize=(9,7))
plt.scatter(training['age'], training['kilometers'], alpha=0.5, c='r')
plt.scatter(training['age'], training['preds'], alpha=0.5, c='g')
plt.title('Valores estimados y reales Kilometers by Age para la data entrenamiento')
plt.xlabel('Age')
plt.ylabel('Kilometers')
plt.legend()
plt.show();


In [None]:
p = model.params

Termine este notebook para ajustar el modelo a los datos de prueba (test data). ¿Cómo es el ajuste?