# Polynomial regression
En muchas ocasiones la relación entre los datos no va a ser lineal, por lo que una simple regresión lineal no se va a ajustar bien a nuestra problemática.

Por ejemplo, en el siguiente ejemplo encajaria muy bien una regresión lineal.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

df = pd.read_csv('data/salary_data.csv')
df.head()

In [None]:
X = df[['YearsExperience']]
y = df['Salary']

In [None]:
lin_reg = LinearRegression()

In [None]:
lin_reg.fit(X, y)

In [None]:
lin_reg.score(X,y)

In [None]:
sns.regplot(data = df,
           x = 'YearsExperience',
           y = 'Salary');

En la vida real los problemas son más complejos, ya que los salarios no llevan una subida lineal vs años de experiencia, dependerá también de la carrera profesional: profesor, ingeniero, doctor...

Otra posible representación del salario podría ser en función del puesto de trabajo.

In [None]:
df = pd.read_csv('data/position_salaries.csv')
df

In [None]:
X = df.iloc[:, 1:2].values
y = df.iloc[:, 2].values

In [None]:
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(X, y)

In [None]:
lin_reg.score(X,y)

In [None]:
# Visualizing the Linear Regression results
def viz_linear():
    plt.scatter(X, y, color='red')
    plt.plot(X, lin_reg.predict(X), color='blue')
    plt.title('Truth or Bluff (Linear Regression)')
    plt.xlabel('Position level')
    plt.ylabel('Salary')
    plt.show()
    return
viz_linear()

Vemos que en este caso, la regresión lineal no se ajusta nada bien a los datos, por lo que habrá que probar otras alternativas.

In [None]:
sns.distplot(y - lin_reg.predict(X));

In [None]:
plt.scatter(X, y - lin_reg.predict(X));

`PolynomialFeatures` de sklearn genera nuevas features sintéticas, realizando todas las combinaciones posibles entre las potencias.

Si degree = 2 y tenemos dos features, devolverá: a^0, a^1, b^1, a^2, a\*b, b^2

En nuestro caso tenemos una única variable con degree = 3: a^0, a^1, a^2, a^3

In [None]:
X

In [None]:
from sklearn.preprocessing import PolynomialFeatures
poly_feats = PolynomialFeatures(degree = 3)
poly_feats.fit(X)
X_poly = poly_feats.transform(X)
X_poly

In [None]:
pol_reg = LinearRegression()
pol_reg.fit(X_poly, y)

In [None]:
pol_reg.coef_

In [None]:
X

`x^0 + x^1 + x^2 + x^3 + x^4 `

In [None]:
# Visualizing the Polymonial Regression results
def viz_polymonial():
    plt.scatter(X, y, color='red')
    plt.plot(X, pol_reg.predict(X_poly), color='blue')
    plt.title('Truth or Bluff (Linear Regression)')
    plt.xlabel('Position level')
    plt.ylabel('Salary')
    plt.show()
    return
viz_polymonial()

In [None]:
pol_reg.score(X_poly,y)

In [None]:
X_poly.T

plt.plot(X_poly[1],X_poly[0])
plt.plot(X_poly[1],X_poly[1])
plt.plot(X_poly[1],X_poly[2])
plt.plot(X_poly[1],X_poly[3])


Al añadir mucha complejidad podemos sobreajustar el modelo fácilmente

In [None]:
print(lin_reg.predict([[7.3]]))

In [None]:
print(pol_reg.predict(poly_feats.transform([[7.3]])))

In [None]:
df = pd.read_csv('data/position_salaries.csv')
X = df.iloc[:, 1:2].values
y = df.iloc[:, 2].values

In [None]:
from sklearn.preprocessing import PolynomialFeatures
poly_feats = PolynomialFeatures(degree = 3)
poly_feats.fit(X)
X_poly = poly_feats.transform(X)
X_poly

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_poly,y, test_size = 0.2,random_state=2023)

In [None]:
X_test

In [None]:
pol_reg = LinearRegression()
pol_reg.fit(X_train, y_train)

In [None]:
predictions = pol_reg.predict(X_test)

In [None]:
df_preds = pd.DataFrame(predictions, columns = ['predictions'])
df_preds['real_value'] = pd.Series(y_test)

df_preds

In [None]:
# Visualizing the Polymonial Regression results
def viz_polymonial():
    plt.scatter(X, y, color='red')
    plt.plot(X, pol_reg.predict(X_poly), color='blue')
    plt.title('Truth or Bluff (Linear Regression)')
    plt.xlabel('Position level')
    plt.ylabel('Salary')
    plt.show()
    return
viz_polymonial()

In [None]:
from sklearn.metrics import r2_score
r2_score(pol_reg.predict(X_test), y_test)