# Regressão polinomial

A regressão linear com **polynomial features** é uma técnica utilizada para modelar relações não-lineares entre variáveis preditoras (features) e a variável de resposta, ampliando a capacidade da regressão linear tradicional. Embora o nome "regressão linear" sugira que o modelo lida apenas com relações lineares, isso se refere à linearidade dos **coeficientes** (pesos $ w $) em relação às variáveis, e não à forma como essas variáveis aparecem na equação. Isso significa que a relação entre as variáveis e a saída pode ser não-linear, desde que os coeficientes $ w_0, w_1, \dots, w_n $ permaneçam lineares no modelo.

### Como funciona:
Na regressão linear padrão, o modelo ajusta uma função da forma $ y = w_0 + w_1x_1 + \dots + w_nx_n $, onde $ x_1, x_2, \dots, x_n $ são as variáveis preditoras e $ w_0, w_1, \dots, w_n $ são os coeficientes que o modelo aprende. A "linearidade" aqui se refere ao fato de que a equação é linear em relação aos coeficientes $ w $, ou seja, cada coeficiente multiplica uma variável ou uma combinação de variáveis diretamente.

Quando utilizamos **polynomial features**, introduzimos novas features elevando as variáveis originais a diferentes potências. Por exemplo, para um modelo com uma única variável $ x $ e grau 2, o modelo se torna:
$$ y = w_0 + w_1x + w_2x^2 $$
Agora o modelo ajusta uma parábola em vez de uma linha reta, mas ainda assim continua sendo linear em relação aos coeficientes $ w_0, w_1, w_2 $.

Esse conceito pode ser expandido para múltiplas variáveis e para graus maiores. Para um grau 3 com duas variáveis $ x_1 $ e $ x_2 $, o modelo incluiria termos como $ x_1^2 $, $ x_1x_2 $, $ x_2^3 $, e assim por diante.

### PolynomialFeatures no Scikit-Learn:
No Scikit-Learn, a transformação de dados para incluir essas novas features polinomiais é feita através do `PolynomialFeatures`, um transformador que gera automaticamente todas as combinações de variáveis até o grau especificado. Esse transformador é geralmente utilizado em conjunto com um regressor linear para criar o modelo final.

https://scikit-learn.org/stable/modules/linear_model.html#polynomial-regression-extending-linear-models-with-basis-functions

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html#sklearn.preprocessing.PolynomialFeatures


### Benefícios:
- **Modelar relações não-lineares**: Adicionando termos polinomiais, o modelo pode capturar padrões mais complexos nos dados.
- **Simplicidade**: Apesar de aumentar a complexidade do modelo, o conceito ainda é baseado na regressão linear, o que facilita a interpretação e a implementação.

### Desvantagens:
- **Overfitting**: Com graus muito altos, o modelo pode se ajustar demais aos dados de treino, capturando ruído em vez de padrões genuínos.
- **Crescimento exponencial das features**: À medida que o grau aumenta, o número de termos polinomiais cresce rapidamente, o que pode tornar o modelo mais difícil de treinar e interpretar.

Portanto, a regressão linear com **polynomial features** é uma maneira eficaz de lidar com relações não-lineares, mantendo a linearidade em relação aos coeficientes $ w $. Essa técnica oferece uma solução balanceada para problemas onde a relação entre as variáveis preditoras e a variável de resposta é complexa, mas ainda acessível para interpretação e implementação.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split, ValidationCurveDisplay
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures

from src.auxiliares import dataframe_coeficientes
from src.config import DADOS_EXEMPLO_POLINOMIAL
from src.graficos import plot_coeficientes, plot_residuos
from src.modelos import grid_search_cv_regressor

sns.set_theme(palette="bright")

RANDOM_STATE = 1

In [None]:
df = pd.read_csv(DADOS_EXEMPLO_POLINOMIAL)

df.head()

In [None]:
df.info()

In [None]:
X = df[["X"]]
y = df["y"]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=RANDOM_STATE
)

xfit = np.linspace(-0.1, 1.1, 1000)
df_xfit = pd.DataFrame({"X": xfit})

ordens = (1, 3, 8)
titulos = ("Grau 1", "Grau 3", "Grau 8")
parametros_modelos = {}
regressor = LinearRegression()

fig, axes = plt.subplots(3, 3, figsize=(12, 10), tight_layout=True)

for ordem, titulo, ax in zip(ordens, titulos, axes.flatten()[:3]):
    model = Pipeline([("poly", PolynomialFeatures(ordem, include_bias=False)), ("reg", regressor)])
    model.fit(X_train, y_train)
    y_pred = model.predict(df_xfit)

    parametros_modelos[titulo] = {
        "modelo": model,
        "coef": model.named_steps["reg"].coef_,
        "intercept": model.named_steps["reg"].intercept_,
    }

    ax.scatter(X_train, y_train, s=50, color="C0", label="treino")
    ax.scatter(X_test, y_test, s=50, color="C2", label="teste")

    ax.plot(xfit, y_pred, color="C3", label="predição")

    ax.set_title(titulo)
    ax.set_xlim(-0.1, 1.0)
    ax.set_ylim(-2, 13)
    ax.set_xlabel("X")
    ax.set_ylabel("y")

    handles, labels = ax.get_legend_handles_labels()

for ordem, titulo, ax in zip(ordens, titulos, axes.flatten()[3:6]):
    model = Pipeline([("poly", PolynomialFeatures(ordem, include_bias=False)), ("reg", regressor)])
    model.fit(X_train, y_train)
    y_pred = model.predict(df_xfit)

    ax.scatter(X_train, y_train, s=50, color="C0", label="treino")

    ax.plot(xfit, y_pred, color="C3", label="predição")

    ax.set_title(titulo)
    ax.set_xlim(-0.1, 1.0)
    ax.set_ylim(-2, 13)
    ax.set_xlabel("X")
    ax.set_ylabel("y")

for ordem, titulo, ax in zip(ordens, titulos, axes.flatten()[6:]):
    model = Pipeline([("poly", PolynomialFeatures(ordem, include_bias=False)), ("reg", regressor)])
    model.fit(X_train, y_train)
    y_pred = model.predict(df_xfit)

    ax.scatter(X_test, y_test, s=50, color="C2", label="teste")

    ax.plot(xfit, y_pred, color="C3", label="predição")

    ax.set_title(titulo)
    ax.set_xlim(-0.1, 1.0)
    ax.set_ylim(-2, 13)
    ax.set_xlabel("X")
    ax.set_ylabel("y")


fig.suptitle(f"Comparando ordens\n", fontsize=16)
fig.legend(
    loc="lower center",
    ncol=3,
    bbox_to_anchor=(0.5, 0.925),
    bbox_transform=fig.transFigure,
    handles=handles,
    labels=labels,
)


plt.show()