# Critérios para seleção de modelos

Na primeira aula enfatizamos a importância de saber escolher o modelo mais adequado para um cenário, mostrando a questão do equilíbrio viés-variância. Nesta aula vamos aprender alguns critérios para escolher o modelo mais adequado para o problema em questão.


- Complexidade do Modelo
- Interpretabilidade
- Eficiência Computacional
- Habilidade de Generalização
- Sensibilidade à Escala de Dados


Vejamos cada critério, deixando claro que, por vezes, esses critérios interagem entre si.

## Complexidade do modelo

A complexidade do modelo refere-se ao número de parâmetros e à estrutura do modelo. Modelos mais complexos podem se ajustar melhor aos dados, mas correm o risco de overfitting.


In [1]:
import pandas as pd

df = pd.read_csv('dados_trade_off_vies_variancia.csv')

# criando X e y
X = df[['X']]
y = df[['y']]

X.head()

Unnamed: 0,X
0,0.261961
1,0.903381
2,0.020782
3,0.899936
4,0.097239


In [None]:
from matplotlib import pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures


RANDOM_STATE = 1

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.30, random_state=RANDOM_STATE
)

xfit = np.linspace(-0.1, 1.1, 1000)
df_xfit = pd.DataFrame({"X": xfit})

ordens = (1, 3)
titulos = ("Grau 1", "Grau 3")
parametros_modelos = {}

fig, axes = plt.subplots(1, 2, figsize=(15, 6), tight_layout=True)

for ordem, titulo, ax in zip(ordens, titulos, axes):
    model = make_pipeline(PolynomialFeatures(ordem, include_bias=False), LinearRegression())
    model.fit(X_train, y_train)
    y_pred = model.predict(df_xfit)

    parametros_modelos[titulo] = {
        "coef": model.named_steps["linearregression"].coef_,
        "intercept": model.named_steps["linearregression"].intercept_,
    }

    ax.scatter(X_train, y_train, s=50, color="C0", label="treino")
    ax.scatter(X_test, y_test, s=50, color="C4", label="teste")

    ax.plot(xfit, y_pred, color="C1", label="predição")

    ax.set_title(titulo)
    ax.set_xlim(-0.1, 1.0)
    ax.set_ylim(-2, 13)
    ax.set_xlabel("X")
    ax.set_ylabel("y")

    handles, labels = ax.get_legend_handles_labels()

fig.suptitle(f"Comparando ordens\n", fontsize=16)
fig.legend(
    loc="lower center",
    ncol=3,
    bbox_to_anchor=(0.5, 0.875),
    bbox_transform=fig.transFigure,
    handles=handles,
    labels=labels,
)


plt.show()

Entendendo os coeficientes para o modelo de grau 1. Para modelos lineares, a equação geral do valor esperado para uma combinação linear de variáveis independentes (também chamadas de variáveis explicativas, preditoras ou regressoras) é dada por:

$$y = w_0 + w_1x_1 + w_2x_2 + ... + w_p x_p$$

Onde $w_0$ é o intercepto (o valor esperado de $y$ quando $x_1 = x_2 = ... = x_p = 0$) e $w_1, w_2, ..., w_p$ são os coeficientes das variáveis independentes.

Para o modelo de grau 1, temos apenas uma variável independente, portanto, a equação geral pode ser escrita como:

$$y = w_0 + w_1x_1$$

Onde $w_0$ é o intercepto e $w_1$ é o coeficiente da variável independente $x_1$. O coeficiente $w_1$ representa a inclinação da reta de regressão, ou seja, a taxa de variação de $y$ em relação a $x_1$. Em outras palavras, se $x_1$ aumenta em uma unidade, $y$ aumenta em $w_1$ unidades. O intercepto $w_0$ representa o valor de $y$ quando $x_1$ é igual a zero. Em outras palavras, ele é o valor esperado de $y$ quando $x_1$ é igual a zero.


Assim, com base nos `coef` e `intercept` obtidos, a equação da reta é dada por:

$$
y = 3.397 + 7.656 x_1
$$



Para entender o polinômio de grau 3, vejamos como o array `X` fica após a transformação feita por `PolynomialFeatures`:

Para um polinômio de grau *n*, a equação geral é dada por:

$$y = w_0 + w_1x + w_2x^2 + ... + w_nx^n$$

Onde $w_0$ é o termo de *bias* e $w_1, w_2, ..., w_n$ são os pesos associados a cada variável de entrada.

Para um polinômio de grau 3, a equação geral é dada por:

$$y = w_0 + w_1x + w_2x^2 + w_3x^3$$

Assim, nosso polinômio de grau 3 é:

$$
y = 1.104 + 36.078x - 54.949x^2 + 26.338x^3
$$

## Interpretabilidade

A interpretabilidade refere-se à facilidade com que um modelo pode ser entendido e explicado. Modelos lineares, por exemplo, são mais fáceis de interpretar do que modelos de ordem superior, e estes são mais fáceis de interpretar do que modelos baseados em árvores ou redes neurais. A interpretabilidade é importante para a confiança em um modelo.
