k-NN com scikit-learn
=====================



Neste notebook vamos utilizar o `scikit-learn` para treinar um regressor $k$​-NN similar ao que fizemos no notebook anterior. Observe que criar e treinar um modelo de aprendizado de máquina com o `scikit-learn` não é muito diferente de criar e treinar um normalizador com o `scikit-learn` (vimos isso no notebook 2.2).



## Coleta e tratamento de dados



Vamos usar os mesmos dados sobre pinguins que usamos no notebook anterior.



In [1]:
import seaborn as sns

DATASET_NAME = "penguins"
FEATURES = ["bill_length_mm", "bill_depth_mm", "flipper_length_mm"]
TARGET = ["body_mass_g"]

df = sns.load_dataset(DATASET_NAME)

df = df.reindex(FEATURES + TARGET, axis=1)
df = df.dropna()  # remove linhas com células vazia

X = df.reindex(FEATURES, axis=1)
y = df.reindex(TARGET, axis=1)

X = X.values
y = y.values.ravel()  # o método `ravel` deixa os dados em 1 dimensão

## Criando e treinando um regressor k-NN



In [2]:
from sklearn.neighbors import KNeighborsRegressor

# Criar uma instância do regressor
num_vizinhos = 3
modelo_knn = KNeighborsRegressor(n_neighbors=num_vizinhos)

# Ajustar o regressor aos dados
modelo_knn.fit(X, y)

# Realizar uma previsão
x = [
    [43, 20, 180],
    [39, 20.5, 170],
]
previsao = modelo_knn.predict(x)
print(previsao)

[3641.66666667 3333.33333333]


## A métrica MSE



O <u>erro quadrático médio</u> (MSE, *mean squared error* em inglês) é o que chamamos de métrica de performance, ou apenas métrica. Métricas reportam a performance de modelos em um valor numérico. Cada métrica conta uma história sobre como seu modelo se comporta ao tentar prever dados que você já sabe a resposta.

O MSE pode ser computado pela equação

$$
\mathrm{MSE} = \sum_{i=1}^{N} \frac{(y_i - \hat{y}_i)^2}{N},
$$

onde $y_i$ é o target do exemplo $i$ (valor que conhecemos, pode ser chamado de &ldquo;$y$ verdadeiro&rdquo; ou &ldquo;$y$ true&rdquo; na literatura), $\hat{y}_i$ é o valor previsto para o exemplo $i$ e $N$ é o número de exemplos do conjunto de dados que estamos computando a métrica.

Observe que o MSE tem a unidade do target ao quadrado.

Podemos computar o MSE usando o `scikit-learn`.



In [3]:
from sklearn.metrics import mean_squared_error

X_verdadeiro = X
y_verdadeiro = y

y_previsto = modelo_knn.predict(X_verdadeiro)

MSE = mean_squared_error(y_verdadeiro, y_previsto)

print(f"O MSE do modelo foi de {MSE} unidades de y ao quadrado.")

O MSE do modelo foi de 74140.06660168941 unidades de y ao quadrado.


## A métrica RMSE



A <u>raiz do erro quadrático médio</u> (RMSE, *root mean squared error* em inglês) é outra métrica de performance de modelos. Ela pode ser computada calculando a raiz quadrada do MSE. Por conta disso, esta é uma métrica que é mais interessante para entender a performance do seu modelo pois os resultados estão na mesma unidade do seu target.

O RMSE pode ser computado pela equação

$$
\mathrm{RMSE} = \sqrt{\mathrm{MSE}} = \sqrt{\sum_{i=1}^{N} \frac{(y_i - \hat{y}_i)^2}{N}}.
$$

Podemos computar o RMSE usando o `scikit-learn`.



In [4]:
RMSE = mean_squared_error(y_verdadeiro, y_previsto, squared=False)

print(f"O RMSE do modelo foi de {RMSE} unidades de y.")

O RMSE do modelo foi de 272.28673600028594 unidades de y.


## Referências



1.  Documentação sobre o regressor k-NN [https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html)

2.  Guia do usuário do `scikit-learn` [https://scikit-learn.org/stable/modules/model_evaluation.html#mean-squared-error](https://scikit-learn.org/stable/modules/model_evaluation.html#mean-squared-error)

