In [1]:
import sys
sys.path.append('..')

import numpy as np
import pandas as pd

from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

from ml_scratch.knn import KNNClassifier
from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import classification_report

## Carregando a base `wine`

In [2]:
X, y = load_wine(return_X_y=True)
X.shape, y.shape

((178, 13), (178,))

In [3]:
(X_train, 
 X_test,
 y_train,
 y_test) = train_test_split(
    X, y, 
    test_size=.3, 
    shuffle=True,
    random_state=42
)

### Distância euclidiana

Para este exemplo, será utilizada a **distância euclidiana** entre dois pontos.

**Duas dimensões**

Tem-se $p = (x_1, y_1)$ e $q = (x_2, y_2)$, onde a distância é dada por

$$d(p,q) = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}$$

**$n$ dimensões**

Tem-se

- $p = (x_1, x_2, x_3 \dots , x_n)$
- $q = (y_1, y_2, y_3 \dots, y_n)$

Onde generalizando a fórmula bidimensional, tem-se

$$d(p,q) = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + (x_3 - y_3)^2 + \dots + (x_n - y_n)^2}$$
$$d(p,q) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}$$

## Definição do modelo

Partindo de um conjunto $D$ de pontos no espaço para treinamento

$$D = \{(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\}$$

Onde

- $x_i \in \mathbb{R}^d$ é um vetor de características;
- $d$ é o número de dimensões;
- $y_i$ é a classe associada ao vetor de características $x_i$;

Partindo de um ponto $q$, de classe desconhecida, obtém-se a distância euclidiana entre esse ponto e todos os demais pontos de $D$

$$d(x_i, q) = \sqrt{\sum_{j=1}^d (x_{ij} - q_j)^2}$$

Onde

- $x_{ij}$ é a $j$-ésima coordenada do vetor de características $x_i$;
- $q_j$ é a $j$-ésima coordenada do ponto de consulta $q$;

**Classificação**

Para obter a predição $y_q$ do ponto $q$, utiliza-se

$$y_q = \text{moda}(y_{i_1}, y_{i_2}, ..., y_{i_k})$$

Onde $y_{i_1}, y_{i_2}, \dots, y_{i_k}$ são as classes correspondentes aos $k$ pontos mais próximos a $q$. 

**Regressão**

Para problemas de regressão, utiliza-se a média dos valores de saída como a saída prevista, sendo

$$y_q = \frac{1}{k} \sum_{i=1}^k y_{i}$$

In [4]:
params = {
    'n_neighbors': 3,
    'metric': 'euclidean'
}

In [5]:
knn = KNNClassifier(**params)
knn.fit(X_train, y_train)
y_pred_scratch = knn.predict(X_test)

y_pred_scratch[:5]

[2, 0, 2, 0, 1]

## Utilizando a implementação do `sklearn`

In [6]:
clf = KNeighborsClassifier(**params)
clf.fit(X_train, y_train)
y_pred_sklearn = clf.predict(X_test)

## Comparando

In [7]:
# the predictions are equal?
print(all(y_pred_scratch == y_pred_sklearn))

print(classification_report(y_test, y_pred_scratch))

True
              precision    recall  f1-score   support

           0       0.89      0.89      0.89        19
           1       0.75      0.71      0.73        21
           2       0.53      0.57      0.55        14

    accuracy                           0.74        54
   macro avg       0.73      0.73      0.73        54
weighted avg       0.74      0.74      0.74        54

