## K-Nearest Neighbors (KNN)

O algoritmo começa selecionando os K vizinhos mais próximos a um novo item que será incluído no conjunto. Para isso, é importante que sejam definidos antecipadamente:

- Uma função de distância, usada para encontrar os visinhos mais próximos
- Um valor para o parâmetro K, que deve, **preferencialmente**, ser um número ímpar

Um valor par acarretaria no **empate** durante a avaliação da quantidade de vizinhos mais próximos, obrigando a implementação de um procedimento de **desempate** no código do modelo, tornando-o mais complexo.

 Um problema clássico para aplicação desse algoritmo é para determinar em qual candidato um eleitor votará nas eleições. Imaginemos que as **únicas informações** que temos de um determinado eleitor seja a de como os seus **vizinhos imediatos** votarão. Para tentar estimar qual será o voto daquela pessoa, na falta de mais informações, poderíamos considerar que o eleitor será influenciado ao máximo pela forma como os seus vizinhos votarão (*efeito manada*). Logo o **K-NN** faz sua estimativa considerando as categorias dos N vizinhos mais próximos e classifica o novo dado da mesma categoria que a **maioria** de seus vizinhos imediatos.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df = pd.read_csv('/kaggle/input/banknotes/bank_note.csv')
#precisou fazer esse fillna pq tava dando erro na hora de fazer a padronização no StandardScaler
df = df.fillna(lambda x: x.median())

In [2]:
#Dividindo o dataset entre treino e teste
from sklearn.model_selection import train_test_split
print(df.shape)
X = df.iloc[:, 0:4]
y = df.iloc[:, 4]
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size = 0.3,
                                                    random_state = 3)


(1372, 5)


In [3]:
#chamando o StandardScaler para padronizar as variáveis
from sklearn.preprocessing import StandardScaler

escalonador = StandardScaler()
X_train = escalonador.fit_transform(X_train)
X_test = escalonador.fit_transform(X_test)

In [4]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

algoritmo = KNeighborsClassifier(n_neighbors = 3)
algoritmo.fit(X_train, y_train)
previsoes = algoritmo.predict(X_test)
matriz_confusao = confusion_matrix(y_test, previsoes)
acuracia = accuracy_score(y_test, previsoes)
print(f'Matriz de Confusão: \n{matriz_confusao}')
print(f'Acuracia do modelo: {acuracia}')

Matriz de Confusão: 
[[239   1]
 [  0 172]]
Acuracia do modelo: 0.9975728155339806
