# Aprendizagem k-Nearest Neighbors (kNN)

Nesse algortimo a máquina irá prever a classe de um determinado conjunto de dados através da distância (Euclidiana por padrão) entre seu(s) vizinho(s). A quantidade de vizinhos é escolhida através do valor de K (ou n_neighbors, no construtor KNeighborsClassifier).

Esse algoritmo é muito utilizado para gerar recomendações, por exemplo, de filmes na Netflix, uma vez que através das avaliações de uma pessoa ele consegue achar a(s) pessoa(s) com o(s) gosto(s) mais parecido(s) e, logo em seguida, recomendar filmes que essas outras pessoas assistiram mas a pessoa em análise não.

Como o algoritmo se baseia na distância de cada atributo com os seus vizinhos, o escalonamento é essencial para alcançar boas previsões e uma melhor precisão, consequentemente.

In [8]:
import pandas as pd 
import numpy as np

base = pd.read_csv('credit_data.csv')
base.loc[base.age < 0, 'age'] = base['age'].mean()

previsores = base.iloc[:, 1:4]
classe = base.iloc[:, 4]

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
previsores = imputer.fit_transform(previsores)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
previsores = scaler.fit_transform(previsores)

from sklearn.model_selection import train_test_split
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size=0.25, random_state=0)

In [10]:
from sklearn.neighbors import KNeighborsClassifier
### Escolhendo o número de vizinhos (K), utilizando a metrica minkowski (Distancia Euclidiana) com valor default p=2
classificador = KNeighborsClassifier(n_neighbors=5, metric='minkowski', p=2)

classificador.fit(previsores_treinamento, classe_treinamento)
previsoes = classificador.predict(previsores_teste)

In [13]:
from sklearn.metrics import confusion_matrix, accuracy_score
precisao = accuracy_score(classe_teste, previsoes)
matriz = confusion_matrix(classe_teste, previsoes)
print('Precisão: {}%'.format(precisao*100))
print('Matriz de confusão: ')
print(matriz)

Precisão: 98.6%
Matriz de confusão: 
[[432   4]
 [  3  61]]
