# Nearest Neighbors Classification

A classificação baseada em vizinhos é um tipo de aprendizado que se baseia em intâncias : não tenta construir um modelo interno geral, mas simplesmente armazena instâncias dos dados de treinamento. A classificação é calculada a partir de uma votação simples dos vizinhos mais próximos de cada ponto.

A classificação básica de vizinhos mais próximos usa pesos uniformes: o valor atribuído a um ponto é calculado a partir de uma votação simples por maioria  dos vizinhos mais próximos. Em algumas circunstâncias, é melhor ponderar os vizinhos de tal forma que os vizinhos mais próximos contribuam mais para o ajuste.

[documentacao](http://scikit-learn.org/stable/modules/neighbors.html#classification)


# KNeighborsClassifier

É um algorítmo classificador que implementa o voto entre os k vizinhos mais próximos. 

[documentacao](http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)

# Importando os módulos necessários

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.feature_selection import VarianceThreshold

# Importando os dados do arquivo csv (apenas as 100000 observações finais do arquivo)

In [2]:
t = np.genfromtxt('SUSY.csv', delimiter=',', usecols=(9,10,11,12,13,14,15,16,17,18), skip_footer=4900000)
v = np.genfromtxt('SUSY.csv', delimiter=',', usecols=(0), skip_footer=4900000)

# Seletor de features que remove todas as que possuem baixa variação

In [5]:
sel = VarianceThreshold(threshold=(.9 * (1 - .9)))
dataset_susy = sel.fit_transform(t)

# Define parcela de treino e de teste dos dados (30% teste, 70% treino)


In [6]:
dataset_susy[0,:]

t_treino, t_teste, v_treino, v_teste = train_test_split(dataset_susy, v, test_size=0.3, random_state=0)


# Testa o KNeighborsClassifier variando o número de vizinhos para comparar a acurácia

In [7]:
for i in range(1, 19):
    knn = KNeighborsClassifier(n_neighbors=i, p=2)
    knn.fit(t_treino, v_treino)
    labels = knn.predict(t_teste)
    print("{} : {}".format(i, knn.score(t_teste, v_teste)))

1 : 0.7100666666666666
2 : 0.7316333333333334
3 : 0.7428333333333333
4 : 0.7538666666666667
5 : 0.7570666666666667
6 : 0.7621666666666667
7 : 0.7650666666666667
8 : 0.7683666666666666
9 : 0.7690666666666667
10 : 0.7701
11 : 0.7734333333333333
12 : 0.7731
13 : 0.7745
14 : 0.7739333333333334
15 : 0.7762
16 : 0.7758333333333334
17 : 0.7783333333333333
18 : 0.7772333333333333
