# KNN
## Algumas execuções usando scikit-learn



Vamos utilizar a implementação da biblioteca K-Nearest Neighbors para descobrir qual o melhor K para o nosso dataset.

O dataset utilizado foi obtido de http://archive.ics.uci.edu/ml/datasets/Haberman's+Survival e apresenta dados sobre a sobrevivência de pacientes que passaram uma cirurgia de câncer de mama.



In [1]:
from sklearn.neighbors import KNeighborsClassifier
import numpy as np
import math

data = np.loadtxt("haberman.data",delimiter=",")
print(data)

[[ 30.  64.   1.   1.]
 [ 30.  62.   3.   1.]
 [ 30.  65.   0.   1.]
 ..., 
 [ 77.  65.   3.   1.]
 [ 78.  65.   1.   2.]
 [ 83.  58.   2.   2.]]


Agora vamos separar os conjuntos de treino e teste

In [2]:
ndata = np.random.permutation(data)

size = len(ndata)
nt = int(math.floor(size*0.7))
trfeatures = ndata[0:nt,0:3]
ttfeatures = ndata[nt:size,0:3]
trlabels = ndata[0:nt,3]
ttlabels = ndata[nt:size,3]

Com os nossos dados separados podemos criar um classificador e treiná-lo

In [3]:
knn3 = KNeighborsClassifier(n_neighbors=3)
knn3.fit(trfeatures, trlabels)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=3, p=2,
           weights='uniform')

Após isso podemos fazer predições:

In [4]:
pred = knn3.predict(ttfeatures)
print(pred)

[ 1.  1.  2.  1.  1.  1.  2.  1.  1.  1.  1.  2.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  2.  2.  1.  1.  1.  1.  1.  2.  1.  2.  1.  1.  1.  1.  2.
  2.  1.  1.  1.  1.  1.  1.  2.  1.  1.  1.  1.  2.  1.  2.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  2.  1.  1.  1.  1.  2.
  1.  1.  2.  1.  1.  1.  1.  2.  1.  1.  2.  1.  1.  1.  1.  1.  2.  1.
  1.  1.]


E avaliá-lo usando score:

In [5]:
knn3.score(ttfeatures,ttlabels)

0.69565217391304346

Agora vamos fazer o mesmo para um knn que utiliza pesos relativos a distâncias:

In [6]:
wknn3 = KNeighborsClassifier(n_neighbors=3,weights='distance')
wknn3.fit(trfeatures, trlabels)
wknn3.score(ttfeatures,ttlabels)

0.68478260869565222

Ou vamos mudar o k para 1:

In [7]:
wknn1 = KNeighborsClassifier(n_neighbors=1,weights='uniform')
wknn1.fit(trfeatures, trlabels)
wknn1.score(ttfeatures,ttlabels)

0.70652173913043481

# Prática

Verifique no intervalo de k = 1 a 10, qual o melhor valor de k e o melhor tipo de pesso a ser utilizado 