# KNN
## Algumas execuções usando scikit-learn



Vamos utilizar a implementação da biblioteca K-Nearest Neighbors para descobrir qual o melhor K para o nosso dataset.

O dataset utilizado foi obtido de http://archive.ics.uci.edu/ml/datasets/Haberman's+Survival e apresenta dados sobre a sobrevivência de pacientes que passaram uma cirurgia de câncer de mama.



In [2]:
from sklearn.neighbors import KNeighborsClassifier
import numpy as np
import math

data = np.loadtxt("haberman.data",delimiter=",")
print(data)

[[ 30.  64.   1.   1.]
 [ 30.  62.   3.   1.]
 [ 30.  65.   0.   1.]
 ..., 
 [ 77.  65.   3.   1.]
 [ 78.  65.   1.   2.]
 [ 83.  58.   2.   2.]]


Agora vamos separar os conjuntos de treino e teste

In [3]:
ndata = np.random.permutation(data)

size = len(ndata)
nt = int(math.floor(size*0.7))
trfeatures = ndata[0:nt,0:3]
ttfeatures = ndata[nt:size,0:3]
trlabels = ndata[0:nt,3]
ttlabels = ndata[nt:size,3]

Com os nossos dados separados podemos criar um classificador e treiná-lo

In [4]:
knn3 = KNeighborsClassifier(n_neighbors=3)
knn3.fit(trfeatures, trlabels)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=3, p=2,
           weights='uniform')

Após isso podemos fazer predições:

In [5]:
pred = knn3.predict(ttfeatures)
print(pred)

[ 1.  2.  1.  2.  2.  2.  1.  1.  2.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  2.  1.  1.  2.  2.  1.  1.  2.  2.  1.
  2.  2.  2.  1.  1.  1.  1.  1.  2.  1.  1.  1.  1.  2.  1.  2.  1.  1.
  2.  1.  2.  1.  2.  1.  2.  1.  1.  1.  2.  2.  2.  2.  2.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  2.  1.  1.  1.  1.  1.
  1.  1.]


E avaliá-lo usando score:

In [6]:
knn3.score(ttfeatures,ttlabels)

0.69565217391304346

Agora vamos fazer o mesmo para um knn que utiliza pesos relativos a distâncias:

In [7]:
wknn3 = KNeighborsClassifier(n_neighbors=3,weights='distance')
wknn3.fit(trfeatures, trlabels)
wknn3.score(ttfeatures,ttlabels)

0.66304347826086951

Ou vamos mudar o k para 1:

In [8]:
wknn1 = KNeighborsClassifier(n_neighbors=1,weights='uniform')
wknn1.fit(trfeatures, trlabels)
wknn1.score(ttfeatures,ttlabels)

0.66304347826086951

# Prática

Verifique no intervalo de k = 1 a 10, qual o melhor valor de k e o melhor tipo de pesso a ser utilizado 

In [19]:
print("K \t Uniform \t Distance")
for k in range(1,11):
    UniformKnnClassifier = KNeighborsClassifier(n_neighbors=k,weights='uniform')
    UniformKnnClassifier.fit(trfeatures, trlabels)
    uScore = UniformKnnClassifier.score(ttfeatures, ttlabels)
    
    DistanceKnnClassifier = KNeighborsClassifier(n_neighbors=k,weights='distance')
    DistanceKnnClassifier.fit(trfeatures, trlabels)
    dScore = DistanceKnnClassifier.score(ttfeatures, ttlabels)
    
    print k,"\t{:f} \t{:f}".format(uScore,dScore) 

K 	 Uniform 	 Distance
1 	0.663043 	0.663043
2 	0.695652 	0.663043
3 	0.695652 	0.663043
4 	0.684783 	0.695652
5 	0.673913 	0.652174
6 	0.728261 	0.695652
7 	0.695652 	0.684783
8 	0.728261 	0.706522
9 	0.728261 	0.684783
10 	0.750000 	0.706522
