In [2]:
'''
Implementação do KNN

dataset:https://archive.ics.uci.edu/ml/machine-learning-databases/haberman/

Descrição do dataset: sobrevivẽncia de pacientes submetidos a cirurgia de câncer de mama 
'''

# lista de amostras 
amostras =  []


In [4]:
with open('haberman.data','r') as f:
    for linha in f.readlines():
        atrib = linha.replace('\n','').split(',')
        amostras.append([int(atrib[0]),int(atrib[1]),int(atrib[2]),int(atrib[3])])

In [6]:
len(amostras)

306

In [7]:
def info_dataset(amostras,verbose=True):
    if verbose:
        print("Total de amostras: %d" %len(amostras))
        
    rotulo1,rotulo2 = 0,0
    for amostra in amostras:
        if amostra[-1] == 1:
            rotulo1 += 1
        else:
            rotulo2 += 1
    if verbose:
        print("Total rotulo 1: %d" % rotulo1)
        print("Total rotulo 2: %d" % rotulo2)
    return [len(amostras),rotulo1,rotulo2]

In [8]:
info_dataset(amostras)

Total de amostras: 306
Total rotulo 1: 225
Total rotulo 2: 81


[306, 225, 81]

In [9]:
p = 0.6
_,rotulo1,rotulo2 = info_dataset(amostras,verbose=False)
print(rotulo1)

225


In [11]:
treinamento,teste = [],[]
max_rot1,max_rot2 = int(p*rotulo1),int(p*rotulo2)
total_rot1,total_rot2 = 0,0
for amostra in amostras:
    if (total_rot1 + total_rot2) < (max_rot1 + max_rot2):
        treinamento.append(amostra)
        if amostra[-1] == 1 and total_rot1 < max_rot1:
            total_rot1 += 1
        else:
            total_rot2 += 1
    else:
        teste.append(amostra)

In [12]:
info_dataset(treinamento)

Total de amostras: 183
Total rotulo 1: 132
Total rotulo 2: 51


[183, 132, 51]

In [13]:
info_dataset(teste)

Total de amostras: 123
Total rotulo 1: 93
Total rotulo 2: 30


[123, 93, 30]

In [14]:
import math

In [17]:
def dist_euclidiana(v1,v2):
    dim,soma = len(v1),0
    
    for i in range(dim -1):
        soma += math.pow(v1[i] - v2[i],2)
        
    return math.sqrt(soma)

In [18]:
#teste da distancia
v1 = [1,2,3]
v2 = [2,1,5]
dist_euclidiana(v1,v2)

1.4142135623730951

In [20]:
def knn (treinamento,nova_amostra,k):
    dists,tam_treino = {},len(treinamento)
    
    #calcula a distancia euclidiana da nova amostra
    #todos os outros exemplos do conjunto de treinamento
    for i in range(tam_treino):
        d = dist_euclidiana(treinamento[i],nova_amostra)
        dists[i] = d
        
    #obtém as chaves(indices) dos k-vizinhos mais proximos
    k_vizinhos = sorted(dists,key=dists.get)[:k]
    
    #votaçao majoritaria
    qtd_rot1,qtd_rot2 = 0,0
    for indice in k_vizinhos:
        if treinamento[indice][-1] == 1:
            qtd_rot1 +=1
        else:
            qtd_rot2 += 1
            
    if qtd_rot1 > qtd_rot2:
        return 1
    else:
        return 2

In [23]:
print(teste[10])
print(knn(treinamento,teste[10],k=13))

[56, 66, 2, 1]
1


In [31]:
acertos,k = 0,15
for amostra in teste:
    classe = knn(treinamento,amostra,k)
    if amostra[-1] == classe:
        acertos += 1
        
print("Total de treinamento: %d" % len(treinamento))
print("Total de teste: %d" % len(teste))
print("Total de acertos: %d" % acertos)
print("Porcentagem de acertos: %.2f" % (100 *acertos / len(teste)))

Total de treinamento: 183
Total de teste: 123
Total de acertos: 93
Porcentagem de acertos: 75.61


In [2]:
# Implementação do KNN com skLearn
from sklearn.neighbors import KNeighborsClassifier

In [3]:
entradas , saidas = [],[]

In [4]:
with open('haberman.data','r') as f:
    for linha in f.readlines():
        atrib = linha.replace('\n','').split(',')
        entradas.append([int(atrib[0]),int(atrib[2])])#lista de lista
        saidas.append(int(atrib[3]))

In [12]:
p = 0.6 #procentagem dos dados para terinamento

limite = int(p * len(entradas))
knn = KNeighborsClassifier(n_neighbors=13)
knn.fit(entradas[:limite],saidas[:limite]) #.fit() faz o treinameto do algoritmo
labels = knn.predict(entradas[limite:]) #faz o teste do algoritmo
acertos,indice_label = 0,0

for i in range(limite,len(entradas)):
    if labels[indice_label] == saidas[i]:
        acertos += 1
    indice_label += 1
    
print('Total de treinamento: %d' % limite)
print("total de testes: %d" %(len(entradas) - limite))
print('Total de acertos: %d' %acertos)
print('Porcentagem de acertos: %.2f' % (100 * acertos / (len(entradas) - limite)))

Total de treinamento: 183
total de testes: 123
Total de acertos: 92
Porcentagem de acertos: 74.80


In [13]:
#implementacao do KNN com NumPy e sklearn

import numpy as np

# x sao entrdas e y sao saidas
x = np.genfromtxt('dataset.data',delimiter=',',usecols=(1,2,3,4))
y = np.genfromtxt('dataset.data',delimiter=',',usecols=(0))
print(len(x))
print(len(y))
print(x)
print(y)

625
625
[[ 1.  1.  1.  1.]
 [ 1.  1.  1.  2.]
 [ 1.  1.  1.  3.]
 ..., 
 [ 5.  5.  5.  3.]
 [ 5.  5.  5.  4.]
 [ 5.  5.  5.  5.]]
[ 2.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.
  3.  3.  3.  3.  3.  3.  3.  1.  2.  3.  3.  3.  2.  3.  3.  3.  3.  3.
  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  1.  1.  2.  3.
  3.  1.  3.  3.  3.  3.  2.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.
  3.  3.  3.  1.  1.  1.  2.  3.  1.  2.  3.  3.  3.  1.  3.  3.  3.  3.
  2.  3.  3.  3.  3.  3.  3.  3.  3.  3.  1.  1.  1.  1.  2.  1.  1.  3.
  3.  3.  1.  3.  3.  3.  3.  1.  3.  3.  3.  3.  2.  3.  3.  3.  3.  1.
  2.  3.  3.  3.  2.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.
  3.  3.  3.  3.  3.  3.  1.  1.  1.  2.  3.  1.  2.  3.  3.  3.  1.  3.
  3.  3.  3.  2.  3.  3.  3.  3.  3.  3.  3.  3.  3.  1.  1.  1.  1.  1.
  1.  1.  2.  3.  3.  1.  2.  3.  3.  3.  1.  3.  3.  3.  3.  1.  3.  3.
  3.  3.  1.  1.  1.  1.  1.  1.  1.  1.  2.  3.  1.  1.  3.  3.  3

In [15]:
from sklearn.model_selection import train_test_split

x_treino,x_teste,y_treino,y_teste = train_test_split(x,y,test_size=0.3,random_state=42)

print(len(x_treino))
x_treino

437


array([[ 2.,  4.,  1.,  5.],
       [ 1.,  4.,  3.,  4.],
       [ 5.,  1.,  5.,  3.],
       ..., 
       [ 3.,  1.,  5.,  1.],
       [ 4.,  3.,  3.,  1.],
       [ 1.,  5.,  1.,  3.]])

In [16]:
y_teste[0]

3.0

In [17]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=17)
knn.fit(x_treino,y_treino)
labels = knn.predict(x_teste)
print(len(labels))
labels

188


array([ 1.,  1.,  1.,  1.,  1.,  1.,  3.,  1.,  1.,  3.,  3.,  3.,  1.,
        3.,  1.,  1.,  3.,  3.,  3.,  1.,  3.,  3.,  3.,  1.,  1.,  1.,
        3.,  1.,  1.,  1.,  1.,  3.,  3.,  1.,  3.,  1.,  1.,  1.,  1.,
        1.,  1.,  3.,  1.,  1.,  3.,  1.,  1.,  3.,  1.,  3.,  1.,  1.,
        3.,  3.,  1.,  1.,  3.,  1.,  1.,  1.,  1.,  1.,  3.,  3.,  1.,
        1.,  3.,  3.,  1.,  1.,  3.,  3.,  3.,  3.,  3.,  1.,  1.,  3.,
        1.,  3.,  3.,  3.,  3.,  1.,  3.,  1.,  1.,  1.,  3.,  1.,  1.,
        1.,  3.,  1.,  1.,  3.,  3.,  3.,  3.,  3.,  1.,  3.,  3.,  3.,
        1.,  1.,  1.,  3.,  3.,  1.,  3.,  1.,  3.,  3.,  1.,  3.,  1.,
        1.,  1.,  1.,  3.,  3.,  1.,  3.,  3.,  3.,  3.,  3.,  1.,  3.,
        1.,  1.,  1.,  3.,  1.,  1.,  1.,  3.,  1.,  1.,  1.,  1.,  3.,
        3.,  1.,  3.,  3.,  1.,  3.,  3.,  3.,  3.,  3.,  1.,  1.,  3.,
        1.,  1.,  3.,  1.,  1.,  3.,  3.,  1.,  1.,  1.,  3.,  1.,  3.,
        3.,  1.,  3.,  3.,  3.,  1.,  1.,  1.,  1.,  3.,  1.,  3

In [19]:
#acertos da classificação
np.sum(labels == y_teste)

163

In [20]:
#procentagem de acertos
100 * (labels == y_teste).sum() / len(x_teste)

86.702127659574472

In [22]:
knn.score(x_teste,y_teste)

0.86702127659574468