In [53]:
'''
Implementação do KNN
dataset: https://archive.ics.uci.edu/ml/datasets/Haberman%27s+Survival
Descrição do dataset: sobrevivência de pacientes submetidos a cirurgia de câncer de mama
'''

#Lista de amostras
amostras = []

In [54]:
with open('dataset.data', 'r') as f:
    for linha in f.readlines():
        atrib = linha.replace('\n', '').split(',')
        amostras.append([int(atrib[0]), int(atrib[1]), int(atrib[2]), int(atrib[3])])

In [55]:
len(amostras)

306

In [56]:
def info_dataset(amostras, verbose=True):
    if verbose:
        print('Total de amostras: %d' % len(amostras))
    rotulo1, rotulo2 = 0, 0
    for amostra in amostras:
        if amostra[-1] == 1:
            rotulo1 += 1
        else:
            rotulo2 += 1
    if verbose:
        print('Total rótulo 1: %d' % rotulo1)
        print('Total rótulo 2: %d' % rotulo2)
    return[len(amostras), rotulo1, rotulo2]

In [57]:
info_dataset(amostras)

Total de amostras: 306
Total rótulo 1: 225
Total rótulo 2: 81


[306, 225, 81]

In [58]:
p = 0.6
_, rotulo1,rotulo2 = info_dataset(amostras, False)

In [59]:
treinamento, teste = [], []
max_rotulo1, max_rotulo2 = int(p * rotulo1), int(p * rotulo2)
total_rotulo1, total_rotulo2 = 0, 0
for amostra in amostras:
    if(total_rotulo1 + total_rotulo2) < (max_rotulo1 + max_rotulo2):
        treinamento.append(amostra)
        if amostra[-1] == 1 and total_rotulo1 < max_rotulo1:
            total_rotulo1 += 1
        else: 
            total_rotulo2 += 1
    else: 
        teste.append(amostra)

In [60]:
info_dataset(treinamento)

Total de amostras: 183
Total rótulo 1: 132
Total rótulo 2: 51


[183, 132, 51]

In [61]:
info_dataset(teste)

Total de amostras: 123
Total rótulo 1: 93
Total rótulo 2: 30


[123, 93, 30]

In [62]:
info_dataset(amostras)

Total de amostras: 306
Total rótulo 1: 225
Total rótulo 2: 81


[306, 225, 81]

In [63]:
import math

def dis_euc(v1, v2):
    dim, soma = len(v1), 0
    for i in range(dim - 1):
        soma += math.pow(v1[i] - v2[i], 2)
    return math.sqrt(soma)

In [64]:
v1 = [1, 2, 3]
v2 = [2, 1, 3]
dis_euc(v1, v2)

1.4142135623730951

In [65]:
def knn(treinamento, nova_amostra, k):
    dists, tam_treino = {}, len(treinamento)
    #Calcula a distância euclidiana da nova amostra para
    #todos os outros exemplos do conjunto de treinamento
    for i in range(tam_treino):
        d = dis_euc(treinamento[i], nova_amostra)
        dists[i] = d
        
    #obtém as chaves (índices) dos k-vizinhos mais próximos
    k_vizinhos = sorted(dists, key=dists.get)[:k]
    
    #votação majoritária
    qtd_rotulo1, qtd_rotulo2 = 0, 0
    for indice in k_vizinhos:
        if treinamento[indice][-1] == 1:
            qtd_rotulo1 += 1
        else:
            qtd_rotulo2 += 2
            
    if qtd_rotulo1 > qtd_rotulo2:
        return 1
    else: 
        return 2

In [66]:
exemplo = {1:2.34, 2:3.45, 3:0.25, 4:9.8}
sorted(exemplo, key=exemplo.get, reverse=True)[:1]

[4]

In [67]:
print(teste[0])
print(knn(treinamento, teste[0], k=13))

[55, 58, 0, 1]
1


In [68]:
acertos, k = 0, int(math.sqrt(len(treinamento)))
for amostra in teste:
    classe = knn(treinamento, amostra, k)
    if amostra[-1] == classe:
        acertos += 1
        
print('Total de treinamento: %d' % len(treinamento))
print('Total de testes: %d' % len(teste))
print('Total de acertos: %d' % acertos)
print('Porcentagem de acertos: %.2f%%' % (100*acertos/len(teste)))

Total de treinamento: 183
Total de testes: 123
Total de acertos: 84
Porcentagem de acertos: 68.29%


In [76]:
acertos = 0
k = [0, 0]

for i in range(len(treinamento)):
    for amostra in teste:
        classe = knn(treinamento, amostra, i)
        if amostra[-1] == classe:
            acertos += 1
    if k[-1] < acertos:
        k[0] = i
        k[1] = acertos

print('Total de treinamento: %d' % len(treinamento))
print('Total de testes: %d' % len(teste))

acertos = 0
for amostra in teste:
    classe = knn(treinamento, amostra, k[0])
    if amostra[-1] == classe:
        acertos += 1
        
print('Melhor K: %d' % k[0])
print('Melhor porcentagem de acertos: %.2f%%' % (100*acertos/len(teste)))

Total de treinamento: 183
Total de testes: 123
Melhor K: 182
Melhor porcentagem de acertos: 75.61%
