In [2]:
'''
Implementação do kNN
dataset: https://archive.ics.uci.edu/ml/datasets/Haberman%27s+Survival
Descrição do dataset: sobrevivência de pacientes submetidos a cirurgia de câncer de mama
'''

# lista de amostras
amostras = []

In [3]:
with open('dataset.data', 'r') as f:
    for linha in f.readlines():
        atrib = linha.replace('\n', '').split(',')
        amostras.append([int(atrib[0]), int(atrib[1]),
                        int(atrib[2]), int(atrib[3])])

In [4]:
len(amostras)

306

In [5]:
def info_dataset(amostras, verbose=True):
    if verbose:
        print('Total de amostras: %d' % len(amostras))
    rotulo1, rotulo2 = 0, 0
    for amostra in amostras:
        if amostra[-1] == 1:
            rotulo1 += 1
        else:
            rotulo2 += 1
    if verbose:
        print('Total rotulo 1: %d' % rotulo1)
        print('Total rotulo 2: %d' % rotulo2)
    return [len(amostras), rotulo1, rotulo2]

In [6]:
info_dataset(amostras)

Total de amostras: 306
Total rotulo 1: 225
Total rotulo 2: 81


[306, 225, 81]

In [7]:
p = 0.6
_, rotulo1, rotulo2 = info_dataset(amostras, verbose=False)

In [8]:
treinamento, teste = [], []
max_rotulo1, max_rotulo2 = int(p * rotulo1), int(p * rotulo2)
total_rotulo1, total_rotulo2 = 0, 0
for amostra in amostras:
    if (total_rotulo1 + total_rotulo2) < (max_rotulo1 + max_rotulo2):
        treinamento.append(amostra)
        if amostra[-1] == 1 and total_rotulo1 < max_rotulo1:
            total_rotulo1 += 1
        else:
            total_rotulo2 += 1
    else:
        teste.append(amostra)

In [9]:
info_dataset(treinamento)

Total de amostras: 183
Total rotulo 1: 132
Total rotulo 2: 51


[183, 132, 51]

In [10]:
info_dataset(teste)

Total de amostras: 123
Total rotulo 1: 93
Total rotulo 2: 30


[123, 93, 30]

In [12]:
info_dataset(amostras)

Total de amostras: 306
Total rotulo 1: 225
Total rotulo 2: 81


[306, 225, 81]

In [13]:
import math

In [14]:
def dist_euclidiana(v1, v2):
    dim, soma = len(v1), 0
    for i in range(dim - 1):
        soma += math.pow(v1[i] - v2[i], 2)
    return math.sqrt(soma)

In [17]:
# teste da distância euclidiana
v1 = [1, 2, 3]
v2 = [2, 1, 5]
dist_euclidiana(v1, v2)

1.4142135623730951

In [22]:
def knn(treinamento, nova_amostra, K):
    dists, tam_treino = {}, len(treinamento)
    # calcula a distância euclidiana da nova amostra para
    # todos os outros exemplos do conjunto de treinamento
    for i in range(tam_treino):
        d = dist_euclidiana(treinamento[i], nova_amostra)
        dists[i] = d
        
    # obtém as chaves (índices) dos k-vizinhos mais próximos
    k_vizinhos = sorted(dists, key=dists.get)[:K]
    
    # votação majoritária
    qtd_rotulo1, qtd_rotulo2 = 0, 0
    for indice in k_vizinhos:
        if treinamento[indice][-1] == 1:
            qtd_rotulo1 += 1
        else:
            qtd_rotulo2 += 1
            
    if qtd_rotulo1 > qtd_rotulo2:
        return 1
    else:
        return 2

In [25]:
print(teste[10])
print(knn(treinamento, teste[0], K=13))

[56, 66, 2, 1]
1


In [29]:
acertos, K = 0, 15
for amostra in teste:
    classe = knn(treinamento, amostra, K)
    if amostra[-1] == classe:
        acertos += 1
        
print('Total de treinamento: %d' % len(treinamento))
print('Total de testes: %d' % len(teste))
print('Total de acertos: %d' % acertos)
print('Porcentagem de acertos: %.2f%%' % (100 * acertos / len(teste)))

Total de treinamento: 183
Total de testes: 123
Total de acertos: 93
Porcentagem de acertos: 75.61%
