In [19]:
'''
Implementação kNN
dataset: https://archive.ics.uci.edu/ml/datasets/Haberman%27s+Survival
Descrição do Dataset: Sobrevivência de pacientes submetidos a cirurgia de câncer de mama
'''

# lista de amostras
amostras = []


In [20]:
with open('haberman.data', 'r') as f:
    for linha in f.readlines():
        atrib = linha.replace('\n', '').split(',')
        
        # atributes
        age = int(atrib[0])
        operationYear = int(atrib[1])
        nodesNumber = int(atrib[2])
        survivorStatus = int(atrib[3])
        
        amostras.append([age, operationYear, nodesNumber, survivorStatus])
        

In [21]:
len(amostras)

306

In [25]:
def info_dataset(amostras, verbose=True):
    if verbose:
        print("TOTAL DE AMOSTRAS: %d" % len(amostras))

    rotulo1,rotulo2 = 0,0
    
    for amostra in amostras:
        if amostra[-1] == 1: # pega o survivorStatus de cada linha da amostra
            rotulo1 += 1
        else:
            rotulo2 += 1
    
    if verbose:
        print('Total rotulo 1: %d VIVERAM MAIS DE 5 ANOS' % rotulo1)
        print('Total rotulo 2: %d MORRERAM' % rotulo2)
        
    return [len(amostras), rotulo1, rotulo2]

        

In [26]:
info_dataset(amostras)

TOTAL DE AMOSTRAS: 306
Total rotulo 1: 225 VIVERAM MAIS DE 5 ANOS
Total rotulo 2: 81 MORRERAM


[306, 225, 81]

In [30]:
p = 0.6 # Percentual utilizado para teste
_, rotulo1, rotulo2 = info_dataset(amostras, verbose=False)

In [36]:
treinamento, teste = [], [] # rotulo == atributos
max_rotulo1, max_rotulo2 = int(p* rotulo1), int(p * rotulo2) # percentual do parametro 1 e 2
total_rotulo1, total_rotulo2 = 0,0
for amostra in amostras:
    if (total_rotulo1 + total_rotulo2) < (max_rotulo1 + max_rotulo2):
        treinamento.append(amostra)
        if amostra[-1] == 1 and total_rotulo1 < max_rotulo1:
            total_rotulo1 += 1
        else:
            total_rotulo2 += 1
    else:
        teste.append(amostra)

In [37]:
print(len(treinamento))

183


In [38]:
info_dataset(teste)

TOTAL DE AMOSTRAS: 123
Total rotulo 1: 93 VIVERAM MAIS DE 5 ANOS
Total rotulo 2: 30 MORRERAM


[123, 93, 30]

In [39]:
info_dataset(teste)
info_dataset(amostras)

TOTAL DE AMOSTRAS: 123
Total rotulo 1: 93 VIVERAM MAIS DE 5 ANOS
Total rotulo 2: 30 MORRERAM
TOTAL DE AMOSTRAS: 306
Total rotulo 1: 225 VIVERAM MAIS DE 5 ANOS
Total rotulo 2: 81 MORRERAM


[306, 225, 81]

In [40]:
import math

In [41]:
def dist_euclidiana(v1, v2):
    dim, soma = len(v1), 0
    for i in range(dim - 1): # pois não quero pegar a saída, se ele morreu ou não
        soma += math.pow(v1[i] - v2[i], 2)
    return math.sqrt(soma)

In [42]:
# teste da distancia euclidiana
v1 = [1,2,3]
v2 = [2,1,3]
dist_euclidiana(v1,v2)

1.4142135623730951

In [49]:
# Calculando o kNN
def knn(treinamento, nova_amostra, K):
    # chave seja o indice e valor a própria distancia
    dists, tam_treino = {}, len(treinamento)

    # calcula a distancia euclidiana da nova amostra para
    # todos os outros exemplos do conjunto de treinamento
    for i in range(tam_treino):
        d = dist_euclidiana(treinamento[i], nova_amostra)
        dists[i] = d
        
        
    # Pegar os K vizinhos mais próximos, os que tem menor distancia
    # obtém as chaves (índices)
    k_vizinhos = sorted(dists, key=dists.get)[:K]
    
    #votação amjoritária
    qtd_rotulo1, qtd_rotulo2 = 0,0
    for indice in k_vizinhos:
        if treinamento[indice][-1] == 1: # viveu
            qtd_rotulo1 += 1
        else:
            qtd_rotulo2 += 1 # morreu
    
    if qtd_rotulo1 > qtd_rotulo2: # existir mais viveu então é viveu
        return 1
    else: # se existir mais morreu então morreu
        return 2
    
    

In [56]:
print("UM DOS CASOS NOVOS: ", teste[0])
print("PREVISAO DO CASO NOVO: ", knn(treinamento, teste[0], K=13))

UM DOS CASOS NOVOS:  [55, 58, 0, 1]
PREVISAO DO CASO NOVO:  1


In [73]:
acertos, K = 0, 15
for amostra in teste:
    classe = knn(treinamento, amostra, K)
    if amostra[-1] == classe:
        acertos += 1
        
print('Total de treinamento %d' % len(treinamento))
print('Total de testes %d' % len(teste))
print('Total de acertos %d'% acertos)
print('Porcentagem de acertos: %.2f%%' % (100 * acertos / len(teste)))


Total de treinamento 183
Total de testes 123
Total de acertos 93
Porcentagem de acertos: 75.61%


In [None]:
## Implementação com sklearn

1


In [47]:
# ordena por uma chave do dicionário e pega os dois primeiros
d = {1:2.34, 2:3.45, 3:0.25, 4:9.8}
sorted(d, key=d.get)[:2] 
# caso quisesse os maiores, então reverse=True


[3, 1]