In [17]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score
from scipy.spatial import distance
import pandas as pd
import numpy as np

## Pré-processamento dos dados

In [18]:
#Lendo o banco de dados
df = pd.read_csv("Cancer_Data.csv")

#Separando os labels e os valores
dataValues = df.iloc[:, 2:-1].values
dataLabels = df.iloc[:, 1:2].values


#Normalizando os valores antes de realizar o treino
data = (dataValues - np.mean(dataValues, axis=0)) / np.std(dataValues, axis=0)

#Percorrendo o algoritmo KNN com diferentes números de k e métricas

In [19]:
# divide os dados em conjunto de treinamento e conjunto de teste
X_train, X_test, y_train, y_test = train_test_split(data, dataLabels, random_state=0)

# define as métricas de distância
metrics = [distance.euclidean, distance.cityblock, distance.minkowski, distance.hamming]

# lista com os valores de k a serem testados
k_values = list(range(1, 16))

accuracy_dict = {}

for metric in metrics:
    accuracy_list = []
    
    for k in k_values:
        # cria o classificador KNN
        knn = KNeighborsClassifier(n_neighbors=k, metric=metric)
        
        # realiza a validação cruzada
        scores = cross_val_score(knn, X_train, y_train.ravel(), cv=5, scoring='accuracy')
        
        # calcula a acurácia média e coloca na lista
        accuracy_mean = np.mean(scores)
        accuracy_list.append(accuracy_mean)
    
    accuracy_dict[metric.__name__] = accuracy_list
    
for metric_name, accuracy_list in accuracy_dict.items():
    print('Métrica de distância:', metric_name)
    for k, accuracy in zip(k_values, accuracy_list):
        print(f'k = {k}, Acurácia média = {accuracy:.3f}')
    print()

Métrica de distância: euclidean
k = 1, Acurácia média = 0.948
k = 2, Acurácia média = 0.948
k = 3, Acurácia média = 0.960
k = 4, Acurácia média = 0.960
k = 5, Acurácia média = 0.962
k = 6, Acurácia média = 0.960
k = 7, Acurácia média = 0.962
k = 8, Acurácia média = 0.965
k = 9, Acurácia média = 0.963
k = 10, Acurácia média = 0.958
k = 11, Acurácia média = 0.955
k = 12, Acurácia média = 0.951
k = 13, Acurácia média = 0.953
k = 14, Acurácia média = 0.953
k = 15, Acurácia média = 0.960

Métrica de distância: cityblock
k = 1, Acurácia média = 0.953
k = 2, Acurácia média = 0.953
k = 3, Acurácia média = 0.965
k = 4, Acurácia média = 0.960
k = 5, Acurácia média = 0.965
k = 6, Acurácia média = 0.960
k = 7, Acurácia média = 0.963
k = 8, Acurácia média = 0.960
k = 9, Acurácia média = 0.965
k = 10, Acurácia média = 0.958
k = 11, Acurácia média = 0.958
k = 12, Acurácia média = 0.953
k = 13, Acurácia média = 0.955
k = 14, Acurácia média = 0.951
k = 15, Acurácia média = 0.955

Métrica de distância: 

#Resultado final de cada métrica de distância com o maior valor de acurácia média

In [20]:
for metric_name, accuracy_list in accuracy_dict.items():
    # encontra o maior valor de acurácia média e qual foi o k correspondente
    max_accuracy = max(accuracy_list)
    max_k = k_values[accuracy_list.index(max_accuracy)]
    
    print(f'Métrica de distância: {metric_name}')
    print(f'Maior acurácia média: {max_accuracy:.3f} (k = {max_k}) \n')

Métrica de distância: euclidean
Maior acurácia média: 0.965 (k = 8) 

Métrica de distância: cityblock
Maior acurácia média: 0.965 (k = 9) 

Métrica de distância: minkowski
Maior acurácia média: 0.965 (k = 8) 

Métrica de distância: hamming
Maior acurácia média: 0.688 (k = 6) 

