In [1]:
"""
link do dataset:
https://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis-prediction-dataset/data
"""


'\nlink do dataset:\nhttps://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis-prediction-dataset/data\n'

In [2]:
# imports

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score
from scipy.spatial import distance
import pandas as pd
import numpy as np


In [4]:
# salvar o dataset
df = pd.read_csv("heart.csv")

# separando entre labels e target
data_values = df.iloc[:, :-1].values
data_labels = df.iloc[:, -1:].values

# normalizando os valores
data = (data_values - np.mean(data_values, axis=0)) / np.std(data_values, axis=0)


In [5]:
# Percorrendo o algoritmo KNN com diferentes números de k e métricas

# Separando os dsdos em um conjunto de treinamento e um de teste
train_data, test_data, train_labels, test_labels = train_test_split(data, data_labels, random_state=0)

# Definindo as métricas de distância
metrics = [distance.euclidean, distance.cityblock, distance.minkowski, distance.hamming]

# Valores de k a serem testados
k_values = list(range(1, 21))

accuracy_dict = {}

for metric in metrics:
    accuracy_list = []

    for k in k_values:
        # cria o classificador KNN
        knn = KNeighborsClassifier(n_neighbors=k, metric=metric)

        # realiza a validação cruzada
        scores = cross_val_score(knn, train_data, train_labels.ravel(), cv=5, scoring='accuracy')

        # calcula a acurácia média e coloca na lista
        accuracy_mean = np.mean(scores)
        accuracy_list.append(accuracy_mean)

    accuracy_dict[metric.__name__] = accuracy_list

for metric_name, accuracy_list in accuracy_dict.items():
    print('Métrica de distância:', metric_name)
    for k, accuracy in zip(k_values, accuracy_list):
        print(f'k = {k}, Acurácia média = {accuracy:.3f}')
    print()

Métrica de distância: euclidean
k = 1, Acurácia média = 0.714
k = 2, Acurácia média = 0.749
k = 3, Acurácia média = 0.780
k = 4, Acurácia média = 0.784
k = 5, Acurácia média = 0.806
k = 6, Acurácia média = 0.807
k = 7, Acurácia média = 0.793
k = 8, Acurácia média = 0.807
k = 9, Acurácia média = 0.811
k = 10, Acurácia média = 0.824
k = 11, Acurácia média = 0.815
k = 12, Acurácia média = 0.816
k = 13, Acurácia média = 0.802
k = 14, Acurácia média = 0.824
k = 15, Acurácia média = 0.829
k = 16, Acurácia média = 0.829
k = 17, Acurácia média = 0.833
k = 18, Acurácia média = 0.837
k = 19, Acurácia média = 0.824
k = 20, Acurácia média = 0.833

Métrica de distância: cityblock
k = 1, Acurácia média = 0.749
k = 2, Acurácia média = 0.798
k = 3, Acurácia média = 0.807
k = 4, Acurácia média = 0.794
k = 5, Acurácia média = 0.806
k = 6, Acurácia média = 0.816
k = 7, Acurácia média = 0.820
k = 8, Acurácia média = 0.824
k = 9, Acurácia média = 0.842
k = 10, Acurácia média = 0.833
k = 11, Acurácia média 

In [6]:
# Resultado final de cada métrica de distância com o maior valor de acurácia média

for metric_name, accuracy_list in accuracy_dict.items():
    # encontra o maior valor de acurácia média e qual foi o k correspondente
    max_accuracy = max(accuracy_list)
    max_k = k_values[accuracy_list.index(max_accuracy)]

    print(f'Métrica de distância: {metric_name}')
    print(f'Maior acurácia média: {max_accuracy:.3f} (k = {max_k}) \n')

Métrica de distância: euclidean
Maior acurácia média: 0.837 (k = 18) 

Métrica de distância: cityblock
Maior acurácia média: 0.842 (k = 9) 

Métrica de distância: minkowski
Maior acurácia média: 0.837 (k = 18) 

Métrica de distância: hamming
Maior acurácia média: 0.842 (k = 16) 

