# Passo 1: Importar as Bibliotecas

In [20]:
import numpy as np
import pandas as pd
import json


from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

# Passo 2: Carregamento do Conjunto de Dados

In [2]:
# Carregando o conjunto de dados da base cardiovascular.
df = pd.read_csv('cardio_train.csv', sep=';')

# Ajustando os valores incorretos na base de dados
for x in df['ap_hi'].unique():
    
    if x > 300 and len(str(x)) <= 4:
        df['ap_hi'].replace(x, int(x/10), inplace=True)
        
    if x > 300 and len(str(x)) == 5:
        df['ap_hi'].replace(x, int(x/100), inplace=True)
        
for x in df['ap_lo'].unique():
    if x > 300 and len(str(x)) == 3:
        df['ap_lo'].replace(x, int(x/10), inplace=True)
        
    if x > 300 and len(str(x)) == 4:  
        if int(x/10) > 190:
            df['ap_lo'].replace(x, int(x/100), inplace=True)
        else:
            df['ap_lo'].replace(x, int(x/10), inplace=True)
            
    if x > 300 and len(str(x)) == 5:
        df['ap_lo'].replace(x, int(x/100), inplace=True)
        
df['age'] = df['age'] / 365
df['age'] = df['age'].astype('int64')


X = df[['age','weight','ap_hi','ap_lo','cholesterol']] # Matriz de características
y = df.cardio  # Vetor de rótulos
df

Unnamed: 0,id,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
0,0,50,2,168,62.0,110,80,1,1,0,0,1,0
1,1,55,1,156,85.0,140,90,3,1,0,0,1,1
2,2,51,1,165,64.0,130,70,3,1,0,0,0,1
3,3,48,2,169,82.0,150,100,1,1,0,0,1,1
4,4,47,1,156,56.0,100,60,1,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
69902,99993,52,2,168,76.0,120,80,1,1,1,0,1,0
69903,99995,61,1,158,126.0,140,90,2,2,0,0,1,1
69904,99996,52,2,183,105.0,180,90,3,1,0,1,0,1
69905,99998,61,1,163,72.0,135,80,1,2,0,0,0,1


Visualizando os dados do resultado

In [3]:
display(y)

0        0
1        1
2        1
3        1
4        0
        ..
69902    0
69903    1
69904    1
69905    1
69906    0
Name: cardio, Length: 69907, dtype: int64

# Passo 3: Divisão dos Dados em Treinamento e Teste

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Passo 4: Pré-processamento dos Dados

In [5]:
# Normalização das características
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Passo 5: Criação e Treinamento do Modelo KNN

In [6]:
k = 20  # Valor de K (número de vizinhos)
knn = KNeighborsClassifier(n_neighbors=k, metric='euclidean', algorithm='brute')
knn.fit(X_train, y_train)

# Passo 6: Fazendo Previsões

In [7]:
y_pred = knn.predict(X_test)

# Passo 7: Avaliação do Modelo

In [8]:
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)
print("Acurácia:", accuracy)
print("Relatório de Classificação:\n", report)


Acurácia: 0.7241691698850904
Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.70      0.77      0.74     10440
           1       0.75      0.67      0.71     10533

    accuracy                           0.72     20973
   macro avg       0.73      0.72      0.72     20973
weighted avg       0.73      0.72      0.72     20973



# Passo 8: Ajustando o Valor de K

In [9]:
# Ajustar o valor de K para encontrar o melhor valor
accuracy_scores = []

for k in range(1, 21):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    accuracy_scores.append(accuracy)
    print("Acurácia com "+str(k), accuracy)

# Encontrar o valor de K com a maior acurácia
best_k = np.argmax(accuracy_scores) + 1
print("Melhor valor de K:", best_k)


Acurácia com 1 0.6423496876937014
Acurácia com 2 0.6473561245410766
Acurácia com 3 0.6854050445811282
Acurácia com 4 0.6859772087922568
Acurácia com 5 0.6952748772230963
Acurácia com 6 0.7016640442473656
Acurácia com 7 0.7075764077623611
Acurácia com 8 0.7113908358365517
Acurácia com 9 0.7128212463643733
Acurácia com 10 0.7160635102274353
Acurácia com 11 0.7158251084727983
Acurácia com 12 0.7177800028608211
Acurácia com 13 0.7205931435655366
Acurácia com 14 0.7217374719877938
Acurácia com 15 0.7210699470748104
Acurácia com 16 0.7224526772517046
Acurácia com 17 0.7205931435655366
Acurácia com 18 0.7220235540933582
Acurácia com 19 0.7223573165498498
Acurácia com 20 0.7227387593572688
Melhor valor de K: 20


In [29]:
def resultado_arquivo(resultado):
    with open('resultado_exame.json', 'w') as arquivo:
        arquivo.write(str(resultado))

    return resultado

def detectar_cardio(caracteristicas):

    carac_padronizados = scaler.transform(caracteristicas)

    # Realize a previsão usando o modelo KNN
    previsao = knn.predict(carac_padronizados)

    # Mapeie o resultado da previsão de volta para a descrição do possivel resultado da situação do coração.
    mapeamento_classes = {
        0: 'Conforme análise, não temos ríscos de doenças cardíacas no momento.',
        1: 'Conforme análise, temos ríscos de doenças cardíacas.',
    }

    # Retorne o diagnóstico
    return mapeamento_classes[previsao[0]], previsao[0]

In [33]:
#Idade, Peso, Pressão Arterial sistólica, Pressão arterial diastólica, colesterol
caracteristicas = [[25,90,200,200,90]]
resultado, indica = detectar_cardio(caracteristicas)
print(resultado)
print(indica)
resultado_arquivo(indica)

Conforme análise, temos ríscos de doenças cardíacas.
1




1