# README

# Machine Learning For Heart Attack Prediction

## PT-BR

### Autora

Jéssica Raissa Pessoa - Bacharelanda em Ciência da Computação (FPB) e mestra em Comunicação e Culturas Midiáticas (UFPB)

- Link do meu perfil no Github: [https://github.com/jessicaraissapessoa](https://github.com/jessicaraissapessoa)
- Link do notebook desse trabalho no Kaggle: [https://www.kaggle.com/code/jssicaraissa/heart-attack-prediction-with-machine-learning](https://www.kaggle.com/code/jssicaraissa/heart-attack-prediction-with-machine-learning)
- Link do repositório Github desse trabalho: [https://github.com/jessicaraissapessoa/MachineLearningForHeartPredictionAttack](https://github.com/jessicaraissapessoa/MachineLearningForHeartPredictionAttack)

### Descrição

Esse trabalho é um estudo aplicando modelos de machine learning para previsão de valores. O dataset utilizado apresenta dados de exames de coração de pacientes, com objetivo de traçar fatores que possam estar relacionado à uma maior ou menor chance de ataque cardíaco.

Link do dataset: [https://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis-prediction-dataset](https://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis-prediction-dataset)
Visto que a variável alvo possui como valores as categorias 0 (menor chance) e 1 (maior chance), trata-se de um contexto de aplicação de modelos com algoritmo de classificação. Foi aplicado aprendizado supervisionado.

Modelos de machine learning aplicados:

- Logistic Regression
- K-Nearest Neighbors (KNN)
- Support Vector Classifier (SVC)
- Random Forest Classifier
- Decision Tree Classifier
- Multi-Layer Perceptron Classifier (MLP Classifier)

### Objetivo

- Aplicar, na prática, conhecimentos de machine learning
- Analisar dados, obter insights e identificar padrões e relações entre valores obtidos em exames de coração e a probabilidade de ataque cardíaco

### Variáveis preditoras (utilizadas para predição - x)

A partir do mapa de calor, foi determinado que as seguintes variáveis apresentavam correlação mais interessante, sendo, portanto, as selecionadas:

- cp: tipo da dor no peito (chest pain - cp)
  - 1: angina típica
  - 2: angina atípica
  - 3: dor não anginosa
  - 4: assintomático
- thalachh: frequência cardíaca máxima alcançada
- slp: declive
- oldpeak: pico anterior
- exng: angina induzida por exercício
  - 1: sim
  - 2: não

### Variável alvo (a ser prevista - y)

- target: chance de ataque cardíaco
  - 0: menor chance
  - 1: maior chance

## EN-US

### Author

Jéssica Raissa Pessoa - Bachelor's degree student in Computer Science (FPB) and Master's in Communication and Media Cultures (UFPB)

- Link to my Github profile: [https://github.com/jessicaraissapessoa](https://github.com/jessicaraissapessoa)
- Link to the notebook of this work on Kaggle: [https://www.kaggle.com/code/jssicaraissa/heart-attack-prediction-with-machine-learning](https://www.kaggle.com/code/jssicaraissa/heart-attack-prediction-with-machine-learning)
- Link to the Github repository of this work: [https://github.com/jessicaraissapessoa/MachineLearningForHeartPredictionAttack](https://github.com/jessicaraissapessoa/MachineLearningForHeartPredictionAttack)

### Description

This work is a study applying machine learning models for value prediction. The dataset used presents heart exam data from patients, aiming to determine factors that may be related to a higher or lower chance of a heart attack.

Link to the dataset: [https://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis-prediction-dataset](https://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis-prediction-dataset)
Given that the target variable has values of 0 (lower chance) and 1 (higher chance), this is a context for applying models with a classification algorithm. Supervised learning was applied.

Machine learning models applied:

- Logistic Regression
- K-Nearest Neighbors (KNN)
- Support Vector Classifier (SVC)
- Random Forest Classifier
- Decision Tree Classifier
- Multi-Layer Perceptron Classifier (MLP Classifier)

### Objective

- Practically apply machine learning knowledge
- Analyze data, gain insights, and identify patterns and relationships between heart exam results and the probability of a heart attack

### Predictor variables (used for prediction - x)

From the heatmap, it was determined that the following variables had the most interesting correlation and were therefore selected:

- cp: type of chest pain
  - 1: typical angina
  - 2: atypical angina
  - 3: non-anginal pain
  - 4: asymptomatic
- thalachh: maximum heart rate achieved
- slp: slope
- oldpeak: previous peak
- exng: exercise-induced angina
  - 1: yes
  - 2: no

### Target variable (to be predicted - y)

- target: chance of heart attack
  - 0: lower chance
  - 1: higher chance

# Importações e leitura de CSV

In [None]:
# Bibliotecas para manipulação e computação de dados
import pandas as pd  # Manipulação e análise de dados tabulares, permite leitura de arquivos CSV.
import numpy as np  # Computação numérica com arrays e operações matemáticas otimizadas.

# Bibliotecas para visualização de dados
import matplotlib.pyplot as plt  # Criação de gráficos e visualizações de dados.
import seaborn as sns  # Visualizações estatísticas avançadas.

# Biblioteca para pré-processamento de dados
from sklearn import preprocessing  # Funções para normalização, codificação e outras transformações de dados.

# Biblioteca para divisão e validação dos dados
import warnings  # Ignorar avisos que não são críticos para execução, como FutureWarnings
from sklearn.model_selection import train_test_split, cross_val_score  # Funções para dividir dados e realizar validação cruzada.

# Bibliotecas de modelos de Machine Learning (classificadores)
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

# Bibliotecas para cálculo de métricas de desempenho dos modelos
from sklearn.metrics import accuracy_score, classification_report, mean_squared_error, r2_score, confusion_matrix



# Leitura do CSV
data = pd.read_csv('/kaggle/input/heart-attack-analysis-prediction-dataset/heart.csv')

print('-----------------------------------------------------------------------------------------------------')
print(f'PRIMEIROS 5 REGISTROS DO DATASET DEFINIDO:\n\n{data.head()}\n') # Visão rápida do dataset definido (5 primeiros registros)
print('-----------------------------------------------------------------------------------------------------')

In [None]:
# DataShape (dimensões do DataFrame): número de linhas (entradas) por número de colunas (variáveis)
print(f'Data Shape (entradas, variáveis): {data.shape}')

# Averiguando infinitos / duplicados / nulos
print(f'Quantidade de valores infinitos: {(data == np.inf).sum().sum() + (data == -np.inf).sum().sum()}')
print(f'Quantidade de valores duplicados: {data.duplicated().sum()}')
print(f'Quantidade de registros com valor nulo: {data.isnull().sum().sum()}')
if (data.isnull().sum().sum() != 0):
    colunas_nulas = data.isnull().sum().sum()
    print('Colunas com valores nulos: \n' + colunas_nulas[colunas_nulas > 0])

# Retorna os dados: Número de linhas; número de colunas; nome das colunas; contagem de não-nulos de cada coluna; tipo de dado de cada coluna; uso de memória
print('\n-----------------------------------------------------------------------------------------------------')
print(f'DATA INFO:\n')
data.info()

# count -> Número de valores não-nulas de cada coluna
# mean -> Média aritmética dos valores de cada coluna (para colunas com valores numéricos)
# std -> Desvio padrão (medida de dispersão dos dados) de cada coluna, para colunas com valores numéricos
# min -> Mínimo (menor valor encontrado) para cada coluna, para colunas com valores numéricos
# 25% / 50% (mediana) / 75% -> Percentis (indicadores de distribuição dos dados)
# max -> Máximo (Maior valor encontrado) de cada coluna, para colunas com valores munéricos
print('\n-----------------------------------------------------------------------------------------------------')
print(f'DATA DESCRIBE:\n\n{data.describe()}')
print('\n-----------------------------------------------------------------------------------------------------')

# Ignora avisos de FutureWarning
with warnings.catch_warnings():
    warnings.simplefilter("ignore", FutureWarning)
    
    # Substitui valores infinitos por NaN
    data.replace([np.inf, -np.inf], np.nan, inplace=True)

    # Criação de um mapa de calor (heatmap)
    plt.figure(figsize=(16,10))
    sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
    plt.show()

    # Visualização da distribuição dos valores por variável
    for column in data.columns:
        plt.figure(figsize=(4, 1))
        sns.histplot(data[column], bins=20, kde=True, color='blue')
        plt.title(f'Distribuição dos Registros de {column}')
        plt.xlabel(column)
        plt.ylabel('Frequência')
        plt.show()

# Aplicação de machine learning

In [None]:
# Definindo x e y
x = data[['cp', 'thalachh', 'slp', 'oldpeak', 'exng']] #Variáveis cujos valores serão utilizadas para previsão
y = data['output'] #Variável cujos valores serão previstos

# Dividindo o conjunto de dados em treino e teste
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

# Aplicando diferentes modelos
modelos = {
    'Logistic Regression': LogisticRegression(random_state=42, max_iter=1000),
    'Random Forest Classifier': RandomForestClassifier(n_estimators=50, max_depth=5, random_state=42),
    'Decision Tree Classifier': DecisionTreeClassifier(max_depth=5, random_state=42),
    'K-Nearest Neighbors (KNN)': KNeighborsClassifier(n_neighbors=5),
    'Support Vector Classifier (SVC)': SVC(random_state=42),
    'Rede Neural (MLP Classifier)': MLPClassifier(max_iter=1000, random_state=42)
}

for nome, modelo in modelos.items():
    print('\n-----------------------------------------------------------------------------------------------------')
    print(f'MODELO: {nome}') # Visão rápida do dataset definido (5 primeiros registros)
    print('-----------------------------------------------------------------------------------------------------\n')

    # Ajustando o modelo aos dados de treino
    modelo.fit(x_train, y_train)

    # Fazendo previsões com os dados de teste
    y_pred = modelo.predict(x_test)
    
    # Métricas
    
    accuracy = accuracy_score(y_test, y_pred)
    
    conf_matrix = confusion_matrix(y_test, y_pred)
    acertou_zero = conf_matrix[0, 0]  # Previu 0 corretamente
    acertou_um = conf_matrix[1, 1]  # Previu 1 corretamente
    errou_um = conf_matrix[1, 0]  # Previu 0 quando era 1
    errou_zero = conf_matrix[0, 1]  # Previu 1 quando era 0
    
    report = classification_report(y_test, y_pred, output_dict=True)
    precision_0 = report['0']['precision']
    recall_0 = report['0']['recall']
    f1_0 = report['0']['f1-score']
    precision_1 = report['1']['precision']
    recall_1 = report['1']['recall']
    f1_1 = report['1']['f1-score']
    
    # Imprimindo resultados das métricas
    
    print(f'Acurácia geral: {accuracy}')    
    print(f'\nMatriz de confusão:')    
    print(f'- Previu 0 corretamente (TN): {acertou_zero}')
    print(f'- Previu 1 corretamente (TP): {acertou_um}')
    print(f'- Previu 0 quando era 1 (FN): {errou_um}')
    print(f'- Previu 1 quando era 0 (FP): {errou_zero}')
    
    print(f'\nRelatório de Classificação:')
    print(f'- Precisão para classe 0: {precision_0:.2f}')
    print(f'- Recall para classe 0: {recall_0:.2f}')
    print(f'- F1-score para classe 0: {f1_0:.2f}')
    print(f'- Precisão para classe 1: {precision_1:.2f}')
    print(f'- Recall para classe 1: {recall_1:.2f}')
    print(f'- F1-score para classe 1: {f1_1:.2f}')

In [None]:
# Fazendo previsões com valores inputados
# Modelos com melhor desempenho: Logistic Regression e Rede Neural

# Dados de entrada para a previsão
input_data = {'cp': 3, 'thalachh': 187, 'slp': 2, 'oldpeak': 2.3, 'exng': 1}  # 'cp', 'thalachh', 'slp', 'oldpeak', 'exng'
input_data = pd.DataFrame([input_data])

print('\n-----------------------------------------------------------------------------------------------------')
print('PREVISÃO COM VALORES INPUTADOS PARA 2 MODELOS COM MELHOR DESEMPENHO')
print('-----------------------------------------------------------------------------------------------------\n')

# Fazendo a previsão com Logistic Regression (usando o modelo já treinado)
predicted_output_lr = modelos['Logistic Regression'].predict(input_data)[0]
print(f"Previsão com Logistic Regression: {predicted_output_lr} ({'maior' if predicted_output_lr == 1 else 'menor'} chance de ataque cardíaco)")

# Fazendo a previsão com Rede Neural (usando o modelo já treinado)
predicted_output_mlp = modelos['Rede Neural (MLP Classifier)'].predict(input_data)[0]
print(f"Previsão com Rede Neural (MLP Classifier): {predicted_output_mlp} ({'maior' if predicted_output_mlp == 1 else 'menor'} chance de ataque cardíaco)\n")

# Comparando os resultados das previsões dos dois modelos
if predicted_output_lr == predicted_output_mlp:
    # Caso os modelos realizem mesma previsão
    print(f"Os dois modelos realizaram a mesma previsão: {predicted_output_lr} ({'maior' if predicted_output_lr == 1 else 'menor'} chance)")
else:
    # Caso os modelos realizem previsões distintas
    print(f"Os dois modelos realizaram previsões distintas: Logistic Regression previu {predicted_output_lr} ({'maior' if predicted_output_lr == 1 else 'menor'} chance), enquanto Rede Neural previu {predicted_output_mlp} ({'maior' if predicted_output_mlp == 1 else 'menor'} chance)")

print('\n-----------------------------------------------------------------------------------------------------')
print('PREVISÃO COM VALORES INPUTADOS PARA TODOS OS MODELOS')
print('-----------------------------------------------------------------------------------------------------')

# Comparando os resultados das previsões entre todos os modelos

previsoes_0 = len([previsao for previsao in resultados_previsao.values() if previsao == 0]) # Contador de modelos  que previram 0
previsoes_1 = len([previsao for previsao in resultados_previsao.values() if previsao == 1]) # Contador de modelos  que previram 1
total_modelos = len(modelos)  # Contador de total de modelos

# Exibindo o resumo das previsões
print(f"\nResumo das previsões: {previsoes_0}/{total_modelos} modelos previram 0 (menor chance), {previsoes_1}/{total_modelos} modelos previram 1 (maior chance)")

# Verificando se todos os modelos realizaram a mesma previsão
if previsoes_0 == total_modelos or previsoes_1 == total_modelos:
    # Caso todos os modelos realizem mesma previsão
    print(f"Todos os modelos realizaram a mesma previsão: {1 if previsoes_1 == total_modelos else 0} ({'maior' if previsoes_1 == total_modelos else 'menor'} chance de ataque cardíaco)")
else:
    # Caso haja previsões diferentes para os modelos
    print("\nComparação das previsões entre todos os modelos:")
    for nome, previsao in resultados_previsao.items():
        print(f"{nome} previu {previsao} ({'maior' if previsao == 1 else 'menor'} chance de ataque cardíaco)")
