**Dataset**

https://www.kaggle.com/datasets/oktayrdeki/heart-disease

**Objetivo**
        
O objetivo deste projeto é desenvolver um modelo de Inteligência Artificial capaz de prever a presença de doença cardíaca em pacientes, utilizando atributos clínicos e demográficos presentes no dataset. O modelo deverá auxiliar na identificação precoce de indivíduos em risco.
        

**Questões adicionais**

-Quais variáveis mais influenciam o risco? (feature importance)

-Modelos mais simples funcionam tão bem quanto modelos complexos?

-Podemos otimizar o recall sem perder muita precisão?

-Existe algum grupo com maior risco (ex.: idade, sexo)?

In [101]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats


from sklearn.preprocessing import MinMaxScaler, StandardScaler

**Análise & Limpeza do Dataset**

In [103]:
# import dataset
dataset_path = "./heart_disease.csv"
dataset = pd.read_csv(dataset_path)

#print(dataset)

In [105]:
dataset.dropna(inplace = True)
dataset.drop_duplicates(inplace = True)

#print(dataset)


**Valores depois da limpeza**

**Antes** : 10000 linhas

**Depois** : 7067 linhas




**Codificação Categórica**

De forma ao modelo entenda o valor das nossas variáveis vamos aplicar um Label Encoding - para variáveis binárias, para transformar strings em binário, 0 e 1 

Como o Heart Disease Status é o target, codificamos de forma binária para facilitar a modelagem.

Para variáveis > 2 categorias, usamos o One-Hot Enconding

In [123]:
binary_cols = ['Gender', 'Smoking', 'Family Heart Disease', 'Diabetes', 
               'High Blood Pressure', 'High LDL Cholesterol', 'Heart Disease Status']

multi_cat_cols = ['Exercise Habits', 'Alcohol Consumption', 'Stress Level', 'Sugar Consumption']

# Label Enconding
for column in binary_cols:
    dataset[column] = dataset[column].map({
        'No':0,
        'Yes':1,
        'Male':1,
        'Female':0
    })

#One-Hot Encoding

dataset = pd.get_dummies(dataset, columns=multi_cat_cols, drop_first=True)

print(dataset)

KeyError: "None of [Index(['Exercise Habits', 'Alcohol Consumption', 'Stress Level',\n       'Sugar Consumption'],\n      dtype='object')] are in the [columns]"

**Normalização Do Dataset**

In [111]:
numeric_columns = dataset.select_dtypes(include=['float64', 'int64']).columns
dataset_scaled = dataset.copy()
dataset_scaled[numeric_columns] = StandardScaler().fit_transform(dataset[numeric_columns])

print(dataset_scaled)

           Age    Gender  Blood Pressure  Cholesterol Level   Smoking  \
1     1.078260 -1.008669       -0.219036           1.407813 -1.028858   
2    -0.180721  0.991405       -1.355089          -0.200406 -1.028858   
3    -0.947057 -1.008669       -1.582299           1.568635  0.971951   
4     0.585616  0.991405        0.917016           0.396933  0.971951   
5    -1.330226  0.991405        0.121780           0.741551  0.971951   
...        ...       ...             ...                ...       ...   
9992  1.023522 -1.008669        1.087424           1.522686  0.971951   
9994  1.297214 -1.008669       -0.332641          -0.774769  0.971951   
9995 -1.330226 -1.008669       -0.787062           0.419907  0.971951   
9998 -1.439702  0.991405       -0.446247           1.706482  0.971951   
9999 -0.618627 -1.008669       -1.241484          -0.728820  0.971951   

      Family Heart Disease  Diabetes       BMI  High Blood Pressure  \
1                 1.001841  1.004965 -0.605815      