### Introdução 
#### O que são Doenças Cardíacas?

**Doenças cardíacas** refere-se a um conjunto de condições que afetam o coração e o sistema cardiovascular. As doenças cardíacas mais comuns incluem:

- **Doença arterial coronariana (DAC)**: ocorre quando as artérias que fornecem sangue ao coração ficam estreitadas ou bloqueadas, geralmente por causa de placas de gordura, levando a ataques cardíacos.
- **Insuficiência cardíaca**: o coração não consegue bombear sangue de maneira eficiente.
- **Arritmias**: batimentos cardíacos irregulares.
- **Doenças valvulares**: problemas nas válvulas que controlam o fluxo de sangue no coração.
- **Cardiomiopatias**: doenças que afetam o músculo cardíaco.

Essas condições podem ser causadas por fatores como pressão alta, colesterol elevado, tabagismo, sedentarismo, obesidade, diabetes e genética.

#### Prevalência Mundial

A **doença cardíaca** é uma das principais causas de morte em todo o mundo. Segundo a Organização Mundial da Saúde (OMS), **doenças cardiovasculares** (um grupo que inclui doenças cardíacas e derrames) são responsáveis por aproximadamente **32% de todas as mortes globais**. Estima-se que, anualmente, cerca de **17,9 milhões de pessoas** morram devido a doenças cardiovasculares.

No que diz respeito à prevalência, cerca de **1 em cada 3 adultos** em todo o mundo tem algum tipo de condição cardiovascular. A prevalência varia entre os países, com regiões de maior risco concentradas em nações de baixa e média renda, onde os fatores de risco não são controlados de maneira eficaz.

Esses números mostram a importância do diagnóstico e tratamento precoces, além da prevenção, que inclui mudanças no estilo de vida, como alimentação saudável, prática de exercícios físicos, e controle de condições como hipertensão e diabetes.

#### Objetivo

O objetivo do modelo de predição baseado nos dados descritos acima é prever a presença de doença cardíaca em pacientes. Para isso, o modelo utiliza um conjunto de variáveis relacionadas à saúde, como idade, sexo, tipo de dor no peito, pressão arterial em repouso, níveis de colesterol, glicemia de jejum, resultados de eletrocardiograma em repouso, frequência cardíaca máxima, entre outros fatores.

Esses dados são utilizados para treinar o modelo de aprendizado de máquina, permitindo que ele identifique padrões e correlacione as características dos pacientes com a presença ou ausência de doença cardíaca. O **target** do modelo, ou seja, o rótulo a ser previsto, é binário: 
- **0** indica que o paciente não tem doença cardíaca
- **1** indica que o paciente possui a doença.

Ao fazer essa predição, o modelo pode ajudar profissionais de saúde a identificar mais rapidamente pacientes em risco de doenças cardíacas, auxiliando na tomada de decisões clínicas.

#### Dicinário de Dados
- **idade**: idade em anos
- **sexo**: sexo  
  - 1 = masculino  
  - 0 = feminino
- **cp**: tipo de dor no peito  
  - Valor 0: angina típica  
  - Valor 1: angina atípica  
  - Valor 2: dor não anginosa  
  - Valor 3: assintomático
- **trestbps**: pressão arterial em repouso (em mm Hg na admissão ao hospital)
- **colesterol**: colesterol sérico em mg/dl
- **glicemia jejum**: (glicemia de jejum > 120 mg/dl)  
  - 1 = verdadeiro  
  - 0 = falso
- **restecg**: resultados do eletrocardiograma em repouso  
  - Valor 0: normal  
  - Valor 1: anormalidade da onda ST-T (inversão da onda T e/ou elevação ou depressão do segmento ST > 0.05 mV)  
  - Valor 2: hipertrofia ventricular esquerda provável ou definitiva pelos critérios de Estes
- **thalach**: frequência cardíaca máxima atingida
- **angina induzida por exercício**:  
  - 1 = sim  
  - 0 = não
- **oldpeak**: depressão do segmento ST induzida por exercício em relação ao repouso
- **slope**: inclinação do segmento ST durante o pico de exercício  
  - Valor 0: ascendente  
  - Valor 1: plana  
  - Valor 2: descendente
- **ca**: número de vasos principais (0-3) coloridos por fluoroscopia
- **thal**:  
  - 0 = erro (no conjunto de dados original, 0 corresponde a NaN's)  
  - 1 = defeito fixo  
  - 2 = normal  
  - 3 = defeito reversível
- **target** (o rótulo):  
  - 0 = sem doença  
  - 1 = com doença



### Setup do Projeto
Setup do projeto, tem como objetivo instalar todas as dependências de bibliotecas e ferrametnas necessárias para que seja possivle manipular os dados e gerar as predições.

In [2]:
import pandas as pd
import plotly.graph_objects as go

### Análise Exploratória dos Dados

In [3]:
# Leitura do arquivo com os dados
df_raw = pd.read_csv('../../dataset/raw/heart_disease.csv')

In [4]:
# Rename Columns from English to PTBR
df_raw = df_raw.rename(columns={'age': 'idade', 'sex': 'sexo', 'cp': 'tipo_dor_peito', 'trestbps': 'pressao_sanguinea_repouso',
                            'chol': 'colesterol', 'fbs': 'glicose_jejum', 'restecg': 'ecg_repouso', 'thalach': 'fc_maxima',
                            'exang': 'angina_exercicio', 'oldpeak': 'depressao_st', 'slope': 'inclinaison_st', 'ca': 'num_vasos', 'thal': 'thal',
                            'target': 'doenca_cardiaca'})

# Find for missing values
if (df_raw.isnull().sum().sum() > 0):
    print('Missing Values found')
    print(df_raw.isnull().sum())
    df_raw.dropna(inplace=True)
    print('Missing Values removed')  
else:
    print('No missing values found') 

No missing values found


#### Análise Gráfica

In [9]:
df_raw

Unnamed: 0,idade,sexo,tipo_dor_peito,pressao_sanguinea_repouso,colesterol,glicose_jejum,ecg_repouso,fc_maxima,angina_exercicio,depressao_st,inclinaison_st,num_vasos,thal,doenca_cardiaca
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3,0
299,45,1,3,110,264,0,1,132,0,1.2,1,0,3,0
300,68,1,0,144,193,1,1,141,0,3.4,1,2,3,0
301,57,1,0,130,131,0,1,115,1,1.2,1,1,3,0


In [28]:
#Create a chart using plotly go
fig = go.Figure()
# Add coluns and lines to put new plots inside the chart
fig.add_trace(go.Bar(x=df_raw['idade'], 
                     y=df_raw['pressao_sanguinea_repouso'], 
                     name='Pressão Sanguínea em Repouso', 
                     hoverlabel=dict(namelength=-1),
                     marker_color='rgb(30, 20, 100)'))

# Add more coluns to x-axis
fig.add_trace(go.Bar(x=df_raw['idade'], 
                     y=df_raw['colesterol'], 
                     name='Colesterol', 
                     hoverlabel=dict(namelength=-1),
                     marker_color='rgb(100, 20, 100)'))


# add a title to the chart
fig.update_layout(title_text='Pressão Sanguínea em Repouso vs Idade')
# add a title to the x-axis
fig.update_xaxes(title_text='Idade')
# add a title to the y-axis
fig.update_yaxes(title_text='Pressão Sanguínea em Repouso')
