# **ANÁLISE DE DADOS CARDIÁCOS - PREVISÃO DE DOENÇA CARDIÁCA**

O objetivo deste projeto é denselvolver um algoritmo de Machine Learning que fará a previsão da tendência de uma pessoa desenvolver algum tipo de doença cardiáca. 

A base de dados foi extraida do site Kaggle e pode ser acessada neste [link](https://www.kaggle.com/fedesoriano/heart-failure-prediction/version/1)



==========================================================================================================================

## **SOBRE AS DOENÇAS CARDIOVASCULARES**

As doenças cardiovasculares (DCVs) são a causa número 1 de morte em todo o mundo, levando cerca de 17,9 milhões de vidas a cada ano, o que representa 31% de todas as mortes em todo o mundo. Quatro das mortes por 5CVD são devido a ataques cardíacos e derrames, e um terço dessas mortes ocorre prematuramente em pessoas com menos de 70 anos de idade. A insuficiência cardíaca é um evento comum causado por DCV e este conjunto de dados contém 11 características que podem ser usadas para prever uma possível doença cardíaca.

==========================================================================================================================
## **DESCREVENDO OS DADOS**

- **Age:** idade do paciente [anos]

- **Sex:** sexo do paciente [M: Masculino, F: Feminino]

- **ChestPainType:** tipo de dor no peito [TA: Angina Típica, ATA: Angina Atípica, NAP: Dor Não Anginosa, ASY: Assintomática]

- **RestingBP:** pressão arterial de repouso [mm Hg]

- **Cholesterol:** colesterol sérico [mm/dl]

- **FastingBS:** glicemia em jejum [1: se FastingBS > 120 mg/dl, 0: caso contrário]

- **RestingECG:** resultados do eletrocardiograma de repouso [Normal: normal, ST: com anormalidade da onda ST-T (inversões da onda T e/ou elevação ou depressão do ST > 0,05 mV), HVE: mostrando provável ou definitiva hipertrofia ventricular esquerda pelos critérios de Estes]

- **MaxHR:** frequência cardíaca máxima alcançada [Valor numérico entre 60 e 202]

- **ExerciseAngina:** angina induzida por exercício [S: Sim, N: Não]

- **Oldpeak:** pico antigo = ST [Valor numérico medido em depressão]

- **ST_Slope:** a inclinação do segmento ST do exercício de pico [Up: upsloping, Flat: flat, Down: downsloping]

- **HeartDisease:** classe de saída [1: doença cardíaca, 0: normal]

==========================================================================================================================



## **IMPORTANDO AS BIBLIOTECAS**

In [4]:
import warnings
warnings.simplefilter('ignore')

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
import plotly.express as px
import seaborn as sns

sns.set()

## **EXPLORANDO OS DADOS**

In [6]:
df = pd.read_csv('heart.csv')
df.head(3)

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283,0,ST,98,N,0.0,Up,0


In [7]:
df.tail(3)

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
915,57,M,ASY,130,131,0,Normal,115,Y,1.2,Flat,1
916,57,F,ATA,130,236,0,LVH,174,N,0.0,Flat,1
917,38,M,NAP,138,175,0,Normal,173,N,0.0,Up,0


In [8]:
#Verificando o formato dos dados e tambem a existencia de dados nulos
#Verifico que não existem dados nulos neste conjunto de dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 918 entries, 0 to 917
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Age             918 non-null    int64  
 1   Sex             918 non-null    object 
 2   ChestPainType   918 non-null    object 
 3   RestingBP       918 non-null    int64  
 4   Cholesterol     918 non-null    int64  
 5   FastingBS       918 non-null    int64  
 6   RestingECG      918 non-null    object 
 7   MaxHR           918 non-null    int64  
 8   ExerciseAngina  918 non-null    object 
 9   Oldpeak         918 non-null    float64
 10  ST_Slope        918 non-null    object 
 11  HeartDisease    918 non-null    int64  
dtypes: float64(1), int64(6), object(5)
memory usage: 86.2+ KB


## **ANÁLISE DOS ATRIBUTOS**

### **AGE - IDADE**

In [9]:
#Verificando a disstribuição das Idades
#Boa parte das idades fica entre 45 e 65 anos
#Idade minima é de 28 anos e a Máxima 77

df['Age'].describe()

count    918.000000
mean      53.510893
std        9.432617
min       28.000000
25%       47.000000
50%       54.000000
75%       60.000000
max       77.000000
Name: Age, dtype: float64

In [10]:
#Aqui plooto o Gŕafico com a distribuição das idades
fig = px.histogram(df, x= 'Age')

fig.update_layout(width = 800, 
height = 400, 
title_text = 'Idade' )

fig.show()


### **SEX - SEXO**

In [11]:
#Verificando os dados coluna Sexo, consigo ver que boa parte da base de dados é composta por pessoas do sexo Masculino
print(f'Quantidade de Pessoas por Sexo'.upper())
print('=' * 30)
df['Sex'].value_counts() 

QUANTIDADE DE PESSOAS POR SEXO


M    725
F    193
Name: Sex, dtype: int64

In [12]:
#Verificando a informação em forma percentual
print(f'Percentual de Pessoas por Sexo'.upper())
print('=' * 30)
round(df["Sex"].value_counts() / df["Sex"].shape[0] * 100, 2)

PERCENTUAL DE PESSOAS POR SEXO


M    78.98
F    21.02
Name: Sex, dtype: float64

In [13]:
#Analisando a iformação de forma gráfica

fig = px.histogram(df, x= 'Sex',
      color = 'Sex',
      hover_data=df.columns,
      title = 'masculino x feminino'.upper())

fig.update_layout(width = 800,
    height = 400)


fig.show()


### **Chest Pain Type - Tipo de dor no Peito**

- **ASY**: assintomático.

- **NAP**: dor não anginosa.

- **ATA**: angina atípica.

- **TA**: angina típica.

O Gráfico está colorido de acordo com o número de pessoas que tem problema cardiáco.

Nota-se que a maioria das pessoas com problema teve dor no peito assintomática. 

In [14]:
df['ChestPainType'].value_counts()

ASY    496
NAP    203
ATA    173
TA      46
Name: ChestPainType, dtype: int64

In [40]:
fig=px.histogram(df, x="ChestPainType", 
    color = 'HeartDisease',
    hover_data=df.columns,
    title="Types of Chest Pain")

fig.update_layout(width = 800, 
    height = 400, 
    title_text = 'Tipo de Dor no Peito')
    
fig.show()

### **Resting BP (blood pressure) = pressão sanguínea em repouso em mmHg(sistólica)**

- **Definição de pressão Sistólica**:

A pressão sistólica, ou máxima, é aquela que marca a contração do músculo cardíaco, quando ele bombeia sangue para o corpo. A diastólica, por sua vez, é a do momento de repouso, em que os vasos permanecem abertos para o sangue passar. Com a idade, é até mais comum que a pressão sistólica dê uma subidinha.

[Fonte da Definição Saude Abril](https://saude.abril.com.br/medicina/pressao-arterial-qual-numero-e-mais-perigoso/)

In [43]:
#Aqui já identifico dados com problema
#Vejo que existem pressão com valor muito baixo


fig = px.histogram(df, x = 'RestingBP',
      hover_data=df.columns,
      title='Pressão sanguinea em repouso'.upper(), nbins = 30)

fig.update_layout(width = 800, 
      height = 400)               
      

fig.show()

In [17]:
df.columns

Index(['Age', 'Sex', 'ChestPainType', 'RestingBP', 'Cholesterol', 'FastingBS',
       'RestingECG', 'MaxHR', 'ExerciseAngina', 'Oldpeak', 'ST_Slope',
       'HeartDisease'],
      dtype='object')

### **Cholesterol = colesterol sérico (mg/dl)**



In [18]:
#Tudo indica que tenho problemas por aqui tambem

fig = px.histogram(df, x= 'Cholesterol',
      hover_data=df.columns,
      title= 'Colesterol sérico'.upper(), nbins= 30)

fig.update_layout(width = 800, height = 500)

fig.show()

### **Fasting BS (blood sugar) = açúcar no sangue em jejum (mg/dl)**

0: Fasting BS < 120 mg/dl (não diabético)

1: Fasting BS >= 120 mg/dl, (diabético)

In [25]:
df['FastingBS'].value_counts()

0    704
1    214
Name: FastingBS, dtype: int64

In [44]:
#Verificando a quantidade de pessoas que tem colesterol no sangue quando em jejum
mensagem = 'Percentual de pessoas com açucar no sangue em jejum'
print(mensagem)
print('=' * len(mensagem))

print(round(df['FastingBS'].value_counts() / df.shape[0] * 100, 2))

print('=' * len(mensagem))

Percentual de pessoas com açucar no sangue em jejum
0    76.69
1    23.31
Name: FastingBS, dtype: float64


In [42]:
fig = px.histogram(df, x = 'FastingBS',
      color = 'FastingBS',
      hover_data= df.columns,
      title= 'Pessoas com açucar no sanguem em jejum'.upper())

fig.update_layout(width = 800, height = 500)

fig.show()