<a href="https://colab.research.google.com/github/marcossiliprandi/MVP_Analise-de-Dados_Boas-Praticas/blob/main/MVP_Doen%C3%A7as_cardiovasculares.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**MVP da Sprint Análise de Dados e Boas Práticas**



##Definição do Problema

A doença cardíaca é a principal causa de morte no mundo, a Organização Mundial da Saúde(OMS) estima que metade das mortes em países desenvolvidos são causadas por doenças cardiovasculares. Em um estudo realizado pela Sociedade Brasileira de Cardiologia indica que a casa 10 brasileiros 5 apresentam fatores de risco.

Visando reduzir o numero de pessoas com doenças cardiovasculares, foi pensado em criar um algoritmo de aprendizado supervisionado, Regressão Logística, para realizar a identificação dos pacientes que possuem uma pré disposição a doença cardíaca.

Para realizar a analise foram selecionados como fatores de risco os atributos abaixo:

Age: Idade do paciente em anos

Sex: Sexo do Paciente(Feminino = 0 e Masculino = 1)

Chest pain type: Tipo de dor torácica (Assintomática = 1, Angina tipica = 2, Dor não anginosa = 3 e Angina atípica = 4)

BP: Pressão arterial em repouso (mm Hg)

Cholesterol: Colesterol sérico (mm/dl)

FBS over 120: Glicemia em jejum maior que 120 mg/dl (Não = 0 e Sim = 1)

EKG results: resultado de um eletrocardiograma (ECG) em repouso (HVE =  0, Normal = 1 e ST = 3)

Max HR: Frequência cardíaca máxima alcançada (Valor numérico entre 60 e 202)

Exercise angina: Angina induzida por exercício (Não = 0 e Sim = 1)

ST depression: Valor numérico medido na depressão

Slope of ST: Inclinação do segmento ST do pico do exercício (Downsloping = 1, Flat = 2 e Up = 3)

Heart Disease: Classe de saída que informa se o paciente possui doença cardíaca (Presence e Absence)

### Iniciando o MVP

Para iniciar será realizado a importação das bibliotecas necessárias para a execução da Análise Exploratória de Dados e o Pré-processamento de Dados e em seguida a importação do dataset Heart_Disease_Prediction.



In [18]:
import warnings
warnings.filterwarnings("ignore")

# Importar, manipular e analisar dados
import pandas as pd
import numpy as np

# Criação de gráficos
import matplotlib.pyplot as plt
import seaborn as sns

In [19]:
# Carregando os dados do dataset que se encontra no Github e utilizando o Pandas para transformar em Dataframe.

url_dados = 'https://raw.githubusercontent.com/marcossiliprandi/MVP_Analise-de-Dados_Boas-Praticas/refs/heads/main/Heart_Disease_Prediction.csv'

Heart_Disease = pd.read_csv(url_dados)

## Análise de dados

Nesta etapa será realizado um conjunto de técnicas que permitirá compreender o comportamento de dados, identificar padrões e tendências e criar visualizações  iterativas para uma melhor compreensão dos dados e encontrar respostas.

###Estatísticas descritivas

In [20]:
# Antes de iniciar a estatística descritiva irei confirmar que o dataset é um dataframe
type(Heart_Disease)

In [21]:
# Após confirmar que se trata de um dataframe, irei exibir as 5 primeiras linhas para verificar
# se os atributos estão de acordo com a definição do dataset
Heart_Disease.head()

Unnamed: 0,Age,Sex,Chest pain type,BP,Cholesterol,FBS over 120,EKG results,Max HR,Exercise angina,ST depression,Slope of ST,Heart Disease
0,70,1,4,130,322,0,2,109,0,2.4,2,Presence
1,67,0,3,115,564,0,2,160,0,1.6,2,Absence
2,57,1,2,124,261,0,0,141,0,0.3,1,Presence
3,64,1,4,128,263,0,0,105,1,0.2,2,Absence
4,74,0,2,120,269,0,2,121,1,0.2,1,Absence


In [22]:
# Verificando as dimensões do dataset.

Heart_Disease.shape

(270, 12)

In [23]:
# Verificando informações do dataset

Heart_Disease.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 270 entries, 0 to 269
Data columns (total 12 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Age              270 non-null    int64  
 1   Sex              270 non-null    int64  
 2   Chest pain type  270 non-null    int64  
 3   BP               270 non-null    int64  
 4   Cholesterol      270 non-null    int64  
 5   FBS over 120     270 non-null    int64  
 6   EKG results      270 non-null    int64  
 7   Max HR           270 non-null    int64  
 8   Exercise angina  270 non-null    int64  
 9   ST depression    270 non-null    float64
 10  Slope of ST      270 non-null    int64  
 11  Heart Disease    270 non-null    object 
dtypes: float64(1), int64(10), object(1)
memory usage: 25.4+ KB


In [24]:
# Verificando valores nulos

Heart_Disease.isnull().sum()

Unnamed: 0,0
Age,0
Sex,0
Chest pain type,0
BP,0
Cholesterol,0
FBS over 120,0
EKG results,0
Max HR,0
Exercise angina,0
ST depression,0


In [25]:
# Verificando as medidas estatísticas

pd.options.display.float_format = '{:.2f}'.format #Formatando valores para 2 casas decimais para uma melhor visualização e entendimento.

Heart_Disease.describe()

Unnamed: 0,Age,Sex,Chest pain type,BP,Cholesterol,FBS over 120,EKG results,Max HR,Exercise angina,ST depression,Slope of ST
count,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0
mean,54.43,0.68,3.17,131.34,249.66,0.15,1.02,149.68,0.33,1.05,1.59
std,9.11,0.47,0.95,17.86,51.69,0.36,1.0,23.17,0.47,1.15,0.61
min,29.0,0.0,1.0,94.0,126.0,0.0,0.0,71.0,0.0,0.0,1.0
25%,48.0,0.0,3.0,120.0,213.0,0.0,0.0,133.0,0.0,0.0,1.0
50%,55.0,1.0,3.0,130.0,245.0,0.0,2.0,153.5,0.0,0.8,2.0
75%,61.0,1.0,4.0,140.0,280.0,0.0,2.0,166.0,1.0,1.6,2.0
max,77.0,1.0,4.0,200.0,564.0,1.0,2.0,202.0,1.0,6.2,3.0


Realizando os passos de estatística descritiva observo que neste dataset contém 270 instâncias e 12 atributos, sendo 5 numéricos (Age, BP, Cholesterol, Max HR e ST depression) e 7 categóricos (Sex, Chest pain type, FBS over 120, EKG results, Exercise angina, Slope of ST e Heart Disease).

Ao analisar as primeiras linhas constatei que os dados estão de acordo com os atributos e não possui algo que chame a atenção. Também foi verificado que não há atributos com valores nulos.

Ao analisar as medidas estatísticas verifica-se que os pacientes possuem idades de 29 até 77 anos com a mediana de 55 anos e que os atributos BP e Cholesterol possuem são os únicos que valores discrepantes porém são consistentes.

### Visualizações