<a href="https://colab.research.google.com/github/profandersonvanin01/doencas_coracao/blob/main/Exemplo_Analise_Dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **EXEMPLO DE ANÁLISE DE DADOS**

- Análise de Dados baseada em: https://www.kaggle.com/competitions/heart-disease-uci/data

**Os dados**

O conjunto de dados chamado "**`Cleveland Heart Disease Dataset`**" vem de um estudo conduzido em 1988 e se origina do UCI Machine Learning Repository. O conjunto de dados foi dividido em dois: um conjunto de treinamento e um conjunto de teste. A tarefa é obter o melhor preditor e adivinhar se um paciente tem uma doença cardíaca.

[Original](https://archive.ics.uci.edu/dataset/45/heart+disease)

**Descrição do conjunto de dados**

Existem 14 colunas:

age	sex	cp	trestbps	chol	fbs	restecg	thalach	exang	oldpeak	slope	ca	thal	target

- **idade (age)** ==> A idade do paciente.
- **sexo (sex)** ==> O gênero do paciente. (1 = masculino, 0 = feminino).
- **cp** ==> Tipo de dor no peito. (1 = angina típica, 2 = angina atípica, 3 = dor não anginosa, 4 = assintótica).
- **trestbps** ==> Pressão arterial em repouso em mmHg.
- **col (chol)** ==> Colesterol sérico em mg/dl.
- **fbs** ==> Glicemia em jejum. (1 = glicemia em jejum é maior que 120mg/dl, 0 = caso contrário).
- **restecg** ==> Resultados eletrocardiográficos em repouso (0 = normal, 1 = anormalidade da onda ST-T, 2 = hipertrofia ventricular esquerda).
- **thalach** ==> Frequência cardíaca máxima alcançada.
- **exang** ==> Angina induzida por exercício (1 = sim, 0 = não).
- **oldpeak** ==> Depressão do segmento ST induzida pelo exercício em relação ao repouso.
- **declive (slope)** ==> Segmento ST de pico de exercício (1 = ascendente, 2 = plano, 3 = descendente).
- **ca** ==> Número de vasos principais (0–3) coloridos pela fluorosopia.
Talassemia (3 = normal, 6 = defeito fixo, 7 = defeito reversível).
- **thal** ==> Uma doença sanguínea chamada talassemia (0: NULO 1: fluxo sanguíneo normal 2: defeito fixo (sem fluxo sanguíneo em alguma parte do coração) 3: defeito reversível (um fluxo sanguíneo é observado, mas não é normal (nominal))
- **num (target)** ==> Diagnóstico de doença cardíaca (0 = ausência, 1, 2, 3, 4 = presente).

**O que prever?**

O último atributo `num` é o que estamos tentando prever. Você deve fornecer uma probabilidade entre 0 e 1 descrevendo o quão confiante seu modelo está em prever se um paciente tem ou não uma doença cardíaca.

**Notas**

- Há alguns valores ausentes no conjunto de dados. Você pode lidar com eles como quiser. Você pode excluir as linhas ou colunas com valores ausentes, tentar substituí-los por uma média ou até mesmo prevê-los.
- **O diagnóstico de doença cardíaca é binário, mas temos acesso a mais informações (de 0 a 4)**. Às vezes, você pode melhorar a precisão criando um classificador categórico e, então, limitando a previsão em vez de limitar os dados.

**PERGUNTAS:**
1. Há uma maior probabilidade de que uma pessoa tenha algum problema cardíaco baseado em sua idade e/ou sexo?
2. Uma pessoa com glicemia maior que 120mg/dl (pessoas pré-diabéticas e diabéticas) tem mais chance de ter problema cardíaco? ***(RELATAR A FONTE DE ONDE TIROU A INFORMAÇÃO DE QUE UMA GLICEMIA MAIOR QUE 120 SÃO PESSOAS PRÉ-DIABÉTICAS E/OU DIABÉTICAS)***
3. Qual a relação do número de problemas cardiácos com o passar das décadas? ***(ESSA QUESTÃO FICA DIFICIL RESPONDER POIS NÃO TEMOS O PARÂMETRO DE NÚMERO DE DÉCADAS!)***
4. De acordo com o pico de exercício, a pessoa tem menos chance de desenvolver problemas cardíacos?
Eu removeria isso ==> `Se desenvolver, está mais propenso a ser defeito fixo ou reversível?`
5. De acordo com o colesterol, qual a *`qualidade do hábito alimentar`* da pessoa? ==> **Nessa também não temos essa referência na base**

# **1. IMPORTAÇÃO DAS BIBLIOTECAS NECESSÁRIAS PARA AS ANÁLISES**

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# **2. CARREGAR A BASE DE DADOS ORIGINAL E PRÉ-VISUALIZAÇÃO**

In [2]:
bd = pd.read_csv('https://raw.githubusercontent.com/profandersonvanin01/doencas_coracao/refs/heads/main/heart.csv')

In [4]:
# Visualização dos primeiros 5 registros da Base de Dados
bd.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [6]:
# Dimensões da base de dados
bd.shape

(303, 14)

# **3. ANÁLISE DE TIPO DE DADOS E DADOS AUSENTES OU NULOS**

In [7]:
bd.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    int64  
 1   sex       303 non-null    int64  
 2   cp        303 non-null    int64  
 3   trestbps  303 non-null    int64  
 4   chol      303 non-null    int64  
 5   fbs       303 non-null    int64  
 6   restecg   303 non-null    int64  
 7   thalach   303 non-null    int64  
 8   exang     303 non-null    int64  
 9   oldpeak   303 non-null    float64
 10  slope     303 non-null    int64  
 11  ca        303 non-null    int64  
 12  thal      303 non-null    int64  
 13  target    303 non-null    int64  
dtypes: float64(1), int64(13)
memory usage: 33.3 KB


- Numa primeira análise, percebemos que **não há dados ausentes ou nulos**.
- Observa-se que muitos atributos tem o formato de números inteiros quando na verdade eles refletem uma classificação. Por exemplo: o atributo sex é um atributo de classificação para 1 = masculino ou 0 = feminino. Outro atributo que é utilizado como classificação é o cp (1 = angina típica, 2 = angina atípica, 3 = dor não anginosa, 4 = assintótica).

**Nestes casos precisaremos separar e/ou identificar colunas que serão numéricas e colunas que serão categóricas.**

In [10]:
# Valores NaN
# A função isna() retorna um valor booleano True se o valor for NaN e False caso contrário.
# A função sum() retorna a soma dos valores True, que é igual ao número de valores NaN na coluna
bd.isna().sum()

Unnamed: 0,0
age,0
sex,0
cp,0
trestbps,0
chol,0
fbs,0
restecg,0
thalach,0
exang,0
oldpeak,0


In [12]:
# Aqui detectamos valores nulos (null)
bd.isnull().sum()

Unnamed: 0,0
age,0
sex,0
cp,0
trestbps,0
chol,0
fbs,0
restecg,0
thalach,0
exang,0
oldpeak,0


# **Definindo quais atributos são Categóricos e quais são Numéricos**

- idade (age) ==> **NUMÉRICO**
- sexo (sex) ==> **CATEGÓRICO**
- cp ==> **CATEGÓRICO**
- trestbps ==> **NUMÉRICO**
- col (chol) ==> **NUMÉRICO**
- fbs ==> **CATEGÓRICO**
- restecg ==> **CATEGÓRICO**
- thalach ==> **NUMÉRICO**
- exang ==> **CATEGÓRICO**
- oldpeak ==> **NUMÉRICO**
- declive (slope) ==> **CATEGÓRICO**
- ca ==> **CATEGÓRICO**
- thal ==> **CATEGÓRICO**
- num (`ALVO`) ==> **CATEGÓRICO**

# **4. SEPARAR EM 2 BASES: CATEGÓRICOS E NUMÉRICOS**

## **MÉTODO 1 - CASO OS TIPOS JÁ ESTEJAM DEFINIDOS**

In [None]:
# Supondo que você já tenha o DataFrame 'df'
# Separar atributos categóricos

#categoricos = df.select_dtypes(include=['object', 'category', 'bool'])

# Separar atributos numéricos
#numericos = df.select_dtypes(include=['number'])

# Verificar os dataframes resultantes
#print("Atributos categóricos:\n", categoricos.head())
#print("\nAtributos numéricos:\n", numericos.head())

## **MÉTODO 2 - OS TIPOS SÃO NUMÉRICOS E PRECISO SEPARÁ-LOS**

In [15]:
# Definir colunas categóricas manualmente
colunas_categoricas = ['sex', 'cp', 'restecg', 'exang', 'fbs', 'slope', 'ca', 'thal', 'target']
colunas_numericas = ['age', 'trestbps', 'chol', 'thalach', 'oldpeak']

# Criar dataframes categóricos e numéricos
categoricos = bd[colunas_categoricas]
numericos = bd[colunas_numericas]

# Verificar os dataframes resultantes
print("Atributos categóricos:\n", categoricos.head())
print("\nAtributos numéricos:\n", numericos.head())

Atributos categóricos:
    sex  cp  restecg  exang  fbs  slope  ca  thal  target
0    1   3        0      0    1      0   0     1       1
1    1   2        1      0    0      0   0     2       1
2    0   1        0      0    0      2   0     2       1
3    1   1        1      0    0      2   0     2       1
4    0   0        1      1    0      2   0     2       1

Atributos numéricos:
    age  trestbps  chol  thalach  oldpeak
0   63       145   233      150      2.3
1   37       130   250      187      3.5
2   41       130   204      172      1.4
3   56       120   236      178      0.8
4   57       120   354      163      0.6
