<a href="https://colab.research.google.com/github/PedroReste/repository_for_studies/blob/main/risk-factors-for-cardiovascular-heart-disease/risk_factors_for_cardiovascular_heart_disease_analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Esse dataset sobre doenças cardiovasculares é originado do [Kaggle](https://www.kaggle.com/datasets/thedevastator/exploring-risk-factors-for-cardiovascular-diseas) e também disponível no [meu Github](https://github.com/PedroReste/repository_for_studies/blob/main/risk-factors-for-cardiovascular-heart-disease/heart_data.csv).
Esse dataset é interesse para analisar como ações no estilo de vida pode influenciar ou não na geração de doenças cardiovasculares.
****

**Variáveis do Dataset** - Uma breve descrição de cada variável existente no dataset.
- **Age**: Idade da pessoa.
- **Gender**: Gênero da pessoa.
- **Height**: Altura da pessoa em centímetros.
- **Weight**: Peso da pessoa em quilogramas.
- **Ap_hi**: Leitura da pressão arterial sistólica obtida do paciente.
- **Ap_lo**: Leitura da pressão arterial diastólica obtida do paciente.
- **Cholesterol**: Nível de colesterol total lido como mg/dl em uma escala de 0 a 5+ unidades. Cada unidade denota aumento/diminuição em 20 mg/dL, respectivamente.
- **gluc**: O nível de glicose é lido como mmol/l em uma escala de 0 a 16+ unidades. Cada unidade denotando aumento/diminui em 1 mmol/L, respectivamente.
- **smoke**: Se a pessoa fuma ou não.
- **alco**: Se a pessoa bebe ou não.
- **active**: Se a pessoa faz atividade física ou não.
- **cardio**: Se a pessoa sofre de doenças cardiovasculares ou não.

In [1]:
import pandas as pd
raw = "https://raw.githubusercontent.com/PedroReste/repository_for_studies/main/risk-factors-for-cardiovascular-heart-disease/heart_data.csv"
df = pd.read_csv(raw, sep=",")

In [32]:
df.head()

Unnamed: 0,index,id,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio,imc,class_imc,class_imc_num
0,0,0,50,2,1.68,62.0,110,80,1,1,0,0,1,0,21.97,normal,1
1,1,1,55,1,1.56,85.0,140,90,3,1,0,0,1,1,34.93,obesidade,3
2,2,2,51,1,1.65,64.0,130,70,3,1,0,0,0,1,23.51,normal,1
3,3,3,48,2,1.69,82.0,150,100,1,1,0,0,1,1,28.71,sobrepeso,2
4,4,4,47,1,1.56,56.0,100,60,1,1,0,0,0,0,23.01,normal,1


In [31]:
df.tail()

Unnamed: 0,index,id,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio,imc,class_imc,class_imc_num
69995,69995,99993,52,2,1.68,76.0,120,80,1,1,1,0,1,0,26.93,sobrepeso,2
69996,69996,99995,61,1,1.58,126.0,140,90,2,2,0,0,1,1,50.47,obesidade,3
69997,69997,99996,52,2,1.83,105.0,180,90,3,1,0,1,0,1,31.35,obesidade,3
69998,69998,99998,61,1,1.63,72.0,135,80,1,2,0,0,0,1,27.1,sobrepeso,2
69999,69999,99999,56,1,1.7,72.0,120,80,2,1,0,0,1,0,24.91,normal,1


In [35]:
#Buscando algumas informações básicas sobre a base de dados.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70000 entries, 0 to 69999
Data columns (total 17 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          70000 non-null  int64  
 1   id             70000 non-null  int64  
 2   age            70000 non-null  int64  
 3   gender         70000 non-null  int64  
 4   height         70000 non-null  float64
 5   weight         70000 non-null  float64
 6   ap_hi          70000 non-null  int64  
 7   ap_lo          70000 non-null  int64  
 8   cholesterol    70000 non-null  int64  
 9   gluc           70000 non-null  int64  
 10  smoke          70000 non-null  int64  
 11  alco           70000 non-null  int64  
 12  active         70000 non-null  int64  
 13  cardio         70000 non-null  int64  
 14  imc            70000 non-null  float64
 15  class_imc      70000 non-null  object 
 16  class_imc_num  70000 non-null  int64  
dtypes: float64(3), int64(13), object(1)
memory usage: 

In [9]:
#Transformando coluna sobre altura para escala em metros.
df["height"] = df["height"] / 100

In [13]:
#Criando uma várial IMC para complementar a análise
df["imc"] = (df["weight"] / (df["height"] ** 2)).round(2)

In [18]:
#Convertendo a idade que está em dias para anos
df['age'] = df['age'].apply(lambda x : int(x/365))

In [34]:
#Criando uma classificação do IMC para Homens e Mulheres
import numpy as np

classificacao_imc = [
    (df['imc'] < 18.5),
    ((df['imc'] >= 18.5) & (df['imc'] < 25)),
    ((df['imc'] >= 25) & (df['imc'] < 30)),
    (df['imc'] >= 30)
]

#Classificação textual
classificacao = ['baixo_peso', 'normal', 'sobrepeso', 'obesidade']
df['class_imc'] = np.select(classificacao_imc, classificacao, default=np.nan)

#Classificação numérica
classificacao = ['0', '1', '2', '3']
df['class_imc_num'] = np.select(classificacao_imc, classificacao, default=np.nan)
df['class_imc_num'] = df['class_imc_num'].astype(int)