## Importação de bibliotecas

In [19]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Análise Exploratória de Dados & Pré-processamento

### Leitura da base de dados

In [20]:
pd.set_option('display.max_columns', None)  # Define que pandas deve exibir todas as colunas
df_original = pd.read_csv("../data/heart_2022_no_nans.csv")  # Carregando o dataset
df_original.head()  # Visualizando as primeiras linhas

Unnamed: 0,State,Sex,GeneralHealth,PhysicalHealthDays,MentalHealthDays,LastCheckupTime,PhysicalActivities,SleepHours,RemovedTeeth,HadHeartAttack,HadAngina,HadStroke,HadAsthma,HadSkinCancer,HadCOPD,HadDepressiveDisorder,HadKidneyDisease,HadArthritis,HadDiabetes,DeafOrHardOfHearing,BlindOrVisionDifficulty,DifficultyConcentrating,DifficultyWalking,DifficultyDressingBathing,DifficultyErrands,SmokerStatus,ECigaretteUsage,ChestScan,RaceEthnicityCategory,AgeCategory,HeightInMeters,WeightInKilograms,BMI,AlcoholDrinkers,HIVTesting,FluVaxLast12,PneumoVaxEver,TetanusLast10Tdap,HighRiskLastYear,CovidPos
0,Alabama,Female,Very good,4.0,0.0,Within past year (anytime less than 12 months ...,Yes,9.0,None of them,No,No,No,No,No,No,No,No,Yes,No,No,No,No,No,No,No,Former smoker,Never used e-cigarettes in my entire life,No,"White only, Non-Hispanic",Age 65 to 69,1.6,71.67,27.99,No,No,Yes,Yes,"Yes, received Tdap",No,No
1,Alabama,Male,Very good,0.0,0.0,Within past year (anytime less than 12 months ...,Yes,6.0,None of them,No,No,No,No,No,No,No,No,Yes,Yes,No,No,No,No,No,No,Former smoker,Never used e-cigarettes in my entire life,No,"White only, Non-Hispanic",Age 70 to 74,1.78,95.25,30.13,No,No,Yes,Yes,"Yes, received tetanus shot but not sure what type",No,No
2,Alabama,Male,Very good,0.0,0.0,Within past year (anytime less than 12 months ...,No,8.0,"6 or more, but not all",No,No,No,No,No,No,No,No,Yes,No,No,Yes,No,Yes,No,No,Former smoker,Never used e-cigarettes in my entire life,Yes,"White only, Non-Hispanic",Age 75 to 79,1.85,108.86,31.66,Yes,No,No,Yes,"No, did not receive any tetanus shot in the pa...",No,Yes
3,Alabama,Female,Fair,5.0,0.0,Within past year (anytime less than 12 months ...,Yes,9.0,None of them,No,No,No,No,Yes,No,Yes,No,Yes,No,No,No,No,Yes,No,No,Never smoked,Never used e-cigarettes in my entire life,No,"White only, Non-Hispanic",Age 80 or older,1.7,90.72,31.32,No,No,Yes,Yes,"No, did not receive any tetanus shot in the pa...",No,Yes
4,Alabama,Female,Good,3.0,15.0,Within past year (anytime less than 12 months ...,Yes,5.0,1 to 5,No,No,No,No,No,No,No,No,Yes,No,No,No,No,No,No,No,Never smoked,Never used e-cigarettes in my entire life,No,"White only, Non-Hispanic",Age 80 or older,1.55,79.38,33.07,No,No,Yes,Yes,"No, did not receive any tetanus shot in the pa...",No,No


### Visualização inicial dos dados

In [21]:
df_original.info()  # coletando informações das colunas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 246022 entries, 0 to 246021
Data columns (total 40 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   State                      246022 non-null  object 
 1   Sex                        246022 non-null  object 
 2   GeneralHealth              246022 non-null  object 
 3   PhysicalHealthDays         246022 non-null  float64
 4   MentalHealthDays           246022 non-null  float64
 5   LastCheckupTime            246022 non-null  object 
 6   PhysicalActivities         246022 non-null  object 
 7   SleepHours                 246022 non-null  float64
 8   RemovedTeeth               246022 non-null  object 
 9   HadHeartAttack             246022 non-null  object 
 10  HadAngina                  246022 non-null  object 
 11  HadStroke                  246022 non-null  object 
 12  HadAsthma                  246022 non-null  object 
 13  HadSkinCancer              24

{}

Ao todo, existem 40 atributos no dataset, sendo 6 deles de tipos numéricos (indicados com float64). São eles:
- PhysicalHealthDays
- MentalHealthDays
- SleepHours
- HeightInMeters
- WeightInKilograms
- BMI

A descrição de cada atributo, [de acordo com a pesquisa feita pelo CDC](https://www.cdc.gov/brfss/annual_data/annual_2022.html), pode ser encontrada na tabela a seguir.

| Atributo                  | Descrição |
|:-------------------------:|:--------------------------------------------------------------------------------------------------------------------- |
| State                     | Estado (dos EUA) em que reside                                                                                        |
| Sex                       | Sexo biológico                                                                                                        |
| GeneralHealth             | Como a pessoa classifica sua saúde geral                                                                              |
| PhysicalHealthDays        | Por quantos dias dentre o 30 dias anteriores a saúde física da pessoa NÃO esteve boa                                  |
| MentalHealthDays          | Por quantos dias dentre o 30 dias anteriores a saúde mental da pessoa NÃO esteve boa                                  |
| LastCheckupTime           | Quando foi a última visita a um médico para checagem                                                                  |
| PhysicalActivities        | Se a pessoa praticou alguma atividade física nos 30 dias anteriores                                                   |
| SleepHours                | Tempo médio de sono                                                                                                   |
| RemovedTeeth              | Quantas vezes um dente permanente da pessoa teve de ser retirado por problemas dentários                              |
| HadHeartAttack            | Se já teve um infarto do miocárdio                                                                                    |
| HadAngina                 | Se já teve angina ou doença arterial coronariana (DAC)                                                                |
| HadStroke                 | Se já teve um acidente vascular cerebral (AVC)                                                                        |
| HadAsthma                 | Se já teve asma                                                                                                       |
| HadSkinCancer             | Se já teve câncer de pele que não fosse um melanoma                                                                   |
| HadCOPD                   | Se já teve doença pulmonar obstrutiva crônica (DPOC) ou bronquite crônica                                             |
| HadDepressiveDisorder     | Se já teve distúrbio depressivo                                                                                       |
| HadKidneyDisease          | Se já teve doença nos rins que não fosse pedras nos rins, incontingência urinária ou infeccção urinária               |
| HadArthritis              | Se já teve algum tipo de artrite                                                                                      |
| HadDiabetes               | Se já teve diabetes                                                                                                   |
| DeafOrHardOfHearing       | Se possui surdez ou alguma dificuldade auditiva                                                                       |
| BlindOrVisionDifficulty   | Se possui cegueira ou alguma dificuldade em enxergar (mesmo com óculos)                                               |
| DifficultyConcentrating   | Se possui alguma dificuldade de concentração ou memória                                                               |
| DifficultyWalking         | Se possui alguma dificuldade ao andar ou subir escadas                                                                |
| DifficultyDressingBathing | Se possui alguma dificuldade ao se vestir ou se banhar                                                                |
| DifficultyErrands         | Se possui alguma dificuldade em realizar tarefas cotidianas em virtude de alguma condição física, mental ou emocional |
| SmokerStatus              | Uso de cigarro comum                                                                                                  |
| ECigaretteUsage           | Uso de cigarro eletrônico                                                                                             |
| ChestScan                 | Se já fez alguma tomografia computadorizada da região do peito                                                        |
| RaceEthnicityCategory     | Raça/etnia autodeclarada                                                                                              |
| AgeCategory               | Idade (discretizada em categorias)                                                                                    |
| HeightInMeters            | Altura em metros                                                                                                      |
| WeightInKilograms         | Massa corporal em quilogramas                                                                                         |
| BMI                       | Índice de Massa Corporal (IMC)                                                                                        |
| AlcoholDrinkers           | Se consome bebidas alcoólicas regularmente                                                                            |
| HIVTesting                | Se alguma vez já foi testado para HIV                                                                                 |
| FluVaxLast12              | Se foi vacinado contra a gripe nos últimos 12 meses                                                                   |
| PneumoVaxEver             | Se alguma vez já foi vacinado contra pneumonia                                                                        |
| TetanusLast10Tdap         | Se foi vacinado contra tétano nos últimos 10 anos                                                                     |
| HighRiskLastYear          | Se a pessoa se envolveu em alguma das situações de alto risco a seguir no ano anterior: drogas ilícitas injetáveis; tratamento para alguma DST; pagamento ou recebimento de dinheiro ou droga em troca de favores sexuais.                                                         |
| CovidPos                  | Se já testou positivo para COVID-19                                                                                   |

In [16]:
df_original.describe(include="all")  # faz a descrição de todos os atributos do dataset (não só numéricos)

Unnamed: 0,State,Sex,GeneralHealth,PhysicalHealthDays,MentalHealthDays,LastCheckupTime,PhysicalActivities,SleepHours,RemovedTeeth,HadHeartAttack,HadAngina,HadStroke,HadAsthma,HadSkinCancer,HadCOPD,HadDepressiveDisorder,HadKidneyDisease,HadArthritis,HadDiabetes,DeafOrHardOfHearing,BlindOrVisionDifficulty,DifficultyConcentrating,DifficultyWalking,DifficultyDressingBathing,DifficultyErrands,SmokerStatus,ECigaretteUsage,ChestScan,RaceEthnicityCategory,AgeCategory,HeightInMeters,WeightInKilograms,BMI,AlcoholDrinkers,HIVTesting,FluVaxLast12,PneumoVaxEver,TetanusLast10Tdap,HighRiskLastYear,CovidPos
count,246022,246022,246022,246022.0,246022.0,246022,246022,246022.0,246022,246022,246022,246022,246022,246022,246022,246022,246022,246022,246022,246022,246022,246022,246022,246022,246022,246022,246022,246022,246022,246022,246022.0,246022.0,246022.0,246022,246022,246022,246022,246022,246022,246022
unique,54,2,5,,,4,2,,4,2,2,2,2,2,2,2,2,2,4,2,2,2,2,2,2,4,4,2,5,13,,,,2,2,2,2,4,2,3
top,Washington,Female,Very good,,,Within past year (anytime less than 12 months ...,Yes,,None of them,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Never smoked,Never used e-cigarettes in my entire life,No,"White only, Non-Hispanic",Age 65 to 69,,,,Yes,No,Yes,No,"No, did not receive any tetanus shot in the pa...",No,No
freq,15000,127811,86999,,,198153,191318,,131592,232587,231069,235910,209493,225001,227028,195402,234738,161139,204834,224990,233796,219802,209952,237682,229638,147737,190128,141822,186336,28557,,,,135307,161520,131196,146130,81747,235446,167306
mean,,,,4.119026,4.16714,,,7.021331,,,,,,,,,,,,,,,,,,,,,,,1.70515,83.615179,28.668136,,,,,,,
std,,,,8.405844,8.102687,,,1.440681,,,,,,,,,,,,,,,,,,,,,,,0.106654,21.323156,6.513973,,,,,,,
min,,,,0.0,0.0,,,1.0,,,,,,,,,,,,,,,,,,,,,,,0.91,28.12,12.02,,,,,,,
25%,,,,0.0,0.0,,,6.0,,,,,,,,,,,,,,,,,,,,,,,1.63,68.04,24.27,,,,,,,
50%,,,,0.0,0.0,,,7.0,,,,,,,,,,,,,,,,,,,,,,,1.7,81.65,27.46,,,,,,,
75%,,,,3.0,4.0,,,8.0,,,,,,,,,,,,,,,,,,,,,,,1.78,95.25,31.89,,,,,,,


A partir de uma análise inicial, é possível observar que:

### Checando valores nulos

In [17]:
df_original.isnull().sum()  # Verificando se existem valores nulos

State                        0
Sex                          0
GeneralHealth                0
PhysicalHealthDays           0
MentalHealthDays             0
LastCheckupTime              0
PhysicalActivities           0
SleepHours                   0
RemovedTeeth                 0
HadHeartAttack               0
HadAngina                    0
HadStroke                    0
HadAsthma                    0
HadSkinCancer                0
HadCOPD                      0
HadDepressiveDisorder        0
HadKidneyDisease             0
HadArthritis                 0
HadDiabetes                  0
DeafOrHardOfHearing          0
BlindOrVisionDifficulty      0
DifficultyConcentrating      0
DifficultyWalking            0
DifficultyDressingBathing    0
DifficultyErrands            0
SmokerStatus                 0
ECigaretteUsage              0
ChestScan                    0
RaceEthnicityCategory        0
AgeCategory                  0
HeightInMeters               0
WeightInKilograms            0
BMI     

Como o dataset já havia recebido um pré-tratamento inicial pelo divulgador, não há colunas nulas no dataset. Logo, é possível pular a etapa de remoção das amostras com atributos nulos futuramente.