# Conhecendo a base

O diabetes é uma doença crônica grave na qual os indivíduos perdem a capacidade de regular efetivamente os níveis de glicose no sangue e pode levar a uma redução na qualidade de vida e na expectativa de vida.

O Sistema de Vigilância de Fatores de Risco Comportamentais (BRFSS) é uma pesquisa telefônica relacionada à saúde que é coletada anualmente pelo CDC (Centro de Controle e Prevenção de Doenças dos Estados Unidos). A cada ano, a pesquisa coleta respostas de milhares de americanos sobre comportamentos de risco relacionados à saúde, condições crônicas de saúde e o uso de serviços preventivos. Para este projeto, foi utilizado conjunto de dados disponível no Kaggle para o ano de 2015. 

https://www.kaggle.com/datasets/alexteboul/diabetes-health-indicators-dataset

Dicionário de variáveis:

- `Diabetes_binary`: 0 = sem diabetes, 1 = com diabetes
- `HighBP`: 0 = sem pressão alta, 1 = com pressão alta
- `HighChol`: 0 = sem colesterol alto, 1 = com colesterol alto
- `CholCheck`: 0 = não fez exame de colesterol na vida, 1 = fez exame de colesterol alguma vez
- `BMI`: Índice de Massa Corporal (IMC)
- `Smoker`: 0 = não fumante, 1 = fumante
- `Stroke`: 0 = sem histórico de AVC, 1 = com histórico de AVC
- `HeartDiseaseorAttack`: 0 = sem histórico de doença cardíaca ou ataque cardíaco, 1 = com histórico de doença cardíaca ou ataque cardíaco
- `PhysActivity`: 0 = não pratica atividade física, 1 = pratica atividade física
- `Fruits`: 0 = não consome frutas, 1 = consome frutas
- `Veggies`: 0 = não consome vegetais, 1 = consome vegetais
- `HvyAlcoholConsump`: 0 = não consome álcool em altas quantidades, 1 = consome álcool em altas quantidades
- `AnyHealthcare`: 0 = não tem plano de saúde, 1 = tem plano de saúde
- `NoDocbcCost`: 0 = não foi ao médico por questões financeiras, 1 = foi ao médico por questões financeiras (últimos 12 meses)
- `GenHlth`: Saúde geral (1 a 5) - 1 = Excelente, 2 = Muito boa, 3 = Boa, 4 = Aceitável, 5 = Ruim
- `MentHlth`: Nos últimos 30 dias, quantos dias a saúde mental não foi boa (0 a 30)
- `PhysHlth`: Nos últimos 30 dias, quantos dias a saúde física não foi boa (0 a 30)
- `DiffWalk`: 0 = não tem dificuldade para caminhar, 1 = tem dificuldade para caminhar
- `Sex`: 0 = feminino, 1 = masculino
- `Age`: Idade em faixas 1 = 18-24; 2 = 25-29; 3 = 30-34; 4 = 35-39; 5 = 40-44; 6 = 45-49; 7 = 50-54; 8 = 55-59; 9 = 60-64; 10 = 65-69; 11 = 70-74; 12 = 75-79; 13 = 80+
- `Education`: Níveis de ensino 1 = nunca frequentou a escola; 2 = escola primária; 3 = escola secundária incompleta ; 4 = escola secundária; 5 = faculdade incompleta ou curso técnico; 6 = completou faculdade ou diplomas superiores
- `Income`: Renda anual em faixas 1 = < 10.000; 2 = 10.000-14.999; 3 = 15.000-19.999; 4 = 20.000-24.999; 5 = 25.000-34.999; 6 = 35.000-49.999; 7 = 50.000-74.999; 8 = 75.000+

In [1]:
import pandas as pd

from src.config import DADOS_ORIGINAIS, DADOS_TRATADOS

df_diabetes = pd.read_csv(DADOS_ORIGINAIS, compression='zip')

df_diabetes.head()

Unnamed: 0,Diabetes_binary,HighBP,HighChol,CholCheck,BMI,Smoker,Stroke,HeartDiseaseorAttack,PhysActivity,Fruits,...,AnyHealthcare,NoDocbcCost,GenHlth,MentHlth,PhysHlth,DiffWalk,Sex,Age,Education,Income
0,0.0,1.0,0.0,1.0,26.0,0.0,0.0,0.0,1.0,0.0,...,1.0,0.0,3.0,5.0,30.0,0.0,1.0,4.0,6.0,8.0
1,0.0,1.0,1.0,1.0,26.0,1.0,1.0,0.0,0.0,1.0,...,1.0,0.0,3.0,0.0,0.0,0.0,1.0,12.0,6.0,8.0
2,0.0,0.0,0.0,1.0,26.0,0.0,0.0,0.0,1.0,1.0,...,1.0,0.0,1.0,0.0,10.0,0.0,1.0,13.0,6.0,8.0
3,0.0,1.0,1.0,1.0,28.0,1.0,0.0,0.0,1.0,1.0,...,1.0,0.0,3.0,0.0,3.0,0.0,1.0,11.0,6.0,8.0
4,0.0,0.0,0.0,1.0,29.0,1.0,0.0,0.0,1.0,1.0,...,1.0,0.0,2.0,0.0,0.0,0.0,0.0,8.0,5.0,8.0


In [2]:
with pd.option_context("display.max_columns", None):
    display(df_diabetes.head())

Unnamed: 0,Diabetes_binary,HighBP,HighChol,CholCheck,BMI,Smoker,Stroke,HeartDiseaseorAttack,PhysActivity,Fruits,Veggies,HvyAlcoholConsump,AnyHealthcare,NoDocbcCost,GenHlth,MentHlth,PhysHlth,DiffWalk,Sex,Age,Education,Income
0,0.0,1.0,0.0,1.0,26.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,3.0,5.0,30.0,0.0,1.0,4.0,6.0,8.0
1,0.0,1.0,1.0,1.0,26.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,3.0,0.0,0.0,0.0,1.0,12.0,6.0,8.0
2,0.0,0.0,0.0,1.0,26.0,0.0,0.0,0.0,1.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,10.0,0.0,1.0,13.0,6.0,8.0
3,0.0,1.0,1.0,1.0,28.0,1.0,0.0,0.0,1.0,1.0,1.0,0.0,1.0,0.0,3.0,0.0,3.0,0.0,1.0,11.0,6.0,8.0
4,0.0,0.0,0.0,1.0,29.0,1.0,0.0,0.0,1.0,1.0,1.0,0.0,1.0,0.0,2.0,0.0,0.0,0.0,0.0,8.0,5.0,8.0


In [3]:
df_diabetes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70692 entries, 0 to 70691
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Diabetes_binary       70692 non-null  float64
 1   HighBP                70692 non-null  float64
 2   HighChol              70692 non-null  float64
 3   CholCheck             70692 non-null  float64
 4   BMI                   70692 non-null  float64
 5   Smoker                70692 non-null  float64
 6   Stroke                70692 non-null  float64
 7   HeartDiseaseorAttack  70692 non-null  float64
 8   PhysActivity          70692 non-null  float64
 9   Fruits                70692 non-null  float64
 10  Veggies               70692 non-null  float64
 11  HvyAlcoholConsump     70692 non-null  float64
 12  AnyHealthcare         70692 non-null  float64
 13  NoDocbcCost           70692 non-null  float64
 14  GenHlth               70692 non-null  float64
 15  MentHlth           

#### Tradução e Interpretação:

Essencialmente, o código está traduzindo ou padronizando os nomes das colunas para português, tornando-os mais legíveis para quem está trabalhando com os dados em português.
* Os nomes das colunas indicam que o DataFrame contém informações sobre:
* Condições médicas (diabetes, pressão alta, colesterol, AVC, problemas cardíacos).
* Hábitos de saúde (fumar, atividade física, consumo de frutas e legumes, consumo de álcool).
* Acesso a cuidados de saúde (plano de saúde, dificuldades financeiras para consultas).
* Saúde geral (saúde mental, saúde física, dificuldades de locomoção).
* Informações demográficas (gênero, faixa etária, nível de escolaridade, faixa de renda).

##### Importância:

* Nomes de coluna claros e descritivos são cruciais para a análise de dados. Eles facilitam a compreensão dos dados e evitam erros ao manipular as colunas.
* Padronizar os nomes das colunas também é importante para garantir a consistência, especialmente ao trabalhar com conjuntos de dados de diferentes fontes.
* Ao traduzir o nome das colunas, o código garante que todos os membros da equipe que falam português, possam entender o que cada coluna representa.

In [4]:
df_diabetes.columns = [
    "Diabetes",
    "PressaoAlta",
    "ColesterolAlto",
    "ColesterolExame",
    "IMC",
    "Fumante",
    "AVC",
    "ProblemaCardiaco",
    "AtividadeFisica",
    "ComeFrutas",
    "ComeLegumes",
    "ConsumoBebidaAlcoolica",
    "PlanoSaude",
    "SemDinheiroConsultas",
    "SaudeGeral",
    "DiasProblemasMentais",
    "DiasProblemasFisicos",
    "DificuldadeAndar",
    "Genero",
    "FaixaIdade",
    "Ensino",
    "FaixaRenda",
]

In [5]:
df_diabetes.nunique()

Diabetes                   2
PressaoAlta                2
ColesterolAlto             2
ColesterolExame            2
IMC                       80
Fumante                    2
AVC                        2
ProblemaCardiaco           2
AtividadeFisica            2
ComeFrutas                 2
ComeLegumes                2
ConsumoBebidaAlcoolica     2
PlanoSaude                 2
SemDinheiroConsultas       2
SaudeGeral                 5
DiasProblemasMentais      31
DiasProblemasFisicos      31
DificuldadeAndar           2
Genero                     2
FaixaIdade                13
Ensino                     6
FaixaRenda                 8
dtype: int64

#### Resumo:

Em resumo, este código identifica as colunas no DataFrame df_diabetes que contêm apenas dois valores únicos e armazena os nomes dessas colunas na lista colunas_binarias. Ao final o código imprime na tela a lista contendo o nome das colunas binárias.

#### Exemplo:

Suponha que o DataFrame df_diabetes tenha as seguintes colunas:

![image.png](attachment:a0ed0c5c-1542-4c71-8553-f8c309262ae4.png)
 
Após executar o código, a variável colunas_binarias conteria a lista ['Diabetes', 'PressaoAlta', 'Genero'], pois essas colunas têm apenas dois valores únicos (0 e 1 para "Diabetes" e "PressaoAlta", e "M" e "F" para "Genero"). A coluna "Idade" não seria incluída porque tem mais de dois valores únicos.

In [6]:
colunas_binarias = df_diabetes.nunique()[df_diabetes.nunique() == 2].index.tolist()

colunas_binarias

['Diabetes',
 'PressaoAlta',
 'ColesterolAlto',
 'ColesterolExame',
 'Fumante',
 'AVC',
 'ProblemaCardiaco',
 'AtividadeFisica',
 'ComeFrutas',
 'ComeLegumes',
 'ConsumoBebidaAlcoolica',
 'PlanoSaude',
 'SemDinheiroConsultas',
 'DificuldadeAndar',
 'Genero']

In [7]:
df_diabetes_tratado = df_diabetes.copy()

df_diabetes_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70692 entries, 0 to 70691
Data columns (total 22 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Diabetes                70692 non-null  float64
 1   PressaoAlta             70692 non-null  float64
 2   ColesterolAlto          70692 non-null  float64
 3   ColesterolExame         70692 non-null  float64
 4   IMC                     70692 non-null  float64
 5   Fumante                 70692 non-null  float64
 6   AVC                     70692 non-null  float64
 7   ProblemaCardiaco        70692 non-null  float64
 8   AtividadeFisica         70692 non-null  float64
 9   ComeFrutas              70692 non-null  float64
 10  ComeLegumes             70692 non-null  float64
 11  ConsumoBebidaAlcoolica  70692 non-null  float64
 12  PlanoSaude              70692 non-null  float64
 13  SemDinheiroConsultas    70692 non-null  float64
 14  SaudeGeral              70692 non-null

In [8]:
for coluna in colunas_binarias:
    if coluna != "Genero":
        df_diabetes_tratado[coluna] = pd.Categorical(df_diabetes_tratado[coluna]).rename_categories(["Não", "Sim"])
    else:
        df_diabetes_tratado[coluna] = pd.Categorical(df_diabetes_tratado[coluna]).rename_categories(["Feminino", "Masculino"])

In [9]:
with pd.option_context("display.max_columns", None):
    display(df_diabetes_tratado.head())

Unnamed: 0,Diabetes,PressaoAlta,ColesterolAlto,ColesterolExame,IMC,Fumante,AVC,ProblemaCardiaco,AtividadeFisica,ComeFrutas,ComeLegumes,ConsumoBebidaAlcoolica,PlanoSaude,SemDinheiroConsultas,SaudeGeral,DiasProblemasMentais,DiasProblemasFisicos,DificuldadeAndar,Genero,FaixaIdade,Ensino,FaixaRenda
0,Não,Sim,Não,Sim,26.0,Não,Não,Não,Sim,Não,Sim,Não,Sim,Não,3.0,5.0,30.0,Não,Masculino,4.0,6.0,8.0
1,Não,Sim,Sim,Sim,26.0,Sim,Sim,Não,Não,Sim,Não,Não,Sim,Não,3.0,0.0,0.0,Não,Masculino,12.0,6.0,8.0
2,Não,Não,Não,Sim,26.0,Não,Não,Não,Sim,Sim,Sim,Não,Sim,Não,1.0,0.0,10.0,Não,Masculino,13.0,6.0,8.0
3,Não,Sim,Sim,Sim,28.0,Sim,Não,Não,Sim,Sim,Sim,Não,Sim,Não,3.0,0.0,3.0,Não,Masculino,11.0,6.0,8.0
4,Não,Não,Não,Sim,29.0,Sim,Não,Não,Sim,Sim,Sim,Não,Sim,Não,2.0,0.0,0.0,Não,Feminino,8.0,5.0,8.0


In [10]:
df_diabetes_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70692 entries, 0 to 70691
Data columns (total 22 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   Diabetes                70692 non-null  category
 1   PressaoAlta             70692 non-null  category
 2   ColesterolAlto          70692 non-null  category
 3   ColesterolExame         70692 non-null  category
 4   IMC                     70692 non-null  float64 
 5   Fumante                 70692 non-null  category
 6   AVC                     70692 non-null  category
 7   ProblemaCardiaco        70692 non-null  category
 8   AtividadeFisica         70692 non-null  category
 9   ComeFrutas              70692 non-null  category
 10  ComeLegumes             70692 non-null  category
 11  ConsumoBebidaAlcoolica  70692 non-null  category
 12  PlanoSaude              70692 non-null  category
 13  SemDinheiroConsultas    70692 non-null  category
 14  SaudeGeral            

In [11]:
df_diabetes_tratado["SaudeGeral"] = pd.Categorical(
    df_diabetes_tratado["SaudeGeral"],
    ordered=True
).rename_categories(["Excelente", "Muito boa", "Boa", "Aceitável", "Ruim"])

df_diabetes_tratado["SaudeGeral"].head()

0          Boa
1          Boa
2    Excelente
3          Boa
4    Muito boa
Name: SaudeGeral, dtype: category
Categories (5, object): ['Excelente' < 'Muito boa' < 'Boa' < 'Aceitável' < 'Ruim']

In [12]:
df_diabetes_tratado["FaixaIdade"] = pd.Categorical(
    df_diabetes_tratado["FaixaIdade"],
    ordered=True
).rename_categories(
    [
        "18-24",
        "25-29",
        "30-34",
        "35-39",
        "40-44",
        "45-49",
        "50-54",
        "55-59",
        "60-64",
        "65-69",
        "70-74",
        "75-79",
        "80+",
    ]
)

df_diabetes_tratado["Ensino"] = pd.Categorical(
    df_diabetes_tratado["Ensino"],
    ordered=True
).rename_categories(
    [
        "Sem estudo",
        "Primário",
        "Secundário inc.",
        "Secundário",
        "Faculdade inc. ou Técnico",
        "Faculdade +",
    ]
)

df_diabetes_tratado["FaixaRenda"] = pd.Categorical(
    df_diabetes_tratado["FaixaRenda"],
    ordered=True
).rename_categories(
    [
        "< $10.000",
        "$10.000-$14.999",
        "$15.000-$19.999",
        "$20.000-$24.999",
        "$25.000-$34.999",
        "$35.000-$49.999",
        "$50.000-$74.999",
        "$75.000+",
    ]
)

In [13]:
df_diabetes_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70692 entries, 0 to 70691
Data columns (total 22 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   Diabetes                70692 non-null  category
 1   PressaoAlta             70692 non-null  category
 2   ColesterolAlto          70692 non-null  category
 3   ColesterolExame         70692 non-null  category
 4   IMC                     70692 non-null  float64 
 5   Fumante                 70692 non-null  category
 6   AVC                     70692 non-null  category
 7   ProblemaCardiaco        70692 non-null  category
 8   AtividadeFisica         70692 non-null  category
 9   ComeFrutas              70692 non-null  category
 10  ComeLegumes             70692 non-null  category
 11  ConsumoBebidaAlcoolica  70692 non-null  category
 12  PlanoSaude              70692 non-null  category
 13  SemDinheiroConsultas    70692 non-null  category
 14  SaudeGeral            

In [14]:
df_diabetes_tratado.head()

Unnamed: 0,Diabetes,PressaoAlta,ColesterolAlto,ColesterolExame,IMC,Fumante,AVC,ProblemaCardiaco,AtividadeFisica,ComeFrutas,...,PlanoSaude,SemDinheiroConsultas,SaudeGeral,DiasProblemasMentais,DiasProblemasFisicos,DificuldadeAndar,Genero,FaixaIdade,Ensino,FaixaRenda
0,Não,Sim,Não,Sim,26.0,Não,Não,Não,Sim,Não,...,Sim,Não,Boa,5.0,30.0,Não,Masculino,35-39,Faculdade +,$75.000+
1,Não,Sim,Sim,Sim,26.0,Sim,Sim,Não,Não,Sim,...,Sim,Não,Boa,0.0,0.0,Não,Masculino,75-79,Faculdade +,$75.000+
2,Não,Não,Não,Sim,26.0,Não,Não,Não,Sim,Sim,...,Sim,Não,Excelente,0.0,10.0,Não,Masculino,80+,Faculdade +,$75.000+
3,Não,Sim,Sim,Sim,28.0,Sim,Não,Não,Sim,Sim,...,Sim,Não,Boa,0.0,3.0,Não,Masculino,70-74,Faculdade +,$75.000+
4,Não,Não,Não,Sim,29.0,Sim,Não,Não,Sim,Sim,...,Sim,Não,Muito boa,0.0,0.0,Não,Feminino,55-59,Faculdade inc. ou Técnico,$75.000+


In [15]:
df_diabetes_tratado.describe()

Unnamed: 0,IMC,DiasProblemasMentais,DiasProblemasFisicos
count,70692.0,70692.0,70692.0
mean,29.856985,3.752037,5.810417
std,7.113954,8.155627,10.062261
min,12.0,0.0,0.0
25%,25.0,0.0,0.0
50%,29.0,0.0,0.0
75%,33.0,2.0,6.0
max,98.0,30.0,30.0


In [16]:
df_diabetes_tratado["DiasProblemasFisicos"].apply(float.is_integer).all()

True

In [17]:
colunas_numericas = df_diabetes_tratado.select_dtypes(include="number").columns.tolist()

colunas_numericas

['IMC', 'DiasProblemasMentais', 'DiasProblemasFisicos']

In [18]:
for coluna in colunas_numericas:
    df_diabetes_tratado[coluna] = pd.to_numeric(
        df_diabetes_tratado[coluna],
        downcast="integer"
    )

df_diabetes_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70692 entries, 0 to 70691
Data columns (total 22 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   Diabetes                70692 non-null  category
 1   PressaoAlta             70692 non-null  category
 2   ColesterolAlto          70692 non-null  category
 3   ColesterolExame         70692 non-null  category
 4   IMC                     70692 non-null  int8    
 5   Fumante                 70692 non-null  category
 6   AVC                     70692 non-null  category
 7   ProblemaCardiaco        70692 non-null  category
 8   AtividadeFisica         70692 non-null  category
 9   ComeFrutas              70692 non-null  category
 10  ComeLegumes             70692 non-null  category
 11  ConsumoBebidaAlcoolica  70692 non-null  category
 12  PlanoSaude              70692 non-null  category
 13  SemDinheiroConsultas    70692 non-null  category
 14  SaudeGeral            

In [19]:
df_diabetes_tratado.describe()

Unnamed: 0,IMC,DiasProblemasMentais,DiasProblemasFisicos
count,70692.0,70692.0,70692.0
mean,29.856985,3.752037,5.810417
std,7.113954,8.155627,10.062261
min,12.0,0.0,0.0
25%,25.0,0.0,0.0
50%,29.0,0.0,0.0
75%,33.0,2.0,6.0
max,98.0,30.0,30.0


Vídeo sobre otimizações de dataframes: https://www.youtube.com/watch?v=0IoOuHeYERg

In [20]:
df_diabetes_tratado.describe(exclude="number")

Unnamed: 0,Diabetes,PressaoAlta,ColesterolAlto,ColesterolExame,Fumante,AVC,ProblemaCardiaco,AtividadeFisica,ComeFrutas,ComeLegumes,ConsumoBebidaAlcoolica,PlanoSaude,SemDinheiroConsultas,SaudeGeral,DificuldadeAndar,Genero,FaixaIdade,Ensino,FaixaRenda
count,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692
unique,2,2,2,2,2,2,2,2,2,2,2,2,2,5,2,2,13,6,8
top,Não,Sim,Sim,Sim,Não,Não,Não,Sim,Sim,Sim,Não,Sim,Não,Boa,Não,Feminino,65-69,Faculdade +,$75.000+
freq,35346,39832,37163,68943,37094,66297,60243,49699,43249,55760,67672,67508,64053,23427,52826,38386,10856,26020,20646


In [21]:
df_diabetes_tratado.to_parquet(DADOS_TRATADOS, index=False)

Mais sobre formatos para salvar: https://www.youtube.com/watch?v=pTwDOKfB9QA