# Tratamento e Preparação dos Dados para Análise

## Conhecendo a base

O diabetes é uma condição crônica grave que compromete a capacidade do organismo de regular os níveis de glicose no sangue de forma eficaz, o que pode resultar em uma diminuição da qualidade de vida e da expectativa de vida.

O Sistema de Vigilância de Fatores de Risco Comportamentais (BRFSS) é uma pesquisa de saúde conduzida anualmente por telefone pelo Centro de Controle e Prevenção de Doenças dos Estados Unidos (CDC). Esse levantamento coleta informações de milhares de americanos sobre comportamentos de risco à saúde, condições crônicas e o uso de serviços preventivos.

Neste projeto, foi utilizado o conjunto de dados do BRFSS referente ao ano de 2015, disponível no 

Kaggle: https://www.kaggle.com/datasets/alexteboul/diabetes-health-indicators-dataset

Dicionário de variáveis:

- `Diabetes_binary`: 0 = sem diabetes, 1 = com diabetes
- `HighBP`: 0 = sem pressão alta, 1 = com pressão alta
- `HighChol`: 0 = sem colesterol alto, 1 = com colesterol alto
- `CholCheck`: 0 = não fez exame de colesterol na vida, 1 = fez exame de colesterol alguma vez
- `BMI`: Índice de Massa Corporal (IMC)
- `Smoker`: 0 = não fumante, 1 = fumante
- `Stroke`: 0 = sem histórico de AVC, 1 = com histórico de AVC
- `HeartDiseaseorAttack`: 0 = sem histórico de doença cardíaca ou ataque cardíaco, 1 = com histórico de doença cardíaca ou ataque cardíaco
- `PhysActivity`: 0 = não pratica atividade física, 1 = pratica atividade física
- `Fruits`: 0 = não consome frutas, 1 = consome frutas
- `Veggies`: 0 = não consome vegetais, 1 = consome vegetais
- `HvyAlcoholConsump`: 0 = não consome álcool em altas quantidades, 1 = consome álcool em altas quantidades
- `AnyHealthcare`: 0 = não tem plano de saúde, 1 = tem plano de saúde
- `NoDocbcCost`: 0 = não foi ao médico por questões financeiras, 1 = foi ao médico por questões financeiras (últimos 12 meses)
- `GenHlth`: Saúde geral (1 a 5) - 1 = Excelente, 2 = Muito boa, 3 = Boa, 4 = Aceitável, 5 = Ruim
- `MentHlth`: Nos últimos 30 dias, quantos dias a saúde mental não foi boa (0 a 30)
- `PhysHlth`: Nos últimos 30 dias, quantos dias a saúde física não foi boa (0 a 30)
- `DiffWalk`: 0 = não tem dificuldade para caminhar, 1 = tem dificuldade para caminhar
- `Sex`: 0 = feminino, 1 = masculino
- `Age`: Idade em faixas 1 = 18-24; 2 = 25-29; 3 = 30-34; 4 = 35-39; 5 = 40-44; 6 = 45-49; 7 = 50-54; 8 = 55-59; 9 = 60-64; 10 = 65-69; 11 = 70-74; 12 = 75-79; 13 = 80+
- `Education`: Níveis de ensino 1 = nunca frequentou a escola; 2 = escola primária; 3 = escola secundária incompleta ; 4 = escola secundária; 5 = faculdade incompleta ou curso técnico; 6 = completou faculdade ou diplomas superiores
- `Income`: Renda anual em faixas 1 = < 10.000; 2 = 10.000-14.999; 3 = 15.000-19.999; 4 = 20.000-24.999; 5 = 25.000-34.999; 6 = 35.000-49.999; 7 = 50.000-74.999; 8 = 75.000+

In [1]:
# Imprtando o pandas 
import pandas as pd

# Importando o arquivo de configuração 
from src.config import DADOS_ORIGINAIS, DADOS_TRATADOS

# Criando o dataframe do banco de dados e visualizando as primeiras linhas 
df_diabetes = pd.read_csv(DADOS_ORIGINAIS)
 
df_diabetes.head()

Unnamed: 0,Diabetes_binary,HighBP,HighChol,CholCheck,BMI,Smoker,Stroke,HeartDiseaseorAttack,PhysActivity,Fruits,...,AnyHealthcare,NoDocbcCost,GenHlth,MentHlth,PhysHlth,DiffWalk,Sex,Age,Education,Income
0,0.0,1.0,0.0,1.0,26.0,0.0,0.0,0.0,1.0,0.0,...,1.0,0.0,3.0,5.0,30.0,0.0,1.0,4.0,6.0,8.0
1,0.0,1.0,1.0,1.0,26.0,1.0,1.0,0.0,0.0,1.0,...,1.0,0.0,3.0,0.0,0.0,0.0,1.0,12.0,6.0,8.0
2,0.0,0.0,0.0,1.0,26.0,0.0,0.0,0.0,1.0,1.0,...,1.0,0.0,1.0,0.0,10.0,0.0,1.0,13.0,6.0,8.0
3,0.0,1.0,1.0,1.0,28.0,1.0,0.0,0.0,1.0,1.0,...,1.0,0.0,3.0,0.0,3.0,0.0,1.0,11.0,6.0,8.0
4,0.0,0.0,0.0,1.0,29.0,1.0,0.0,0.0,1.0,1.0,...,1.0,0.0,2.0,0.0,0.0,0.0,0.0,8.0,5.0,8.0


In [2]:
# Visualizando todas as colunas presentes no dataframe 
with pd.option_context("display.max_columns", None):
    display(df_diabetes.head())

Unnamed: 0,Diabetes_binary,HighBP,HighChol,CholCheck,BMI,Smoker,Stroke,HeartDiseaseorAttack,PhysActivity,Fruits,Veggies,HvyAlcoholConsump,AnyHealthcare,NoDocbcCost,GenHlth,MentHlth,PhysHlth,DiffWalk,Sex,Age,Education,Income
0,0.0,1.0,0.0,1.0,26.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,3.0,5.0,30.0,0.0,1.0,4.0,6.0,8.0
1,0.0,1.0,1.0,1.0,26.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,3.0,0.0,0.0,0.0,1.0,12.0,6.0,8.0
2,0.0,0.0,0.0,1.0,26.0,0.0,0.0,0.0,1.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,10.0,0.0,1.0,13.0,6.0,8.0
3,0.0,1.0,1.0,1.0,28.0,1.0,0.0,0.0,1.0,1.0,1.0,0.0,1.0,0.0,3.0,0.0,3.0,0.0,1.0,11.0,6.0,8.0
4,0.0,0.0,0.0,1.0,29.0,1.0,0.0,0.0,1.0,1.0,1.0,0.0,1.0,0.0,2.0,0.0,0.0,0.0,0.0,8.0,5.0,8.0


In [3]:
# Observando as informações sobre o dataframe 
df_diabetes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70692 entries, 0 to 70691
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Diabetes_binary       70692 non-null  float64
 1   HighBP                70692 non-null  float64
 2   HighChol              70692 non-null  float64
 3   CholCheck             70692 non-null  float64
 4   BMI                   70692 non-null  float64
 5   Smoker                70692 non-null  float64
 6   Stroke                70692 non-null  float64
 7   HeartDiseaseorAttack  70692 non-null  float64
 8   PhysActivity          70692 non-null  float64
 9   Fruits                70692 non-null  float64
 10  Veggies               70692 non-null  float64
 11  HvyAlcoholConsump     70692 non-null  float64
 12  AnyHealthcare         70692 non-null  float64
 13  NoDocbcCost           70692 non-null  float64
 14  GenHlth               70692 non-null  float64
 15  MentHlth           

### Traduzindo os nomes das colunas do banco de dados 

In [4]:
# Alterando o nome das colunas do banco de dados 
df_diabetes.columns = [
    "Diabetes",
    "Pressao_Alta",
    "Colesterol_Alto",
    "Colesterol_Exame",
    "IMC",
    "Fumante",
    "AVC",
    "Problema_Cardiaco",
    "Atividade_Fisica",
    "Come_Frutas",
    "Come_Legumes",
    "Consumo_Bebida_Alcoolica",
    "Plano_Saude",
    "Sem_Dinheiro_Consultas",
    "Saude_Geral",
    "Dias_Problemas_Mentais",
    "Dias_Problemas_Fisicos",
    "Dificuldade_Andar",
    "Genero",
    "Faixa_Idade",
    "Ensino",
    "Faixa_Renda",
]

In [5]:
# Verificando os valores únicos presentes em cada coluna do dataframe 
df_diabetes.nunique()

Diabetes                     2
Pressao_Alta                 2
Colesterol_Alto              2
Colesterol_Exame             2
IMC                         80
Fumante                      2
AVC                          2
Problema_Cardiaco            2
Atividade_Fisica             2
Come_Frutas                  2
Come_Legumes                 2
Consumo_Bebida_Alcoolica     2
Plano_Saude                  2
Sem_Dinheiro_Consultas       2
Saude_Geral                  5
Dias_Problemas_Mentais      31
Dias_Problemas_Fisicos      31
Dificuldade_Andar            2
Genero                       2
Faixa_Idade                 13
Ensino                       6
Faixa_Renda                  8
dtype: int64

### Após analisar as colunas do dataset, vou separar as colunas em diferentes listas de acordo com suas características

In [6]:
# Categorizando as colunas do Dataframe 

# Criando uma lista com as colunas com valores binários 
colunas_binarias = df_diabetes.nunique()[df_diabetes.nunique() == 2].index.tolist()

colunas_binarias

['Diabetes',
 'Pressao_Alta',
 'Colesterol_Alto',
 'Colesterol_Exame',
 'Fumante',
 'AVC',
 'Problema_Cardiaco',
 'Atividade_Fisica',
 'Come_Frutas',
 'Come_Legumes',
 'Consumo_Bebida_Alcoolica',
 'Plano_Saude',
 'Sem_Dinheiro_Consultas',
 'Dificuldade_Andar',
 'Genero']

In [7]:
# Criando uma cópia do dataframe para realizar tratamento dos dados sem alterar a base original

# Criando uma cópia do dataframe
df_diabetes_tratado = df_diabetes.copy()

df_diabetes_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70692 entries, 0 to 70691
Data columns (total 22 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Diabetes                  70692 non-null  float64
 1   Pressao_Alta              70692 non-null  float64
 2   Colesterol_Alto           70692 non-null  float64
 3   Colesterol_Exame          70692 non-null  float64
 4   IMC                       70692 non-null  float64
 5   Fumante                   70692 non-null  float64
 6   AVC                       70692 non-null  float64
 7   Problema_Cardiaco         70692 non-null  float64
 8   Atividade_Fisica          70692 non-null  float64
 9   Come_Frutas               70692 non-null  float64
 10  Come_Legumes              70692 non-null  float64
 11  Consumo_Bebida_Alcoolica  70692 non-null  float64
 12  Plano_Saude               70692 non-null  float64
 13  Sem_Dinheiro_Consultas    70692 non-null  float64
 14  Saude_

In [8]:
# Transformando o tipo das colunas binárias de float para categórico
# OBS: O tipo category otimiza a forma de como os dados são tratados, por exemplo o armazenamento em memória reduziu em 59,66% (de 11,9MB para 4,8MB)

# Passa pela lista das colunas binárias e substitui 0 -> Não e 1 -> Sim exeto para coluna Genero 0 -> Feminino e 1 -> Masculino
for coluna in colunas_binarias:
    if coluna != "Genero":
        df_diabetes_tratado[coluna] = pd.Categorical(df_diabetes_tratado[coluna]).rename_categories(["Não", "Sim"])
    else:
        df_diabetes_tratado[coluna] = pd.Categorical(df_diabetes_tratado[coluna]).rename_categories(["Feminino", "Masculino"])

In [9]:
# Verificando o novo dataframe com o nome das colunas alterado
# Visualizando a modificação nas colunas binárias.
with pd.option_context("display.max_columns", None):
    display(df_diabetes_tratado.head())

Unnamed: 0,Diabetes,Pressao_Alta,Colesterol_Alto,Colesterol_Exame,IMC,Fumante,AVC,Problema_Cardiaco,Atividade_Fisica,Come_Frutas,Come_Legumes,Consumo_Bebida_Alcoolica,Plano_Saude,Sem_Dinheiro_Consultas,Saude_Geral,Dias_Problemas_Mentais,Dias_Problemas_Fisicos,Dificuldade_Andar,Genero,Faixa_Idade,Ensino,Faixa_Renda
0,Não,Sim,Não,Sim,26.0,Não,Não,Não,Sim,Não,Sim,Não,Sim,Não,3.0,5.0,30.0,Não,Masculino,4.0,6.0,8.0
1,Não,Sim,Sim,Sim,26.0,Sim,Sim,Não,Não,Sim,Não,Não,Sim,Não,3.0,0.0,0.0,Não,Masculino,12.0,6.0,8.0
2,Não,Não,Não,Sim,26.0,Não,Não,Não,Sim,Sim,Sim,Não,Sim,Não,1.0,0.0,10.0,Não,Masculino,13.0,6.0,8.0
3,Não,Sim,Sim,Sim,28.0,Sim,Não,Não,Sim,Sim,Sim,Não,Sim,Não,3.0,0.0,3.0,Não,Masculino,11.0,6.0,8.0
4,Não,Não,Não,Sim,29.0,Sim,Não,Não,Sim,Sim,Sim,Não,Sim,Não,2.0,0.0,0.0,Não,Feminino,8.0,5.0,8.0


In [10]:
# Observa que as colunas binárias agora estão com Dtype = category 
df_diabetes_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70692 entries, 0 to 70691
Data columns (total 22 columns):
 #   Column                    Non-Null Count  Dtype   
---  ------                    --------------  -----   
 0   Diabetes                  70692 non-null  category
 1   Pressao_Alta              70692 non-null  category
 2   Colesterol_Alto           70692 non-null  category
 3   Colesterol_Exame          70692 non-null  category
 4   IMC                       70692 non-null  float64 
 5   Fumante                   70692 non-null  category
 6   AVC                       70692 non-null  category
 7   Problema_Cardiaco         70692 non-null  category
 8   Atividade_Fisica          70692 non-null  category
 9   Come_Frutas               70692 non-null  category
 10  Come_Legumes              70692 non-null  category
 11  Consumo_Bebida_Alcoolica  70692 non-null  category
 12  Plano_Saude               70692 non-null  category
 13  Sem_Dinheiro_Consultas    70692 non-null  cate

In [11]:
# Mudando o tipo de dado da coluna Saude_Geral para categórico e renomeando as informações da coluna 

df_diabetes_tratado["Saude_Geral"] = pd.Categorical(
    df_diabetes_tratado["Saude_Geral"],
    ordered=True # pois apresentam um ordenamento nos dados 
).rename_categories(["Excelente", "Muito boa", "Boa", "Aceitável", "Ruim"])

df_diabetes_tratado["Saude_Geral"].head()

0          Boa
1          Boa
2    Excelente
3          Boa
4    Muito boa
Name: Saude_Geral, dtype: category
Categories (5, object): ['Excelente' < 'Muito boa' < 'Boa' < 'Aceitável' < 'Ruim']

In [12]:
# Mudando o tipo de dado da coluna FaixaIdade para categórico e renomeando as informações da coluna 


df_diabetes_tratado["Faixa_Idade"] = pd.Categorical(
    df_diabetes_tratado["Faixa_Idade"],
    ordered=True # Pois as faixas de idade apresentem um ordenamento 
).rename_categories(
    [
        "18-24",
        "25-29",
        "30-34",
        "35-39",
        "40-44",
        "45-49",
        "50-54",
        "55-59",
        "60-64",
        "65-69",
        "70-74",
        "75-79",
        "80+",
    ]
)

# Mudando o tipo de dado da coluna Ensino para categórico e renomeando as informações da coluna 
df_diabetes_tratado["Ensino"] = pd.Categorical(
    df_diabetes_tratado["Ensino"],
    ordered=True
).rename_categories(
    [
        "Sem estudo",
        "Primário",
        "Secundário inc.",
        "Secundário",
        "Faculdade inc. ou Técnico",
        "Faculdade +",
    ]
)

# Mudando o tipo de dado da coluna FaixaRenda para categórico e renomeando as informações da coluna 
df_diabetes_tratado["Faixa_Renda"] = pd.Categorical(
    df_diabetes_tratado["Faixa_Renda"],
    ordered=True
).rename_categories(
    [
        "< $10.000",
        "$10.000-$14.999",
        "$15.000-$19.999",
        "$20.000-$24.999",
        "$25.000-$34.999",
        "$35.000-$49.999",
        "$50.000-$74.999",
        "$75.000+",
    ]
)

In [13]:
# Verificando as informações sobre o dataframe
df_diabetes_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70692 entries, 0 to 70691
Data columns (total 22 columns):
 #   Column                    Non-Null Count  Dtype   
---  ------                    --------------  -----   
 0   Diabetes                  70692 non-null  category
 1   Pressao_Alta              70692 non-null  category
 2   Colesterol_Alto           70692 non-null  category
 3   Colesterol_Exame          70692 non-null  category
 4   IMC                       70692 non-null  float64 
 5   Fumante                   70692 non-null  category
 6   AVC                       70692 non-null  category
 7   Problema_Cardiaco         70692 non-null  category
 8   Atividade_Fisica          70692 non-null  category
 9   Come_Frutas               70692 non-null  category
 10  Come_Legumes              70692 non-null  category
 11  Consumo_Bebida_Alcoolica  70692 non-null  category
 12  Plano_Saude               70692 non-null  category
 13  Sem_Dinheiro_Consultas    70692 non-null  cate

In [14]:
# Visualizando as 10 primeiras linhas da dataframe 
df_diabetes_tratado.head(10)

Unnamed: 0,Diabetes,Pressao_Alta,Colesterol_Alto,Colesterol_Exame,IMC,Fumante,AVC,Problema_Cardiaco,Atividade_Fisica,Come_Frutas,...,Plano_Saude,Sem_Dinheiro_Consultas,Saude_Geral,Dias_Problemas_Mentais,Dias_Problemas_Fisicos,Dificuldade_Andar,Genero,Faixa_Idade,Ensino,Faixa_Renda
0,Não,Sim,Não,Sim,26.0,Não,Não,Não,Sim,Não,...,Sim,Não,Boa,5.0,30.0,Não,Masculino,35-39,Faculdade +,$75.000+
1,Não,Sim,Sim,Sim,26.0,Sim,Sim,Não,Não,Sim,...,Sim,Não,Boa,0.0,0.0,Não,Masculino,75-79,Faculdade +,$75.000+
2,Não,Não,Não,Sim,26.0,Não,Não,Não,Sim,Sim,...,Sim,Não,Excelente,0.0,10.0,Não,Masculino,80+,Faculdade +,$75.000+
3,Não,Sim,Sim,Sim,28.0,Sim,Não,Não,Sim,Sim,...,Sim,Não,Boa,0.0,3.0,Não,Masculino,70-74,Faculdade +,$75.000+
4,Não,Não,Não,Sim,29.0,Sim,Não,Não,Sim,Sim,...,Sim,Não,Muito boa,0.0,0.0,Não,Feminino,55-59,Faculdade inc. ou Técnico,$75.000+
5,Não,Não,Não,Sim,18.0,Não,Não,Não,Sim,Sim,...,Não,Não,Muito boa,7.0,0.0,Não,Feminino,18-24,Secundário,$50.000-$74.999
6,Não,Não,Sim,Sim,26.0,Sim,Não,Não,Sim,Sim,...,Sim,Não,Excelente,0.0,0.0,Não,Masculino,80+,Faculdade inc. ou Técnico,$35.000-$49.999
7,Não,Não,Não,Sim,31.0,Sim,Não,Não,Não,Sim,...,Sim,Não,Aceitável,0.0,0.0,Não,Masculino,45-49,Secundário,$15.000-$19.999
8,Não,Não,Não,Sim,32.0,Não,Não,Não,Sim,Sim,...,Sim,Não,Boa,0.0,0.0,Não,Feminino,30-34,Faculdade +,$75.000+
9,Não,Não,Não,Sim,27.0,Sim,Não,Não,Não,Sim,...,Sim,Não,Boa,0.0,6.0,Não,Masculino,45-49,Secundário,$20.000-$24.999


In [15]:
# Visualizando as 10 últimas linhas da dataframe 
df_diabetes_tratado.tail(10)

Unnamed: 0,Diabetes,Pressao_Alta,Colesterol_Alto,Colesterol_Exame,IMC,Fumante,AVC,Problema_Cardiaco,Atividade_Fisica,Come_Frutas,...,Plano_Saude,Sem_Dinheiro_Consultas,Saude_Geral,Dias_Problemas_Mentais,Dias_Problemas_Fisicos,Dificuldade_Andar,Genero,Faixa_Idade,Ensino,Faixa_Renda
70682,Sim,Sim,Não,Sim,37.0,Não,Não,Não,Não,Não,...,Sim,Não,Aceitável,0.0,30.0,Sim,Feminino,60-64,Primário,< $10.000
70683,Sim,Sim,Não,Sim,28.0,Não,Não,Não,Não,Não,...,Sim,Não,Muito boa,0.0,0.0,Não,Feminino,65-69,Secundário,$15.000-$19.999
70684,Sim,Sim,Sim,Sim,27.0,Não,Não,Sim,Sim,Não,...,Sim,Sim,Aceitável,30.0,5.0,Não,Masculino,60-64,Secundário,$25.000-$34.999
70685,Sim,Sim,Não,Sim,38.0,Não,Não,Não,Sim,Não,...,Sim,Não,Aceitável,0.0,0.0,Não,Feminino,50-54,Faculdade +,$10.000-$14.999
70686,Sim,Não,Sim,Sim,27.0,Não,Não,Não,Sim,Sim,...,Sim,Não,Aceitável,0.0,30.0,Não,Masculino,70-74,Primário,$15.000-$19.999
70687,Sim,Não,Sim,Sim,37.0,Não,Não,Não,Não,Não,...,Sim,Não,Aceitável,0.0,0.0,Não,Feminino,45-49,Secundário,< $10.000
70688,Sim,Não,Sim,Sim,29.0,Sim,Não,Sim,Não,Sim,...,Sim,Não,Muito boa,0.0,0.0,Sim,Masculino,65-69,Secundário inc.,$35.000-$49.999
70689,Sim,Sim,Sim,Sim,25.0,Não,Não,Sim,Não,Sim,...,Sim,Não,Ruim,15.0,0.0,Sim,Feminino,80+,Faculdade +,$20.000-$24.999
70690,Sim,Sim,Sim,Sim,18.0,Não,Não,Não,Não,Não,...,Sim,Não,Aceitável,0.0,0.0,Sim,Feminino,70-74,Primário,$20.000-$24.999
70691,Sim,Sim,Sim,Sim,25.0,Não,Não,Sim,Sim,Sim,...,Sim,Não,Muito boa,0.0,0.0,Não,Feminino,60-64,Faculdade +,$10.000-$14.999


In [16]:
# Verificando resumo estatísticos das colunas numpericas do dataframe 

df_diabetes_tratado.describe()

Unnamed: 0,IMC,Dias_Problemas_Mentais,Dias_Problemas_Fisicos
count,70692.0,70692.0,70692.0
mean,29.856985,3.752037,5.810417
std,7.113954,8.155627,10.062261
min,12.0,0.0,0.0
25%,25.0,0.0,0.0
50%,29.0,0.0,0.0
75%,33.0,2.0,6.0
max,98.0,30.0,30.0


##### Verificando se as colunas que são do tipo float podem ser convertidas para inteiro 


In [17]:
# Verificando se as colunas numéricas que são do tipo float poderiam ser convertidas para inteiro 
df_diabetes_tratado["IMC"].apply(float.is_integer).all()

True

In [18]:
# Verificando se as colunas numéricas que são do tipo float poderiam ser convertidas para inteiro 
df_diabetes_tratado["Dias_Problemas_Mentais"].apply(float.is_integer).all()

True

In [19]:
# Verificando se as colunas numéricas que são do tipo float poderiam ser convertidas para inteiro 
df_diabetes_tratado["Dias_Problemas_Fisicos"].apply(float.is_integer).all()

True

In [20]:
# Selecianando somente as colunas do tipo numérico e criando uma lista com essas colunas 
colunas_numericas = df_diabetes_tratado.select_dtypes(include="number").columns.tolist()

colunas_numericas

['IMC', 'Dias_Problemas_Mentais', 'Dias_Problemas_Fisicos']

In [21]:
# Transformando as colunas numéricas que estão em float para integer
for coluna in colunas_numericas:
    df_diabetes_tratado[coluna] = pd.to_numeric(
        df_diabetes_tratado[coluna],
        downcast="integer"
    )

df_diabetes_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70692 entries, 0 to 70691
Data columns (total 22 columns):
 #   Column                    Non-Null Count  Dtype   
---  ------                    --------------  -----   
 0   Diabetes                  70692 non-null  category
 1   Pressao_Alta              70692 non-null  category
 2   Colesterol_Alto           70692 non-null  category
 3   Colesterol_Exame          70692 non-null  category
 4   IMC                       70692 non-null  int8    
 5   Fumante                   70692 non-null  category
 6   AVC                       70692 non-null  category
 7   Problema_Cardiaco         70692 non-null  category
 8   Atividade_Fisica          70692 non-null  category
 9   Come_Frutas               70692 non-null  category
 10  Come_Legumes              70692 non-null  category
 11  Consumo_Bebida_Alcoolica  70692 non-null  category
 12  Plano_Saude               70692 non-null  category
 13  Sem_Dinheiro_Consultas    70692 non-null  cate

In [22]:
# Os dados estatísticos continuam integros (os mesmos) após a transformação de float para integer
df_diabetes_tratado.describe()

Unnamed: 0,IMC,Dias_Problemas_Mentais,Dias_Problemas_Fisicos
count,70692.0,70692.0,70692.0
mean,29.856985,3.752037,5.810417
std,7.113954,8.155627,10.062261
min,12.0,0.0,0.0
25%,25.0,0.0,0.0
50%,29.0,0.0,0.0
75%,33.0,2.0,6.0
max,98.0,30.0,30.0


In [23]:
# Analisando resumo esttístico das colunas não numéricas 
df_diabetes_tratado.describe(exclude="number")

Unnamed: 0,Diabetes,Pressao_Alta,Colesterol_Alto,Colesterol_Exame,Fumante,AVC,Problema_Cardiaco,Atividade_Fisica,Come_Frutas,Come_Legumes,Consumo_Bebida_Alcoolica,Plano_Saude,Sem_Dinheiro_Consultas,Saude_Geral,Dificuldade_Andar,Genero,Faixa_Idade,Ensino,Faixa_Renda
count,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692,70692
unique,2,2,2,2,2,2,2,2,2,2,2,2,2,5,2,2,13,6,8
top,Não,Sim,Sim,Sim,Não,Não,Não,Sim,Sim,Sim,Não,Sim,Não,Boa,Não,Feminino,65-69,Faculdade +,$75.000+
freq,35346,39832,37163,68943,37094,66297,60243,49699,43249,55760,67672,67508,64053,23427,52826,38386,10856,26020,20646


In [24]:
# Salvando a base de dados após o tratamento de dados no formato PARQUET

df_diabetes_tratado.to_parquet(DADOS_TRATADOS , index=False)
# OBS: se fosse salvo em CSV por exemplo algumas modifições não seriam salvas perdemdo as modificações e otimizações realizadas 

In [25]:
df_diabetes_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70692 entries, 0 to 70691
Data columns (total 22 columns):
 #   Column                    Non-Null Count  Dtype   
---  ------                    --------------  -----   
 0   Diabetes                  70692 non-null  category
 1   Pressao_Alta              70692 non-null  category
 2   Colesterol_Alto           70692 non-null  category
 3   Colesterol_Exame          70692 non-null  category
 4   IMC                       70692 non-null  int8    
 5   Fumante                   70692 non-null  category
 6   AVC                       70692 non-null  category
 7   Problema_Cardiaco         70692 non-null  category
 8   Atividade_Fisica          70692 non-null  category
 9   Come_Frutas               70692 non-null  category
 10  Come_Legumes              70692 non-null  category
 11  Consumo_Bebida_Alcoolica  70692 non-null  category
 12  Plano_Saude               70692 non-null  category
 13  Sem_Dinheiro_Consultas    70692 non-null  cate