# 1. Importação de Bibliotecas e carregamento de dados

## 1.1. Bibliotecas

In [67]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## 1.2. Carregamento de dados

In [68]:
df = pd.read_csv('data/raw/Obesity.csv')

In [69]:
print(df.head())

   Gender   Age  Height  Weight family_history FAVC  FCVC  NCP       CAEC  \
0  Female  21.0    1.62    64.0            yes   no   2.0  3.0  Sometimes   
1  Female  21.0    1.52    56.0            yes   no   3.0  3.0  Sometimes   
2    Male  23.0    1.80    77.0            yes   no   2.0  3.0  Sometimes   
3    Male  27.0    1.80    87.0             no   no   3.0  3.0  Sometimes   
4    Male  22.0    1.78    89.8             no   no   2.0  1.0  Sometimes   

  SMOKE  CH2O  SCC  FAF  TUE        CALC                 MTRANS  \
0    no   2.0   no  0.0  1.0          no  Public_Transportation   
1   yes   3.0  yes  3.0  0.0   Sometimes  Public_Transportation   
2    no   2.0   no  2.0  1.0  Frequently  Public_Transportation   
3    no   2.0   no  2.0  0.0  Frequently                Walking   
4    no   2.0   no  0.0  0.0   Sometimes  Public_Transportation   

               Obesity  
0        Normal_Weight  
1        Normal_Weight  
2        Normal_Weight  
3   Overweight_Level_I  
4  Overwe

# 2. Tratamento dos dados

## 2.1. Checagem iniciais

In [70]:
# Verificação da quantidade de linhas e colunas
df.shape

(2111, 17)

In [71]:
# Verificação das informações do DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 17 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Gender          2111 non-null   object 
 1   Age             2111 non-null   float64
 2   Height          2111 non-null   float64
 3   Weight          2111 non-null   float64
 4   family_history  2111 non-null   object 
 5   FAVC            2111 non-null   object 
 6   FCVC            2111 non-null   float64
 7   NCP             2111 non-null   float64
 8   CAEC            2111 non-null   object 
 9   SMOKE           2111 non-null   object 
 10  CH2O            2111 non-null   float64
 11  SCC             2111 non-null   object 
 12  FAF             2111 non-null   float64
 13  TUE             2111 non-null   float64
 14  CALC            2111 non-null   object 
 15  MTRANS          2111 non-null   object 
 16  Obesity         2111 non-null   object 
dtypes: float64(8), object(9)
memory u

In [72]:
# Verificação de valores nulos
df.isnull().sum()

Gender            0
Age               0
Height            0
Weight            0
family_history    0
FAVC              0
FCVC              0
NCP               0
CAEC              0
SMOKE             0
CH2O              0
SCC               0
FAF               0
TUE               0
CALC              0
MTRANS            0
Obesity           0
dtype: int64

## 2.2. Ajuste e padronização das features

In [73]:
# Renoemando colunas para facilitar a leitura e manipulação dos dados
df_tratado = df.rename(columns ={
    'Gender': 'genero',                                 # Male ou Female
    'Age': 'idade',                                     # Idade em anos
    'Height': 'altura',                                 # Altura em metros
    'Weight': 'peso',                                   # Peso em kg
    'family_history': 'historico_familiar_sobrepeso',   # Histórico familiar de sobrepeso? (yes, no)
    'FAVC': 'consumo_alimentos_caloricos',              # Consome frequentemente alimentos com alto teor calórico?
    'FCVC': 'consumo_vegetais',                         # Qual a frequência de consumo de vegetais? Escala de 1-raramente, 2-as_vezes,  3-sempre
    'NCP': 'refeicoes_por_dia',                         # Número de refeições por dia? Escala de 1-uma_refeicao_dia, 2-duas_refeicao_dia,  3  tres_refeicao_dia,  4-quatro_refeicao_dia
    'CAEC': 'lanches_entre_refeicoes',                  # Alimenta-se entre refeições? (nao, as_vezes, frequentemente, sempre)
    'SMOKE': 'fumante',                                 # Você é fumante? (yes, no)
    'CH2O': 'consumo_agua_por_dia',                     # Consumo de água por dia? Escala de 1 a 3
    'SCC': 'monitora_calorias',                         # Monitora o consumo de calorias? (yes, no)
    'FAF': 'atividade_fisica_semana',                   # Frequência de atividade física por semana? Escala de 0 a 3
    'TUE': 'tempo_eletronicos_por_dia',                 # Tempo gasto em dispositivos eletrônicos por dia? Escala de 0 a 2
    'CALC': 'consumo_alcoolico',                        # Consumo de bebidas alcoólicas? (no, sometimes, frequently, always)
    'MTRANS': 'meio_transporte',                        # Meio de transporte utilizado principalmente (automobile, bike, motorbike, public_transportation, walking)
    'Obesity': 'obesidade'                              # Nível de obesidade (Insufficient_Weight, Normal_Weight, Overweight_Level_I, Overweight_Level_II, Obesity_Type_I, Obesity_Type_II, Obesity_Type_III)
})

## 2.3. Verificação de conteúdo das features e ajustes

In [74]:
# Conferindo valores das features
df_tratado.nunique()

genero                             2
idade                           1402
altura                          1574
peso                            1525
historico_familiar_sobrepeso       2
consumo_alimentos_caloricos        2
consumo_vegetais                 810
refeicoes_por_dia                635
lanches_entre_refeicoes            4
fumante                            2
consumo_agua_por_dia            1268
monitora_calorias                  2
atividade_fisica_semana         1190
tempo_eletronicos_por_dia       1129
consumo_alcoolico                  4
meio_transporte                    5
obesidade                          7
dtype: int64

In [75]:
# Ajuste de valores das features conforme dicionário orienta.
df_tratado['consumo_vegetais']  = df_tratado['consumo_vegetais'].round(0).astype(int)
df_tratado['refeicoes_por_dia']  = df_tratado['refeicoes_por_dia'].round(0).astype(int)
df_tratado['consumo_agua_por_dia']  = df_tratado['consumo_agua_por_dia'].round(0).astype(int)
df_tratado['atividade_fisica_semana']  = df_tratado['atividade_fisica_semana'].round(0).astype(int)
df_tratado['tempo_eletronicos_por_dia']  = df_tratado['tempo_eletronicos_por_dia'].round(0).astype(int)

## 2.4. Binarização de features

In [76]:
# Yes = 1 / No = 0
df_tratado['historico_familiar_sobrepeso'] = df_tratado['historico_familiar_sobrepeso'].map({'yes': 1, 'no': 0})
df_tratado['consumo_alimentos_caloricos'] = df_tratado['consumo_alimentos_caloricos'].map({'yes': 1, 'no': 0})
df_tratado['fumante'] = df_tratado['fumante'].map({'yes': 1, 'no': 0})
df_tratado['monitora_calorias'] = df_tratado['monitora_calorias'].map({'yes': 1, 'no': 0})

In [77]:
# Binarização de gênero
df_tratado['genero'] = df_tratado['genero'].map({'Female': 0, 'Male': 1})

In [78]:
df_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 17 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   genero                        2111 non-null   int64  
 1   idade                         2111 non-null   float64
 2   altura                        2111 non-null   float64
 3   peso                          2111 non-null   float64
 4   historico_familiar_sobrepeso  2111 non-null   int64  
 5   consumo_alimentos_caloricos   2111 non-null   int64  
 6   consumo_vegetais              2111 non-null   int64  
 7   refeicoes_por_dia             2111 non-null   int64  
 8   lanches_entre_refeicoes       2111 non-null   object 
 9   fumante                       2111 non-null   int64  
 10  consumo_agua_por_dia          2111 non-null   int64  
 11  monitora_calorias             2111 non-null   int64  
 12  atividade_fisica_semana       2111 non-null   int64  
 13  tem

In [79]:
df_tratado.head()

Unnamed: 0,genero,idade,altura,peso,historico_familiar_sobrepeso,consumo_alimentos_caloricos,consumo_vegetais,refeicoes_por_dia,lanches_entre_refeicoes,fumante,consumo_agua_por_dia,monitora_calorias,atividade_fisica_semana,tempo_eletronicos_por_dia,consumo_alcoolico,meio_transporte,obesidade
0,0,21.0,1.62,64.0,1,0,2,3,Sometimes,0,2,0,0,1,no,Public_Transportation,Normal_Weight
1,0,21.0,1.52,56.0,1,0,3,3,Sometimes,1,3,1,3,0,Sometimes,Public_Transportation,Normal_Weight
2,1,23.0,1.8,77.0,1,0,2,3,Sometimes,0,2,0,2,1,Frequently,Public_Transportation,Normal_Weight
3,1,27.0,1.8,87.0,0,0,3,3,Sometimes,0,2,0,2,0,Frequently,Walking,Overweight_Level_I
4,1,22.0,1.78,89.8,0,0,2,1,Sometimes,0,2,0,0,0,Sometimes,Public_Transportation,Overweight_Level_II
