# Analise Exploratória dos Dados (EDA)

In [6]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
import joblib


In [7]:
df = pd.read_csv('Obesity.csv')
df

Unnamed: 0,Genero,Idade,Altura,Peso,Historico_Familiar_Excesso_De_Peso,Consumo_Frequente_Alta_Caloria,Freq_Vegetais,Num_refeicoes,Comes_Entre_Refeicoes,Fumante,Consumo_Agua,Monitora_Calorias,Freq_Atividade_Fisica,Tempo_uso_dispositivos_eletronicos,Consumo_Alcool,Transporte,Obesidade
0,Female,21.000000,1.620000,64.000000,yes,no,2.0,3.0,Sometimes,no,2.000000,no,0.000000,1.000000,no,Public_Transportation,Normal_Weight
1,Female,21.000000,1.520000,56.000000,yes,no,3.0,3.0,Sometimes,yes,3.000000,yes,3.000000,0.000000,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.000000,1.800000,77.000000,yes,no,2.0,3.0,Sometimes,no,2.000000,no,2.000000,1.000000,Frequently,Public_Transportation,Normal_Weight
3,Male,27.000000,1.800000,87.000000,no,no,3.0,3.0,Sometimes,no,2.000000,no,2.000000,0.000000,Frequently,Walking,Overweight_Level_I
4,Male,22.000000,1.780000,89.800000,no,no,2.0,1.0,Sometimes,no,2.000000,no,0.000000,0.000000,Sometimes,Public_Transportation,Overweight_Level_II
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2106,Female,20.976842,1.710730,131.408528,yes,yes,3.0,3.0,Sometimes,no,1.728139,no,1.676269,0.906247,Sometimes,Public_Transportation,Obesity_Type_III
2107,Female,21.982942,1.748584,133.742943,yes,yes,3.0,3.0,Sometimes,no,2.005130,no,1.341390,0.599270,Sometimes,Public_Transportation,Obesity_Type_III
2108,Female,22.524036,1.752206,133.689352,yes,yes,3.0,3.0,Sometimes,no,2.054193,no,1.414209,0.646288,Sometimes,Public_Transportation,Obesity_Type_III
2109,Female,24.361936,1.739450,133.346641,yes,yes,3.0,3.0,Sometimes,no,2.852339,no,1.139107,0.586035,Sometimes,Public_Transportation,Obesity_Type_III


In [8]:
mapa_colunas = {
    'Gender': 'Genero', 'Age': 'Idade', 'Height': 'Altura', 'Weight': 'Peso',
    'family_history': 'Historico_Familiar_Excesso_De_Peso',
    'FAVC': 'Consumo_Frequente_Alta_Caloria', 'FCVC': 'Freq_Vegetais',
    'NCP': 'Num_refeicoes', 'CAEC': 'Comes_Entre_Refeicoes', 'SMOKE': 'Fumante',
    'CH2O': 'Consumo_Agua', 'SCC': 'Monitora_Calorias', 'FAF': 'Freq_Atividade_Fisica',
    'TUE': 'Tempo_uso_dispositivos_eletronicos', 'CALC': 'Consumo_Alcool',
    'MTRANS': 'Transporte', 'Obesity': 'Obesidade'
}
df.rename(columns=mapa_colunas, inplace=True)



In [9]:
df.info()
# Salva os dados prontos
df.to_csv('Obesity.csv', index=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 17 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Genero                              2111 non-null   object 
 1   Idade                               2111 non-null   float64
 2   Altura                              2111 non-null   float64
 3   Peso                                2111 non-null   float64
 4   Historico_Familiar_Excesso_De_Peso  2111 non-null   object 
 5   Consumo_Frequente_Alta_Caloria      2111 non-null   object 
 6   Freq_Vegetais                       2111 non-null   float64
 7   Num_refeicoes                       2111 non-null   float64
 8   Comes_Entre_Refeicoes               2111 non-null   object 
 9   Fumante                             2111 non-null   object 
 10  Consumo_Agua                        2111 non-null   float64
 11  Monitora_Calorias                   2111 no

In [10]:
# Mapeamentos Binários e Ordinais
df['Genero'] = df['Genero'].map({'Female': 0, 'Male': 1})
df['Historico_Familiar_Excesso_De_Peso'] = df['Historico_Familiar_Excesso_De_Peso'].map({'yes': 1, 'no': 0})
df['Consumo_Frequente_Alta_Caloria'] = df['Consumo_Frequente_Alta_Caloria'].map({'yes': 1, 'no': 0})
df['Fumante'] = df['Fumante'].map({'yes': 1, 'no': 0})
df['Monitora_Calorias'] = df['Monitora_Calorias'].map({'yes': 1, 'no': 0})



In [11]:
# Ordinais (Escala de frequência)
mapa_freq = {'no': 0, 'Sometimes': 1, 'Frequently': 2, 'Always': 3}
df['Comes_Entre_Refeicoes'] = df['Comes_Entre_Refeicoes'].map(mapa_freq)
df['Consumo_Alcool'] = df['Consumo_Alcool'].map(mapa_freq).fillna(0) # fillna

In [12]:
# Arredondamentos necessários
cols_arredondar = ['Idade', 'Freq_Vegetais', 'Num_refeicoes', 'Consumo_Agua',
                   'Freq_Atividade_Fisica', 'Tempo_uso_dispositivos_eletronicos']
df[cols_arredondar] = df[cols_arredondar].round()




In [None]:
# Criação de Dummies para Transporte 
df = pd.get_dummies(df, columns=['Transporte'], drop_first=True)
# Converte as novas colunas booleanas  para 0 e 1
cols_transporte = [c for c in df.columns if 'Transporte_' in c]
df[cols_transporte] = df[cols_transporte].astype(int)



In [14]:
df

Unnamed: 0,Genero,Idade,Altura,Peso,Historico_Familiar_Excesso_De_Peso,Consumo_Frequente_Alta_Caloria,Freq_Vegetais,Num_refeicoes,Comes_Entre_Refeicoes,Fumante,Consumo_Agua,Monitora_Calorias,Freq_Atividade_Fisica,Tempo_uso_dispositivos_eletronicos,Consumo_Alcool,Obesidade,Transporte_Bike,Transporte_Motorbike,Transporte_Public_Transportation,Transporte_Walking
0,0,21.0,1.620000,64.000000,1,0,2.0,3.0,1,0,2.0,0,0.0,1.0,0,Normal_Weight,0,0,1,0
1,0,21.0,1.520000,56.000000,1,0,3.0,3.0,1,1,3.0,1,3.0,0.0,1,Normal_Weight,0,0,1,0
2,1,23.0,1.800000,77.000000,1,0,2.0,3.0,1,0,2.0,0,2.0,1.0,2,Normal_Weight,0,0,1,0
3,1,27.0,1.800000,87.000000,0,0,3.0,3.0,1,0,2.0,0,2.0,0.0,2,Overweight_Level_I,0,0,0,1
4,1,22.0,1.780000,89.800000,0,0,2.0,1.0,1,0,2.0,0,0.0,0.0,1,Overweight_Level_II,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2106,0,21.0,1.710730,131.408528,1,1,3.0,3.0,1,0,2.0,0,2.0,1.0,1,Obesity_Type_III,0,0,1,0
2107,0,22.0,1.748584,133.742943,1,1,3.0,3.0,1,0,2.0,0,1.0,1.0,1,Obesity_Type_III,0,0,1,0
2108,0,23.0,1.752206,133.689352,1,1,3.0,3.0,1,0,2.0,0,1.0,1.0,1,Obesity_Type_III,0,0,1,0
2109,0,24.0,1.739450,133.346641,1,1,3.0,3.0,1,0,3.0,0,1.0,1.0,1,Obesity_Type_III,0,0,1,0


In [15]:
# Target (Obesidade)
mapa_obesidade = {
    'Insufficient_Weight': 0, 'Normal_Weight': 1, 'Overweight_Level_I': 2,
    'Overweight_Level_II': 3, 'Obesity_Type_I': 4, 'Obesity_Type_II': 5, 'Obesity_Type_III': 6
}
df['Obesidade'] = df['Obesidade'].map(mapa_obesidade)


# Engenharia de Features

In [None]:
#Calculo IMC
df['IMC'] = df['Peso'] / (df['Altura'] ** 2)

# Lista de TODAS as colunas numéricas que precisam de escala
colunas_para_normalizar = [
    'Idade', 'Altura', 'Peso', 'IMC',
    'Freq_Vegetais', 'Num_refeicoes', 'Consumo_Agua',
    'Freq_Atividade_Fisica', 'Tempo_uso_dispositivos_eletronicos',
    'Comes_Entre_Refeicoes', 'Consumo_Alcool'
]

scaler = StandardScaler()
df[colunas_para_normalizar] = scaler.fit_transform(df[colunas_para_normalizar])

# Score Atlético
df['Score_Atletico'] = df['Freq_Atividade_Fisica'] * (df['IMC'] + 3)
df['Possivel_Atleta'] = (df['Score_Atletico'] > 5).astype(int)



In [None]:
# Salva os dados prontos
df.to_csv('dados_limpos.csv', index=False)

# Salva o Scaler (A Régua Mágica)
joblib.dump(scaler, 'scaler.pkl')

# Salva o dicionário do Target
joblib.dump(mapa_obesidade, 'target_map.pkl')

print("Arquivos gerados: 'dados_limpos.csv', 'scaler.pkl', 'target_map.pkl'")

✅ Processo concluído com sucesso!
Arquivos gerados: 'dados_limpos.csv', 'scaler.pkl', 'target_map.pkl'
