# Análise Exploratória de Dados (EDA)

## 1. Objetivo
Este notebook tem como objetivo realizar a análise exploratória dos dados de obesidade, buscando compreender a estrutura do dataset, identificar padrões, distribuições, possíveis inconsistências e relações iniciais entre as variáveis, servindo de base para a etapa de *feature engineering* e modelagem.


## 2. Fonte dos Dados
- Dataset: Obesity Dataset
- Origem: Base pública utilizada para fins educacionais
- Tipo de dados: Estruturados (CSV)


## 3. Carregamento dos Dados
Nesta etapa, os dados são carregados a partir da camada *processed*, previamente tratada, garantindo que duplicidades e inconsistências básicas já tenham sido removidas.


## 4. Visão Geral do Dataset
Análises iniciais realizadas:
- Dimensão do dataset (linhas e colunas)
- Visualização das primeiras observações
- Tipos de variáveis (numéricas e categóricas)
- Identificação de valores ausentes


## 5. Dicionário de Variáveis (Resumo)
- **sexo**: Sexo do indivíduo
- **idade**: Idade em anos
- **altura**: Altura em metros
- **peso**: Peso em quilogramas
- **historico_familiar**: Histórico familiar de obesidade
- **ingere_alim_calorico**: Consumo frequente de alimentos calóricos
- **atividade_fisica**: Frequência de atividade física
- **estado_nutricional**: Classificação do estado nutricional

## 6. Análise Univariada
Nesta etapa são analisadas as distribuições individuais das variáveis:
- Estatísticas descritivas das variáveis numéricas
- Distribuição das variáveis categóricas
- Identificação de assimetrias e possíveis outliers


## 7. Análise Bivariada
Avaliação das relações entre pares de variáveis:
- Relação entre estado nutricional e idade
- Relação entre estado nutricional e atividade física
- Relação entre consumo de alimentos calóricos e obesidade


## 8. Insights Iniciais
Principais achados observados na análise exploratória:
- Padrões relevantes nas distribuições
- Indícios de correlação entre hábitos alimentares e estado nutricional
- Variáveis com potencial impacto preditivo


## 9. Limitações da Análise
- Dados observacionais, sem controle experimental
- Possíveis vieses de auto declaração
- Ausência de informações clínicas mais detalhadas


## 10. Próximos Passos
- Criação e transformação de variáveis (*feature engineering*) - Será realizado no notebook 02
- Codificação de variáveis categóricas
- Normalização/Padronização de variáveis numéricas
- Preparação da base para modelagem preditiva


In [41]:
# 3. Importação da base .csv usada para criar o painel BI (Power Bi)
from pathlib import Path
import pandas as pd

base = Path(r"C:\projetos\fase4")
df_obesidade = pd.read_csv(base / "data" / "processed" / "obesity_processed_postgres.csv")

df_obesidade.head()

Unnamed: 0,sexo,idade,altura,peso,historico_familiar,ingere_alim_calorico,ingere_vegetais,qtd_refeicao_principal,come_entre_refeicao,fumante,consumo_agua_litro,monitora_calorias,freq_atividade_fisica,tempo_uso_eletronico,frequencia_consumo_alcool,meio_de_transporte,nivel_obesidade,freq_ativ_fisica_texto
0,Feminino,21.0,1.62,64.0,Sim,Não,2.0,3.0,Às Vezes,Não,2.0,Não,0.0,1.0,Não,Transporte Público,Peso Normal,Nenhuma atividade
1,Feminino,21.0,1.52,56.0,Sim,Não,3.0,3.0,Às Vezes,Sim,3.0,Sim,3.0,0.0,Às Vezes,Transporte Público,Peso Normal,5x ou mais
2,Masculino,23.0,1.8,77.0,Sim,Não,2.0,3.0,Às Vezes,Não,2.0,Não,2.0,1.0,Frequentemente,Transporte Público,Peso Normal,3–4x por semana
3,Masculino,27.0,1.8,87.0,Não,Não,3.0,3.0,Às Vezes,Não,2.0,Não,2.0,0.0,Frequentemente,A Pé,Sobrepeso Nível I,3–4x por semana
4,Masculino,22.0,1.78,89.8,Não,Não,2.0,1.0,Às Vezes,Não,2.0,Não,0.0,0.0,Às Vezes,Transporte Público,Sobrepeso Nível II,Nenhuma atividade


In [42]:
# 4. Visão Geral do Dataset

print("Dimensão (linhas, colunas):", df_obesidade.shape)
display(df_obesidade.head(10))

# tipos e nulos (visão geral)
df_obesidade.info()

# contagem de nulos por coluna
nulos = df_obesidade.isna().sum().sort_values(ascending=False)
display(nulos[nulos > 0])

# duplicados
print("Linhas duplicadas:", df_obesidade.duplicated().sum())


Dimensão (linhas, colunas): (2111, 18)


Unnamed: 0,sexo,idade,altura,peso,historico_familiar,ingere_alim_calorico,ingere_vegetais,qtd_refeicao_principal,come_entre_refeicao,fumante,consumo_agua_litro,monitora_calorias,freq_atividade_fisica,tempo_uso_eletronico,frequencia_consumo_alcool,meio_de_transporte,nivel_obesidade,freq_ativ_fisica_texto
0,Feminino,21.0,1.62,64.0,Sim,Não,2.0,3.0,Às Vezes,Não,2.0,Não,0.0,1.0,Não,Transporte Público,Peso Normal,Nenhuma atividade
1,Feminino,21.0,1.52,56.0,Sim,Não,3.0,3.0,Às Vezes,Sim,3.0,Sim,3.0,0.0,Às Vezes,Transporte Público,Peso Normal,5x ou mais
2,Masculino,23.0,1.8,77.0,Sim,Não,2.0,3.0,Às Vezes,Não,2.0,Não,2.0,1.0,Frequentemente,Transporte Público,Peso Normal,3–4x por semana
3,Masculino,27.0,1.8,87.0,Não,Não,3.0,3.0,Às Vezes,Não,2.0,Não,2.0,0.0,Frequentemente,A Pé,Sobrepeso Nível I,3–4x por semana
4,Masculino,22.0,1.78,89.8,Não,Não,2.0,1.0,Às Vezes,Não,2.0,Não,0.0,0.0,Às Vezes,Transporte Público,Sobrepeso Nível II,Nenhuma atividade
5,Masculino,29.0,1.62,53.0,Não,Sim,2.0,3.0,Às Vezes,Não,2.0,Não,0.0,0.0,Às Vezes,Carro,Peso Normal,Nenhuma atividade
6,Feminino,23.0,1.5,55.0,Sim,Sim,3.0,3.0,Às Vezes,Não,2.0,Não,1.0,0.0,Às Vezes,Moto,Peso Normal,1–2x por semana
7,Masculino,22.0,1.64,53.0,Não,Não,2.0,3.0,Às Vezes,Não,2.0,Não,3.0,0.0,Às Vezes,Transporte Público,Peso Normal,5x ou mais
8,Masculino,24.0,1.78,64.0,Sim,Sim,3.0,3.0,Às Vezes,Não,2.0,Não,1.0,1.0,Frequentemente,Transporte Público,Peso Normal,1–2x por semana
9,Masculino,22.0,1.72,68.0,Sim,Sim,2.0,3.0,Às Vezes,Não,2.0,Não,1.0,1.0,Não,Transporte Público,Peso Normal,1–2x por semana


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 18 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   sexo                       2111 non-null   object 
 1   idade                      2111 non-null   float64
 2   altura                     2111 non-null   float64
 3   peso                       2111 non-null   float64
 4   historico_familiar         2111 non-null   object 
 5   ingere_alim_calorico       2111 non-null   object 
 6   ingere_vegetais            2111 non-null   float64
 7   qtd_refeicao_principal     2111 non-null   float64
 8   come_entre_refeicao        2111 non-null   object 
 9   fumante                    2111 non-null   object 
 10  consumo_agua_litro         2111 non-null   float64
 11  monitora_calorias          2111 non-null   object 
 12  freq_atividade_fisica      2111 non-null   float64
 13  tempo_uso_eletronico       2111 non-null   float

Series([], dtype: int64)

Linhas duplicadas: 27


In [43]:
# Checagem de valores fora do esperado para op df
df_obesidade [['idade', 'altura', 'peso']].describe()



Unnamed: 0,idade,altura,peso
count,2111.0,2111.0,2111.0
mean,23.972525,1.701677,86.586058
std,6.308664,0.093305,26.191172
min,14.0,1.45,39.0
25%,19.0,1.63,65.473343
50%,22.0,1.700499,83.0
75%,26.0,1.768464,107.430682
max,61.0,1.98,173.0


In [44]:
# Remove os dados duplicados 
df_obesidade = df_obesidade.drop_duplicates().reset_index(drop=True)
df_obesidade.shape


(2084, 18)

In [45]:
# comando para me mostrar todo mundo que tem algum valor fora de um intervalo considerado plausível”. Objetivo é não aparecer nenum valor!!!

df_obesidade.query("idade < 10 or idade > 80 or altura < 1.3 or altura > 2.2 or peso < 30 or peso > 200")


Unnamed: 0,sexo,idade,altura,peso,historico_familiar,ingere_alim_calorico,ingere_vegetais,qtd_refeicao_principal,come_entre_refeicao,fumante,consumo_agua_litro,monitora_calorias,freq_atividade_fisica,tempo_uso_eletronico,frequencia_consumo_alcool,meio_de_transporte,nivel_obesidade,freq_ativ_fisica_texto


In [46]:
# Dicionário dos dados 


dicionario_variaveis = pd.DataFrame({
    "Variável": df_obesidade.columns,
    "Tipo": [df_obesidade[c].dtype for c in df_obesidade.columns],
    "Qtd. Valores Únicos": [df_obesidade[c].nunique(dropna=True) for c in df_obesidade.columns],
    "Possui Nulos": [df_obesidade[c].isna().any() for c in df_obesidade.columns]
})

dicionario_variaveis


Unnamed: 0,Variável,Tipo,Qtd. Valores Únicos,Possui Nulos
0,sexo,object,2,False
1,idade,float64,40,False
2,altura,float64,1574,False
3,peso,float64,1525,False
4,historico_familiar,object,2,False
5,ingere_alim_calorico,object,2,False
6,ingere_vegetais,float64,3,False
7,qtd_refeicao_principal,float64,4,False
8,come_entre_refeicao,object,4,False
9,fumante,object,2,False


## 5. Dicionário de Variáveis -Conforme código acima

A tabela a seguir apresenta o dicionário de variáveis do dataset, contendo o nome de cada coluna, seu tipo de dado, a quantidade de valores distintos e a indicação da existência de valores ausentes.

### Descrição das Variáveis

- **sexo**: Sexo do indivíduo.
- **idade**: Idade em anos.
- **altura**: Altura em metros.
- **peso**: Peso corporal em quilogramas.
- **historico_familiar**: Indica se há histórico familiar de obesidade.
- **ingere_alim_calorico**: Indica consumo frequente de alimentos calóricos.
- **ingere_vegetais**: Frequência de ingestão de vegetais.
- **qtd_refeicao_principal**: Quantidade de refeições principais realizadas por dia.
- **come_entre_refeicao**: Frequência de consumo de alimentos entre as refeições.
- **fumante**: Indica se o indivíduo é fumante.
- **consumo_agua_litro**: Quantidade média diária de consumo de água (em litros).
- **monitor_calorias**: Indica se o indivíduo monitora o consumo de calorias.
- **freq_atividade_fisica**: Frequência de prática de atividade física.
- **tempo_uso_eletronico**: Tempo diário de uso de dispositivos eletrônicos.
- **frequencia_consumo_alcool**: Frequência de consumo de bebidas alcoólicas.
- **meio_de_transporte**: Meio de transporte utilizado com maior frequência.
- **nivel_obesidade**: Classificação do nível de obesidade.
- **freq_ativ_fisica_texto**: Representação textual da frequência de atividade física.

A análise do dicionário de variáveis indica que o dataset é consistente e não apresenta valores ausentes. Observa-se a presença de variáveis categóricas binárias, variáveis numéricas discretas com poucos níveis e variáveis categóricas com múltiplas categorias, o que orienta diretamente as decisões a serem tomadas na etapa de feature engineering.

Destaca-se ainda a existência de duas representações da frequência de atividade física (numérica e textual), o que permite validação cruzada da coerência das informações fornecidas.



In [47]:
# 6.Análise Univariada (Separação das variáveis Númericas das categóricas)

import pandas as pd
import numpy as np

# Separação por tipo
num_cols = df_obesidade.select_dtypes(include=[np.number]).columns.tolist()
cat_cols = df_obesidade.select_dtypes(include=["object"]).columns.tolist()

print("Variáveis numéricas:")
print(num_cols)

print("\nVariáveis categóricas:")
print(cat_cols)


Variáveis numéricas:
['idade', 'altura', 'peso', 'ingere_vegetais', 'qtd_refeicao_principal', 'consumo_agua_litro', 'freq_atividade_fisica', 'tempo_uso_eletronico']

Variáveis categóricas:
['sexo', 'historico_familiar', 'ingere_alim_calorico', 'come_entre_refeicao', 'fumante', 'monitora_calorias', 'frequencia_consumo_alcool', 'meio_de_transporte', 'nivel_obesidade', 'freq_ativ_fisica_texto']


In [48]:
# Estatísticas descritivas das variáveis númericas

df_obesidade[num_cols].describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
idade,2084.0,24.011516,6.335542,14.0,19.0,22.0,26.0,61.0
altura,2084.0,1.702702,0.093246,1.45,1.63,1.701642,1.769607,1.98
peso,2084.0,86.883958,26.196093,39.0,66.0,83.136481,108.025486,173.0
ingere_vegetais,2084.0,2.426583,0.584554,1.0,2.0,2.0,3.0,3.0
qtd_refeicao_principal,2084.0,2.702975,0.797602,1.0,3.0,3.0,3.0,4.0
consumo_agua_litro,2084.0,2.011516,0.685815,1.0,2.0,2.0,2.0,3.0
freq_atividade_fisica,2084.0,1.009117,0.898825,0.0,0.0,1.0,2.0,3.0
tempo_uso_eletronico,2084.0,0.668906,0.673746,0.0,0.0,1.0,1.0,2.0


In [49]:
for c in num_cols:
    print(f"\n--- {c} ---")
    print("Valores únicos:", df_obesidade[c].nunique())
    print("Top valores:")
    display(df_obesidade[c].value_counts().head(10))


--- idade ---
Valores únicos: 40
Top valores:


idade
21.0    252
18.0    235
19.0    186
23.0    163
22.0    159
25.0    158
26.0    139
20.0    137
24.0     84
17.0     82
Name: count, dtype: int64


--- altura ---
Valores únicos: 1574
Top valores:


altura
1.70    58
1.65    49
1.60    43
1.75    39
1.80    28
1.62    21
1.72    18
1.63    17
1.67    16
1.78    15
Name: count, dtype: int64


--- peso ---
Valores únicos: 1525
Top valores:


peso
80.0    58
50.0    41
75.0    39
60.0    37
70.0    29
65.0    25
90.0    20
42.0    18
45.0    18
85.0    18
Name: count, dtype: int64


--- ingere_vegetais ---
Valores únicos: 3
Top valores:


ingere_vegetais
2.0    993
3.0    990
1.0    101
Name: count, dtype: int64


--- qtd_refeicao_principal ---
Valores únicos: 4
Top valores:


qtd_refeicao_principal
3.0    1463
1.0     296
2.0     176
4.0     149
Name: count, dtype: int64


--- consumo_agua_litro ---
Valores únicos: 3
Top valores:


consumo_agua_litro
2.0    1104
3.0     502
1.0     478
Name: count, dtype: int64


--- freq_atividade_fisica ---
Valores únicos: 4
Top valores:


freq_atividade_fisica
1.0    758
0.0    713
2.0    494
3.0    119
Name: count, dtype: int64


--- tempo_uso_eletronico ---
Valores únicos: 3
Top valores:


tempo_uso_eletronico
0.0    932
1.0    910
2.0    242
Name: count, dtype: int64

In [50]:
#  Frequência absoluta e percentual das variáveis categóricas

for c in cat_cols:
    print(f"\n=== {c} ===")
    freq_abs = df_obesidade[c].value_counts()
    freq_pct = df_obesidade[c].value_counts(normalize=True) * 100

    tabela = pd.DataFrame({
        "Frequência": freq_abs,
        "Percentual (%)": freq_pct.round(2)
    })

    display(tabela)


for c in cat_cols:
    print(f"\n=== {c} ===")
    freq_abs = df_obesidade[c].value_counts()
    freq_pct = df_obesidade[c].value_counts(normalize=True) * 100

    tabela = pd.DataFrame({
        "Frequência": freq_abs,
        "Percentual (%)": freq_pct.round(2)
    })

    display(tabela)



=== sexo ===


Unnamed: 0_level_0,Frequência,Percentual (%)
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
Masculino,1051,50.43
Feminino,1033,49.57



=== historico_familiar ===


Unnamed: 0_level_0,Frequência,Percentual (%)
historico_familiar,Unnamed: 1_level_1,Unnamed: 2_level_1
Sim,1720,82.53
Não,364,17.47



=== ingere_alim_calorico ===


Unnamed: 0_level_0,Frequência,Percentual (%)
ingere_alim_calorico,Unnamed: 1_level_1,Unnamed: 2_level_1
Sim,1841,88.34
Não,243,11.66



=== come_entre_refeicao ===


Unnamed: 0_level_0,Frequência,Percentual (%)
come_entre_refeicao,Unnamed: 1_level_1,Unnamed: 2_level_1
Às Vezes,1758,84.36
Frequentemente,236,11.32
Sempre,53,2.54
Não,37,1.78



=== fumante ===


Unnamed: 0_level_0,Frequência,Percentual (%)
fumante,Unnamed: 1_level_1,Unnamed: 2_level_1
Não,2040,97.89
Sim,44,2.11



=== monitora_calorias ===


Unnamed: 0_level_0,Frequência,Percentual (%)
monitora_calorias,Unnamed: 1_level_1,Unnamed: 2_level_1
Não,1988,95.39
Sim,96,4.61



=== frequencia_consumo_alcool ===


Unnamed: 0_level_0,Frequência,Percentual (%)
frequencia_consumo_alcool,Unnamed: 1_level_1,Unnamed: 2_level_1
Às Vezes,1379,66.17
Não,635,30.47
Frequentemente,69,3.31
Sempre,1,0.05



=== meio_de_transporte ===


Unnamed: 0_level_0,Frequência,Percentual (%)
meio_de_transporte,Unnamed: 1_level_1,Unnamed: 2_level_1
Transporte Público,1556,74.66
Carro,455,21.83
A Pé,55,2.64
Moto,11,0.53
Bicicleta,7,0.34



=== nivel_obesidade ===


Unnamed: 0_level_0,Frequência,Percentual (%)
nivel_obesidade,Unnamed: 1_level_1,Unnamed: 2_level_1
Obesidade Grau I,351,16.84
Obesidade Grau III,324,15.55
Obesidade Grau II,297,14.25
Sobrepeso Nível II,288,13.82
Peso Normal,282,13.53
Sobrepeso Nível I,276,13.24
Peso Insuficiente,266,12.76



=== freq_ativ_fisica_texto ===


Unnamed: 0_level_0,Frequência,Percentual (%)
freq_ativ_fisica_texto,Unnamed: 1_level_1,Unnamed: 2_level_1
1–2x por semana,758,36.37
Nenhuma atividade,713,34.21
3–4x por semana,494,23.7
5x ou mais,119,5.71



=== sexo ===


Unnamed: 0_level_0,Frequência,Percentual (%)
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
Masculino,1051,50.43
Feminino,1033,49.57



=== historico_familiar ===


Unnamed: 0_level_0,Frequência,Percentual (%)
historico_familiar,Unnamed: 1_level_1,Unnamed: 2_level_1
Sim,1720,82.53
Não,364,17.47



=== ingere_alim_calorico ===


Unnamed: 0_level_0,Frequência,Percentual (%)
ingere_alim_calorico,Unnamed: 1_level_1,Unnamed: 2_level_1
Sim,1841,88.34
Não,243,11.66



=== come_entre_refeicao ===


Unnamed: 0_level_0,Frequência,Percentual (%)
come_entre_refeicao,Unnamed: 1_level_1,Unnamed: 2_level_1
Às Vezes,1758,84.36
Frequentemente,236,11.32
Sempre,53,2.54
Não,37,1.78



=== fumante ===


Unnamed: 0_level_0,Frequência,Percentual (%)
fumante,Unnamed: 1_level_1,Unnamed: 2_level_1
Não,2040,97.89
Sim,44,2.11



=== monitora_calorias ===


Unnamed: 0_level_0,Frequência,Percentual (%)
monitora_calorias,Unnamed: 1_level_1,Unnamed: 2_level_1
Não,1988,95.39
Sim,96,4.61



=== frequencia_consumo_alcool ===


Unnamed: 0_level_0,Frequência,Percentual (%)
frequencia_consumo_alcool,Unnamed: 1_level_1,Unnamed: 2_level_1
Às Vezes,1379,66.17
Não,635,30.47
Frequentemente,69,3.31
Sempre,1,0.05



=== meio_de_transporte ===


Unnamed: 0_level_0,Frequência,Percentual (%)
meio_de_transporte,Unnamed: 1_level_1,Unnamed: 2_level_1
Transporte Público,1556,74.66
Carro,455,21.83
A Pé,55,2.64
Moto,11,0.53
Bicicleta,7,0.34



=== nivel_obesidade ===


Unnamed: 0_level_0,Frequência,Percentual (%)
nivel_obesidade,Unnamed: 1_level_1,Unnamed: 2_level_1
Obesidade Grau I,351,16.84
Obesidade Grau III,324,15.55
Obesidade Grau II,297,14.25
Sobrepeso Nível II,288,13.82
Peso Normal,282,13.53
Sobrepeso Nível I,276,13.24
Peso Insuficiente,266,12.76



=== freq_ativ_fisica_texto ===


Unnamed: 0_level_0,Frequência,Percentual (%)
freq_ativ_fisica_texto,Unnamed: 1_level_1,Unnamed: 2_level_1
1–2x por semana,758,36.37
Nenhuma atividade,713,34.21
3–4x por semana,494,23.7
5x ou mais,119,5.71


## Resumo da Análise da frequência absoluta e percentual das variáveis categóricas

As variáveis categóricas apresentam diferentes níveis de desbalanceamento. Observam-se casos de desbalanceamento leve a moderado em variáveis comportamentais, como **historico_familiar** e **ingere_alim_calorico**, refletindo características naturais da população analisada.

Destaca-se a presença de categorias com representatividade extremamente reduzida em algumas variáveis, caracterizando desbalanceamento severo. Em especial, as variáveis **frequencia_consumo_alcool** (categoria *Sempre*), **meio_de_transporte** (categorias *Moto* e *Bicicleta*) e **fumante** apresentam classes minoritárias com baixa frequência, o que pode limitar seu poder informativo isolado.

Essas variáveis demandarão atenção específica na etapa de *feature engineering*, por meio de estratégias como agrupamento de categorias, recodificação ou avaliação criteriosa de sua contribuição ao modelo.




## Checagem de classes raras
## Uma classe costuma ser considerada rara quando:

* < 5% → já merece atenção

* < 1% → raríssima

* ≈ 0% (1 ou poucos registros) → estatisticamente irrelevante sozinha

Não é lei, é boa prática amplamente aceita.

In [51]:
# Checagem de classes raras (categorias que aparecem em pouquíssimos registros do dataset quando comparada às demais.)

limite = 0.05  # 5%

for c in cat_cols:
    pct = df_obesidade[c].value_counts(normalize=True)
    raras = pct[pct < limite]

    if not raras.empty:
        print(f"\nCategorias raras em {c} (<5%):")
        display((raras * 100).round(2))



Categorias raras em come_entre_refeicao (<5%):


come_entre_refeicao
Sempre    2.54
Não       1.78
Name: proportion, dtype: float64


Categorias raras em fumante (<5%):


fumante
Sim    2.11
Name: proportion, dtype: float64


Categorias raras em monitora_calorias (<5%):


monitora_calorias
Sim    4.61
Name: proportion, dtype: float64


Categorias raras em frequencia_consumo_alcool (<5%):


frequencia_consumo_alcool
Frequentemente    3.31
Sempre            0.05
Name: proportion, dtype: float64


Categorias raras em meio_de_transporte (<5%):


meio_de_transporte
A Pé         2.64
Moto         0.53
Bicicleta    0.34
Name: proportion, dtype: float64

A análise das classes raras evidencia a presença de categorias com baixa representatividade em variáveis comportamentais e de estilo de vida. Destacam-se as variáveis **frequencia_consumo_alcool** e **meio_de_transporte**, que apresentam categorias com frequência extremamente reduzida, limitando seu poder informativo isolado.

Essas classes raras podem introduzir ruído ou instabilidade na modelagem, caso não sejam tratadas adequadamente. Assim, tais variáveis demandarão atenção específica na etapa de feature engineering, com possível agrupamento ou recodificação das categorias, visando maior robustez estatística e melhor desempenho dos modelos preditivos.


## Análise Bivariada

In [52]:
# Análise Bivariada

target = "nivel_obesidade"
cat_cols = df_obesidade.select_dtypes(include="object").columns.tolist()
cat_cols = [c for c in cat_cols if c != target]

for c in cat_cols:
    print(f"\n=== {c} x {target} (percentual por classe) ===")
    tabela = pd.crosstab(
        df_obesidade[c],
        df_obesidade[target],
        normalize="columns"
    ) * 100
    display(tabela.round(2))



=== sexo x nivel_obesidade (percentual por classe) ===


nivel_obesidade,Obesidade Grau I,Obesidade Grau II,Obesidade Grau III,Peso Insuficiente,Peso Normal,Sobrepeso Nível I,Sobrepeso Nível II
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Feminino,44.44,0.67,99.69,63.16,48.58,52.54,35.42
Masculino,55.56,99.33,0.31,36.84,51.42,47.46,64.58



=== historico_familiar x nivel_obesidade (percentual por classe) ===


nivel_obesidade,Obesidade Grau I,Obesidade Grau II,Obesidade Grau III,Peso Insuficiente,Peso Normal,Sobrepeso Nível I,Sobrepeso Nível II
historico_familiar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Não,1.99,0.34,0.0,53.01,46.1,24.28,6.25
Sim,98.01,99.66,100.0,46.99,53.9,75.72,93.75



=== ingere_alim_calorico x nivel_obesidade (percentual por classe) ===


nivel_obesidade,Obesidade Grau I,Obesidade Grau II,Obesidade Grau III,Peso Insuficiente,Peso Normal,Sobrepeso Nível I,Sobrepeso Nível II
ingere_alim_calorico,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Não,3.13,2.36,0.31,18.8,27.66,7.97,25.69
Sim,96.87,97.64,99.69,81.2,72.34,92.03,74.31



=== come_entre_refeicao x nivel_obesidade (percentual por classe) ===


nivel_obesidade,Obesidade Grau I,Obesidade Grau II,Obesidade Grau III,Peso Insuficiente,Peso Normal,Sobrepeso Nível I,Sobrepeso Nível II
come_entre_refeicao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Frequentemente,1.71,0.34,0.31,43.98,28.72,5.07,5.56
Não,0.28,0.34,0.0,1.13,3.55,7.61,0.35
Sempre,1.71,0.67,0.0,0.75,12.41,1.81,1.04
Às Vezes,96.3,98.65,99.69,54.14,55.32,85.51,93.06



=== fumante x nivel_obesidade (percentual por classe) ===


nivel_obesidade,Obesidade Grau I,Obesidade Grau II,Obesidade Grau III,Peso Insuficiente,Peso Normal,Sobrepeso Nível I,Sobrepeso Nível II
fumante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Não,98.29,94.95,99.69,99.62,95.39,98.91,98.26
Sim,1.71,5.05,0.31,0.38,4.61,1.09,1.74



=== monitora_calorias x nivel_obesidade (percentual por classe) ===


nivel_obesidade,Obesidade Grau I,Obesidade Grau II,Obesidade Grau III,Peso Insuficiente,Peso Normal,Sobrepeso Nível I,Sobrepeso Nível II
monitora_calorias,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Não,99.43,99.66,100.0,91.73,89.36,86.59,98.61
Sim,0.57,0.34,0.0,8.27,10.64,13.41,1.39



=== frequencia_consumo_alcool x nivel_obesidade (percentual por classe) ===


nivel_obesidade,Obesidade Grau I,Obesidade Grau II,Obesidade Grau III,Peso Insuficiente,Peso Normal,Sobrepeso Nível I,Sobrepeso Nível II
frequencia_consumo_alcool,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Frequentemente,3.99,0.67,0.0,0.38,6.38,5.8,6.25
Não,47.01,23.91,0.31,43.98,36.88,18.12,44.1
Sempre,0.0,0.0,0.0,0.0,0.35,0.0,0.0
Às Vezes,49.0,75.42,99.69,55.64,56.38,76.09,49.65



=== meio_de_transporte x nivel_obesidade (percentual por classe) ===


nivel_obesidade,Obesidade Grau I,Obesidade Grau II,Obesidade Grau III,Peso Insuficiente,Peso Normal,Sobrepeso Nível I,Sobrepeso Nível II
meio_de_transporte,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
A Pé,0.57,0.34,0.0,2.26,10.99,3.26,2.08
Bicicleta,0.0,0.34,0.0,0.0,1.42,0.72,0.0
Carro,31.34,31.99,0.31,17.29,15.6,23.91,32.29
Moto,0.85,0.0,0.0,0.0,2.13,0.36,0.35
Transporte Público,67.24,67.34,99.69,80.45,69.86,71.74,65.28



=== freq_ativ_fisica_texto x nivel_obesidade (percentual por classe) ===


nivel_obesidade,Obesidade Grau I,Obesidade Grau II,Obesidade Grau III,Peso Insuficiente,Peso Normal,Sobrepeso Nível I,Sobrepeso Nível II
freq_ativ_fisica_texto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1–2x por semana,35.04,55.56,20.99,27.07,33.33,40.58,43.06
3–4x por semana,20.51,21.21,21.3,43.98,24.11,20.29,17.01
5x ou mais,7.12,0.0,0.0,4.14,14.54,8.7,6.25
Nenhuma atividade,37.32,23.23,57.72,24.81,28.01,30.43,33.68


In [53]:
# Variáveis numéricas × nível de obesidade, Estatísticas descritivas por classe

num_cols = df_obesidade.select_dtypes(include="number").columns.tolist()

resumo_num = df_obesidade.groupby(target)[num_cols].agg(
    ["mean", "median", "min", "max"]
)

display(resumo_num)


Unnamed: 0_level_0,idade,idade,idade,idade,altura,altura,altura,altura,peso,peso,...,consumo_agua_litro,consumo_agua_litro,freq_atividade_fisica,freq_atividade_fisica,freq_atividade_fisica,freq_atividade_fisica,tempo_uso_eletronico,tempo_uso_eletronico,tempo_uso_eletronico,tempo_uso_eletronico
Unnamed: 0_level_1,mean,median,min,max,mean,median,min,max,mean,median,...,min,max,mean,median,min,max,mean,median,min,max
nivel_obesidade,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Obesidade Grau I,25.504274,22.0,15.0,52.0,1.693804,1.681855,1.5,1.98,92.870198,90.744965,...,1.0,3.0,0.974359,1.0,0.0,3.0,0.692308,1.0,0.0,2.0
Obesidade Grau II,27.750842,27.0,20.0,41.0,1.771795,1.76714,1.6,1.92,115.305311,117.792268,...,1.0,3.0,0.979798,1.0,0.0,2.0,0.488215,0.0,0.0,2.0
Obesidade Grau III,23.052469,25.0,18.0,26.0,1.687559,1.668995,1.56,1.87,120.941114,112.049308,...,1.0,3.0,0.635802,0.0,0.0,2.0,0.66358,1.0,0.0,1.0
Peso Insuficiente,19.421053,19.0,16.0,39.0,1.693548,1.705377,1.52,1.9,50.01324,50.0,...,1.0,3.0,1.274436,1.0,0.0,3.0,0.849624,1.0,0.0,2.0
Peso Normal,21.758865,21.0,14.0,61.0,1.67695,1.66,1.5,1.93,62.164894,61.0,...,1.0,3.0,1.251773,1.0,0.0,3.0,0.677305,1.0,0.0,2.0
Sobrepeso Nível I,23.181159,21.0,16.0,55.0,1.691277,1.698198,1.45,1.9,74.483261,75.0,...,1.0,3.0,1.072464,1.0,0.0,3.0,0.615942,0.0,0.0,2.0
Sobrepeso Nível II,26.65625,24.0,17.0,56.0,1.703947,1.704357,1.48,1.93,82.106697,82.0,...,1.0,3.0,0.958333,1.0,0.0,3.0,0.708333,1.0,0.0,2.0


In [54]:
# Variáveis comportamentais críticas - foco nas que tinham classes raras

vars_criticas = [
    "come_entre_refeicao",
    "fumante",
    "monitora_calorias",
    "frequencia_consumo_alcool",
    "meio_de_transporte"
]

for c in vars_criticas:
    print(f"\n=== {c} x {target} ===")
    tab = pd.crosstab(
        df_obesidade[c],
        df_obesidade[target],
        normalize="index"
    ) * 100
    display(tab.round(2))




=== come_entre_refeicao x nivel_obesidade ===


nivel_obesidade,Obesidade Grau I,Obesidade Grau II,Obesidade Grau III,Peso Insuficiente,Peso Normal,Sobrepeso Nível I,Sobrepeso Nível II
come_entre_refeicao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Frequentemente,2.54,0.42,0.42,49.58,34.32,5.93,6.78
Não,2.7,2.7,0.0,8.11,27.03,56.76,2.7
Sempre,11.32,3.77,0.0,3.77,66.04,9.43,5.66
Às Vezes,19.23,16.67,18.37,8.19,8.87,13.42,15.24



=== fumante x nivel_obesidade ===


nivel_obesidade,Obesidade Grau I,Obesidade Grau II,Obesidade Grau III,Peso Insuficiente,Peso Normal,Sobrepeso Nível I,Sobrepeso Nível II
fumante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Não,16.91,13.82,15.83,12.99,13.19,13.38,13.87
Sim,13.64,34.09,2.27,2.27,29.55,6.82,11.36



=== monitora_calorias x nivel_obesidade ===


nivel_obesidade,Obesidade Grau I,Obesidade Grau II,Obesidade Grau III,Peso Insuficiente,Peso Normal,Sobrepeso Nível I,Sobrepeso Nível II
monitora_calorias,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Não,17.56,14.89,16.3,12.27,12.68,12.02,14.29
Sim,2.08,1.04,0.0,22.92,31.25,38.54,4.17



=== frequencia_consumo_alcool x nivel_obesidade ===


nivel_obesidade,Obesidade Grau I,Obesidade Grau II,Obesidade Grau III,Peso Insuficiente,Peso Normal,Sobrepeso Nível I,Sobrepeso Nível II
frequencia_consumo_alcool,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Frequentemente,20.29,2.9,0.0,1.45,26.09,23.19,26.09
Não,25.98,11.18,0.16,18.43,16.38,7.87,20.0
Sempre,0.0,0.0,0.0,0.0,100.0,0.0,0.0
Às Vezes,12.47,16.24,23.42,10.73,11.53,15.23,10.37



=== meio_de_transporte x nivel_obesidade ===


nivel_obesidade,Obesidade Grau I,Obesidade Grau II,Obesidade Grau III,Peso Insuficiente,Peso Normal,Sobrepeso Nível I,Sobrepeso Nível II
meio_de_transporte,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
A Pé,3.64,1.82,0.0,10.91,56.36,16.36,10.91
Bicicleta,0.0,14.29,0.0,0.0,57.14,28.57,0.0
Carro,24.18,20.88,0.22,10.11,9.67,14.51,20.44
Moto,27.27,0.0,0.0,0.0,54.55,9.09,9.09
Transporte Público,15.17,12.85,20.76,13.75,12.66,12.72,12.08


In [55]:
# Coerência entre atividade física (numérica × texto)

df_obesidade = df_obesidade

display(
    pd.crosstab(
        df_obesidade["freq_ativ_fisica_texto"],
        df_obesidade["freq_atividade_fisica"],
        normalize="index"
    ) * 100
)


freq_atividade_fisica,0.0,1.0,2.0,3.0
freq_ativ_fisica_texto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1–2x por semana,0.0,100.0,0.0,0.0
3–4x por semana,0.0,0.0,100.0,0.0
5x ou mais,0.0,0.0,0.0,100.0
Nenhuma atividade,100.0,0.0,0.0,0.0


A análise bivariada evidencia associações consistentes entre o nível de obesidade e variáveis comportamentais, especialmente histórico familiar, frequência de atividade física e hábitos alimentares. Observam-se padrões claros e estáveis em variáveis com boa representatividade amostral, indicando potencial relevância preditiva.

Por outro lado, variáveis que apresentam classes raras demonstram oscilações acentuadas entre os níveis de obesidade, refletindo limitações estatísticas decorrentes do baixo número de observações. Nesses casos, a interpretação isolada deve ser realizada com cautela, sendo recomendada a aplicação de estratégias de agrupamento ou recodificação na etapa de feature engineering.

As variáveis numéricas exibem comportamento coerente com o fenômeno analisado, reforçando a consistência do conjunto de dados e sua adequação para a modelagem preditiva.


##  Insights Iniciais

A análise exploratória evidenciou que o dataset apresenta elevada consistência interna, sem valores ausentes e com coerência entre variáveis relacionadas, como a correspondência perfeita entre a frequência de atividade física nas representações numérica e textual.

Observou-se forte associação entre o nível de obesidade e variáveis comportamentais, destacando-se o histórico familiar de obesidade e a frequência de atividade física como potenciais fatores explicativos relevantes. Indivíduos com níveis mais elevados de obesidade tendem a apresentar menor frequência de atividade física, enquanto níveis mais baixos de obesidade concentram-se em categorias com maior prática de exercícios.

Variáveis relacionadas a hábitos alimentares, como ingestão de alimentos calóricos e consumo entre refeições, apresentam alta prevalência em toda a amostra, o que sugere relevância contextual, porém com limitado poder discriminatório isolado.

Identificaram-se ainda variáveis com classes raras ou extremamente raras, como frequência elevada de consumo de álcool, determinados meios de transporte e tabagismo, as quais demonstram oscilações acentuadas na análise bivariada, indicando a necessidade de tratamento específico na etapa de feature engineering.

De forma geral, o conjunto de dados mostrou-se adequado para modelagem preditiva multiclasses, especialmente pela distribuição equilibrada da variável alvo (nível de obesidade).


## Limitações da Análise

Apesar da boa qualidade dos dados, algumas limitações devem ser consideradas. O dataset possui natureza observacional, não permitindo inferências causais entre as variáveis analisadas e o nível de obesidade.

A presença de classes raras em determinadas variáveis categóricas limita a robustez estatística da análise isolada dessas categorias, podendo gerar interpretações instáveis ou influenciadas por poucos registros.

Além disso, diversas variáveis comportamentais são autorrelatadas, estando sujeitas a vieses de percepção e resposta por parte dos indivíduos. Algumas variáveis numéricas apresentam natureza discreta ou ordinal, apesar de estarem representadas como valores contínuos, o que requer atenção na escolha das técnicas de modelagem.

Por fim, a análise exploratória não contempla fatores clínicos ou metabólicos que poderiam enriquecer a compreensão do fenômeno estudado, restringindo-se às informações disponíveis na base.


In [56]:
# Salvando arquivo para trabalhar no notebook feature engineering

from pathlib import Path

# Caminho base do projeto
base = Path(r"C:\projetos\fase4")

# Caminho de saída do arquivo pós-EDA
arquivo_eda = base / "data" / "processed" / "obesity_processed_eda.csv"

# Salva o dataframe já limpo (sem duplicados)
df_obesidade.to_csv(arquivo_eda, index=False)

print("Arquivo pós-EDA salvo com sucesso em:")
print(arquivo_eda)
print("Dimensão salva:", df_obesidade.shape)



Arquivo pós-EDA salvo com sucesso em:
C:\projetos\fase4\data\processed\obesity_processed_eda.csv
Dimensão salva: (2084, 18)
