# 1. Introdução e Objetivo da EDA

Esta Análise Exploratória de Dados (EDA) tem como objetivo investigar os fatores que influenciam os níveis de obesidade em indivíduos do México, Peru e Colômbia. Através de visualizações e análises estatísticas, buscaremos validar hipóteses sobre hábitos alimentares, histórico familiar e condições físicas, fornecendo insights valiosos para a equipe médica e preparando os dados para modelagem preditiva.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Configurações estéticas para os gráficos
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = [10, 6]

# Carregar o dataset
df = pd.read_csv('../data/obesity.csv')

print("Dataset carregado com sucesso!")

# 2. Visão Geral dos Dados

Nesta seção, verificamos a estrutura do dataset, tipos de variáveis e a presença de valores ausentes.

In [None]:
# Visualizar as primeiras linhas
display(df.head())

# Informações gerais e valores nulos
df.info()

# Estatísticas descritivas
display(df.describe())

# 3. Análises Univariadas

O objetivo é entender a distribuição de cada variável e identificar anomalias.

In [None]:
# Distribuição da Variável Alvo (NObeyesdad)
plt.figure(figsize=(12, 6))
sns.countplot(data=df, x='NObeyesdad', palette='viridis', order=df['NObeyesdad'].value_counts().index)
plt.title('Distribuição dos Níveis de Obesidade')
plt.xticks(rotation=45)
plt.xlabel('Nível de Obesidade')
plt.ylabel('Contagem')
plt.show()

print("Insight: Verificamos se as classes estão balanceadas. Geralmente há um equilíbrio entre as categorias.")

In [None]:
# Perfil Biométrico (Age, Height, Weight)
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

sns.histplot(df['Age'], kde=True, ax=axes[0], color='skyblue')
axes[0].set_title('Distribuição de Idade')

sns.histplot(df['Height'], kde=True, ax=axes[1], color='salmon')
axes[1].set_title('Distribuição de Altura')

sns.histplot(df['Weight'], kde=True, ax=axes[2], color='green')
axes[2].set_title('Distribuição de Peso')

plt.tight_layout()
plt.show()

print("Insight: A idade média costuma estar entre 20-30 anos. O peso apresenta distribuição multimodal devido às categorias de obesidade.")

In [None]:
# Hábitos Comportamentais (FCVC, CH2O, FAF)
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

sns.histplot(df['FCVC'], bins=10, ax=axes[0], color='teal')
axes[0].set_title('Consumo de Vegetais (FCVC)')

sns.histplot(df['CH2O'], bins=10, ax=axes[1], color='blue')
axes[1].set_title('Consumo de Água (CH2O)')

sns.histplot(df['FAF'], bins=10, ax=axes[2], color='orange')
axes[2].set_title('Atividade Física (FAF)')

plt.tight_layout()
plt.show()

print("Nota: Variáveis que deveriam ser inteiras aparecem como floats devido à natureza sintética dos dados.")

# 4. Análises Bivariadas com a variável Obesity_level

Aqui começamos a entender as correlações e o que pode estar associado à obesidade.

In [None]:
# Histórico Familiar vs. Obesidade
ct = pd.crosstab(df['family_history_with_overweight'], df['NObeyesdad'], normalize='index') * 100
ct.plot(kind='bar', stacked=True, figsize=(12, 6), colormap='viridis')
plt.title('Histórico Familiar vs. Nível de Obesidade (Percentual)')
plt.ylabel('Percentual (%)')
plt.xlabel('Histórico Familiar com Sobrepeso')
plt.legend(title='Nível de Obesidade', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show()

print("Hipótese: Indivíduos com histórico familiar têm probabilidade drasticamente maior de estar em categorias de Obesidade II e III.")

In [None]:
# Gênero vs. Tipos de Obesidade
plt.figure(figsize=(14, 6))
sns.countplot(data=df, x='NObeyesdad', hue='Gender', palette='muted')
plt.title('Gênero vs. Tipos de Obesidade')
plt.xticks(rotation=45)
plt.show()

print("Insight: Observar se certas categorias, como Obesidade Tipo III, são predominantes em um gênero específico.")

In [None]:
# Consumo de Alimentos Calóricos (FAVC) vs. Peso
plt.figure(figsize=(10, 6))
sns.boxplot(data=df, x='FAVC', y='Weight', palette='Set2')
plt.title('Consumo de Alimentos Calóricos (FAVC) vs. Peso')
plt.show()

In [None]:
# Matriz de Correlação (Spearman)
plt.figure(figsize=(12, 10))
correlation_matrix = df.select_dtypes(include=[np.number]).corr(method='spearman')
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Matriz de Correlação de Spearman (Variáveis Numéricas)')
plt.show()

print("Foco: Identificar a força da relação entre Weight e outras variáveis.")

# 5. Principais Insights para a Equipe Médica

Com base na análise realizada, destacamos os seguintes pontos:

1. **Fator Genético:** O histórico familiar é um dos preditores mais fortes para obesidade severa.
2. **Sedentarismo Tecnológico:** A relação entre alto uso de tecnologia (TUE) e baixa atividade física (FAF) é evidente em grupos de obesidade inicial.
3. **Alimentação Intermediária:** O hábito de comer entre as refeições (CAEC) diferencia significativamente os grupos de sobrepeso e obesidade.
4. **Hidratação:** Pacientes com maior consumo de água tendem a apresentar perfis de peso mais saudáveis.

**Atenção:** Para modelagem preditiva, o uso direto de 'Weight' e 'Height' pode causar *Data Leakage*, pois estas variáveis definem o alvo. Recomenda-se focar em hábitos comportamentais para predição preventiva.