---

## 1. Compreens√£o do Problema

### 1.1 Contexto de Sa√∫de P√∫blica

**Por que este problema √© importante?**

A obesidade √© considerada pela OMS uma epidemia global:
- Afeta mais de 650 milh√µes de adultos mundialmente
- Est√° associada a diabetes tipo 2, doen√ßas cardiovasculares e c√¢ncer
- Gera custos significativos para sistemas de sa√∫de

**O que queremos resolver?**

Desenvolver um sistema que:
1. Classifique indiv√≠duos em 7 n√≠veis de obesidade
2. Identifique fatores de risco modific√°veis
3. Auxilie profissionais de sa√∫de em interven√ß√µes preventivas

**Como isso ajuda na pr√°tica?**

- Triagem r√°pida de pacientes em risco
- Personaliza√ß√£o de interven√ß√µes (dieta, exerc√≠cio, acompanhamento)
- Identifica√ß√£o precoce de tend√™ncias populacionais

### 1.2 Estrutura dos Dados

**Dataset:** 2.111 registros de indiv√≠duos de M√©xico, Peru e Col√¥mbia

**Vari√°veis Dispon√≠veis:**

| Categoria | Vari√°veis | Por que s√£o importantes? |
|-----------|-----------|-------------------------|
| **Demogr√°ficas** | Gender, Age, Height, Weight | Base para c√°lculo do IMC, diferen√ßas metab√≥licas |
| **Gen√©ticas** | family_history | Hereditariedade: 40-70% da varia√ß√£o do IMC |
| **Alimenta√ß√£o** | FAVC, FCVC, NCP, CAEC | Comportamentos modific√°veis via interven√ß√£o |
| **Estilo de Vida** | FAF, TUE, CALC, SMOKE | Fatores de risco conhecidos |
| **Mobilidade** | MTRANS | Indicador indireto de atividade f√≠sica |
| **Autocuidado** | SCC, CH2O | Consci√™ncia sobre sa√∫de |

**Vari√°vel Alvo (Target):**
- `Obesity`: 7 classes ordenadas do peso insuficiente √† obesidade tipo III
- Classifica√ß√£o baseada no IMC (√çndice de Massa Corporal)

**Por que isso √© um problema de classifica√ß√£o multiclasse?**
- Temos m√∫ltiplas categorias ordenadas (n√£o apenas "obeso" ou "n√£o obeso")
- Cada n√≠vel requer interven√ß√µes diferentes
- A progress√£o entre n√≠veis √© clinicamente relevante

---

## 2. An√°lise Explorat√≥ria de Dados (EDA)

A an√°lise explorat√≥ria foi usada para validar a qualidade dos dados, entender distribui√ß√µes, identificar poss√≠veis problemas (duplicatas, outliers, desbalanceamento) e levantar hip√≥teses sobre os principais fatores associados √† obesidade. Abaixo est√£o apenas os achados que de fato influenciaram decis√µes de modelagem e de neg√≥cio.

### 2.1 Qualidade dos Dados

**O que encontramos:**
- Zero valores faltantes
- Registros duplicados presentes (esperado - veja explica√ß√£o abaixo)
- Tipos de dados consistentes

**Sobre as Duplicatas:**

Encontramos alguns registros com valores id√™nticos em todas as 17 vari√°veis. Isso n√£o √© um problema porque:

1. Aus√™ncia de identificadores √∫nicos: O dataset n√£o cont√©m nome, CPF ou ID
2. Coincid√™ncias s√£o poss√≠veis: Em popula√ß√£o de 2.111 pessoas, √© estatisticamente plaus√≠vel que algumas tenham mesma idade, g√™nero, peso, altura e mesmos h√°bitos
3. N√£o s√£o erros de coleta: S√£o indiv√≠duos diferentes com caracter√≠sticas id√™nticas

**Decis√£o Tomada:**
Manter todas as duplicatas porque representam observa√ß√µes v√°lidas de indiv√≠duos distintos com perfis similares.

**Por que isso √© importante:**
- N√£o precisamos de t√©cnicas de imputa√ß√£o (zero valores faltantes)
- Duplicatas n√£o comprometem a modelagem
- Permite focar na an√°lise em vez de limpeza excessiva

### 2.2 Distribui√ß√£o das Classes de Obesidade

Analisamos a frequ√™ncia de cada n√≠vel de obesidade no dataset:

- Classes mais frequentes: Obesity Type I e Overweight Level II
- Classes menos frequentes: Insufficient Weight e Normal Weight
- Raz√£o max/min entre classes: ~3x (desbalanceamento moderado)

**Por que isso importa:**
Modelos podem ter vi√©s para classes majorit√°rias. Por isso usamos class weights para compensar desbalanceamento sem perder dados reais.

### 2.3 Distribui√ß√µes Num√©ricas e Outliers

Analisamos distribui√ß√µes, estat√≠sticas descritivas e outliers (via IQR) para idade, altura, peso, atividade f√≠sica e consumo de √°gua.

**Principais achados:**
- Idade entre 14 e 61 anos, bem distribu√≠da
- Altura e peso apresentam valores extremos biologicamente plaus√≠veis
- FAF (atividade f√≠sica) e CH2O (consumo de √°gua) mostram perfis distintos entre grupos

**Decis√£o:** N√£o remover outliers, pois representam casos reais. Modelos baseados em √°rvore s√£o robustos a esses extremos.

### 2.4 Testes Estat√≠sticos e Correla√ß√µes

Aplicamos ANOVA, Qui-quadrado e an√°lise de correla√ß√£o, com foco em identificar fatores relevantes e poss√≠veis colinearidades.

**Achados principais:**
- Vari√°veis fortemente associadas √† obesidade: BMI, Age, FAF, FCVC, FAVC e family_history
- Correla√ß√£o forte esperada entre Weight, Height e BMI (circularidade)
- Correla√ß√µes moderadas entre h√°bitos (maior atividade f√≠sica associada a menor peso; maior consumo de vegetais associado a menor consumo de cal√≥ricos)

**Decis√µes decorrentes:**
- Criar BMI como feature derivada, mantendo Weight e Height
- Usar esses resultados para interpretar import√¢ncia de vari√°veis e embasar recomenda√ß√µes comportamentais

---

## 3. Estrat√©gia de Modelagem

### 3.1 Vis√£o Geral

Testamos diferentes algoritmos de classifica√ß√£o multiclasse (Regress√£o Log√≠stica, Decision Tree, Random Forest, Gradient Boosting e XGBoost), todos em um mesmo pipeline de pr√©-processamento.

**Crit√©rios de compara√ß√£o:**
- Acur√°cia (meta > 75%)
- F1-macro (avalia equil√≠brio entre classes)
- Matriz de confus√£o (entender confus√µes entre n√≠veis)
- Tempo de treinamento e simplicidade

O Random Forest se destacou como melhor compromisso entre desempenho, robustez e interpretabilidade.

### 2.7 Descoberta 6: Insights Comportamentais (Modific√°veis)

**Por que focar em comportamentos modific√°veis:**
- Gen√©tica n√£o pode ser mudada (family_history, gender)
- Comportamentos podem ser alvo de **interven√ß√µes cl√≠nicas**
- Impacto pr√°tico maior na preven√ß√£o

#### Atividade F√≠sica (FAF)
**Descoberta:**
- Pessoas com obesidade tipo III: m√©dia 0.2 dias/semana
- Pessoas com peso normal: m√©dia 2.5 dias/semana
- **ANOVA:** F=450, p<0.0001 (diferen√ßa GIGANTE)

**Evid√™ncia Cient√≠fica:**
- OMS recomenda ‚â•150 min/semana de atividade moderada
- Atividade f√≠sica reduz risco de obesidade em 20-30%

**Implica√ß√£o Pr√°tica:**
App pode recomendar: "Aumentar atividade f√≠sica de X para Y dias/semana reduz risco em Z%"

#### H√°bitos Alimentares (FAVC, FCVC)
**Descoberta:**
- 89% dos obesos tipo III consomem alimentos cal√≥ricos frequentemente
- Consumo de vegetais inversamente proporcional ao n√≠vel de obesidade

**Evid√™ncia Cient√≠fica:**
- Alimentos ultraprocessados: +500 kcal/dia (Harvard, 2023)
- Dietas ricas em fibras/vegetais reduzem risco

**Implica√ß√£o Pr√°tica:**
Dashboard pode identificar grupos de risco para interven√ß√µes nutricionais.

---

## ü§ñ ETAPA 3: Estrat√©gia de Modelagem

### 3.1 Vis√£o Geral da Estrat√©gia

Foram testados diferentes algoritmos de classifica√ß√£o multiclasse (Regress√£o Log√≠stica, Decision Tree, Random Forest, Gradient Boosting e XGBoost), todos inseridos no mesmo pipeline de pr√©-processamento.

Crit√©rios de compara√ß√£o:
- Acur√°cia (meta > 75%).
- F1-macro (para avaliar o equil√≠brio entre classes, inclusive minorit√°rias).
- Matriz de confus√£o (para entender confus√µes entre n√≠veis de obesidade).
- Tempo de treinamento e simplicidade de implanta√ß√£o.

O Random Forest se destacou como melhor compromisso entre desempenho, robustez e interpretabilidade (feature importance).

### 3.2 Pr√©-processamento e Engenharia de Atributos

**Principais passos:**
- Convers√£o de vari√°veis categ√≥ricas em num√©ricas com LabelEncoder
- Padroniza√ß√£o de vari√°veis num√©ricas (Age, Height, Weight, BMI, FAF, CH2O, TUE) com StandardScaler
- Cria√ß√£o da feature BMI = Weight / (Height¬≤), mantida junto com Weight e Height
- Divis√£o treino/teste estratificada (80/20) com random_state fixado

O pipeline foi salvo para garantir consist√™ncia entre treinamento e uso em produ√ß√£o (Streamlit).

### 3.3 Valida√ß√£o e Compara√ß√£o de Modelos

Usamos divis√£o treino/teste estratificada (80/20) e valida√ß√£o cruzada para compara√ß√£o entre algoritmos.

**Pontos-chave:**
- Propor√ß√£o de classes preservada em treino e teste (stratify)
- Random states fixados para reprodutibilidade
- Compara√ß√£o de acur√°cia e F1-macro antes de escolher o Random Forest como modelo final

---

## 4. Resultados de Modelagem

Os detalhes completos das m√©tricas est√£o em 02_model_training.ipynb. Aqui, o foco √© no que importa para o desafio e para o uso cl√≠nico.

### 4.1 Cen√°rios Avaliados

**Modelo completo (com peso/altura/IMC)**
- Usa todas as vari√°veis, incluindo Weight, Height e BMI
- Acur√°cia de teste pr√≥xima de 99%
- O modelo essencialmente reaprende a regra de IMC

**Modelo comportamental (sem peso/altura/IMC)**
- Remove vari√°veis antropom√©tricas diretas
- Mant√©m vari√°veis demogr√°ficas e de h√°bitos
- Acur√°cia em torno de 87%, mostrando que h√°bitos permitem boa triagem

### 4.2 M√©tricas Utilizadas

Para ambos os cen√°rios:
- Acur√°cia
- F1-macro
- Matriz de confus√£o (para avaliar confus√µes entre n√≠veis)

Detalhes no notebook 02_model_training.ipynb.

### 4.3 Feature Importance

**O que √©:**
Ranking de quais features mais contribuem para predi√ß√µes do modelo.

**Por que √© valioso:**
- Valida√ß√£o Cient√≠fica: Features importantes batem com literatura m√©dica?
- Simplifica√ß√£o: Podemos remover features irrelevantes?
- Interpretabilidade: Explica decis√µes para m√©dicos
- Interven√ß√µes: Identifica alvos para mudan√ßas comportamentais

---

## 5. Aplica√ß√£o Pr√°tica (Streamlit Apps)

### 5.1 App de Predi√ß√£o Individual

**Objetivo:**
Profissional de sa√∫de insere dados de um paciente ‚Üí Sistema retorna n√≠vel de obesidade predito.

**Por que √© √∫til:**
- Triagem r√°pida em consult√≥rios
- N√£o requer c√°lculos manuais de IMC
- Considera m√∫ltiplos fatores al√©m do peso

**Funcionalidades:**
- Formul√°rio intuitivo (dropdowns, sliders)
- Predi√ß√£o instant√¢nea com probabilidades
- Visualiza√ß√£o gr√°fica das probabilidades
- Recomenda√ß√µes contextualizadas (baseadas em features importantes)

**Exemplo de Uso:**
```
Paciente: Mulher, 35 anos, 65kg, 1.60m
Hist√≥rico familiar: Sim
Atividade f√≠sica: 1 dia/semana

‚Üí Predi√ß√£o: Overweight Level I (78% de confian√ßa)
‚Üí Recomenda√ß√£o: Aumentar atividade f√≠sica para ‚â•3 dias/semana
```

### 5.2 Dashboard Anal√≠tico

**Objetivo:**
Vis√£o agregada de padr√µes populacionais para equipe m√©dica ou gestores de sa√∫de.

**Por que √© √∫til:**
- Identifica grupos de risco em popula√ß√µes
- Monitora tend√™ncias ao longo do tempo
- Informa pol√≠ticas de sa√∫de p√∫blica

**Funcionalidades:**
- Filtros din√¢micos (g√™nero, faixa et√°ria, obesidade)
- Distribui√ß√µes populacionais (idade, IMC, comportamentos)
- An√°lises cruzadas (obesidade √ó atividade f√≠sica, obesidade √ó hist√≥rico familiar)
- Estat√≠sticas descritivas (m√©dias, medianas por grupo)

**Exemplo de Insight:**
```
Homens 40-50 anos com hist√≥rico familiar:
- 65% est√£o em Obesity Type I ou superior
- Atividade f√≠sica m√©dia: 0.8 dias/semana

‚Üí A√ß√£o: Campanha de exerc√≠cios direcionada a este grupo
```

---

## 6. Conclus√µes e Aprendizados

**1. Gen√©tica importa, mas n√£o explica tudo**
- Hist√≥rico familiar tem associa√ß√£o forte com obesidade, alinhado com literatura
- Ainda assim, fatores comportamentais explicam boa parte da varia√ß√£o

**2. Atividade f√≠sica e alimenta√ß√£o s√£o alvos priorit√°rios**
- Diferen√ßas claras de FAF e de padr√£o alimentar entre n√≠veis de obesidade
- Esses fatores s√£o modific√°veis e aparecem como importantes na EDA e na import√¢ncia de vari√°veis

**3. Modelo completo x modelo comportamental**
- A alta acur√°cia do modelo com IMC √© esperada pela circularidade
- O resultado relevante para cl√≠nica √© o desempenho do modelo comportamental, que mant√©m boa capacidade de triagem

**4. Aplica√ß√µes em Streamlit tornam o resultado utiliz√°vel**
- O app de predi√ß√£o apoia decis√µes em n√≠vel individual
- O dashboard facilita enxergar padr√µes populacionais e grupos de risco para interven√ß√µes

### Decis√µes Metodol√≥gicas

Principais decis√µes tomadas ao longo do projeto (detalhes em README.md e docs):

- Manter outliers plaus√≠veis e utilizar modelos robustos (√°rvores)
- N√£o aplicar t√©cnicas pesadas de balanceamento; usar class weights
- Criar BMI, mas manter Weight e Height, deixando o modelo decidir import√¢ncia relativa
- Testar m√∫ltiplos algoritmos e selecionar Random Forest otimizado
- Centralizar tradu√ß√µes e padr√µes visuais em c√≥digo para facilitar entendimento

### Decis√µes Metodol√≥gicas (S√≠ntese)

Principais decis√µes tomadas ao longo do projeto, com justificativas de alto n√≠vel (detalhes adicionais em README.md e docs):

- Manter outliers plaus√≠veis e utilizar modelos robustos (√°rvores) em vez de filtrar agressivamente.
- N√£o aplicar t√©cnicas pesadas de balanceamento; usar class weights e avaliar F1-macro por classe.
- Criar BMI, mas tamb√©m manter Weight e Height, permitindo que o modelo ajuste o peso relativo de cada vari√°vel.
- Testar m√∫ltiplos algoritmos e selecionar Random Forest otimizado com base em desempenho e robustez.
- Centralizar tradu√ß√µes e padr√µes visuais em c√≥digo para facilitar entendimento por profissionais brasileiros.

---

## Artefatos Principais

Este guia √© complement√°rio aos artefatos de c√≥digo. Para navega√ß√£o e refer√™ncia:

- **01_exploratory_data_analysis.ipynb** ‚Äî An√°lise explorat√≥ria completa
- **02_model_training.ipynb** ‚Äî Modelagem, treinamento e avalia√ß√£o
- **app_prediction.py** ‚Äî Aplica√ß√£o de predi√ß√£o individual
- **app_dashboard.py** ‚Äî Dashboard de an√°lises populacionais
- **README.md** ‚Äî Setup, contexto geral e resultados
- **docs/DOCUMENTACAO_TECNICA.md** ‚Äî Detalhes t√©cnicos e padroniza√ß√µes