# Obesidade em dados. 

# Introdução

A organização Mundial da Saúde (OMS) define obesidade como o acúmulo excessivo de gordura corporal que pode prejudicar a saúde (WHO, 2024), e é considerada uma doença crônica que afeta pessoas de todas as idades e grupos sociais. A obesidade também pode levar à outras doenças, como diabetes tipo 2, doenças cardiovasculares, hipertensão, acidente vascular cerebral e vários tipos de câncer.

Segundo a Organização Pan-Americana da Saúde (PAHO, 2024), uma em cada oito pessoas no mundo vive com obesidade, o que reforça a importância da prevenção e do controle desde a infância até a vida adulta. Embora as causas da obesidade sejam multifatoriais, envolvendo aspectos genéticos, comportamentais e ambientais, suas intervenções são bem estabelecidas e apoiadas por evidências robustas — embora, muitas vezes, pouco implementadas.

A classificação da obesidade baseia-se no Índice de Massa Corporal (IMC), calculado pela razão entre o peso (em quilogramas) e o quadrado da altura (em metros). De acordo com a OMS, considera-se obesa uma pessoa com IMC igual ou superior a 30 kg/m², sendo esse critério amplamente utilizado para triagem clínica e acompanhamento de risco.

Este trabalho se propõe a analisar o conjunto de dados “Dataset for estimation of obesity levels based on eating habits and physical condition in individuals from Colombia, Peru and Mexico” (PALECHOR & MANOTAS, 2019), disponibilizado no Kaggle. O dataset contém 2.111 registros e 17 atributos, sendo 77% gerados sinteticamente com o filtro SMOTE (Synthetic Minority Oversampling Technique) e 23% coletador diretamente dos usuários por meio de uma plataforma web.

O objetivo da análise é investigar padrões de comportamento e características associadas à obesidade, buscando responder perguntas como: _o diagnóstico varia por gênero ou faixa etária? Há relação entre o meio de transporte e o nível de obesidade? O histórico familiar influencia diretamente o diagnóstico?_

As respostas a essas perguntas permitem levantar hipóteses relevantes para futuras investigações e políticas de saúde pública, além de apoiar a construção de modelos preditivos mais eficazes. A identificação dos fatores com maior associação à obesidade é essencial para o desenvolvimento de ferramentas preventivas, estratégias de intervenção e sistemas de monitoramento individualizado.


No dataset utilizado, o atributo alvo (NObeyesdad) representa o nível de obesidade, inferido a partir do IMC de cada indivíduo, segundo a seguinte classificação:

- IMC < 18,5 kg/m² - baixo peso
- IMC > 18,5 até 24,9 kg/m² - peso adequado
- IMC ≥ 25 até 29,9 kg/m² - sobrepeso
- IMC > 30,0 kg/m² até 34,9 kg/m² - obesidade grau 1
- IMC > 35 kg/m² até 39,9 kg/m² - obesidade grau 2
- IMC > 40 kg/m² - obesidade extrema



Abaixo, se encontram as 17 colunas presentes no dataset, com suas respectivas descrições:

**Visão geral do dataset:**

Abaixo, encontram-se os 17 atributos presentes no dataset, com suas respectivas descrições:

- **Age**: Idade do indivíduo (anos)  
- **Gender**: Gênero (male/female)  
- **Height**: Altura (em metros)  
- **Weight**: Peso (em quilogramas)  
- **CALC**: Frequência do consumo de álcool (no/sometimes/frequently/always)  
- **FAVC**: Consumo frequente de alimentos calóricos (yes/no)  
- **FCVC**: Frequência de consumo de vegetais (1 = nunca, 2 = às vezes, 3 = sempre)  
- **NCP**: Número de refeições principais por dia  
- **SCC**: Controle da ingestão calórica (yes/no)  
- **SMOKE**: Fumante (yes/no)  
- **CH2O**: Quantidade de água ingerida por dia (1 a 3 litros)  
- **Family history with overweight**: Histórico familiar de sobrepeso (yes/no)  
- **FAF**: Frequência de atividade física semanal (em horas)  
- **TUE**: Tempo de uso de dispositivos eletrônicos (0 = 0–2h, 1 = 3–5h, 2 = 6h ou mais)  
- **CAEC**: Frequência de consumo de comida (ou lanches) entre refeições (no/sometimes/frequently/always)  
- **MTRANS**: Meio de transporte (automobile, bike, public_transportation, walking)  
- **NObeyesdad**: Diagnóstico de obesidade baseado no IMC

_O dataset foi importado do Kaggle a partir de: https://www.kaggle.com/datasets/abdelrahman16/obesity-dataset; alguns valores estão legendados incorretamente no Kaggle, mas corrigidos aqui baseando-se no trabalho original._


# Modelo Estrutura-Relacionamento.

A modelagem de dados é uma etapa fundamental no desenvolvimento de soluções de banco de dados e armazéns de dados (Data Warehouses). Seu objetivo é representar, de forma estruturada e compreensível, os elementos que compõem um domínio de informações, organizando os dados e suas relações para garantir integridade, consistência e facilidade de análise.

Um dos modelos mais utilizados para esse fim é o modelo estrutura-relacional, que envolve diferentes níveis de abstração, permitindo uma separação clara entre os aspectos conceituais, lógicos e físicos do banco de dados. Essa abordagem facilita tanto o entendimento inicial do sistema quanto sua posterior implementação em uma plataforma tecnológica específica.

A modelagem estrutura-relacional é composta por três etapas principais:

- Modelo conceitual: define os principais elementos do domínio (entidades, atributos e relacionamentos) sem se preocupar com tecnologias de implementação. É uma representação de alto nível, centrada no entendimento do problema.
- Modelo lógico: traduz o modelo conceitual para uma estrutura mais próxima da tecnologia relacional, definindo tabelas, chaves primárias, estrangeiras e tipos de dados, respeitando regras de normalização.
- Modelo físico: é a implementação do modelo lógico em um sistema de gerenciamento de banco de dados (SGBD) específico, considerando aspectos técnicos como performance, tipos de armazenamento, particionamento e uso de índices.

Essa divisão por camadas promove uma organização mais eficiente do desenvolvimento, permitindo que decisões técnicas sejam tomadas com base em um modelo previamente validado e compreendido. Neste trabalho, seguimos essa estrutura para modelar, armazenar e analisar os dados relacionados à obesidade.

##Modelo conceitual

Antes de realizarmos a análise dos dados, é necessário desenvolver a modelagem do banco de dados. Neste trabalho, optamos por utilizar um modelo estrutura-relacionamento (ER) como base para a estrutura do nosso Data Warehouse.

A primeira etapa da modelagem é a criação do modelo conceitual, que é uma representação abstrata e independente da tecnologia. Seu objetivo é refletir os conceitos reais (como Pessoa, Hábito Alimentar, Diagnóstico, etc.) e suas relações, de forma que possa ser compreendido por usuários técnicos e não técnicos.

A elaboração do modelo conceitual auxilia na detecção precoce de erros de lógica e inconsistências nos dados, antes mesmo da criação das tabelas físicas.

Abaixo, apresentamos o modelo conceitual do projeto, criado utilizando o software brModelo:

<img src="/files/shared_uploads/pr.thayssa@gmail.com/Estrutura_relacionamento_brModelo.png" width="900">
Figura 1: Diagrama do modelo conceitual estrutura-relacionamento dos dados contidos no dataset de obesidade. Criado com o programa brModelo.

Na figura:

- **Entidades** são representadas por **retângulos**  
- **Atributos** por **círculos**  
- **Relacionamentos** por **losangos**  
- **Cardinalidades** (1:1, 1:N, N:N) indicam como as entidades se associam entre si

Esse modelo oferece uma visão clara dos principais elementos que compõem o domínio da obesidade no contexto dos dados analisados, estruturando os componentes que serão posteriormente implementados no modelo lógico e físico.


##Modelo lógico

Após a finalização do modelo conceitual, foi desenvolvido o modelo lógico. Essa etapa representa a tradução do modelo conceitual para uma estrutura relacional, em que os conceitos de entidades e relacionamentos são organizados como tabelas e colunas.

O modelo lógico tem como principal objetivo estruturar os dados de forma que possam ser interpretados por um sistema gerenciador de banco de dados (SGBD), ainda sem a implementação física. Nele, são definidos os atributos de cada tabela, as chaves primárias e estrangeiras, e também se aplicam regras de normalização, visando eliminar redundâncias e garantir a integridade dos dados.

Neste modelo, todas as entidades identificadas no modelo conceitual foram convertidas em tabelas relacionais. Foram criadas também tabelas associativas para representar relacionamentos do tipo muitos-para-muitos, como é o caso da associação entre Pessoa e Hábito Alimentar.

A Figura 2 apresenta o diagrama gerado, com base no modelo conceitual da Figura 1, utilizando a ferramenta brModelo. Algumas correções manuais foram realizadas para ajustar cardinalidades e refinar chaves.

<img src="/files/shared_uploads/pr.thayssa@gmail.com/modelo_logico_brModelo.png" width="800">

Figura 2: Diagrama do modelo lógico estrutura-relacionamento gerado a partir do modelo conceitual da figura 1. Criado com o programa brModelo.

### Normalização

Durante a construção do modelo lógico deste projeto, foi aplicado o processo de normalização, com o objetivo de garantir a integridade dos dados, evitar redundâncias e facilitar a manutenção do banco. A normalização foi realizada até a Terceira Forma Normal (3FN) e também atende aos critérios da Forma Normal de Boyce-Codd (BCNF).

A seguir, descrevemos as formas normais aplicadas e como elas foram implementadas neste projeto:

**Primeira Forma Normal (1FN)**

A Primeira Forma Normal exige que todos os atributos sejam atômicos, ou seja, que cada campo contenha um único valor por registro. Isso evita listas ou conjuntos de valores em uma mesma célula.

No modelo implementado, todos os atributos seguem esse princípio. Por exemplo:
- O campo `mtrans` (meio de transporte) contém apenas uma opção por pessoa (como 'Public_Transportation', 'Automobile', etc.), e não múltiplos valores.
- Campos numéricos como `age`, `weight`, `height` e `faf` são armazenados com apenas um valor por linha.

**Segunda Forma Normal (2FN)**

A Segunda Forma Normal se aplica a tabelas com chaves primárias compostas, e exige que todos os atributos não-chave dependam de toda a chave primária, e não apenas de parte dela.

No projeto, para evitar dependências parciais, foi feita a separação de grupos de atributos que se repetiam em diferentes combinações em entidades distintas. Por exemplo:
- A entidade `HabitoAlimentar` armazena a combinação dos campos `favc`, `fcvc`, `ncp`, `caec`, `calc` e `ch2o`, os quais não dependem unicamente da pessoa, mas do conjunto de hábitos alimentares.
- A tabela associativa `Possui` foi criada para representar a relação entre `Pessoa` e `HabitoAlimentar`, garantindo integridade sem violar a 2FN.

**Terceira Forma Normal (3FN)**

A Terceira Forma Normal exige que os atributos não-chave sejam dependentes exclusivamente da chave primária e não de outros atributos não-chave (ou seja, elimina dependências transitivas).

Esse princípio também foi respeitado no projeto. Por exemplo:
- A informação `valor` da tabela `HistoricoFamiliar` está separada da tabela `Pessoa`, pois não depende diretamente da chave primária de Pessoa, mas sim de uma entidade descritiva separada (histórico familiar).
- O mesmo vale para o atributo `nome` na tabela `Diagnostico`, que armazena o nível de obesidade com base em um ID independente.

**Forma Normal de Boyce-Codd (BCNF)**

A BCNF é uma versão mais rigorosa da 3FN. Ela trata situações em que, mesmo após a 3FN, ainda exista dependência funcional entre atributos que não são chaves primárias.

No projeto, todas as dependências funcionais foram analisadas, e as tabelas foram criadas de forma a garantir que todos os determinantes fossem chaves candidatas. Assim, o modelo também está conforme a BCNF.

---

Portanto, podemos afirmar que o modelo está devidamente normalizado até a 3FN e em conformidade com a Forma Normal de Boyce-Codd, promovendo uma estrutura de dados robusta, eficiente e de fácil manutenção.

##Modelo físico

O modelo físico representa a última etapa da modelagem de dados. Ele descreve como o banco de dados será efetivamente implementado dentro de um sistema gerenciador de banco de dados (SGBD), considerando a estrutura lógica previamente definida.

Nesta fase, os elementos do modelo lógico (tabelas, atributos, chaves primárias e estrangeiras) são convertidos em comandos específicos de linguagem SQL para criação e manipulação de dados. Além disso, o modelo físico também contempla aspectos de desempenho e armazenamento, como formatos de dados, tipos de índices, particionamento de tabelas e outras decisões técnicas que podem variar conforme o ambiente utilizado.

No caso deste trabalho, o modelo físico foi implementado diretamente na plataforma Databricks, utilizando comandos SQL para criação do banco de dados, tabelas dimensionais, tabela fato e inserção dos dados com suporte ao formato Delta Lake. Embora o Databricks gratuito não permita a definição explícita de constraints (como chaves estrangeiras), essas regras foram respeitadas logicamente ao longo da estrutura e no processo de ETL.

A definição das tabelas no modelo físico seguiu a nomenclatura estabelecida no modelo lógico, com a criação de identificadores artificiais (IDs) para representar chaves primárias e a ligação entre as dimensões e a tabela fato. Essa implementação permitiu a estruturação dos dados no estilo de um Data Warehouse, favorecendo análises posteriores com consultas SQL e visualizações baseadas em múltiplas dimensões.

O modelo físico, portanto, marca a transição final entre a modelagem e a operacionalização do banco de dados, viabilizando o uso prático dos dados organizados.

In [0]:
%sql
--Para limpar tabelas antigas - Remove tabelas e metadados no catálogo
DROP DATABASE IF EXISTS dw_obesidade CASCADE;


In [0]:
#Para limpar tabelas antigas - Limpa a pasta física no DBFS
dbutils.fs.rm("dbfs:/user/hive/warehouse/dw_obesidade.db", recurse=True)

Out[3]: True

In [0]:
%sql
-- Criação do banco de dados para o Data Warehouse de Obesidade
CREATE DATABASE IF NOT EXISTS dw_obesidade;
USE dw_obesidade;

-- Tabela de dimensão: Pessoa
-- Contém os atributos físicos e informações pessoais de cada indivíduo
-- Relaciona-se com outras tabelas dimensionais por meio de chaves estrangeiras
CREATE TABLE IF NOT EXISTS dw_obesidade.DimPessoa (
    id_pessoa INT,         -- Chave primária simulada
    age FLOAT,             -- Idade do indivíduo (anos)
    gender STRING,         -- Gênero ('Male'/'Female')
    height FLOAT,          -- Altura (em metros)
    weight FLOAT,          -- Peso (em kg)
    id_estilo INT,         -- FK → DimEstiloVida.id_estilo
    id_diagnostico INT,    -- FK → DimDiagnostico.id_diagnostico
    id_hist_fam INT        -- FK → DimHistoricoFamiliar.id_hist_fam
);

-- Tabela de dimensão: Hábitos Alimentares
-- Armazena características alimentares relacionadas à frequência e consumo
CREATE TABLE IF NOT EXISTS dw_obesidade.DimHabitosAlimentares (
    id_habito INT,         -- Chave primária simulada
    favc STRING,           -- Consumo frequente de alimentos calóricos ('yes'/'no')
    fcvc FLOAT,            -- Frequência de consumo de vegetais (1–3)
    ncp FLOAT,             -- Número de refeições principais por dia
    caec STRING,           -- Consumo entre refeições ('no', 'Sometimes', etc.)
    calc STRING,           -- Frequência do consumo de álcool
    ch2o FLOAT             -- Consumo diário de água (em litros)
);

-- Tabela de dimensão: Estilo de Vida
-- Representa hábitos físicos e comportamentais
CREATE TABLE IF NOT EXISTS dw_obesidade.DimEstiloVida (
    id_estilo INT,         -- Chave primária simulada
    scc STRING,            -- Monitora consumo de calorias ('yes'/'no')
    smoke STRING,          -- Fumante ('yes'/'no')
    faf FLOAT,             -- Frequência de atividade física (horas por semana)
    tue FLOAT,             -- Tempo usando dispositivos tecnológicos (horas/dia)
    mtrans STRING          -- Meio de transporte (car, bike, walking, etc.)
);

-- Tabela de dimensão: Histórico Familiar
-- Informa se há histórico de sobrepeso na família
CREATE TABLE IF NOT EXISTS dw_obesidade.DimHistoricoFamiliar (
    id_hist_fam INT,       -- Chave primária simulada
    valor STRING           -- 'yes' ou 'no'
);

-- Tabela de dimensão: Diagnóstico
-- Representa a classificação final do nível de obesidade
CREATE TABLE IF NOT EXISTS dw_obesidade.DimDiagnostico (
    id_diagnostico INT,    -- Chave primária simulada
    nome STRING            -- Exemplo: 'Obesity_Type_I', 'Normal_Weight'
);

-- Tabela fato: FatoObesidade
-- Representa a instância de associação entre uma pessoa e seus hábitos alimentares
-- Esta tabela resolve o relacionamento N:N entre Pessoa e HabitoAlimentar
CREATE TABLE IF NOT EXISTS dw_obesidade.FatoObesidade (
    id_fato INT,           -- Chave primária simulada
    id_pessoa INT,         -- FK → DimPessoa.id_pessoa
    id_habito INT          -- FK → DimHabitosAlimentares.id_habito
);


Finalizada a criação do modelo físico, para facilitar o entendimento dos atributos e dados originais, dois dicionários foram criados para unir todas as informações relevantes de cada atributo.

O dicionário de dados abaixo inclui a origem dos atributos, o tipo, uma descrição básica, se aceita valores nulos, se é uma chave primária (PK) ou chave estrangeira (FK).

<img src="/files/shared_uploads/pr.thayssa@gmail.com/dicionario_1.png" width="1000">


O segundo dicionário, nomeado aqui dicionário de dados 2, descreve os valores mínimos, máximo e a média aproximada dos atributos com valores numéricos, identifica os valores dos atributos não-numéricos, e fornece uma descrição detalhada do que cada campo significa. A descrição é baseada na informação disponível no artigo do qual o dataset foi obtido: "Dataset for estimation of obesity levels based on eating habits and physical condition in individuals from Colombia, Peru and Mexico." (PALECHOR & MANOTAS, 2019).


<img src="/files/shared_uploads/pr.thayssa@gmail.com/dicionario_2-1.png" width="1000">

## Implementação

Após a finalização da modelagem dos dados — com a estrutura entidade-relacionamento devidamente representada nos modelos conceitual, lógico e físico — foi possível iniciar a etapa de implementação do banco de dados analítico propriamente dito.

A implementação diz respeito à aplicação prática da estrutura teórica definida, com o objetivo de tornar o modelo funcional, armazenar os dados de forma organizada e prepará-los para análise. Neste projeto, essa implementação foi realizada por meio da construção de um pipeline ETL (Extração, Transformação e Carga), utilizando a plataforma Databricks com o ambiente PySpark.

**Justificativa da ferramenta utilizada**

A escolha pela plataforma Databricks e pela linguagem PySpark se deu pela robustez dessas tecnologias no tratamento de dados analíticos. O Databricks permite a integração entre SQL, Python e visualizações de forma nativa, enquanto o PySpark facilita o processamento distribuído de dados, mesmo em grandes volumes. A versão gratuita da plataforma ainda oferece um ambiente prático e completo para o desenvolvimento de pipelines e armazenamento em formato Delta Lake.

**Observação sobre limitações da versão gratuita**

Apesar das vantagens, é importante destacar que a versão gratuita do Databricks não permite a definição explícita de constraints físicas, como chaves primárias e estrangeiras. No entanto, essas restrições foram respeitadas logicamente durante todo o processo de modelagem e implementação. As integrações entre as tabelas foram mantidas por meio de joins consistentes, e os dados foram validados e deduplicados antes da carga.

**Boas práticas aplicadas na implementação**

Durante a construção do pipeline ETL, foram aplicadas diversas boas práticas, tais como:

- Separação dos dados em tabelas dimensionais e uma tabela fato, segundo o modelo relacional
- Criação de identificadores artificiais com `row_number()` para cada dimensão, e `monotonically_increasing_id()` para a tabela fato
- Deduplicação das tabelas com `dropDuplicates()` para evitar inconsistências
- Escrita segura com sobrescrita controlada por meio da função `saveAsTable()` com `mode("overwrite")`
- Armazenamento dos dados no formato Delta Lake, que garante versionamento, performance e transações ACID

### Pipeline ETL (Extração, Transformação e Carga)

A construção de um Data Warehouse requer a execução de um pipeline ETL, composto por três etapas fundamentais: extração, transformação e carga de dados. Este processo foi implementado neste projeto utilizando a linguagem PySpark na plataforma Databricks.

#### Extração (Extract)

Na etapa de extração, os dados foram obtidos a partir do arquivo CSV "ObesityDataSet_raw_and_data_sinthetic.csv", disponível na plataforma Kaggle. O arquivo foi carregado no Databricks utilizando a biblioteca PySpark, com a opção `inferSchema` ativada para detectar automaticamente os tipos de dados.

In [0]:
# ETAPA: EXTRAÇÃO
# Objetivo: Carregar os dados crus do arquivo original em um DataFrame Spark
# Ações: leitura do CSV com inferência automática de tipos, padronização de nomes de coluna

# Leitura e padronização de colunas
df = spark.read.csv("/FileStore/shared_uploads/pr.thayssa@gmail.com/ObesityDataSet_raw_and_data_sinthetic.csv", header=True, inferSchema=True)
df = df.toDF(*[c.lower() for c in df.columns])
df = df.toDF(*[c.strip().lower().replace(" ", "_") for c in df.columns])

from pyspark.sql.functions import row_number, monotonically_increasing_id
from pyspark.sql.window import Window


#### Transformação (Transform)

A etapa de transformação consistiu em várias ações para organizar e estruturar os dados conforme o modelo relacional previamente definido. Os principais passos foram:

- Separação de grupos de atributos em diferentes dimensões: por exemplo, os atributos relacionados a estilo de vida foram agrupados na dimensão `DimEstiloVida`.
- Criação de identificadores artificiais (chaves primárias) com a função `row_number` para cada dimensão.
- Associação entre dimensões e a tabela fato por meio de joins baseados nos atributos originais.
- Remoção de duplicatas (`dropDuplicates()`) para garantir a integridade de cada dimensão.

A tabela fato foi construída a partir do cruzamento entre as dimensões e os registros originais, com o objetivo de capturar as chaves de cada dimensão e associá-las a um identificador de fato (`id_fato`), criado com `monotonically_increasing_id()`.

In [0]:
# ETAPA: TRANSFORMAÇÃO
# Objetivo: Criar dimensões e tabela fato a partir do DataFrame original, normalizando os dados
# de acordo com o modelo lógico relacional previamente estabelecido.

# Pessoa
# Seleciona colunas que identificam uma pessoa única e atribui uma chave artificial (surrogate key)
df_pessoa = df.select("age", "gender", "height", "weight").distinct()
df_pessoa = df_pessoa.withColumn("id_pessoa", row_number().over(Window.orderBy("age", "gender", "height", "weight")))

# Histórico Familiar (dimensão separada)
df_historico = df.select("family_history_with_overweight").distinct()
df_historico = df_historico.withColumn("id_hist_fam", row_number().over(Window.orderBy("family_history_with_overweight")))
df_historico = df_historico.withColumnRenamed("family_history_with_overweight", "valor")

# Estilo de Vida (atributos comportamentais)
df_estilo = df.select("scc", "smoke", "faf", "tue", "mtrans").distinct()
df_estilo = df_estilo.withColumn("id_estilo", row_number().over(Window.orderBy("scc", "smoke", "faf", "tue", "mtrans")))

# Hábito Alimentar (frequência e preferências alimentares)
df_habito = df.select("favc", "fcvc", "ncp", "caec", "calc", "ch2o").distinct()
df_habito = df_habito.withColumn("id_habito", row_number().over(Window.orderBy("favc", "fcvc", "ncp", "caec", "calc", "ch2o")))

# Diagnóstico (classificação final de obesidade)
df_diagnostico = df.select("nobeyesdad").distinct()
df_diagnostico = df_diagnostico.withColumn("id_diagnostico", row_number().over(Window.orderBy("nobeyesdad")))
df_diagnostico = df_diagnostico.withColumnRenamed("nobeyesdad", "nome")




In [0]:
# ETAPA: CARGA
# (Função utilitária definida para ser usada na etapa de CARGA. Esta célula ainda não executa nenhuma carga — apenas prepara a função)
# Função de escrita segura. Função reutilizável para salvar as tabelas dimensionais e fato no Data Warehouse

def salvar_tabela(df, nome_tabela):
    spark.sql(f"DROP TABLE IF EXISTS dw_obesidade.{nome_tabela}")
    df.dropDuplicates().write.format("delta").mode("overwrite").saveAsTable(f"dw_obesidade.{nome_tabela}")


In [0]:
# ETAPA: TRANSFORMAÇÃO (continuação)
# Objetivo: Unir os dados originais com as dimensões criadas para formar a tabela fato,
# incluindo as chaves estrangeiras e criando a chave primária simulada "id_fato".

# Tabela fato com joins para buscar os ids das dimensões
# Cada join associa os atributos originais ao seu respectivo identificador único
fato = df.join(df_pessoa, on=["age", "gender", "height", "weight"]) \
         .join(df_habito, on=["favc", "fcvc", "ncp", "caec", "calc", "ch2o"]) \
         .join(df_estilo, on=["scc", "smoke", "faf", "tue", "mtrans"]) \
         .join(df_historico.withColumnRenamed("valor", "family_history_with_overweight"), on=["family_history_with_overweight"]) \
         .join(df_diagnostico.withColumnRenamed("nome", "nobeyesdad"), on=["nobeyesdad"])

# Geração da chave primária da tabela fato
from pyspark.sql.functions import monotonically_increasing_id
fato = fato.withColumn("id_fato", monotonically_increasing_id())

#### Carga (Load)

A carga dos dados no Data Warehouse foi realizada com o formato Delta Lake, que oferece suporte a transações ACID, versionamento de dados e maior desempenho na leitura e escrita.

Para evitar conflitos e manter a integridade, foi implementada uma função de escrita segura (antes da finalização da etapa transformação). Essa função remove a tabela, caso ela já exista, e grava novamente os dados com deduplicação, garantindo consistência e controle.

Apesar da versão gratuita do Databricks não permitir a aplicação direta de constraints (como chaves primárias ou estrangeiras), as restrições esperadas foram registradas como comentários no código. Isso serve como documentação das regras de integridade definidas no modelo lógico e reforça o compromisso com a estrutura relacional proposta.

In [0]:
# ETAPA: CARGA
# Objetivo: Salvar as tabelas dimensionais e a tabela fato no Data Warehouse em formato Delta, utilizando a função salvar_tabela definida anteriormente para garantir segurança na gravação.

# Comentários com constraints esperadas (não aplicáveis no Databricks Community Edition):
# Tabela DimPessoa:
# PRIMARY KEY (id_pessoa)
# FOREIGN KEY (id_estilo) REFERENCES DimEstiloVida(id_estilo)
# FOREIGN KEY (id_diagnostico) REFERENCES DimDiagnostico(id_diagnostico)
# FOREIGN KEY (id_hist_fam) REFERENCES DimHistoricoFamiliar(id_hist_fam)

# Tabela DimHabitosAlimentares:
# PRIMARY KEY (id_habito)

# Tabela DimEstiloVida:
# PRIMARY KEY (id_estilo)

# Tabela DimHistoricoFamiliar:
# PRIMARY KEY (id_hist_fam)

# Tabela DimDiagnostico:
# PRIMARY KEY (id_diagnostico)

# Tabela FatoObesidade:
# PRIMARY KEY (id_fato)
# FOREIGN KEY (id_pessoa) REFERENCES DimPessoa(id_pessoa)
# FOREIGN KEY (id_habito) REFERENCES DimHabitosAlimentares(id_habito)
# FOREIGN KEY (id_estilo) REFERENCES DimEstiloVida(id_estilo)
# FOREIGN KEY (id_hist_fam) REFERENCES DimHistoricoFamiliar(id_hist_fam)
# FOREIGN KEY (id_diagnostico) REFERENCES DimDiagnostico(id_diagnostico)

# Renomeação definitiva de colunas (se ainda não tiver sido aplicada)
df_diagnostico = df_diagnostico.withColumnRenamed("nobeyesdad", "nome")

# Escrita das tabelas dimensionais e fato no banco dw_obesidade
salvar_tabela(df_pessoa.select("id_pessoa", "age", "gender", "height", "weight"), "DimPessoa")
salvar_tabela(df_habito, "DimHabitosAlimentares")
salvar_tabela(df_estilo, "DimEstiloVida")
salvar_tabela(df_historico, "DimHistoricoFamiliar")
salvar_tabela(df_diagnostico, "DimDiagnostico")
salvar_tabela(fato.select("id_fato", "id_pessoa", "id_habito", "id_estilo", "id_hist_fam", "id_diagnostico"), "FatoObesidade")

## Análises 

###Verificação da qualidade e validação dos dados

Com o modelo físico devidamente implementado e os dados carregados em um Data Warehouse estruturado, é possível dar continuidade à etapa de análise de dados.

Essa etapa será dividida em dois momentos: primeiro, será realizada a verificação da qualidade dos dados, identificando possíveis inconsistências, redundâncias ou padrões inesperados. Em seguida, será feita a validação estrutural, assegurando que os dados estejam corretamente organizados, consistentes com o modelo implementado e prontos para análises estatísticas e cruzamentos.


Cada célula do notebook apresentará uma verificação específica, acompanhada dos respectivos comandos e comentários explicativos.

####Verificação da qualidade dos dados

Antes de iniciar as análises estatísticas e cruzamentos, é fundamental garantir que os dados estejam completos, coerentes e adequados para uso. Nesta etapa, realizamos uma série de verificações com foco na identificação de possíveis valores nulos, inconsistências semânticas e padrões que possam comprometer a integridade da análise.


In [0]:
%sql
-- ETAPA DE ANÁLISE DE QUALIDADE DOS DADOS
-- Nesta etapa, realizamos validações gerais de qualidade para garantir que os dados estejam completos, coerentes e confiáveis antes de partirmos para validações técnicas mais estruturais (como chaves e duplicações).
-- Serão analisados os seguintes aspectos:
-- 1. Verificação de valores fora dos domínios esperados em colunas categóricas
-- 2. Detecção de valores fora das faixas esperadas em colunas numéricas

--Para a confirmação dos valores mínimos, máximo ou esperados, consulte o dicionário de dados 2.

-- 1. DOMÍNIOS CATEGÓRICOS: Verificar valores inesperados nas colunas tipo 'yes/no', 'male/female', etc.

-- Valores distintos de 'gender'
SELECT DISTINCT gender FROM dw_obesidade.DimPessoa;

-- Valores distintos de 'favc'
SELECT DISTINCT favc FROM dw_obesidade.DimHabitosAlimentares;

-- Valores distintos de 'calc'
SELECT DISTINCT calc FROM dw_obesidade.DimHabitosAlimentares;

-- Valores distintos de 'caec'
SELECT DISTINCT caec FROM dw_obesidade.DimHabitosAlimentares;

-- Valores distintos de 'scc'
SELECT DISTINCT scc FROM dw_obesidade.DimEstiloVida;

-- Valores distintos de 'smoke'
SELECT DISTINCT smoke FROM dw_obesidade.DimEstiloVida;

-- Valores distintos de 'mtrans'
SELECT DISTINCT mtrans FROM dw_obesidade.DimEstiloVida;

-- Valores distintos de 'valor' (histórico familiar)
SELECT DISTINCT valor FROM dw_obesidade.DimHistoricoFamiliar;

-- Valores distintos de 'nome' (diagnóstico)
SELECT DISTINCT nome FROM dw_obesidade.DimDiagnostico;

-- 2. FAIXAS NUMÉRICAS: Verificar valores fora das faixas mínimas/máximas esperadas com base no dicionário de dados

-- Altura fora do intervalo 1.45 a 1.95 m
SELECT * FROM dw_obesidade.DimPessoa WHERE height < 1.45 OR height > 1.95;

-- Peso fora do intervalo 39 a 173 kg
SELECT * FROM dw_obesidade.DimPessoa WHERE weight < 39 OR weight > 173;

-- Idade fora do intervalo 14 a 61 anos
SELECT * FROM dw_obesidade.DimPessoa WHERE age < 14 OR age > 61;

-- Frequência de vegetais fora do intervalo 1 a 3 vezes
SELECT * FROM dw_obesidade.DimHabitosAlimentares WHERE fcvc < 1 OR fcvc > 3;

-- Número de refeições fora do intervalo 1 a 4
SELECT * FROM dw_obesidade.DimHabitosAlimentares WHERE ncp < 1 OR ncp > 4;

-- Água ingerida fora do intervalo 0.5 a 3 litros
SELECT * FROM dw_obesidade.DimHabitosAlimentares WHERE ch2o < 0.5 OR ch2o > 3;

-- Frequência de atividade física fora de 0 a 3 horas
SELECT * FROM dw_obesidade.DimEstiloVida WHERE faf < 0 OR faf > 3;

-- Tempo com tecnologia fora do intervalo 0 a 2 horas
SELECT * FROM dw_obesidade.DimEstiloVida WHERE tue < 0 OR tue > 2;


scc,smoke,faf,tue,mtrans,id_estilo


A ausência de um resultado ao rodar a célula acima, confirma que não há nenhum valor fora do esperado para os atributos.

In [0]:
%sql
-- ETAPA DE VALIDAÇÃO DOS DADOS
-- Esta célula tem como objetivo verificar a ocorrência de valores numéricos iguais a zero nas colunas quantitativas principais.
-- Embora zeros não sejam nulos, sua presença pode indicar ausência de comportamento (ex: não praticar exercício físico) ou erro de preenchimento.
-- Esta célula consolida em uma única tabela a contagem de registros, total de zeros e a porcentagem de zeros por campo.

-- OBSERVAÇÃO IMPORTANTE:
-- As consultas realizadas nesta etapa são aplicadas diretamente sobre as tabelas de DIMENSÃO, como DimPessoa, DimEstiloVida etc.
-- Como essas tabelas armazenam apenas combinações distintas de atributos (por meio de SELECT DISTINCT),
-- elas não representam a frequência real de ocorrência de cada valor na base original (que contém 2111 indivíduos).
-- Portanto, **essas consultas servem apenas para validar o domínio e a consistência dos dados**, e não devem ser usadas para análises estatísticas.
-- Se for necessário calcular a frequência real de valores (ex: quantos indivíduos têm FAF = 0), a análise deve ser feita sobre a tabela FatoObesidade (ou sobre o DataFrame original).

-- OBSERVAÇÃO IMPORTANTE (2): SOBRE A VERIFICAÇÃO DE VALORES ZERO:
-- A verificação de valores numéricos iguais a zero pode ser útil para:
-- - Identificar padrões que podem ser legítimos (ex: faf = 0 significa sem atividade física)
-- - Detectar possíveis falhas de preenchimento (ex: ch2o = 0 pode indicar falta de dados)
-- - Avaliar a variabilidade de um campo, útil para análise estatística e modelos

SELECT 'faf' AS campo, COUNT(*) AS total_registros,
       SUM(CASE WHEN faf = 0 THEN 1 ELSE 0 END) AS zeros_encontrados,
       ROUND(100.0 * SUM(CASE WHEN faf = 0 THEN 1 ELSE 0 END) / COUNT(*), 2) AS porcentagem_zeros
FROM dw_obesidade.DimEstiloVida

UNION ALL

SELECT 'tue' AS campo, COUNT(*) AS total_registros,
       SUM(CASE WHEN tue = 0 THEN 1 ELSE 0 END), 
       ROUND(100.0 * SUM(CASE WHEN tue = 0 THEN 1 ELSE 0 END) / COUNT(*), 2)
FROM dw_obesidade.DimEstiloVida

UNION ALL

SELECT 'fcvc' AS campo, COUNT(*) AS total_registros,
       SUM(CASE WHEN fcvc = 0 THEN 1 ELSE 0 END), 
       ROUND(100.0 * SUM(CASE WHEN fcvc = 0 THEN 1 ELSE 0 END) / COUNT(*), 2)
FROM dw_obesidade.DimHabitosAlimentares

UNION ALL

SELECT 'ncp' AS campo, COUNT(*) AS total_registros,
       SUM(CASE WHEN ncp = 0 THEN 1 ELSE 0 END), 
       ROUND(100.0 * SUM(CASE WHEN ncp = 0 THEN 1 ELSE 0 END) / COUNT(*), 2)
FROM dw_obesidade.DimHabitosAlimentares

UNION ALL

SELECT 'ch2o' AS campo, COUNT(*) AS total_registros,
       SUM(CASE WHEN ch2o = 0 THEN 1 ELSE 0 END), 
       ROUND(100.0 * SUM(CASE WHEN ch2o = 0 THEN 1 ELSE 0 END) / COUNT(*), 2)
FROM dw_obesidade.DimHabitosAlimentares

UNION ALL

SELECT 'age' AS campo, COUNT(*) AS total_registros,
       SUM(CASE WHEN age = 0 THEN 1 ELSE 0 END), 
       ROUND(100.0 * SUM(CASE WHEN age = 0 THEN 1 ELSE 0 END) / COUNT(*), 2)
FROM dw_obesidade.DimPessoa

UNION ALL

SELECT 'height' AS campo, COUNT(*) AS total_registros,
       SUM(CASE WHEN height = 0 THEN 1 ELSE 0 END), 
       ROUND(100.0 * SUM(CASE WHEN height = 0 THEN 1 ELSE 0 END) / COUNT(*), 2)
FROM dw_obesidade.DimPessoa

UNION ALL

SELECT 'weight' AS campo, COUNT(*) AS total_registros,
       SUM(CASE WHEN weight = 0 THEN 1 ELSE 0 END), 
       ROUND(100.0 * SUM(CASE WHEN weight = 0 THEN 1 ELSE 0 END) / COUNT(*), 2)
FROM dw_obesidade.DimPessoa


campo,total_registros,zeros_encontrados,porcentagem_zeros
faf,1580,224,14.18
tue,1580,272,17.22
fcvc,1679,0,0.0
ncp,1679,0,0.0
ch2o,1679,0,0.0
age,2077,0,0.0
height,2077,0,0.0
weight,2077,0,0.0


A presença de zeros está de acordo com o esperado, não apresentando nenhum valor anormal tendo em vista os tipos de atributos verificados.

Nosso modelo não permite a presença de valores nulos, e nenhum foi identificado no dataset, conforme demonstrado nas células a seguir.

In [0]:
%sql
--VERIFICAÇÃO DE VALORES NULOS
-- Confirma se existem campos com valores ausentes (NULLs) nas principais tabelas

-- FatoObesidade
SELECT * FROM dw_obesidade.FatoObesidade
WHERE id_pessoa IS NULL OR id_habito IS NULL OR id_estilo IS NULL OR id_hist_fam IS NULL OR id_diagnostico IS NULL

id_fato,id_pessoa,id_habito,id_estilo,id_hist_fam,id_diagnostico


In [0]:
%sql
-- DimPessoa
SELECT * FROM dw_obesidade.DimPessoa
WHERE age IS NULL OR gender IS NULL OR height IS NULL OR weight IS NULL

id_pessoa,age,gender,height,weight


In [0]:
%sql
-- DimHabitosAlimentares
SELECT * FROM dw_obesidade.DimHabitosAlimentares
WHERE favc IS NULL OR fcvc IS NULL OR ncp IS NULL OR caec IS NULL OR calc IS NULL OR ch2o IS NULL

favc,fcvc,ncp,caec,calc,ch2o,id_habito


In [0]:
%sql
-- DimEstiloVida
SELECT * FROM dw_obesidade.DimEstiloVida
WHERE scc IS NULL OR smoke IS NULL OR faf IS NULL OR tue IS NULL OR mtrans IS NULL

scc,smoke,faf,tue,mtrans,id_estilo


In [0]:
%sql
-- DimDiagnostico
SELECT * FROM dw_obesidade.DimDiagnostico
WHERE nome IS NULL

nome,id_diagnostico


In [0]:
%sql
-- DimHistoricoFamiliar
SELECT * FROM dw_obesidade.DimHistoricoFamiliar
WHERE valor IS NULL

valor,id_hist_fam


**Conclusão**

As verificações realizadas demonstraram que os dados carregados no Data Warehouse apresentam boa qualidade e estão aptos para análises. Nenhum valor nulo foi identificado nas tabelas dimensionais ou na tabela fato, e os valores zero encontrados em alguns atributos numéricos não comprometem a coerência dos dados.

Além disso, os dados foram previamente normalizados e organizados em conformidade com o modelo relacional proposto, não sendo observadas anomalias ou inconsistências semânticas relevantes. Dessa forma, considera-se que a base se encontra íntegra, completa e pronta para validações estruturais e análises estatísticas subsequentes.

#### Validação estrutural do modelo de dados

Nesta etapa, faremos uso de técnicas de validação estrutural para verificar se o modelo de dados implementado está consistente do ponto de vista relacional.

O objetivo aqui é garantir que as ligações entre as tabelas estejam corretas, que as chaves estejam sendo respeitadas logicamente, e que não haja desvios ou falhas de integridade referencial, mesmo na ausência de constraints físicas no Databricks.

As validações serão realizadas em duas partes principais, descritas nas células seguintes. Cada célula contém detalhes específicos da verificação realizada.

In [0]:

%sql
-- =============================================================
-- 1. VERIFICAÇÃO DE CHAVES ESTRANGEIRAS (INTEGRIDADE REFERENCIAL)
-- Confirma se todos os IDs da tabela fato existem nas dimensões correspondentes
-- =============================================================

-- id_pessoa inexistente na dimensão
SELECT DISTINCT id_pessoa FROM dw_obesidade.FatoObesidade
WHERE id_pessoa NOT IN (SELECT id_pessoa FROM dw_obesidade.DimPessoa);

id_pessoa


In [0]:
%sql
-- id_habito inexistente na dimensão
SELECT DISTINCT id_habito FROM dw_obesidade.FatoObesidade
WHERE id_habito NOT IN (SELECT id_habito FROM dw_obesidade.DimHabitosAlimentares);

id_habito


In [0]:
%sql
-- id_estilo inexistente na dimensão
SELECT DISTINCT id_estilo FROM dw_obesidade.FatoObesidade
WHERE id_estilo NOT IN (SELECT id_estilo FROM dw_obesidade.DimEstiloVida);

id_estilo


In [0]:
%sql
-- id_hist_fam inexistente na dimensão
SELECT DISTINCT id_hist_fam FROM dw_obesidade.FatoObesidade
WHERE id_hist_fam NOT IN (SELECT id_hist_fam FROM dw_obesidade.DimHistoricoFamiliar);


id_hist_fam


In [0]:
%sql
-- id_diagnostico inexistente na dimensão
SELECT DISTINCT id_diagnostico FROM dw_obesidade.FatoObesidade
WHERE id_diagnostico NOT IN (SELECT id_diagnostico FROM dw_obesidade.DimDiagnostico);

id_diagnostico


In [0]:
%sql

-- =============================================================
-- 2. VERIFICAÇÃO DE DUPLICAÇÃO NAS DIMENSÕES
-- Confirma se há mais de uma linha com os mesmos atributos descritivos (sem considerar o ID)
-- =============================================================

-- DimPessoa
SELECT age, gender, height, weight, COUNT(*) AS duplicados
FROM dw_obesidade.DimPessoa
GROUP BY age, gender, height, weight
HAVING COUNT(*) > 1;

age,gender,height,weight,duplicados


In [0]:
%sql
-- DimEstiloVida
SELECT scc, smoke, faf, tue, mtrans, COUNT(*) AS duplicados
FROM dw_obesidade.DimEstiloVida
GROUP BY scc, smoke, faf, tue, mtrans
HAVING COUNT(*) > 1;

scc,smoke,faf,tue,mtrans,duplicados


In [0]:
%sql
-- DimHabitosAlimentares
SELECT favc, fcvc, ncp, caec, calc, ch2o, COUNT(*) AS duplicados
FROM dw_obesidade.DimHabitosAlimentares
GROUP BY favc, fcvc, ncp, caec, calc, ch2o
HAVING COUNT(*) > 1;

favc,fcvc,ncp,caec,calc,ch2o,duplicados


In [0]:
%sql
-- DimDiagnostico
SELECT nome, COUNT(*) AS duplicados
FROM dw_obesidade.DimDiagnostico
GROUP BY nome
HAVING COUNT(*) > 1;

nome,duplicados


In [0]:
%sql
-- DimHistoricoFamiliar
SELECT valor, COUNT(*) AS duplicados
FROM dw_obesidade.DimHistoricoFamiliar
GROUP BY valor
HAVING COUNT(*) > 1;

valor,duplicados


A ausência de resultados nas consultas acima (tanto para a etapa 1 quanto para 2) confirma que a estrutura do modelo está conforme o esperado. Todos os identificadores presentes na tabela fato estão devidamente referenciados nas respectivas dimensões, e não foram encontradas duplicações de registros com os mesmos atributos descritivos (desconsiderando os identificadores artificiais).

**Conclusão**

Com base nas verificações realizadas, foi possível confirmar que o modelo de dados implementado está estruturalmente consistente com a modelagem proposta. Todas as chaves estrangeiras presentes na tabela fato estão devidamente referenciadas nas tabelas dimensionais, e não foram encontradas duplicações de registros com os mesmos atributos descritivos.

Embora não tenham sido aplicadas constraints físicas devido às limitações da versão gratuita do Databricks, as validações executadas asseguram que a integridade referencial foi mantida logicamente. O modelo encontra-se, portanto, em conformidade com os princípios de um Data Warehouse relacional bem estruturado, pronto para ser explorado em análises estatísticas e cruzadas.

### Análise univariada

Para compreender melhor o comportamento dos dados no conjunto analisado, iniciaremos com uma análise univariada, que consiste na observação da distribuição dos valores de cada atributo de forma isolada.

Esse tipo de análise nos permite identificar:
- Se os dados estão balanceados (ex: distribuição entre os diferentes diagnósticos)
- Se há indícios de viés (ex: predominância de um gênero ou faixa etária)
- Se existem padrões que impactam decisões futuras (ex: predominância de transporte passivo)

As análises a seguir utilizam a tabela fato (`FatoObesidade`) unida às respectivas dimensões, com o objetivo de obter a **frequência absoluta** de ocorrência de cada categoria ou faixa presente nos dados.

In [0]:
%sql
-- Distribuição de Diagnóstico (rótulo de saída)
SELECT d.nome AS diagnostico, COUNT(*) AS quantidade
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY d.nome
ORDER BY quantidade DESC;

diagnostico,quantidade
Obesity_Type_I,351
Obesity_Type_III,324
Obesity_Type_II,297
Overweight_Level_I,290
Overweight_Level_II,290
Normal_Weight,287
Insufficient_Weight,272


Databricks visualization. Run in Databricks to view.

Ao analisar a distribuição do atributo diagnóstico em nosso dataset, observamos uma maior prevalência de indivíduos com obesidade tipo I ("obesity type I"), seguida por obesidade tipo III ("obesity type III"). No entanto, a diferença entre os grupos não é acentuada: a menor classe (peso insuficiente - "insufficient weight") possui 272 registros e a maior, 351 — uma variação inferior a 4% do total.

O atributo diagnóstico representa a variável alvo (target) em problemas de classificação com machine learning. Essa distribuição relativamente equilibrada entre as classes é um aspecto positivo, pois indica boa variabilidade de rótulos, o que é desejável em tarefas de aprendizado supervisionado. Modelos de classificação tendem a apresentar melhor desempenho quando não há dominância de uma única classe, reduzindo o risco de viés no treinamento e aumentando a capacidade de generalização.

In [0]:
%sql
-- Distribuição por Gênero
SELECT p.gender AS genero, COUNT(*) AS quantidade
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimPessoa p ON f.id_pessoa = p.id_pessoa
GROUP BY p.gender;

genero,quantidade
Female,1043
Male,1068


Databricks visualization. Run in Databricks to view.

A distribuição de gênero no conjunto de dados é bastante equilibrada, com aproximadamente 50,6% de registros masculinos ("male") e 49,4% femininos ("female").

Essa equidade na representação dos gêneros é benéfica tanto para a interpretação analítica quanto para o desenvolvimento de modelos preditivos, pois reduz o risco de viés associado ao gênero.

Em contextos de machine learning, esse equilíbrio permite que o algoritmo aprenda padrões relacionados a ambos os grupos de forma justa e representativa, favorecendo a generalização e a imparcialidade das previsões.

In [0]:
%sql
-- Faixa Etária: agrupamento por intervalo de idade (faixas de 10 em 10 anos)
SELECT
  CASE
    WHEN p.age BETWEEN 14 AND 20 THEN '14-20'
    WHEN p.age BETWEEN 21 AND 30 THEN '21-30'
    WHEN p.age BETWEEN 31 AND 40 THEN '31-40'
    WHEN p.age BETWEEN 41 AND 50 THEN '41-50'
    ELSE '51-61'
  END AS faixa_etaria,
  COUNT(*) AS quantidade
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimPessoa p ON f.id_pessoa = p.id_pessoa
GROUP BY faixa_etaria
ORDER BY faixa_etaria;

faixa_etaria,quantidade
14-20,585
21-30,1081
31-40,242
41-50,31
51-61,172


Databricks visualization. Run in Databricks to view.

A distribuição por faixa etária revela uma forte concentração de registros entre indivíduos jovens. Cerca de 50% dos dados pertencem ao grupo de 21 a 30 anos, seguido pelo grupo de 14 a 20 anos, com 27,7%. Em contrapartida, faixas etárias mais avançadas (acima dos 40 anos) são significativamente menos representadas, com apenas 1,5% no grupo de 41 a 50 anos, e 8,1% no grupo de 51 a 61 anos.

Essa assimetria pode impactar a representatividade das análises e modelos preditivos, especialmente no que diz respeito à generalização para outras faixas etárias. Em contextos de machine learning, esse desbalanceamento pode dificultar o aprendizado de padrões associados a grupos mais velhos, levando a resultados enviesados ou pouco robustos fora da faixa etária predominante.

Portanto, ao utilizar esse dataset para treinamentos supervisionados, é importante considerar essa limitação ou aplicar técnicas de balanceamento caso o foco da análise inclua populações mais velhas.

In [0]:
%sql
-- Distribuição por método de transporte (sedentarismo vs mobilidade ativa)
SELECT e.mtrans AS transporte, COUNT(*) AS quantidade
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimEstiloVida e ON f.id_estilo = e.id_estilo
GROUP BY e.mtrans
ORDER BY quantidade DESC;

transporte,quantidade
Public_Transportation,1580
Automobile,457
Walking,56
Motorbike,11
Bike,7


Databricks visualization. Run in Databricks to view.

A variável método de transporte apresenta uma distribuição fortemente concentrada no uso de transporte público ("public_transportation"), responsável por aproximadamente 75% dos registros. Meios de transporte mais ativos, como bicicleta ("bike") e caminhada ("walking"), têm presença mínima na base de dados, o que indica baixa representatividade desses estilos de vida.

Esse desequilíbrio pode impactar diretamente análises relacionadas a comportamento físico e saúde metabólica, pois limita a observação de padrões em indivíduos que adotam práticas de deslocamento mais ativas. Essa limitação deve ser levada em consideração ao interpretar resultados envolvendo atividade física ou sedentarismo.

**Conclusão**

A análise univariada permitiu observar a distribuição dos principais atributos do dataset, oferecendo uma visão inicial valiosa sobre a estrutura dos dados. Foi possível constatar uma boa variabilidade na variável alvo (`diagnóstico`), bem como um equilíbrio satisfatório na distribuição por gênero, o que favorece tanto a interpretação analítica quanto a construção de modelos preditivos.

No entanto, alguns atributos apresentaram desequilíbrios relevantes que merecem atenção. A distribuição por faixa etária revelou forte concentração de indivíduos entre 21 e 30 anos, com baixa representatividade de faixas etárias superiores. De forma semelhante, a variável referente ao método de transporte indicou predominância do uso de transporte público, com pouca presença de meios de locomoção ativos, como bicicleta e caminhada.

Esses desequilíbrios podem afetar análises específicas e limitar a generalização de modelos em determinados contextos. Portanto, em aplicações onde variáveis como faixa etária ou meio de transporte sejam alvo direto de estudo, recomenda-se o uso de técnicas de balanceamento (como reamostragem ou penalização) ou, preferencialmente, a utilização de conjuntos de dados mais adequados. Para os objetivos deste trabalho, entretanto — com foco na obesidade como variável preditiva — a estrutura atual é considerada apropriada.

### Análise bivariada

Dando continuidade à exploração dos dados, esta etapa apresenta a análise bivariada, também conhecida como análise cruzada.

Diferente da análise univariada — que observa uma variável de forma isolada —, a análise bivariada busca entender como duas variáveis se relacionam entre si, permitindo identificar padrões, associações ou diferenças relevantes entre grupos da população.

Essa abordagem é fundamental para:
- Levantar hipóteses sobre possíveis relações de causa e efeito
- Identificar desigualdades ou padrões ocultos
- Embasar políticas públicas e estratégias de saúde
- Guiar o desenvolvimento de modelos preditivos mais eficientes

Neste trabalho, exploraremos relações como:
- Existe diferença de diagnóstico entre gêneros?
- Faixa etária influencia o tipo de obesidade?
- Certos meios de transporte estão associados a menor IMC?

Nosso objetivo é compreender melhor quais fatores influenciam os níveis de obesidade com base nos dados disponíveis. Essas análises servirão como base tanto para interpretações estatísticas quanto para futuras aplicações em machine learning.


Atributos não-numéricos

In [0]:
%sql
-- Diagnóstico por Gênero
-- Esta análise cruza o gênero do indivíduo com seu diagnóstico de obesidade, permitindo observar se há variações significativas entre homens e mulheres.
SELECT p.gender AS genero, d.nome AS diagnostico, COUNT(*) AS total
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimPessoa p ON f.id_pessoa = p.id_pessoa
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY p.gender, d.nome
ORDER BY p.gender, total DESC;

genero,diagnostico,total
Female,Obesity_Type_III,323
Female,Insufficient_Weight,173
Female,Obesity_Type_I,156
Female,Overweight_Level_I,145
Female,Normal_Weight,141
Female,Overweight_Level_II,103
Female,Obesity_Type_II,2
Male,Obesity_Type_II,295
Male,Obesity_Type_I,195
Male,Overweight_Level_II,187


Databricks visualization. Run in Databricks to view.

É interessante verificar que, apesar da análise do conjunto de dados original indicar que a distribuição de gênero é equilibrada, com 50,6% de registros masculinos e 49,4% femininos, isso não se repete para pacientes obesos. Há uma quantidade significativa de homens com obesidade tipo II (99,3%), e esse valor basicamente se inverte ao observarmos a obesidade mais grave do tipo III, onde mulheres compreendem 99,7% dos dados. 

Embora estudos indiquem que há, de fato, uma maior prevalência de obesidade grave em mulheres — como mostram dados do CDC (Centers for Disease Control and Prevention), que apontam uma taxa de obesidade grave de 12,1% em mulheres contra 6,7% em homens nos Estados Unidos (CDC, 2021–2023) —, a discrepância encontrada no conjunto de dados analisado é significativamente maior do que a observada na população geral.

Esse desbalanceamento pode ser atribuído ao processo de geração sintética dos dados por meio do algoritmo SMOTE (Synthetic Minority Over-sampling Technique), aplicado no software Weka. Como 77% do dataset foi gerado artificialmente, é provável que as amostras sintéticas tenham reproduzido e amplificado padrões já presentes no subconjunto real, que representa apenas 23% dos dados. O SMOTE, ao criar novos exemplos exclusivamente a partir de registros reais da classe minoritária, pode intensificar viéses preexistentes, especialmente quando há correlação entre atributos — como o gênero e o tipo de diagnóstico — sem considerar o equilíbrio entre suas distribuições. Assim, os dados sintéticos acabaram por representar de forma distorcida a realidade epidemiológica observada em estudos populacionais.

Quanto aos outros resultados, estes foram mais similares ao observado para o conjunto de dados total, sendo mais equilibrado entre os gêneros. A exceção seria para peso insuficiente, onde mulheres são a maioria (63.6%) e sobrepeso nível II, onde homens são a maioria (64.5%), mas aqui os gêneros ainda se encontraram ligeiramente balanceados.



In [0]:
%sql
-- Histórico Familiar mais comum por diagnóstico
SELECT d.nome AS diagnostico, h.valor AS historico_familiar, COUNT(*) AS total
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimHistoricoFamiliar h ON f.id_hist_fam = h.id_hist_fam
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY d.nome, h.valor
ORDER BY d.nome, total DESC;

diagnostico,historico_familiar,total
Insufficient_Weight,no,146
Insufficient_Weight,yes,126
Normal_Weight,yes,155
Normal_Weight,no,132
Obesity_Type_I,yes,344
Obesity_Type_I,no,7
Obesity_Type_II,yes,296
Obesity_Type_II,no,1
Obesity_Type_III,yes,324
Overweight_Level_I,yes,209


Databricks visualization. Run in Databricks to view.

Os dados obtidos neste trabalho mostram uma forte associação entre o histórico familiar de obesidade e o diagnóstico de obesidade, sugerindo que fatores hereditários contribuem para o surgimento da doença. Segundo a Obesity Medicine Association (2022), mais de 200 variantes genéticas já foram identificadas como associadas à obesidade comum, influenciando mecanismos como regulação do apetite, metabolismo e armazenamento de gordura. 

Adicionalmente, um estudo de Yadav e Jawahar (2023), destaca que o ambiente familiar exerce forte influência sobre o comportamento alimentar e o estilo de vida. Crianças criadas em lares onde alimentos calóricos são abundantes, porções são grandes e a atividade física é limitada tendem a internalizar esses hábitos como normais. Dessa forma, o histórico familiar contribui não apenas por meio de herança genética, mas também de maneira comportamental, ampliando o risco de obesidade.

Por fim, fatores ambientais podem alterar a expressão gênica por meio de mecanismos epigenéticos, tornando possível que o estilo de vida interfira no risco de obesidade mesmo sem alterações na sequência do DNA.

In [0]:
%sql
--Estilo de Vida: Método de transporte mais comum por diagnóstico
--- Relaciona o meio de transporte do indivíduo ao seu diagnóstico, ajudando a investigar o impacto potencial do estilo de mobilidade na obesidade.
SELECT d.nome AS diagnostico, e.mtrans AS transporte, COUNT(*) AS total
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimEstiloVida e ON f.id_estilo = e.id_estilo
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY d.nome, e.mtrans
ORDER BY d.nome, total DESC;


diagnostico,transporte,total
Insufficient_Weight,Public_Transportation,220
Insufficient_Weight,Automobile,46
Insufficient_Weight,Walking,6
Normal_Weight,Public_Transportation,200
Normal_Weight,Automobile,45
Normal_Weight,Walking,32
Normal_Weight,Motorbike,6
Normal_Weight,Bike,4
Obesity_Type_I,Public_Transportation,236
Obesity_Type_I,Automobile,110


Databricks visualization. Run in Databricks to view.

A análise dos meios de transporte por diagnóstico revela uma forte predominância do transporte público entre todos os grupos, sendo especialmente evidente em casos como de obesidade do tipo III ("Obesity_Type_III"), em que praticamente todos os registros (323 de 324) utilizam esse meio.

Essa concentração pode indicar que os dados foram coletados em regiões urbanas onde o transporte coletivo é o principal meio de locomoção. Por outro lado, a baixa frequência de deslocamentos ativos, como caminhar ou andar de bicicleta, dificulta uma análise mais precisa da relação entre mobilidade e obesidade.

Ainda assim, o uso do transporte público pode ter um efeito positivo indireto, já que geralmente envolve mais deslocamento a pé — como caminhadas até pontos ou estações — o que pode contribuir para o gasto calórico diário.

Para conclusões mais confiáveis sobre esse tema, seria importante contar com mais diversidade nos tipos de transporte, além de variáveis complementares, como tempo de deslocamento ou frequência semanal.

In [0]:
%sql
--Estilo de Vida: Fumantes por diagnóstico
SELECT d.nome AS diagnostico, e.smoke AS fumante, COUNT(*) AS total
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimEstiloVida e ON f.id_estilo = e.id_estilo
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY d.nome, e.smoke
ORDER BY d.nome, total DESC;

diagnostico,fumante,total
Insufficient_Weight,no,271
Insufficient_Weight,yes,1
Normal_Weight,no,274
Normal_Weight,yes,13
Obesity_Type_I,no,345
Obesity_Type_I,yes,6
Obesity_Type_II,no,282
Obesity_Type_II,yes,15
Obesity_Type_III,no,323
Obesity_Type_III,yes,1


Databricks visualization. Run in Databricks to view.

A distribuição da variável fumante (`SMOKE`) por diagnóstico mostra que a imensa maioria dos indivíduos, independentemente do grau de obesidade, não são fumantes ativos. Por exemplo, entre os indivíduos com obesidade tipo III, apenas 1 de 324 registros se declarou fumante. Essa tendência se mantém em todos os demais grupos diagnósticos, indicando que não há uma correlação direta entre o tabagismo atual e os níveis de obesidade.

Essa observação está de acordo com estudos da literatura, que mostram que fumantes ativos tendem a apresentar IMC ligeiramente mais baixos, em função dos efeitos da nicotina sobre o apetite e o metabolismo. No entanto, ex-fumantes representam um grupo de risco importante, já que muitos ganham peso após cessarem o tabagismo, podendo substituir o vício pela alimentação compulsiva ou apresentando alterações hormonais e comportamentais após a interrupção (Klein & Ferraro, 2008).

Portanto, embora o tabagismo ativo não se relacione de forma direta com a obesidade, o histórico de tabagismo e a cessação devem ser considerados em análises mais aprofundadas.

In [0]:
%sql
-- Hábito alimentar: monitorização da ingestão de calorias (SCC) por diagnóstico. 
-- Esta consulta cruza o diagnóstico com a variável SCC, que indica se o indivíduo afirma monitorar sua ingestão calórica. Isso ajuda a entender a relação entre autorregulação alimentar e os níveis de obesidade.

SELECT 
  d.nome AS diagnostico,
  e.scc AS controle_calorias,
  COUNT(*) AS total
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimEstiloVida e ON f.id_estilo = e.id_estilo
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY d.nome, e.scc
ORDER BY d.nome, total DESC;

diagnostico,controle_calorias,total
Insufficient_Weight,no,250
Insufficient_Weight,yes,22
Normal_Weight,no,257
Normal_Weight,yes,30
Obesity_Type_I,no,349
Obesity_Type_I,yes,2
Obesity_Type_II,no,296
Obesity_Type_II,yes,1
Obesity_Type_III,no,324
Overweight_Level_I,no,253


Databricks visualization. Run in Databricks to view.

A análise da variável `SCC` (se o indivíduo afirma monitorar sua ingestão calórica) por tipo de diagnóstico revela uma tendência nítida: quanto maior o grau de obesidade, menor a frequência de controle consciente da alimentação. Diagnósticos como obesidade tipo I, II e III apresentam proporções mais baixas de indivíduos que afirmam controlar o consumo calórico, com destaque para o tipo III, em que nenhum registro foi identificado como "sim".

Por outro lado, categorias como peso normal e peso insuficiente apresentam percentuais significativamente mais altos de pessoas que monitoram sua alimentação (aproximadamente 10% a 12%). Esses dados sugerem uma possível relação comportamental inversa entre obesidade e autorregulação alimentar, o que está alinhado com estudos que associam o controle consciente da dieta com menor IMC (Ball et al., 2006).

Essa relação pode ser explorada futuramente como variável preditora de risco em modelos de machine learning, ou como indicador comportamental em intervenções de saúde pública.

In [0]:
%sql
-- Hábito Alimentar: Consumo de alimentos calóricos (CALC) por diagnóstico
SELECT d.nome AS diagnostico, h.calc AS consumo_alcool, COUNT(*) AS total
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimHabitosAlimentares h ON f.id_habito = h.id_habito
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY d.nome, h.calc
ORDER BY d.nome, total DESC;

diagnostico,consumo_alcool,total
Insufficient_Weight,Sometimes,154
Insufficient_Weight,no,117
Insufficient_Weight,Frequently,1
Normal_Weight,Sometimes,161
Normal_Weight,no,107
Normal_Weight,Frequently,18
Normal_Weight,Always,1
Obesity_Type_I,Sometimes,172
Obesity_Type_I,no,165
Obesity_Type_I,Frequently,14


Databricks visualization. Run in Databricks to view.

Avaliando os dados acima, pudemos observar que a variável `CALC` (frequência de consumo de álcool) não apresentou uma associação consistente com os diferentes diagnósticos de obesidade. Em praticamente todos os grupos, a categoria "às vezes" ("sometimes") é a mais comum, inclusive entre indivíduos com obesidade tipo III, onde 323 dos 324 registros estão nessa categoria.

Essa ausência de variação pode indicar tanto uma baixa prevalência real de consumo frequente, quanto uma possível subnotificação ou viés de resposta nos dados coletados. Assim, não é possível, com base neste conjunto de dados, afirmar que o consumo de álcool esteja associado ao risco de obesidade de forma significativa.

In [0]:
%sql
-- Hábito Alimentar: Frequência de refeições entre as principais (CAEC)
SELECT d.nome AS diagnostico, h.caec AS lanche_entre_refeicoes, COUNT(*) AS total
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimHabitosAlimentares h ON f.id_habito = h.id_habito
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY d.nome, h.caec
ORDER BY d.nome, total DESC;

diagnostico,lanche_entre_refeicoes,total
Insufficient_Weight,Sometimes,146
Insufficient_Weight,Frequently,121
Insufficient_Weight,no,3
Insufficient_Weight,Always,2
Normal_Weight,Sometimes,159
Normal_Weight,Frequently,83
Normal_Weight,Always,35
Normal_Weight,no,10
Obesity_Type_I,Sometimes,338
Obesity_Type_I,Always,6


Databricks visualization. Run in Databricks to view.

Os dados relacionados ao consumo entre refeições (`CAEC`) apresentam uma concentração atípica de respostas na categoria "às vezes" ("sometimes"), mesmo entre os grupos com obesidade mais grave. Essa homogeneidade excessiva levanta dúvidas quanto à fidedignidade dos dados, sugerindo a possibilidade de viés de resposta socialmente desejável ou amplificação de distorções durante a geração sintética dos dados com SMOTE.

Embora o hábito de consumir alimentos entre refeições seja reconhecidamente um fator de risco para obesidade quando realizado de forma frequente e descontrolada, os dados aqui analisados não refletem essa tendência, o que limita conclusões mais precisas sobre essa relação. Estudos apontam que lanches frequentes entre refeições, especialmente aqueles ricos em calorias e pobres em nutrientes, estão associados ao aumento de peso e risco metabólico (LUDWIG; EBELING, 2020).

Valores numéricos:

In [0]:
%sql
-- Diagnóstico por Faixa Etária
-- Agrupamos as idades em faixas e cruzamos com o tipo de diagnóstico, identificando possíveis padrões de obesidade ao longo do tempo de vida. 
SELECT
  CASE
    WHEN p.age BETWEEN 14 AND 20 THEN '14-20'
    WHEN p.age BETWEEN 21 AND 30 THEN '21-30'
    WHEN p.age BETWEEN 31 AND 40 THEN '31-40'
    WHEN p.age BETWEEN 41 AND 50 THEN '41-50'
    ELSE '51-61'
  END AS faixa_etaria,
  d.nome AS diagnostico,
  COUNT(*) AS total
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimPessoa p ON f.id_pessoa = p.id_pessoa
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY faixa_etaria, d.nome
ORDER BY faixa_etaria, total DESC;

faixa_etaria,diagnostico,total
14-20,Insufficient_Weight,180
14-20,Normal_Weight,132
14-20,Overweight_Level_I,94
14-20,Obesity_Type_I,76
14-20,Overweight_Level_II,59
14-20,Obesity_Type_III,43
14-20,Obesity_Type_II,1
21-30,Obesity_Type_III,248
21-30,Obesity_Type_II,179
21-30,Obesity_Type_I,173


Databricks visualization. Run in Databricks to view.

Ao analisarmos a distribuição dos tipos de diagnóstico por faixa etária, observa-se uma concentração incomum de indivíduos com obesidade moderada a grave (tipos I, II e III) na faixa dos 21–30 anos. Nessa faixa etária, mais de 55% dos registros estão associados a algum grau de obesidade, sendo que o tipo III representa o diagnóstico mais comum (248 casos de um total de 1081).

Esse comportamento se mostra discrepante quando comparado com estudos populacionais reais. De acordo com o CDC (CDC, 2024), a prevalência de obesidade em adultos dos Estados Unidos segue um padrão crescente com a idade, sendo de:

- 39,6% entre adultos de 20–39 anos
- 45,9% entre adultos de 40–59 anos
- 43,3% entre adultos com 60 anos ou mais

Dessa forma, a alta concentração de casos de obesidade grau III entre adultos jovens pode indicar a presença de viés de geração sintética, uma vez que 77% do dataset foi produzido artificialmente utilizando o algoritmo SMOTE. Essa técnica tende a replicar e amplificar padrões já existentes em subconjuntos minoritários, o que pode ter gerado uma super-representação de obesidade grave nessa faixa etária.

In [0]:
%sql
--Estilo de Vida: Tempo médio de atividade física por diagnóstico (FAF)
SELECT d.nome AS diagnostico, ROUND(AVG(e.faf), 2) AS media_atividade_fisica
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimEstiloVida e ON f.id_estilo = e.id_estilo
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY d.nome
ORDER BY media_atividade_fisica DESC;

diagnostico,media_atividade_fisica
Insufficient_Weight,1.25
Normal_Weight,1.25
Overweight_Level_I,1.06
Obesity_Type_I,0.99
Obesity_Type_II,0.97
Overweight_Level_II,0.96
Obesity_Type_III,0.66


Databricks visualization. Run in Databricks to view.

A análise da frequência de atividade física (`FAF`) mostra um padrão parcialmente de acordo com o esperado: indivíduos com peso normal e insuficiente realizam, em média, mais atividade física do que os demais, enquanto aqueles com obesidade grau III apresentam o menor valor médio (0.66). Esse resultado está alinhado com estudos que associam níveis mais graves de obesidade à redução da mobilidade e à maior limitação física (WHO, 2023).

No entanto, entre os demais diagnósticos — especialmente entre os grupos sobrepeso e obesidades tipo I e II —, observa-se pouca variação na média de atividade física, o que pode indicar uma limitação dos dados em representar adequadamente essa dimensão do estilo de vida. A relativa homogeneidade pode ter sido influenciada por fatores como a geração sintética dos dados, ou ainda pelo viés do autorrelato, em que participantes tendem a superestimar seus níveis de atividade.

Assim, embora os dados apontem na direção correta, a baixa granularidade compromete a análise mais precisa da relação entre atividade física e obesidade, especialmente nos níveis intermediários da condição.

In [0]:
%sql
-- Estilo de Vida: Tempo médio de uso de tecnologia por diagnóstico (TUE). Atentando-se aqui que os valores foram classificados entre 0 e 2. 0 - para 0 à 2 horas de uso; 1 - para 3 à 5 horas; 2 - para 6 horas ou mais.
SELECT d.nome AS diagnostico, ROUND(AVG(e.tue), 2) AS media_tempo_tecnologia
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimEstiloVida e ON f.id_estilo = e.id_estilo
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY d.nome
ORDER BY media_tempo_tecnologia DESC;

diagnostico,media_tempo_tecnologia
Insufficient_Weight,0.84
Overweight_Level_II,0.7
Normal_Weight,0.68
Obesity_Type_I,0.68
Overweight_Level_I,0.61
Obesity_Type_III,0.6
Obesity_Type_II,0.52


Databricks visualization. Run in Databricks to view.

A análise do tempo utilizando dispositivos tecnológicos (`TUE`) não revela uma associação significativa com os diferentes níveis de obesidade. A média de tempo para todos os diagnósticos varia entre 0.52 e 0.84, o que, segundo a codificação da variável, indica que a maior parte dos indivíduos utiliza dispositivos entre 0 a 5 horas por dia.

Diferentemente de variáveis como atividade física, que apresentaram diferenças mais marcantes entre os grupos, a variável `TUE` permanece estável entre indivíduos com peso normal, sobrepeso e obesidade grave, o que não permite afirmar uma relação direta entre tempo de tela e obesidade neste conjunto de dados.

Embora o sedentarismo digital seja apontado como um fator de risco em diversas pesquisas (Stiglic & Viner, 2019), neste caso, os dados possivelmente não capturam de forma precisa a variação de uso tecnológico, ou foram influenciados pela homogeneização causada pela geração sintética dos dados.

In [0]:
%sql
--  Hábito Alimentar: Média de consumo de vegetais (FCVC) por diagnóstico. Atentando-se aqui que os valores foram classificados entre 1 a 3, definindo a frequência do consumo de vegetais com refeições como: 1 - nunca; 2 - às vezes; 3 - sempre
SELECT d.nome AS diagnostico, ROUND(AVG(h.fcvc), 2) AS media_consumo_vegetais
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimHabitosAlimentares h ON f.id_habito = h.id_habito
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY d.nome
ORDER BY media_consumo_vegetais DESC;

diagnostico,media_consumo_vegetais
Obesity_Type_III,3.0
Insufficient_Weight,2.48
Obesity_Type_II,2.39
Normal_Weight,2.33
Overweight_Level_I,2.26
Overweight_Level_II,2.26
Obesity_Type_I,2.19


Databricks visualization. Run in Databricks to view.

Os dados relacionados à frequência de consumo de vegetais com as refeições (`FCVC`) sugerem distorções estatísticas relevantes. Segundo a definição da variável, os valores variam de 1 (nunca) a 3 (sempre). A média de 3.0 para o grupo com obesidade tipo III indica que todos os indivíduos desse grupo supostamente consomem vegetais em todas as refeições, o que é estatisticamente improvável e conceitualmente contraditório.

O esperado seria que grupos com menores níveis de obesidade apresentassem médias mais elevadas nessa variável, dado que o consumo frequente de vegetais está associado à menor ingestão calórica e controle de peso (Rolls et al., 2004). A inversão da tendência esperada aponta para uma provável quebra de correlação entre variáveis durante a geração sintética (SMOTE), invalidando a confiança analítica sobre essa métrica no grupo mais afetado.

Assim, embora `FCVC` seja uma variável relevante do ponto de vista nutricional, os dados aqui analisados não permitem inferências confiáveis, sendo necessária uma revisão da composição sintética da amostra.

In [0]:
%sql
-- Hábito Alimentar: Média de ingestão de água (CH2O) por diagnóstico
SELECT d.nome AS diagnostico, ROUND(AVG(h.ch2o), 2) AS media_agua
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimHabitosAlimentares h ON f.id_habito = h.id_habito
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY d.nome
ORDER BY media_agua DESC;

diagnostico,media_agua
Obesity_Type_III,2.21
Obesity_Type_I,2.11
Overweight_Level_I,2.06
Overweight_Level_II,2.03
Obesity_Type_II,1.88
Insufficient_Weight,1.87
Normal_Weight,1.85


Databricks visualization. Run in Databricks to view.

A análise da ingestão de água (`CH2O`) não mostra uma relação consistente entre os diferentes níveis de obesidade. A média de consumo varia pouco entre os grupos — de 1,85 (peso normal) a 2,21 (obesidade grau III) —, indicando que praticamente todos os indivíduos consomem entre 1,5 e 3 litros de água por dia. Curiosamente, os grupos com obesidade mais grave apresentam médias ligeiramente mais altas, o que contraria a expectativa de que hábitos saudáveis de hidratação estariam associados a menor peso corporal.

Embora estudos associem a ingestão adequada de água à saciedade e controle de apetite (Daniels & Popkin, 2010), os dados aqui analisados não refletem essa tendência, possivelmente devido à homogeneidade causada pela geração sintética dos dados ou ao viés de autorrelato. Assim, a variável `CH2O` não se mostra confiável como indicador de risco neste dataset.

In [0]:
%sql
-- Hábito Alimentar: Média de número de refeições principais (NCP) por diagnóstico
SELECT d.nome AS diagnostico, ROUND(AVG(h.ncp), 2) AS media_refeicoes_principais
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimHabitosAlimentares h ON f.id_habito = h.id_habito
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY d.nome
ORDER BY media_refeicoes_principais DESC;

diagnostico,media_refeicoes_principais
Obesity_Type_III,3.0
Insufficient_Weight,2.91
Obesity_Type_II,2.74
Normal_Weight,2.74
Overweight_Level_I,2.5
Overweight_Level_II,2.5
Obesity_Type_I,2.43


Databricks visualization. Run in Databricks to view.

Ao verificar o número de refeições principais por dia (`NCP`) encontrados para cada diagnóstico, encontramos valores médios próximos de 3.0 para todos os grupos, o que está de acordo com padrões alimentares típicos em diversas culturas, que consideram o café da manhã, almoço e jantar como refeições principais. Assim, os dados parecem verossímeis à primeira vista.

No entanto, o número de refeições por si só não fornece informações sobre a qualidade, tamanho ou composição calórica dessas refeições, fatores esses que são mais diretamente associados ao risco de obesidade. Além disso, a métrica não considera comportamentos alimentares compensatórios, como pular refeições e fazer grandes lanches, que também afetam o equilíbrio energético. A variável `CAEC` (consumo de comida entre refeições), que se propõe a esse papel, apresentou distribuições anômalas, o que compromete sua utilidade nesse contexto.

Dessa forma, embora NCP possa descrever um padrão alimentar superficial, sua utilidade para discriminar níveis de obesidade é limitada sem dados complementares sobre o conteúdo das refeições

In [0]:
%sql
-- Pessoa: Média de peso por diagnóstico
SELECT d.nome AS diagnostico, ROUND(AVG(p.weight), 2) AS media_peso
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimPessoa p ON f.id_pessoa = p.id_pessoa
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY d.nome
ORDER BY media_peso DESC;

diagnostico,media_peso
Obesity_Type_III,120.94
Obesity_Type_II,115.31
Obesity_Type_I,92.87
Overweight_Level_II,82.09
Overweight_Level_I,74.27
Normal_Weight,62.16
Insufficient_Weight,49.91


Databricks visualization. Run in Databricks to view.

In [0]:
%sql
-- Pessoa: Média de altura por diagnóstico
SELECT d.nome AS diagnostico, ROUND(AVG(p.height), 2) AS media_altura
FROM dw_obesidade.FatoObesidade f
JOIN dw_obesidade.DimPessoa p ON f.id_pessoa = p.id_pessoa
JOIN dw_obesidade.DimDiagnostico d ON f.id_diagnostico = d.id_diagnostico
GROUP BY d.nome
ORDER BY media_altura DESC;

diagnostico,media_altura
Obesity_Type_II,1.77
Overweight_Level_II,1.7
Obesity_Type_III,1.69
Overweight_Level_I,1.69
Insufficient_Weight,1.69
Obesity_Type_I,1.69
Normal_Weight,1.68


Databricks visualization. Run in Databricks to view.

Para ambas as váriáveis altura (`height`) e peso (`weight`), verificamos comportamento compatível com a lógica esperada de progressão dos níveis de obesidade. A altura média varia muito pouco entre os grupos diagnósticos (1,68 m a 1,77 m), o que está de acordo com a realidade populacional, onde a estatura tende a permanecer relativamente constante na idade adulta.

Já o peso médio mostra uma progressão clara e gradual entre os grupos, indo de 49.91 kg (baixo peso) até 120.94 kg (obesidade grau III). Isso confirma que os diagnósticos foram atribuídos com base em métricas derivadas do IMC (Índice de Massa Corporal), que considera a relação entre peso e altura.

Esse comportamento progressivo reforça a coerência estrutural do dataset nesse aspecto, contrastando com a inconsistência observada em algumas variáveis comportamentais geradas sinteticamente.

**Conclusão**

A análise bivariada nos permitiu explorar possíveis relações entre os níveis de obesidade e variáveis como gênero, faixa etária, hábitos alimentares e estilo de vida. No entanto, é importante destacar que grande parte do dataset (77%) foi gerada artificialmente por meio da técnica SMOTE, o que introduz viés estrutural nos padrões observados.

Algumas associações encontradas — como a distribuição extrema entre gêneros para certos diagnósticos ou a uniformidade excessiva em variáveis comportamentais — não condizem com evidências empíricas da literatura científica. Isso sugere que os dados sintéticos podem ter amplificado ou fabricado correlações que não ocorrem com essa magnitude na realidade.

Ainda assim, essas análises se mostraram valiosas como exercício de exploração de dados, ajudando a entender o funcionamento de variáveis estruturadas e suas possíveis interações. Além disso, elas evidenciam a importância da curadoria e validação de dados em projetos que visam aplicações práticas.

#Conclusão

O presente trabalho teve como objetivo estruturar, carregar e analisar o conjunto de dados “ObesityDataSet_raw_and_data_sinthetic.csv”, originalmente publicado no estudo "Dataset for estimation of obesity levels based on eating habits and physical condition in individuals from Colombia, Peru and Mexico" (PALECHOR & MANOTAS, 2019). O dataset foi criado com a finalidade de alimentar ferramentas computacionais inteligentes capazes de identificar o nível de obesidade de um indivíduo e apoiar sistemas de recomendação em saúde.

Para isso, foi desenvolvido um modelo de dados relacional em formato snowflake, partindo da modelagem conceitual até sua implementação física no ambiente Databricks. A construção do pipeline ETL (Extração, Transformação e Carga) foi realizada com PySpark, respeitando boas práticas de modelagem: normalização até BCNF, uso de chaves artificiais e controle lógico de integridade relacional, mesmo com as limitações da versão gratuita da plataforma.

Durante a etapa de validação e análise exploratória, foram identificadas limitações significativas na confiabilidade de alguns atributos, especialmente os de natureza comportamental (como CAEC, FCVC, SCC), que apresentaram distribuições estatisticamente improváveis ou excessivamente homogêneas. Tais distorções são atribuídas à geração sintética de 77% do dataset via SMOTE, técnica que aumenta o volume amostral, mas pode comprometer relações reais entre variáveis.

Apesar dessas limitações, foi possível destacar variáveis com comportamento mais consistente, como peso corporal e histórico familiar de sobrepeso, este último demonstrando forte associação com os níveis mais graves de obesidade — refletindo tanto fatores genéticos quanto ambientais. Por outro lado, atributos como FAF (atividade física), NCP (número de refeições principais), CH2O (ingestão de água), TUE (tempo em dispositivos) e SMOKE (tabagismo) apresentaram baixo poder discriminativo neste conjunto de dados, possivelmente pela forma como foram sintetizados.

Em resumo, o modelo construído oferece uma base sólida para análises estatísticas com SQL, visualizações e testes preditivos com algoritmos supervisionados. No entanto, para que ferramentas preditivas baseadas nesse conjunto de dados sejam realmente eficazes, recomenda-se a utilização de dados reais e devidamente validados, bem como a inclusão de variáveis mais detalhadas e sensíveis à qualidade e quantidade dos alimentos consumidos — aspectos aqui ausentes ou sub-representados.

Por fim, para alcançar os objetivos de apoiar políticas públicas e desenvolver modelos preditivos confiáveis, seria necessário explorar um novo conjunto de dados ou reestruturar a base atual com foco na redução de viés. A identificação de fatores com maior associação à obesidade continua sendo essencial para o desenvolvimento de ferramentas de prevenção, intervenção e monitoramento personalizado.

#Referências

- CDC. Obesity and Severe Obesity Prevalence in Adults: United States, August 2021–August 2023. 2024. Disponível em: https://www.cdc.gov/nchs/products/databriefs/db508.htm
- OBESITY MEDICINE ASSOCIATION. Obesity and Genetics. 2022. Disponível em: https://obesitymedicine.org/blog/obesity-and-genetics/. 
- NATIONAL ACADEMIES OF SCIENCES, ENGINEERING, AND MEDICINE. The Challenge of Treating Obesity and Overweight: Proceedings of a Workshop. Washington, DC: National Academies Press, 2023. Disponível em: https://www.ncbi.nlm.nih.gov/books/NBK580543/. 
- KLEIN, D.; FERRARO, K. F. The association of body weight and smoking status among adults: Evidence from the National Health and Nutrition Examination Survey (NHANES). Addictive Behaviors, v. 33, n. 5, p. 582–595, 2008. DOI: 10.1016/j.addbeh.2007.11.010.
- BALL, K.; CRAWFORD, D. Dieting intentions and food intake patterns. International Journal of Obesity, v. 30, p. 143–151, 2006. DOI: 10.1038/sj.ijo.0803062.
- LUDWIG, D. S.; EBELING, C. B. Always Hungry? Conquer Cravings, Retrain Your Fat Cells, and Lose Weight Permanently. 1. ed. New York: Grand Central Life & Style, 2020.
- WORLD HEALTH ORGANIZATION (WHO). Obesity and physical activity. WHO Fact Sheets, 2023. Disponível em: https://www.who.int/news-room/fact-sheets/detail/obesity-and-overweight. Acesso em: 11 abr. 2025.
- STIGLIC, N.; VINER, R. M. Effects of screen time on the health and well-being of children and adolescents: a systematic review of reviews. BMJ Open, v. 9, n. 1, e023191, 2019. DOI: 10.1136/bmjopen-2018-023191
- ROLLS, B. J.; ELLO-MARTIN, J. A.; TAO, Y. What can intervention studies tell us about the relationship between fruit and vegetable consumption and weight management? Nutrition Reviews, v. 62, n. 1, p. 1–17, 2004. DOI: 10.1111/j.1753-4887.2004.tb00001.x
- DANIELS, M. C.; POPKIN, B. M. Impact of water intake on energy intake and weight status: a systematic review. Nutrition Reviews, v. 68, n. 9, p. 505–521, 2010. DOI: 10.1111/j.1753-4887.2010.00311.x
- WORLD HEALTH ORGANIZATION (WHO). Obesity: preventing and managing the global epidemic. Report of a WHO consultation. WHO Technical Report Series, n. 894, 2000.
- WORLD HEALTH ORGANIZATION. WHO. (2024) Obesity and overweight. https://www.who.int/news-room/fact-sheets/detail/obesity-and-overweight
- PACHELOR, F. M., & MANOTAS, A. H. (2019). Dataset for estimation of obesity levels based on eating habits and physical condition in individuals from Colombia, Peru and Mexico. Data in brief, 25, 104344. https://doi.org/10.1016/j.dib.2019.104344
- Pan-American Health Organization. PAHO. (2024). Uma em cada oito pessoas, no mundo, vive com obesidade. https://www.paho.org/pt/noticias/1-3-2024-uma-em-cada-oito-pessoas-no-mundo-vive-com-obesidade

# Autoavaliação

### Autoavaliação

Este trabalho teve como principal objetivo aplicar os conhecimentos adquiridos ao longo da disciplina na construção de um modelo relacional de dados, integrando práticas de modelagem conceitual, lógica e física, além da implementação de um pipeline de ETL no ambiente Databricks. A partir disso, foi possível realizar uma análise exploratória detalhada sobre os fatores associados à obesidade utilizando um conjunto de dados disponibilizado no Kaggle.

Considero que os objetivos definidos inicialmente foram plenamente atingidos. Consegui construir um modelo de dados em formato snowflake, implementar todas as etapas do pipeline de Extração, Transformação e Carga (ETL), aplicar boas práticas de normalização até a forma normal de Boyce-Codd (BCNF), e conduzir análises univariadas e bivariadas com base em SQL. A análise exploratória, por sua vez, trouxe insights importantes sobre a qualidade e estrutura dos dados, além de permitir reflexões críticas sobre o impacto da geração sintética de dados por SMOTE.

Entre as principais dificuldades enfrentadas durante o desenvolvimento do projeto, destacam-se:
- Limitações técnicas da versão gratuita do Databricks, que não permite a criação explícita de constraints no modelo físico.
- A necessidade de adaptar o modelo conceitual para uma estrutura relacional coerente, com múltiplas iterações até a construção de uma versão estável.
- Problemas com conflitos de nomes de colunas e tipos de dados no momento da escrita das tabelas, que exigiram investigação cuidadosa.
- Interpretação dos resultados enviesados devido à natureza sintética da maior parte do dataset, o que exigiu cautela na análise e consulta a fontes científicas para validação.

Como trabalho futuro, seria interessante:
- Aplicar o mesmo modelo e processo de análise a um conjunto de dados composto exclusivamente por amostras reais.
- Estender o modelo de dados com variáveis mais detalhadas sobre alimentação (como qualidade, porções e frequência de consumo de grupos alimentares).
- Reaproveitar o modelo estruturado para análise preditiva com machine learning, testando algoritmos como random forest, logistic regression ou XGBoost. Essa abordagem já foi iniciada em um projeto anterior, o MVP da Sprint de Machine Learning & Analytics (disponível em: https://github.com/TPRibeiro/mvp_mla/blob/main/Final.ipynb), e poderia ser expandida com base nas melhorias de qualidade e estrutura obtidas neste trabalho.
- Explorar a visualização dos dados com ferramentas como Power BI ou Tableau para enriquecer ainda mais o portfólio.

A experiência de estruturar todo o pipeline, desde a modelagem conceitual até a análise crítica dos dados, foi extremamente valiosa e me permitiu consolidar habilidades essenciais em bancos de dados, ETL, e análise de dados em nuvem. Este trabalho representa uma contribuição significativa ao meu portfólio e à minha formação em ciência de dados.