# MVP – Objetivo e Escopo

## Objetivo do MVP

O objetivo deste MVP é desenvolver um pipeline completo de dados em nuvem, capaz de transformar dados brutos de prontuário eletrônico sintético em indicadores hospitalares analíticos, utilizando técnicas de engenharia de dados, modelagem em Data Warehouse e análise de indicadores.

O trabalho tem como finalidade simular, de forma realista, como dados operacionais de um prontuário eletrônico hospitalar podem ser organizados, tratados e analisados para apoiar a gestão hospitalar e a avaliação de desempenho, desde a ingestão dos dados até a geração de métricas consolidadas.

Para isso, foram utilizados dados sintéticos gerados pelo [Synthea](https://github.com/synthetichealth/synthea), um gerador de registros clínicos eletrônicos que simula populações de pacientes e eventos de saúde de forma realista, sem conter dados reais ou informações sensíveis. O Synthea é um projeto open source, e os dados gerados são disponibilizados sob licença Apache 2.0, permitindo seu uso, modificação e distribuição para fins educacionais e de pesquisa. Esses dados foram carregados e processados na plataforma Databricks Community Edition, seguindo uma arquitetura em camadas (Bronze, Silver e Gold) e culminando na construção de um Data Warehouse em esquema estrela, adequado para consultas analíticas e geração de indicadores.

## Problema que o MVP pretende resolver

Hospitais produzem grande volume de dados clínicos diariamente, porém esses dados geralmente se encontram dispersos em múltiplas tabelas operacionais, com baixa padronização e sem estrutura analítica adequada. Essa fragmentação dificulta a geração de indicadores essenciais, como mortalidade, tempo de permanência e reinternações, tornando o processo analítico custoso, pouco reprodutível e dependente de esforços manuais.

O problema central abordado neste MVP é como organizar dados de prontuário eletrônico em um pipeline analítico estruturado, capaz de gerar automaticamente indicadores hospitalares essenciais de forma reprodutível e escalável.

## Perguntas que o MVP busca responder

A partir do pipeline construído e do Data Warehouse modelado, o MVP busca responder às seguintes perguntas de negócio, por meio da geração de indicadores hospitalares consolidados, tendo como unidade de análise as internações hospitalares:

- Qual é a mortalidade hospitalar (óbitos durante a internação / total de internações) no período analisado?

- Qual é o tempo de permanência hospitalar (Length of Stay – LOS) dos pacientes internados (média e mediana de dias de internação)?

- Qual é a taxa de reinternação em até 30 dias após a alta (readmissões em 30 dias / total de altas elegíveis)?

Os indicadores produzidos podem ser explorados analiticamente por meio das dimensões disponíveis no Data Warehouse, permitindo sua segmentação conforme diferentes perspectivas, tais como:

- tempo (ano, mês, dia);

- diagnóstico clínico (diagnóstico principal da internação);

- perfil demográfico do paciente (ex.: idade/faixa etária na admissão, sexo, raça/etnia).

## Escopo do MVP

Para atender aos objetivos propostos, o MVP se limita às tabelas essenciais do Synthea, com foco principal nas internações hospitalares. O escopo inclui:

- ingestão e tratamento das tabelas clínicas relevantes;  
- filtragem de encontros referentes a internações hospitalares do tipo inpatient;  
- modelagem de um Data Warehouse em esquema estrela;  
- cálculo de métricas derivadas, como tempo de permanência, óbito hospitalar e reinternação em 30 dias;  
- análise exploratória dos indicadores definidos nos objetivos.

## Estrutura do projeto e organização dos notebooks

O MVP foi implementado por meio de uma sequência de notebooks, organizados de forma a refletir as etapas do pipeline de dados e a arquitetura em camadas adotada:

- mvp00-objetivo  
  Documento de planejamento do projeto, contendo objetivo, problema, perguntas de negócio, escopo e organização geral do pipeline.

- mvp01-preparacao  
  Preparação do ambiente, contextualização dos dados e definição dos parâmetros iniciais do projeto.

- mvp02-bronze  
  Ingestão dos dados brutos do Synthea e persistência na camada Bronze, preservando a estrutura original dos arquivos.

- mvp03-silver  
  Tratamento, padronização e validação dos dados, com integração entre tabelas clínicas e checagens de qualidade.

- mvp04-gold  
  Construção do Data Warehouse em esquema estrela, criação das tabelas fato e dimensões e cálculo das métricas analíticas.

- mvp05-analise  
  Exploração dos indicadores hospitalares produzidos, com exemplos de análises e segmentações dimensionais.

- mvp06-autoavaliacao   
  Autoavaliação do MVP quanto ao cumprimento dos objetivos, desafios e próximos passos.
