# MVP Engenharia de Dados

**Nome:** Luis Cl√°udio da Paix√£o Lobato

**Matr√≠cula:** 4052025001146

**Dataset:** [TISS] (https://dadosabertos.ans.gov.br/FTP/PDA/TISS/)

# 1Ô∏è‚É£ Objetivo
___

### 1.1 Descri√ß√£o do MVP ###

Este MVP tem como objetivo construir um pipeline de dados na nuvem para analisar os gastos com atendimento ambulatorial e interna√ß√£o registrados no padr√£o TISS (Troca de Informa√ß√µes em Sa√∫de Suplementar) para o estado de Goi√°s, no per√≠odo de 2020 a 2024. A solu√ß√£o ser√° implementada com tecnologias em nuvem, utilizando Databricks e Delta Lake, e abranger√° desde a ingest√£o at√© a disponibiliza√ß√£o de dados prontos para an√°lise.

### 1.2 Problema central ###

Atualmente n√£o existe uma vis√£o consolidada e facilmente acess√≠vel dos custos de interna√ß√£o e atendimento ambulatorial em Goi√°s, o que dificulta a identifica√ß√£o de tend√™ncias, anomalias e fatores relevantes para a gest√£o da sa√∫de p√∫blica. Este MVP busca preencher essa lacuna, oferecendo uma base confi√°vel que suporte an√°lises operacionais e estrat√©gicas.


### 1.3 Escopo e etapas do pipeline ###

- Busca e coleta: extra√ß√£o dos arquivos TISS e fontes complementares para o per√≠odo 2020‚Äì2024.
- Ingest√£o e armazenamento: carregamento em Delta Lake para garantir governan√ßa, versionamento e performance.
- Modelagem: padroniza√ß√£o, limpeza e harmoniza√ß√£o dos dados (identificadores, datas, valores, procedimentos).
- Carga e transforma√ß√£o: cria√ß√£o de camadas (bronze, silver, gold) para suportar diferentes n√≠veis de consumo.
- An√°lise e visualiza√ß√£o: gera√ß√£o de m√©tricas, dashboards e relat√≥rios para identificar padr√µes de gasto, outliers e drivers de custo.

### 1.4 Perguntas que o projeto pretende responder ###

- Quais s√£o as tend√™ncias temporais de gasto por tipo de atendimento (ambulatorial vs interna√ß√£o)?
- Quais procedimentos, especialidades ou prestadores concentram os maiores custos?
- Existem anomalias ou picos de gasto que mere√ßam investiga√ß√£o?
- Quais fatores (idade, regi√£o, tipo de procedimento) mais impactam os custos?

### 1.5 Entreg√°veis esperados ###

- Base de dados consolidada em Delta Lake cobrindo 2020‚Äì2024.
- Conjunto de pipelines automatizados para ingest√£o, transforma√ß√£o e atualiza√ß√£o dos dados.
- Dashboards e relat√≥rios anal√≠ticos com indicadores-chave e insights acion√°veis.
- Documenta√ß√£o t√©cnica e guia de uso para replica√ß√£o e manuten√ß√£o.
Ao final do projeto, espera-se dispor de uma plataforma confi√°vel que permita √† gest√£o p√∫blica e a analistas compreender melhor os determinantes dos custos em sa√∫de no estado de Goi√°s e apoiar decis√µes baseadas em dados.



# 2Ô∏è‚É£ Fonte dos Dados e Coleta
___

Os dados utilizados neste projeto foram obtidos exclusivamente de fontes oficiais e p√∫blicas, portanto n√£o h√° restri√ß√µes de confidencialidade. A base principal √© a Troca de Informa√ß√µes em Sa√∫de Suplementar (TISS), que re√∫ne registros detalhados sobre atendimentos ambulatoriais e interna√ß√µes em todo o Brasil. O conjunto de dados abrange o per√≠odo de 2020 a 2024 e inclui informa√ß√µes relevantes para an√°lise de custos, procedimentos, prestadores e caracter√≠sticas demogr√°ficas dos atendimentos.

### 2.1 Tabela Fato ‚Äì Interna√ß√£o e Atendimento Ambulatorial 

As tabelas fato do projeto ‚Äî `internacao_geral_gold` e `ambulatorial_geral_gold` ‚Äî foram geradas a partir dos arquivos de interna√ß√£o e de atendimento ambulatorial disponibilizados no portal de dados abertos da ANS. 

Fonte: Troca de Informa√ß√µes em Sa√∫de Suplementar (TISS) ‚Äî https://dadosabertos.ans.gov.br/FTP/PDA/TISS/.

Os arquivos foram baixados manualmente, m√™s a m√™s, no formato CSV, e posteriormente carregados no DBFS (Databricks File System). A partir desses arquivos foram aplicados processos de limpeza, padroniza√ß√£o e integra√ß√£o para compor as camadas do Delta Lake e consolidar as tabelas gold para an√°lise.

### 2.2 Tabelas Dimens√£o

As tabelas dimens√£o foram obtidas no portal da ANS, e criados manualmente. Foram criadas no formato CSV, separadas por ";", utilizando um editor de texto. Essas tabelas foram baseadas diretamente nas informa√ß√µes contidas na tabela fato `internacao_geral_gold` e `ambulatorial_geral_gold` e incluem:

-

-

-

-

-

-

-

-

-

 Essas tabelas foram projetadas para servir de refer√™ncia √†s respectivas colunas nas bases de interna√ß√£o e atendimento ambulatorial, garantindo a integridade dos dados no processo anal√≠tico.





# 3Ô∏è‚É£ Modelagem e Cat√°logo de Dados
___

Para estruturar e organizar os dados de forma eficiente, foi adotado o Esquema Estrela, um dos modelos mais utilizados em Data Warehousing e Business Intelligence.

### 3.1 Estrutura do Esquema Estrela

O esquema estrela do projeto foi constru√≠do com uma tabela fato principal contendo os registros de mortalidade e 7 tabelas dimens√£o para compor as an√°lises. A estrutura ficou organizada da seguinte forma:

 üìä Tabela Fato: `mortalidade_geral_gold`
  
  - Esta tabela cont√©m os registros de √≥bitos e √© o n√∫cleo central do esquema. Cada linha representa um √≥bito registrado, com detalhes como data, local, causa da morte e caracter√≠sticas da pessoa falecida.

  üìä Tabelas Dimens√£o: `municipios_gold`, `cid_10_gold`, `circunstancia_gold`, `local_obito_gold`, `estado_civil_gold`, `sexo_gold` e `cor_gold`.

  - Foram criadas tabelas auxiliares para armazenar descri√ß√µes de vari√°veis categ√≥ricas e facilitar a an√°lise por meio de jun√ß√µes (joins) entre as tabelas.

### 3.2 Cat√°logo de Dados

### 3.3 Diagrama Entidade Relacionamento

# 4Ô∏è‚É£ Carga
___

Nesta etapa ser√° feita a carga dos dados para o Delta Lake do Databricks. Ser√° feito um pipeline de ETL (Extra√ß√£o, Transforma√ß√£o e Carga) e todos os processos realizados ser√£o documentados.

Inicialmente, importaremos as bibliotecas necess√°rias e criaremos o banco de dados, organizando os dados em tr√™s camadas dentro da arquitetura medallion (Bronze, Silver e Gold). Cada camada ter√° um papel na prepara√ß√£o dos dados:

ü•â Camada Bronze: Armazena os dados brutos, exatamente como foram extra√≠dos das fontes originais, sem qualquer modifica√ß√£o.

ü•à Camada Silver: Aplica limpeza, padroniza√ß√£o e enriquecimento dos dados, removendo inconsist√™ncias e garantindo a qualidade.

ü•á Camada Gold: Otimiza as tabelas para consultas anal√≠ticas e gera√ß√£o de insights para consumo final.

### üíæ 4.1 Banco de dados

In [None]:
from pyspark.sql.functions import col, when, concat, substring, lit, to_date  # Para manipular dados em spark
from pyspark.sql import Row  # Para manipular dados em spark
import matplotlib.pyplot as plt  # Para plotar gr√°ficos
import seaborn as sns  # Para plotar gr√°ficos
import pandas as pd  # Para criar dataframes que possam ser lidos pelo matplotlib e seaborn
import warnings  # Para desativar warnings
warnings.filterwarnings("ignore")

Vamos criar 3 bancos de dados para separar nosso projeto: `bronze`, `silver` e `gold`. Iniciaremos guardando os dados crus no banco de dados `bronze`.

### ü•â 4.2 Camada Bronze