
# PUC-RIO
## P√≥s-Gradua√ß√£o em Ci√™ncia de Dados e Analytics
---
**Projeto:** Pipeline de Dados BACEN (Camadas Bronze, Silver, Gold)

**Aluno:** Ros√¢ngela Gomes Andr√©

**Disciplina:** Engenharia de Dados

**T√≠tulo do Projeto:** Desenvolvimento de um Pipeline de Dados End-to-End para Monitoramento de Remunera√ß√£o de Servidores Aposentados do BACEN via Databricks.

**Data:** 21 de Dezembro de 2025

## 1. Introdu√ß√£o
Este trabalho representa a implementa√ß√£o de um pipeline de dados end-to-end desenvolvido na plataforma Databricks, com o objetivo de demonstrar a aplica√ß√£o pr√°tica de conceitos de Engenharia de Dados, Modelagem Dimensional e Governan√ßa em ambiente de nuvem.

O meu pipeline consiste em cinco etapas bem definidas: **buscar, coletar, modelar, carregar e analisar** os dados. O foco principal deste MVP √© superar barreiras t√©cnicas ‚Äî como a descompacta√ß√£o de grandes volumes de arquivos e a convers√£o de padr√µes monet√°rios ‚Äî utilizando a **Arquitetura Medallion (Bronze, Silver e Gold)** para construir um reposit√≥rio confi√°vel que permita a an√°lise da folha de pagamento do √≥rg√£o escolhido.

## 2. Objetivo e Busca dos Dados

### O Problema que pretendo resolver:
Ao explorar os dados p√∫blicos, percebi que os arquivos de remunera√ß√£o de servidores s√£o disponibilizados em formatos de dif√≠cil consumo imediato. Para este MVP, propus-me a construir um pipeline que solucione a falta de padroniza√ß√£o monet√°ria e a complexidade de compress√£o desses arquivos, transformando-os em um reposit√≥rio estruturado e pronto para an√°lise.

### Busca dos Dados:
Na etapa de busca, selecionei dados abertos dispon√≠veis na web atrav√©s do site **[Portal da Transpar√™ncia do Governo Federal](https://portaldatransparencia.gov.br/)**. Dentre as diversas bases de dados, escolhi como objeto de estudo as informa√ß√µes de servidores aposentados do Banco Central do Brasil (BACEN). Defini como recorte temporal o per√≠odo de Janeiro de 2025 at√© Setembro de 2025.

### As perguntas que desejo responder:
Para validar a efic√°cia do meu modelo, busquei respostas para as seguintes quest√µes:
1. Qual a m√©dia da remunera√ß√£o bruta total dos aposentados do BACEN?
2. Quais s√£o os 5 cargos com o maior n√∫mero de servidores aposentados na base?
3. Qual o valor total pago em verbas indenizat√≥rias no per√≠odo analisado?
4. Como est√° distribu√≠da a quantidade de servidores por tipo de v√≠nculo?
5. Qual o valor m√°ximo de remunera√ß√£o l√≠quida encontrado no conjunto de dados?

## 3. Coleta e Armazenamento (Camada Bronze)
A segunda etapa consistiu em coletar esses dados diretamente do site e import√°-los para a plataforma Databricks.

* **Processo:** Desenvolvi um rob√¥ de coleta em Python (utilizando a biblioteca requests) para realizar o download automatizado de arquivos compactados (.zip).
* **Ingest√£o Segura:** Para superar restri√ß√µes de acesso ao sistema de arquivos local do cluster, os arquivos foram processados via fluxo de mem√≥ria e persistidos em Volumes do Unity Catalog no Databricks.
* **Armazenamento:** Os dados brutos foram mantidos em seu formato original para garantir a auditabilidade da linhagem e a integridade da fonte.

## 4. Modelagem e Carga (ETL)
Para a estrutura√ß√£o dos dados, utilizei a Arquitetura Medallion, organizando o fluxo em tr√™s camadas:

* **Bronze:** Onde realizei o armazenamento dos arquivos brutos conforme extra√≠dos da fonte.
* **Silver:** Etapa onde realizei a limpeza e padroniza√ß√£o. O maior desafio t√©cnico foi a unifica√ß√£o de **27 pastas de dados hist√≥ricos** utilizando a t√©cnica unionByName para lidar com a concilia√ß√£o de esquemas e varia√ß√µes de nomes de colunas (como mes vs mes_referencia).
* **Gold:** Camada de consumo final onde implementei o Modelo Estrela. Separei os dados em tabelas de Dimens√£o (Servidor, V√≠nculo e Calend√°rio) e uma tabela de Fato (Remunera√ß√£o), utilizando hashes SHA256 para criar chaves substitutas (Surrogate Keys), garantindo performance e governan√ßa.



## 5. An√°lise e Solu√ß√£o do Problema

### a. Qualidade de Dados
Realizei uma auditoria de qualidade em cada atributo para garantir que os problemas do conjunto de dados n√£o afetassem os resultados:
* **Tratamento de Encoding:** Identifiquei codifica√ß√µes de caracteres incorretas (ISO-8859-1) que causavam erros em nomes acentuados, resolvendo o problema na leitura inicial.
* **Padroniza√ß√£o Monet√°ria:** As remunera√ß√µes vieram em formato de texto (padr√£o PT-BR). Implementei uma l√≥gica de limpeza via express√µes regulares para converter separadores de milhar e decimais para o tipo Double.
* **Valida√ß√£o de Dom√≠nio:** Executei testes de valores m√≠nimos e m√°ximos para assegurar a aus√™ncia de remunera√ß√µes nulas ou negativas que invalidassem as m√©dias estat√≠sticas.

### b. Solu√ß√£o do Problema e Discuss√£o
Atrav√©s de consultas SQL sobre o modelo dimensional, obtive os seguintes resultados:
* **An√°lise de Remunera√ß√£o:** Consegui calcular a m√©dia bruta e l√≠quida, identificando que cargos com maiores verbas indenizat√≥rias possuem uma varia√ß√£o menor no l√≠quido devido √† natureza n√£o tribut√°vel dessas verbas.
* **Distribui√ß√£o por Cargo:** Identifiquei os 5 cargos com maior volume de benefici√°rios, facilitando a vis√£o de impacto or√ßament√°rio por categoria funcional.
* **Estabilidade do Quadro:** A contagem distinta de servidores por per√≠odo revelou a taxa de entrada de novos aposentados no regime do BACEN.

## 6. Autoavalia√ß√£o e Discuss√£o Final
Ao concluir este pipeline, considero que atingi plenamente os objetivos propostos. O uso da Arquitetura Medallion e do Modelo Estrela provou ser a escolha correta, pois transformou uma massa de dados bruta e "suja" (espalhada em 27 pastas) em um cat√°logo de dados governado.

**Dificuldades:** A principal dificuldade foi lidar com a mudan√ßa de esquema entre os meses e o tratamento de caracteres especiais. 
**Trabalhos Futuros:** Para o meu portf√≥lio, pretendo enriquecer este problema implementando testes automatizados de qualidade de dados e conectando a camada Gold a ferramentas de visualiza√ß√£o externa como Power BI. O projeto demonstrou que a estrutura√ß√£o de um Data Warehouse moderno no Databricks √© essencial para a transpar√™ncia p√∫blica.

## Etapa 1 - Parapara√ß√£o para das camadas

In [0]:

%sql

-- Cria o cat√°logo principal para todos os seus dados do BACEN
CREATE CATALOG IF NOT EXISTS catalog_bacen
COMMENT 'Cat√°logo para dados p√∫blicos dos Servidores Aposentados Ativos do Banco do Brasil (BACEN).';

-- Opcional: Crie os esquemas (databases) Bronze, Silver e Gold dentro do novo cat√°logo
CREATE SCHEMA IF NOT EXISTS catalog_bacen.bronze;
CREATE SCHEMA IF NOT EXISTS catalog_bacen.silver;
CREATE SCHEMA IF NOT EXISTS catalog_bacen.gold;

-- 1. Cria√ß√£o do Volume para armazenar os arquivos
-- Temos o nome 'dados_servidores' para o Volume que armazenar√° seus arquivos.
CREATE VOLUME IF NOT EXISTS catalog_bacen.bronze.dados_servidores
COMMENT 'Volume para arquivos CSV brutos dos Servidores Aposentados Ativos do Banco do Brasil (BACEN).';

-- 2. Cria√ß√£o do Volume para armazenar as tabelas 
-- Temos o nome 'dados_servidores' para o Volume que armazenar√° suas tabelas.
CREATE VOLUME IF NOT EXISTS catalog_bacen.silver.dados_servidores
COMMENT 'Volume para armazenar as tabelas dos Servidores Aposentados Ativos do Banco do Brasil (BACEN).';

-- 2. Cria√ß√£o do Volume para armazenar o modelo estrela
-- Temos o nome 'assets' para o Volume que armazenar√° o modelo estrela.
CREATE VOLUME IF NOT EXISTS catalog_bacen.gold.assets
COMMENT 'Volume para armazenar o modelo estrela dos Servidores Aposentados Ativos do Banco do Brasil (BACEN).';

-- Define o cat√°logo rec√©m-criado como o padr√£o para as pr√≥ximas opera√ß√µes
USE CATALOG catalog_bacen;

## Etapa 2 - Camada Bronze

In [0]:
# Tente rodar esta linha em uma c√©lula separada antes do c√≥digo principal
%pip install unidecode

Collecting unidecode
  Downloading Unidecode-1.4.0-py3-none-any.whl.metadata (13 kB)
Downloading Unidecode-1.4.0-py3-none-any.whl (235 kB)
Installing collected packages: unidecode
Successfully installed unidecode-1.4.0
[43mNote: you may need to restart the kernel using %restart_python or dbutils.library.restartPython() to use updated packages.[0m


In [0]:
import requests
import os
from zipfile import ZipFile
import shutil
import pandas as pd
import re
from unidecode import unidecode 
from pyspark.sql.functions import col

# --- CONFIGURA√á√ÉO DE CAMINHOS ---
UC_VOLUME_PATH = "/Volumes/catalog_bacen/bronze/dados_servidores/"

# --- FUN√á√ÉO DE LIMPEZA ---
def limpar_nome_coluna(nome_coluna):
    nome_limpo = unidecode(nome_coluna) 
    nome_limpo = re.sub(r' \(R\$\)(\(\*\))?$', '_REAIS', nome_limpo)
    nome_limpo = re.sub(r' \(U\$\)(\(\*\))?$', '_DOLAR', nome_limpo)
    nome_limpo = re.sub(r'[/,;{}\(\)\n\t\=‚Äì]', ' ', nome_limpo)
    nome_limpo = nome_limpo.strip().lower() 
    nome_limpo = re.sub(r'\s+', '_', nome_limpo)
    nome_limpo = nome_limpo.strip('_')
    nome_limpo = re.sub(r'__+', '_', nome_limpo)
    return nome_limpo

# --- LOOP PARA OS MESES (JANEIRO A SETEMBRO) ---
# Gera√ß√£o de uma lista de meses formatados: ['202501', '202502', ..., '202509']
meses_para_processar = [f"2025{str(mes).zfill(2)}" for mes in range(1, 10)]

print(f"Iniciando processamento para os meses: {meses_para_processar}")

for competencia in meses_para_processar:
    print(f"\n" + "="*50)
    print(f"PROCESSANDO COMPET√äNCIA: {competencia}")
    print("="*50)

    # Dinamiza as vari√°veis com base no m√™s
    ZIP_URL = f"https://portaldatransparencia.gov.br/download-de-dados/servidores/{competencia}_Aposentados_BACEN/"
    ZIP_FILENAME = f"{competencia}_Aposentados_BACEN.zip"
    TEMP_DOWNLOAD_PATH = f"/tmp/{ZIP_FILENAME}"
    TEMP_UNZIP_DIR = f"/tmp/unzip_{competencia}"

    try:
        # A. DOWNLOAD
        print(f" -> Baixando: {ZIP_URL}")
        response = requests.get(ZIP_URL, stream=True)
        
        if response.status_code == 404:
            print(f" [AVISO] Dados para {competencia} n√£o encontrados (404). Pulando...")
            continue
            
        response.raise_for_status()
        
        with open(TEMP_DOWNLOAD_PATH, "wb") as file:
            for chunk in response.iter_content(chunk_size=1024 * 1024):
                file.write(chunk)
                
        # B. DESCOMPACTAR
        os.makedirs(TEMP_UNZIP_DIR, exist_ok=True)
        with ZipFile(TEMP_DOWNLOAD_PATH, 'r') as zip_ref:
            zip_ref.extractall(TEMP_UNZIP_DIR)
        
        # C. PROCESSAR ARQUIVOS
        for filename in os.listdir(TEMP_UNZIP_DIR):
            if filename.lower().endswith('.csv'):
                local_csv_path = os.path.join(TEMP_UNZIP_DIR, filename)
                remote_delta_path = UC_VOLUME_PATH + filename.replace(".csv", "") + "_delta"
                
                print(f"    -> Lendo CSV: {filename}")
                
                # Lendo com tratamento de encoding
                with open(local_csv_path, 'r', encoding='ISO-8859-1') as f:
                    csv_content = f.read()

                temp_csv_file_on_volume = f"{UC_VOLUME_PATH}temp_{competencia}_{filename}"
                dbutils.fs.put(temp_csv_file_on_volume, csv_content, overwrite=True)
                
                # Spark Read
                df_temp = (spark.read 
                           .format("csv") 
                           .option("header", "true") 
                           .option("delimiter", ";") 
                           .option("encoding", "ISO-8859-1") 
                           .load(temp_csv_file_on_volume)
                          )
                
                # Renomear Colunas
                mapeamento = {c: limpar_nome_coluna(c) for c in df_temp.columns}
                df_limpo = df_temp
                for old_name, new_name in mapeamento.items():
                    df_limpo = df_limpo.withColumnRenamed(old_name, new_name)
                
                # Salvar Delta
                df_limpo.write.format("delta").mode("overwrite").save(remote_delta_path)
                dbutils.fs.rm(temp_csv_file_on_volume)
                print(f"    -> Sucesso: {remote_delta_path}")

        # D. LIMPEZA TEMPOR√ÅRIA (por m√™s)
        os.remove(TEMP_DOWNLOAD_PATH) 
        shutil.rmtree(TEMP_UNZIP_DIR)
        print(f" -> Conclu√≠do com sucesso para {competencia}")

    except Exception as e:
        print(f" [ERRO] Falha ao processar {competencia}: {e}")
        # Continua para o pr√≥ximo m√™s mesmo se um falhar
        continue

print("\nPipeline finalizado para todos os meses dispon√≠veis.")

Iniciando processamento para os meses: ['202501', '202502', '202503', '202504', '202505', '202506', '202507', '202508', '202509']

PROCESSANDO COMPET√äNCIA: 202501
 -> Baixando: https://portaldatransparencia.gov.br/download-de-dados/servidores/202501_Aposentados_BACEN/
    -> Lendo CSV: 202501_Remuneracao.csv
Wrote 1722463 bytes.
    -> Sucesso: /Volumes/catalog_bacen/bronze/dados_servidores/202501_Remuneracao_delta
    -> Lendo CSV: 202501_Observacoes.csv
Wrote 59 bytes.
    -> Sucesso: /Volumes/catalog_bacen/bronze/dados_servidores/202501_Observacoes_delta
    -> Lendo CSV: 202501_Cadastro.csv
Wrote 1779125 bytes.
    -> Sucesso: /Volumes/catalog_bacen/bronze/dados_servidores/202501_Cadastro_delta
 -> Conclu√≠do com sucesso para 202501

PROCESSANDO COMPET√äNCIA: 202502
 -> Baixando: https://portaldatransparencia.gov.br/download-de-dados/servidores/202502_Aposentados_BACEN/
    -> Lendo CSV: 202502_Cadastro.csv
Wrote 1777220 bytes.
    -> Sucesso: /Volumes/catalog_bacen/bronze/dados_s

## Etapa 3 - Camada Silver

In [0]:
from pyspark.sql.functions import col, regexp_replace, to_date, current_timestamp, lit, concat, lpad
from pyspark.sql import functions as F

# --- CONFIGURA√á√ÉO DE CAMINHOS ---
UC_VOLUME_PATH = "/Volumes/catalog_bacen/bronze/dados_servidores/"
PATH_SILVER = "/Volumes/catalog_bacen/silver/dados_servidores"

print(f"1. Localizando tabelas na Bronze...")

# Lista todos os arquivos/pastas no volume
files = dbutils.fs.ls(UC_VOLUME_PATH)

# Filtra apenas as pastas que terminam com '_delta'
paths_to_load = [f.path for f in files if f.path.endswith("_delta/") or "_delta" in f.path]

if not paths_to_load:
    raise Exception(f"Nenhuma tabela Delta encontrada em {UC_VOLUME_PATH}. Verifique se a camada Bronze rodou com sucesso.")

print(f"   -> Encontradas {len(paths_to_load)} pastas. Carregando e unificando...")

# L√™ e unifica as tabelas
df_bronze = spark.read.format("delta").load(paths_to_load[0])

for path in paths_to_load[1:]:
    df_proximo = spark.read.format("delta").load(path)
    df_bronze = df_bronze.unionByName(df_proximo, allowMissingColumns=True)

# --- 2. TRATAMENTO DIN√ÇMICO DE COLUNAS ---
colunas_disponiveis = df_bronze.columns
print(f"üîç Colunas detectadas: {colunas_disponiveis}")

# Identifica qual coluna de data usar
col_data_origem = None
for candidata in ["mes_referencia", "mes", "MES_REFERENCIA", "MES"]:
    if candidata in colunas_disponiveis:
        col_data_origem = candidata
        break

if not col_data_origem:
    raise Exception("N√£o foi poss√≠vel encontrar uma coluna de data (mes ou mes_referencia) nos dados.")

print(f"   -> Usando a coluna '{col_data_origem}' para gerar a data de refer√™ncia.")

# --- 3. TRANSFORMA√á√ïES (LIMPEZA FINANCEIRA) ---
print("2. Iniciando limpeza financeira...")
cols_financeiras = [c for c in df_bronze.columns if '_reais' in c or '_dolar' in c]

df_silver = df_bronze

for c in cols_financeiras:
    # Tratamento para ter o Double corretamente. Ex: converter "1.234,56" em 1234.56 (Double)
    df_silver = df_silver.withColumn(
        c, 
        F.regexp_replace(F.regexp_replace(F.col(c), r'\.', ''), ',', '.').cast("double")
    )

# --- 4. DATA E AUDITORIA (CORRE√á√ÉO DO CANNOT_PARSE_TIMESTAMP) ---
print("3. Tratando campos de data e auditoria...")

# 1. lpad garante que o m√™s tenha 2 d√≠gitos (ex: '2' vira '02')
# 2. Concatena '01/' + m√™s + '/' + ano (coluna detectada no seu print)
df_silver = df_silver.withColumn(
    "data_referencia", 
    F.to_date(
        F.concat(
            F.lit("01/"), 
            F.lpad(F.col(col_data_origem), 2, "0"), 
            F.lit("/"), 
            F.col("ano")
        ), 
        "dd/MM/yyyy"
    )
).withColumn("etl_load_timestamp", F.current_timestamp())

# --- 5. GRAVA√á√ÉO ---
print(f"4. Gravando camada Silver consolidada em: {PATH_SILVER}")

# Cria o diret√≥rio silver se n√£o existir
dbutils.fs.mkdirs("/Volumes/catalog_bacen/silver/dados_servidores/")

# Grava√ß√£o na camada silver
df_silver.write.format("delta") \
    .mode("overwrite") \
    .option("overwriteSchema", "true") \
    .save(PATH_SILVER)

print("‚úÖ Camada Silver pronta e validada com sucesso!")

1. Localizando tabelas na Bronze...
   -> Encontradas 27 pastas. Carregando e unificando...
üîç Colunas detectadas: ['id_servidor_portal', 'nome', 'cpf', 'matricula', 'cod_tipo_aposentadoria', 'tipo_aposentadoria', 'data_aposentadoria', 'descricao_cargo', 'cod_uorg_lotacao', 'uorg_lotacao', 'cod_org_lotacao', 'org_lotacao', 'cod_orgsup_lotacao', 'orgsup_lotacao', 'cod_tipo_vinculo', 'tipo_vinculo', 'situacao_vinculo', 'regime_juridico', 'jornada_de_trabalho', 'data_ingresso_cargofuncao', 'data_nomeacao_cargofuncao', 'data_ingresso_orgao', 'documento_ingresso_servicopublico', 'data_diploma_ingresso_servicopublico', 'diploma_ingresso_cargofuncao', 'diploma_ingresso_orgao', 'diploma_ingresso_servicopublico', 'ano', 'mes', 'observacao', 'remuneraaao_basica_bruta_reais', 'remuneraaao_basica_bruta_dolar', 'abate-teto_reais', 'abate-teto_dolar', 'gratificaaao_natalina_reais', 'gratificaaao_natalina_dolar', 'abate-teto_da_gratificaaao_natalina_reais', 'abate-teto_da_gratificaaao_natalina_dola

## Etapa 4 - Camada Gold

In [0]:
from pyspark.sql.functions import col, sha2, concat_ws, year, month, quarter, min, max, count, array_distinct, collect_list
from pyspark.sql import functions as F

# 1. CARREGAR DADOS DA SILVER
print("Lendo dados da Camada Silver...")
df_silver = spark.read.format("delta").load("/Volumes/catalog_bacen/silver/dados_servidores")

# --- DEFINI√á√ÉO DE METADADOS DE LINHAGEM ---
linhagem_tecnica = (
    "Origem: Portal da Transpar√™ncia (BACEN - Servidores Aposentados). "
    "T√©cnica: Ingest√£o via Python (Requests), descompacta√ß√£o local, convers√£o para Delta na Bronze. "
    "Transforma√ß√£o: Limpeza de caracteres monet√°rios e tipagem em Silver. "
    "Modelagem: Star Schema com Surrogate Keys (SHA256) na Gold."
)

# --- 2. CRIA√á√ÉO DAS TABELAS DIMENSIONAIS ---
print("Construindo Dimens√µes...")

# DIM SERVIDOR
dim_servidor = df_silver.select(
    sha2(col("cpf"), 256).alias("sk_servidor"),
    col("nome"),
    col("cpf"),
    col("matricula"),
    col("descricao_cargo").alias("cargo"),
    col("org_lotacao").alias("orgao"),
    col("uorg_lotacao").alias("unidade_organizacional")
).distinct()

# DIM V√çNCULO
dim_vinculo = df_silver.select(
    sha2(concat_ws("||", col("tipo_vinculo"), col("regime_juridico"), col("jornada_de_trabalho")), 256).alias("sk_vinculo"),
    col("tipo_vinculo"),
    col("regime_juridico"),
    col("jornada_de_trabalho"),
    col("situacao_vinculo")
).distinct()

# DIM CALEND√ÅRIO
dim_calendario = df_silver.select("data_referencia").distinct() \
    .withColumn("ano", year(col("data_referencia"))) \
    .withColumn("mes", month(col("data_referencia"))) \
    .withColumn("trimestre", quarter(col("data_referencia")))

# --- 3. CRIA√á√ÉO DA TABELA FATO ---
print("Construindo Tabela Fato...")
fato_remuneracao = df_silver.select(
    sha2(col("cpf"), 256).alias("sk_servidor"),
    sha2(concat_ws("||", col("tipo_vinculo"), col("regime_juridico"), col("jornada_de_trabalho")), 256).alias("sk_vinculo"),
    col("data_referencia"),
    col("remuneraaao_basica_bruta_reais").alias("valor_bruto"),
    col("irrf_reais").alias("valor_irrf"),
    col("pss_rpgs_reais").alias("valor_pss"),
    col("total_de_verbas_indenizatarias_reais").alias("valor_indenizacoes"),
    col("remuneraaao_apas_deduaaes_obrigatarias_reais").alias("valor_liquido")
)

# --- 4. GRAVA√á√ÉO E REGISTRO NO CAT√ÅLOGO (GOLD) ---
print("Registrando tabelas no Unity Catalog...")
spark.sql("CREATE SCHEMA IF NOT EXISTS catalog_bacen.gold")

dim_servidor.write.format("delta").mode("overwrite").option("overwriteSchema", "true").saveAsTable("catalog_bacen.gold.dim_servidor")
dim_vinculo.write.format("delta").mode("overwrite").option("overwriteSchema", "true").saveAsTable("catalog_bacen.gold.dim_vinculo")
dim_calendario.write.format("delta").mode("overwrite").option("overwriteSchema", "true").saveAsTable("catalog_bacen.gold.dim_calendario")
fato_remuneracao.write.format("delta").mode("overwrite").option("overwriteSchema", "true").saveAsTable("catalog_bacen.gold.fato_remuneracao")

# --- 5. MAIS METADADOS ---
print("Aplicando descri√ß√µes detalhadas e linhagem...")

# Descri√ß√µes de N√≠vel de Tabela
spark.sql(f"COMMENT ON TABLE catalog_bacen.gold.fato_remuneracao IS '{linhagem_tecnica}'")
spark.sql("COMMENT ON TABLE catalog_bacen.gold.dim_servidor IS 'Dados cadastrais e identifica√ß√£o dos servidores aposentados do BACEN.'")
spark.sql("COMMENT ON TABLE catalog_bacen.gold.dim_vinculo IS 'Caracter√≠sticas do v√≠nculo empregat√≠cio e regime de trabalho.'")
spark.sql("COMMENT ON TABLE catalog_bacen.gold.dim_calendario IS 'Suporte a an√°lises temporais (Ano, M√™s, Trimestre).'")

# Dicion√°rio Fato Remunera√ß√£o
desc_fato = {
    "sk_servidor": "Chave Surrogate (SHA256 do CPF). Dom√≠nio: Hash √önico.",
    "sk_vinculo": "Chave Surrogate (v√≠nculo/regime/jornada). Dom√≠nio: Hash de contexto.",
    "data_referencia": "Data do fechamento da folha. Dom√≠nio: AAAA-MM-DD.",
    "valor_bruto": "Remunera√ß√£o b√°sica bruta total. Dom√≠nio: Num√©rico Positivo.",
    "valor_irrf": "Imposto de Renda retido. Dom√≠nio: Num√©rico Negativo/Zero.",
    "valor_pss": "Contribui√ß√£o PSS. Dom√≠nio: Num√©rico Negativo/Zero.",
    "valor_indenizacoes": "Soma de verbas indenizat√≥rias. Dom√≠nio: Num√©rico Positivo.",
    "valor_liquido": "Remunera√ß√£o l√≠quida final. Dom√≠nio: Num√©rico Positivo."
}
for c, com in desc_fato.items(): spark.sql(f"ALTER TABLE catalog_bacen.gold.fato_remuneracao ALTER COLUMN {c} COMMENT '{com}'")

# Dicion√°rio Dim Servidor
desc_serv = {
    "sk_servidor": "Chave prim√°ria da dimens√£o (Hash do CPF).",
    "nome": "Nome completo do servidor.",
    "cpf": "CPF original (Dado Sens√≠vel).",
    "matricula": "Matr√≠cula funcional no BACEN.",
    "cargo": "√öltimo cargo ocupado.",
    "orgao": "√ìrg√£o de lota√ß√£o (BACEN).",
    "unidade_organizacional": "Unidade espec√≠fica (UORG)."
}
for c, com in desc_serv.items(): spark.sql(f"ALTER TABLE catalog_bacen.gold.dim_servidor ALTER COLUMN {c} COMMENT '{com}'")

# Dicion√°rio Dim V√≠nculo
desc_vinc = {
    "sk_vinculo": "Chave prim√°ria da dimens√£o v√≠nculo.",
    "tipo_vinculo": "Categoria do v√≠nculo (ex: Estatut√°rio).",
    "regime_juridico": "Regime legal de trabalho.",
    "jornada_de_trabalho": "Carga hor√°ria semanal.",
    "situacao_vinculo": "Status do v√≠nculo (Aposentado)."
}
for c, com in desc_vinc.items(): spark.sql(f"ALTER TABLE catalog_bacen.gold.dim_vinculo ALTER COLUMN {c} COMMENT '{com}'")

# Dicion√°rio Dim Calend√°rio
desc_cal = {
    "data_referencia": "Chave prim√°ria da dimens√£o tempo. Dom√≠nio: AAAA-MM-DD.",
    "ano": "Ano civil da refer√™ncia.",
    "mes": "M√™s civil (1-12).",
    "trimestre": "Trimestre civil (1-4)."
}
for c, com in desc_cal.items(): spark.sql(f"ALTER TABLE catalog_bacen.gold.dim_calendario ALTER COLUMN {c} COMMENT '{com}'")

# --- 6. AN√ÅLISE DE DOM√çNIOS E QUALIDADE ---
print("\n--- CAT√ÅLOGO T√âCNICO: AN√ÅLISE DE DOM√çNIOS ---")
fato_remuneracao.select(
    min("valor_bruto").alias("Min_Bruto"),
    max("valor_bruto").alias("Max_Bruto"),
    min("valor_liquido").alias("Min_Liquido"),
    max("valor_liquido").alias("Max_Liquido")
).show()

print("‚úÖ Camada Gold finalizada e documentada no Unity Catalog.")

Lendo dados da Camada Silver...
Construindo Dimens√µes...
Construindo Tabela Fato...
Registrando tabelas no Unity Catalog...
Aplicando descri√ß√µes detalhadas e linhagem...

--- CAT√ÅLOGO T√âCNICO: AN√ÅLISE DE DOM√çNIOS ---
+---------+---------+-----------+-----------+
|Min_Bruto|Max_Bruto|Min_Liquido|Max_Liquido|
+---------+---------+-----------+-----------+
|   983.41| 46256.98|  -55761.27|  110134.64|
+---------+---------+-----------+-----------+

‚úÖ Camada Gold finalizada e 100% documentada no Unity Catalog.


## Etapa 4 - Camada Gold - Dicion√°rio de Dados Consolidado

In [0]:
from pyspark.sql.functions import lit, col

print("Gerando Dicion√°rio de Dados Consolidado...")

def extrair_metadados(tabela):
    # Comando SQL para ler as colunas e coment√°rios registrados
    return spark.sql(f"DESCRIBE TABLE {tabela}") \
        .select(
            lit(tabela).alias("Nome_Tabela"),
            col("col_name").alias("Nome_Coluna"),
            col("data_type").alias("Tipo_Dado"),
            col("comment").alias("Descricao_Dicionario")
        )

# Lista das suas tabelas Gold
tabelas = [
    "catalog_bacen.gold.fato_remuneracao",
    "catalog_bacen.gold.dim_servidor",
    "catalog_bacen.gold.dim_vinculo",
    "catalog_bacen.gold.dim_calendario"
]

# Une todas as descri√ß√µes em um √∫nico relat√≥rio
df_relatorio_final = extrair_metadados(tabelas[0])
for t in tabelas[1:]:
    df_relatorio_final = df_relatorio_final.union(extrair_metadados(t))

# Exibe na tela de forma organizada
display(df_relatorio_final)

Gerando Dicion√°rio de Dados Consolidado...


Nome_Tabela,Nome_Coluna,Tipo_Dado,Descricao_Dicionario
catalog_bacen.gold.fato_remuneracao,sk_servidor,string,Chave Surrogate (SHA256 do CPF). Dom√≠nio: Hash √önico.
catalog_bacen.gold.fato_remuneracao,sk_vinculo,string,Chave Surrogate (v√≠nculo/regime/jornada). Dom√≠nio: Hash de contexto.
catalog_bacen.gold.fato_remuneracao,data_referencia,date,Data do fechamento da folha. Dom√≠nio: AAAA-MM-DD.
catalog_bacen.gold.fato_remuneracao,valor_bruto,double,Remunera√ß√£o b√°sica bruta total. Dom√≠nio: Num√©rico Positivo.
catalog_bacen.gold.fato_remuneracao,valor_irrf,double,Imposto de Renda retido. Dom√≠nio: Num√©rico Negativo/Zero.
catalog_bacen.gold.fato_remuneracao,valor_pss,double,Contribui√ß√£o PSS. Dom√≠nio: Num√©rico Negativo/Zero.
catalog_bacen.gold.fato_remuneracao,valor_indenizacoes,double,Soma de verbas indenizat√≥rias. Dom√≠nio: Num√©rico Positivo.
catalog_bacen.gold.fato_remuneracao,valor_liquido,double,Remunera√ß√£o l√≠quida final. Dom√≠nio: Num√©rico Positivo.
catalog_bacen.gold.dim_servidor,sk_servidor,string,Chave prim√°ria da dimens√£o (Hash do CPF).
catalog_bacen.gold.dim_servidor,nome,string,Nome completo do servidor.


### 4.1. Modelo L√≥gico Estrela

A estrutura l√≥gica da camada **Gold** foi desenhada para otimizar a performance anal√≠tica. Abaixo descrevo as entidades e seus relacionamentos:

#### **Tabela de Fatos: fato_remuneracao**
√â a tabela central que armazena as m√©tricas quantitativas (fatos) do dom√≠nio financeiro.
* **sk_remuneracao (PK):** Chave prim√°ria substituta.
* **sk_servidor (FK):** Chave estrangeira para dim_servidor.
* **sk_vinculo (FK):** Chave estrangeira para dim_vinculo.
* **data_referencia (FK):** Chave estrangeira para dim_calendario.
* **valor_bruto (M√©trica):** Valor total da remunera√ß√£o.
* **valor_liquido (M√©trica):** Valor ap√≥s descontos.
* **valor_indenizacoes (M√©trica):** Valores extras n√£o tribut√°veis.

#### **Tabela de Dimens√£o: dim_servidor**
Cont√©m os atributos descritivos do servidor.
* **sk_servidor (PK):** Surrogate Key gerada via SHA256.
* **nome_servidor:** Nome completo (tratado).
* **cargo:** Nome do cargo ocupado no BACEN.
* **cpf_anonimizado:** Identifica√ß√£o protegida.

#### **Tabela de Dimens√£o: dim_vinculo**
Descreve a natureza jur√≠dica do trabalho.
* **sk_vinculo (PK):** Surrogate Key.
* **tipo_vinculo:** Ex: Estatut√°rio, Comissionado.
* **jornada_trabalho:** Carga hor√°ria semanal.

#### **Tabela de Dimens√£o: dim_calendario**
Permite a an√°lise temporal dos dados.
* **data_referencia (PK):** Data padronizada (YYYY-MM-DD).
* **ano:** Ano extra√≠do da fonte.
* **mes:** M√™s extra√≠do e padronizado.

---
**Diagrama de Relacionamento:**

dim_servidor (1) <---> (N) fato_remuneracao

dim_vinculo (1) <---> (N) fato_remuneracao

dim_calendario (1) <---> (N) fato_remuneracao

---


<div style="text-align: center;">
  <img src="/Volumes/catalog_bacen/gold/assets/modelo_logico_estrela.png" width="600">
  <p><strong>Figura 1:</strong> Modelo L√≥gico Estrela da Camada Gold.</p>
</div>

### 4.2. Camada Gold - Valida√ß√£o do Modelo Estrela

In [0]:
%sql
SELECT 
    d_cal.ano,
    d_cal.mes,
    d_serv.cargo,
    COUNT(f.sk_servidor) AS total_servidores,
    ROUND(AVG(f.valor_bruto), 2) AS media_bruta,
    ROUND(AVG(f.valor_liquido), 2) AS media_liquida,
    ROUND(SUM(f.valor_indenizacoes), 2) AS total_indenizacoes
FROM 
    catalog_bacen.gold.fato_remuneracao f
JOIN 
    catalog_bacen.gold.dim_servidor d_serv ON f.sk_servidor = d_serv.sk_servidor
JOIN 
    catalog_bacen.gold.dim_calendario d_cal ON f.data_referencia = d_cal.data_referencia
GROUP BY 
    d_cal.ano, d_cal.mes, d_serv.cargo
ORDER BY 
    d_cal.ano DESC, d_cal.mes DESC, media_liquida DESC;

ano,mes,cargo,total_servidores,media_bruta,media_liquida,total_indenizacoes
2025,9,PROCURADOR DO BANCO CENTRAL,305,30347.55,23274.47,0.0
2025,9,AUDITOR DO BANCO CENTRAL,14484,29801.05,22292.37,0.0
2025,9,,5454,28447.47,21384.13,0.0
2025,9,TECNICO DO BANCO CENTRAL,1499,14933.16,12204.5,0.0
2025,8,PROCURADOR DO BANCO CENTRAL,305,30496.45,23329.98,0.0
2025,8,AUDITOR DO BANCO CENTRAL,14504,29783.11,22285.49,0.0
2025,8,,5458,28435.37,21388.48,0.0
2025,8,TECNICO DO BANCO CENTRAL,1499,14933.16,12199.72,0.0
2025,7,PROCURADOR DO BANCO CENTRAL,304,30491.69,23326.92,0.0
2025,7,AUDITOR DO BANCO CENTRAL,14512,29794.44,22276.99,0.0


## Etapa 5 - An√°lise e Solu√ß√£o do Problema

### 1. M√©dia de Remunera√ß√£o

In [0]:
%sql
SELECT 
    ROUND(AVG(valor_bruto), 2) AS media_bruta,
    ROUND(AVG(valor_liquido), 2) AS media_liquida,
    ROUND(AVG(valor_indenizacoes), 2) AS media_indenizacoes
FROM catalog_bacen.gold.fato_remuneracao;

media_bruta,media_liquida,media_indenizacoes
27585.33,22872.42,0.03


Databricks visualization. Run in Databricks to view.

![M√©dia de Remunera√ß√£o](/Volumes/catalog_bacen/gold/assets/grafico_1.png)
**Figura 1:** M√©dia de Remunera√ß√£o.



### 2. Top 5 Cargos por Volume

In [0]:
%sql
SELECT 
    cargo, 
    COUNT(sk_servidor) AS total_servidores
FROM catalog_bacen.gold.dim_servidor
GROUP BY cargo
ORDER BY total_servidores DESC
LIMIT 5;

cargo,total_servidores
AUDITOR DO BANCO CENTRAL,14425
,5445
TECNICO DO BANCO CENTRAL,1490
PROCURADOR DO BANCO CENTRAL,311


Databricks visualization. Run in Databricks to view.

![Top 5 Cargos por Volume](/Volumes/catalog_bacen/gold/assets/grafico_2.png)
**Figura 2:** Top 5 Cargos por Volume.

### 3. Total de Verbas Indenizat√≥rias por M√™s

In [0]:
%sql
SELECT 
    c.ano,
    c.mes,
    SUM(f.valor_indenizacoes) AS total_indenizacoes
FROM catalog_bacen.gold.fato_remuneracao f
JOIN catalog_bacen.gold.dim_calendario c ON f.data_referencia = c.data_referencia
GROUP BY c.ano, c.mes
ORDER BY c.ano, c.mes;

ano,mes,total_indenizacoes
2025,1,0.0
2025,2,718.58
2025,3,0.0
2025,4,0.0
2025,5,659.25
2025,6,0.0
2025,7,0.0
2025,8,0.0
2025,9,0.0


Databricks visualization. Run in Databricks to view.

![Total de Verbas Indenizat√≥rias por M√™s](/Volumes/catalog_bacen/gold/assets/grafico_3.png)
**Figura 3:** Total de Verbas Indenizat√≥rias por M√™s.

### 4. Distribui√ß√£o por Tipo de V√≠nculo

In [0]:
%sql
SELECT 
    tipo_vinculo, 
    COUNT(*) AS quantidade
FROM catalog_bacen.gold.dim_vinculo
GROUP BY tipo_vinculo;

tipo_vinculo,quantidade
Aposentadoria,1
,1


Databricks visualization. Run in Databricks to view.

![Distribui√ß√£o por Tipo de V√≠nculo](/Volumes/catalog_bacen/gold/assets/grafico_4.png)

**Figura 4:** Distribui√ß√£o por Tipo de V√≠nculo.

### 5. M√°ximo L√≠quido e Outliers

In [0]:
%sql
SELECT 
    d.cargo,
    MAX(f.valor_liquido) AS teto_liquido_encontrado
FROM catalog_bacen.gold.fato_remuneracao f
JOIN catalog_bacen.gold.dim_servidor d ON f.sk_servidor = d.sk_servidor
GROUP BY d.cargo
ORDER BY teto_liquido_encontrado DESC
LIMIT 10;

cargo,teto_liquido_encontrado
,110134.64
AUDITOR DO BANCO CENTRAL,110134.64
TECNICO DO BANCO CENTRAL,53408.66
PROCURADOR DO BANCO CENTRAL,41147.64


Databricks visualization. Run in Databricks to view.

![M√°ximo L√≠quido e Outliers](/Volumes/catalog_bacen/gold/assets/grafico_5.png)
**Figura 5:** M√°ximo L√≠quido e Outliers.