#Introdu√ß√£o

Este notebook apresenta a modelagem dimensional (Esquema Estrela) dos dados de emendas parlamentares, com o objetivo de estruturar a camada Gold para an√°lises anal√≠ticas e financeiras.

A partir das tabelas da camada Silver ‚Äî emendas e parlamentares ‚Äî s√£o constru√≠das uma tabela fato e suas tabelas de dimens√£o, organizando as informa√ß√µes em torno das m√©tricas financeiras (valores empenhados, liquidados e pagos) e dos principais eixos anal√≠ticos: quem, quando, onde e em qu√™ os recursos foram destinados.

Essa modelagem visa otimizar consultas, facilitar an√°lises hist√≥ricas e comparativas e garantir uma base consistente para consumo por ferramentas anal√≠ticas e relat√≥rios.

**Para maior detalhamento da modelagem dimensional, acessar o markdown na pasta de documenta√ß√µes** 

# Configura√ß√£o do notebook

## Importar bibliotecas

In [0]:
from pyspark.sql import functions as F
from pyspark.sql.window import Window

## Carregar bases das silver

In [0]:
emendas_silver = spark.read.table("mvp.silver.emendas")
parlamentares_silver = spark.read.table("mvp.silver.parlamentares")

# Cria√ß√£o das tabelas de dimens√£o

## Dim_Parlamentar (Quem)

### üë§ Dimens√£o: Dim_Parlamentar

| Coluna           | Descri√ß√£o                                                      | Tipo de Dado | Observa√ß√µes |
|------------------|----------------------------------------------------------------|--------------|-------------|
| sk_parlamentar   | Chave substituta (surrogate key) da dimens√£o parlamentar.      | BIGINT       | Gerada na camada Gold |
| nome_parlamentar | Nome do autor da emenda.           | STRING       | Chave natural para deduplica√ß√£o |
| sigla_partido    | Sigla do partido pol√≠tico do parlamentar.                      | STRING       | Valor padronizado |
| sigla_uf         | Unidade da Federa√ß√£o representada pelo parlamentar.            | STRING       | Sigla da UF |


In [0]:
# Cria√ß√£o da coluna de surrogate
parlamentares_silver = (
    parlamentares_silver
    .withColumn("sk_parlamentar", F.monotonically_increasing_id())
)

In [0]:
# Reorganizar as colunas
parlamentares_silver = parlamentares_silver.select(
    "sk_parlamentar",
    "nome_parlamentar",
    F.col("siglaPartido").alias("sigla_partido"),
    F.col("siglaUf").alias("sigla_uf")
)

In [0]:
# Salvar dimens√£o na camada gold
(
    parlamentares_silver
    .write
    .mode("overwrite")
    .format("delta")
    .saveAsTable("mvp.gold.dim_parlamentar")
)

In [0]:
spark.sql("""
COMMENT ON TABLE mvp.gold.dim_parlamentar IS
'Dimens√£o parlamentar. Consolida informa√ß√µes de identifica√ß√£o e contexto pol√≠tico dos autores das emendas parlamentares.'
""")

DataFrame[]

In [0]:
spark.sql("""
COMMENT ON COLUMN mvp.gold.dim_parlamentar.sk_parlamentar IS
'Chave substituta (surrogate key) da dimens√£o parlamentar, gerada na camada Gold.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.dim_parlamentar.nome_parlamentar IS
'Nome do parlamentar autor da emenda padronizado. Utilizado como chave natural para deduplica√ß√£o.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.dim_parlamentar.sigla_partido IS
'Sigla do partido pol√≠tico do parlamentar.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.dim_parlamentar.sigla_uf IS
'Unidade da Federa√ß√£o representada pelo parlamentar (sigla da UF).'
""")

DataFrame[]

In [0]:
# Verificar duplicidade de chave
parlamentares_silver.groupBy("sk_parlamentar").count().filter("count > 1").display()

sk_parlamentar,count


In [0]:
# Verificar cardinalidade
parlamentares_silver.count()

512

In [0]:
# Avaliando os parlamentares da dimens√£o parlamentar que n√£o tem nenhuma emenda associada
df_parlamentares_sem_emendas = (
    parlamentares_silver.alias("dim")
    .join(
        emendas_silver.alias("emd"),
        on="nome_parlamentar",
        how="left_anti"
    )
)

In [0]:
df_parlamentares_sem_emendas.display()

nome_parlamentar,sk_parlamentar,sigla_partido,sigla_uf
ALLAN GARCES,23,PP,MA
CAIO VIANNA,66,PSD,RJ
DOUGLAS VIEGAS,144,UNI√ÉO,SP
ENFERMEIRA ANA PAULA,168,PODE,CE
ENFERMEIRA REJANE,169,PCdoB,RJ
FABIANO CAZECA,177,PRD,MG
FATIMA PELAES,182,REPUBLICANOS,AP
FAUSTO JR.,183,UNI√ÉO,AM
GISELA SIMONA,217,UNI√ÉO,MT
GUILHERME DERRITE,220,PP,SP


In [0]:
%sql
SELECT *
FROM mvp.silver.emendas
WHERE nome_parlamentar like "%REJANE%"

nome_parlamentar,ano,funcao,localidade_destino,municipio_destino,uf_destino,valor_empenhado,valor_liquidado,valor_pago
REJANE DIAS,2023,Educa√ß√£o,PIAU√ç (UF),,PI,814604.0,0.0,0.0
REJANE DIAS,2023,Sa√∫de,PIAU√ç (UF),,PI,7504032.0,7504032.0,7504032.0
REJANE DIAS,2023,Sa√∫de,CASTELO DO PIAU√ç - PI,CASTELO DO PIAU√ç,PI,2460396.0,299998.0,299998.0
REJANE DIAS,2023,Sa√∫de,TERESINA - PI,TERESINA,PI,2443813.0,2443813.0,2443813.0
REJANE DIAS,2023,Encargos especiais,M√öLTIPLO,,,15237094.0,15237094.0,15237094.0
REJANE DIAS,2023,Sa√∫de,M√öLTIPLO,,,2030602.0,2030602.0,2030602.0


A Enfermeira Rejane e a Rejane Dias s√£o pessoas diferentes

In [0]:
%sql
SELECT *
FROM mvp.silver.emendas
WHERE nome_parlamentar like "%DERRITE%"

nome_parlamentar,ano,funcao,localidade_destino,municipio_destino,uf_destino,valor_empenhado,valor_liquidado,valor_pago
CAPITAO DERRITE,2023,Desporto e lazer,S√ÉO PAULO (UF),,SP,400000.0,399994.3,399994.3
CAPITAO DERRITE,2023,Assist√™ncia social,M√öLTIPLO,,,3645000.0,3645000.0,3645000.0
CAPITAO DERRITE,2023,Defesa nacional,NACIONAL,,,662920.0,500000.0,500000.0
CAPITAO DERRITE,2023,Assist√™ncia social,S√ÉO PAULO (UF),,SP,162920.0,162920.0,162920.0
CAPITAO DERRITE,2023,Sa√∫de,M√öLTIPLO,,,13784169.0,13784169.0,13784169.0
CAPITAO DERRITE,2023,Sa√∫de,S√ÉO PAULO (UF),,SP,420000.0,0.0,0.0
CAPITAO DERRITE,2023,Encargos especiais,M√öLTIPLO,,,11178387.0,11178387.0,11178387.0
CAPITAO DERRITE,2023,Sa√∫de,ALUM√çNIO - SP,ALUM√çNIO,SP,244566.0,244566.0,244566.0


O Guilherme Derrite est√° com diverg√™ncia entre as nomenclaturas e esses casos n√£o conseguiram ser avaliados em nossas an√°lises.

Ao todo s√£o 29 deputados federais que n√£o vamos conseguir identificar nenhuma emendas em nossa tabela fato.

## Dim_Tempo (Quando)

### üìÖ Dimens√£o: Dim_Tempo

| Coluna    | Descri√ß√£o                                           | Tipo de Dado | Observa√ß√µes |
|-----------|------------------------------------------------------|--------------|-------------|
| sk_tempo  | Chave substituta (surrogate key) da dimens√£o tempo.  | BIGINT       | Gerada na camada Gold |
| ano       | Ano de refer√™ncia da emenda parlamentar.             | INT          | Granularidade anual |


In [0]:
# Constru√ß√£o da Dim_Tempo
df_dim_tempo = (
    emendas_silver
    .select(F.col("ano").cast("int").alias("ano"))
    .dropDuplicates()
    .withColumn("sk_tempo", F.monotonically_increasing_id())
    .select(
        "sk_tempo",
        "ano"
    )
)

In [0]:
df_dim_tempo.display()

sk_tempo,ano
0,2023
1,2024
2,2025


In [0]:
(
    df_dim_tempo
    .write
    .mode("overwrite")
    .format("delta")
    .saveAsTable("mvp.gold.dim_tempo")
)

In [0]:
spark.sql("""
COMMENT ON TABLE mvp.gold.dim_tempo IS
'Dimens√£o tempo com granularidade anual, utilizada para an√°lises temporais das emendas parlamentares.'
""")

DataFrame[]

In [0]:
spark.sql("""
COMMENT ON COLUMN mvp.gold.dim_tempo.sk_tempo IS
'Chave substituta (surrogate key) da dimens√£o tempo, gerada na camada Gold.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.dim_tempo.ano IS
'Ano de refer√™ncia da emenda parlamentar. (Valores v√°lidos: 2023, 2024 e 2025)'
""")

DataFrame[]

## Dim_Localidade (Onde)

### üó∫Ô∏è Dimens√£o: Dim_Localidade

| Coluna             | Descri√ß√£o                                                        | Tipo de Dado | Observa√ß√µes |
|--------------------|------------------------------------------------------------------|--------------|-------------|
| sk_localidade      | Chave substituta (surrogate key) da dimens√£o de localidade.     | BIGINT       | Gerada na camada Gold |
| localidade_destino   | Nome original da localidade ou regionaliza√ß√£o do gasto.         | STRING       | Informa√ß√£o conforme fonte |
| municipio_destino  | Nome do munic√≠pio de destino do recurso, quando aplic√°vel.     | STRING       | Pode ser nula|
| uf_destino         | Sigla da Unidade da Federa√ß√£o de destino, quando aplic√°vel.     | STRING       | Pode ser nula |



In [0]:
# Constru√ß√£o da Dim_Localidade
df_dim_localidade = (
    emendas_silver
    .select(
        F.col("localidade_destino"),
        F.col("municipio_destino"),
        F.col("uf_destino")
    )
    .dropDuplicates([
        "localidade_destino",
        "municipio_destino",
        "uf_destino"
    ])
    .withColumn("sk_localidade", F.monotonically_increasing_id())
    .select(
        "sk_localidade",
        "localidade_destino",
        "municipio_destino",
        "uf_destino"
    )
)

In [0]:
(
    df_dim_localidade
    .write
    .mode("overwrite")
    .format("delta")
    .saveAsTable("mvp.gold.dim_localidade")
)

In [0]:
spark.sql("""
COMMENT ON TABLE mvp.gold.dim_localidade IS
'Dimens√£o de localidade que descreve o destino geogr√°fico dos recursos das emendas parlamentares, incluindo localidades nacionais, regionais, municipais ou estaduais.'
""")

DataFrame[]

In [0]:
spark.sql("""
COMMENT ON COLUMN mvp.gold.dim_localidade.sk_localidade IS
'Chave substituta (surrogate key) da dimens√£o de localidade, gerada na camada Gold.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.dim_localidade.localidade_destino IS
'Nome da localidade ou regionaliza√ß√£o do gasto conforme informado na fonte de dados.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.dim_localidade.municipio_destino IS
'Nome do munic√≠pio de destino do recurso, quando aplic√°vel. Pode ser nula para localidades estaduais, regionais ou nacionais.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.dim_localidade.uf_destino IS
'Sigla da Unidade da Federa√ß√£o de destino do recurso, quando aplic√°vel. Pode ser nula para localidades nacionais ou regionais.'
""")

DataFrame[]

In [0]:
%sql
select *
from mvp.gold.dim_localidade
limit 5

sk_localidade,localidade_destino,municipio_destino,uf_destino
0,JAPARATINGA - AL,JAPARATINGA,AL
1,CRATO - CE,CRATO,CE
2,TAMBORIL - CE,TAMBORIL,CE
3,ITAPOROROCA - PB,ITAPOROROCA,PB
4,VOTORANTIM - SP,VOTORANTIM,SP


## Dim_Or√ßamento (Para qu√™)


### üí∞ Dimens√£o: Dim_Orcamento

| Coluna        | Descri√ß√£o                                                        | Tipo de Dado | Observa√ß√µes |
|---------------|------------------------------------------------------------------|--------------|-------------|
| sk_orcamento  | Chave substituta (surrogate key) da dimens√£o de or√ßamento.       | BIGINT       | Gerada na camada Gold |
| funcao        | Fun√ß√£o or√ßament√°ria de alto n√≠vel que representa a √°rea tem√°tica | STRING       | Coluna chave para an√°lise |


In [0]:
# Constru√ß√£o da Dim_Orcamento
df_dim_orcamento = (
    emendas_silver
    .select(
        F.col("funcao").alias("funcao")
    )
    .filter(F.col("funcao").isNotNull())
    .dropDuplicates()
    .withColumn("sk_orcamento", F.monotonically_increasing_id())
    .select(
        "sk_orcamento",
        "funcao"
    )
)

In [0]:
(
    df_dim_orcamento
    .write
    .mode("overwrite")
    .format("delta")
    .saveAsTable("mvp.gold.dim_orcamento")
)

In [0]:
spark.sql("""
COMMENT ON TABLE mvp.gold.dim_orcamento IS
'Dimens√£o de or√ßamento que consolida as fun√ß√µes or√ßament√°rias, representando a √°rea tem√°tica de destina√ß√£o dos recursos.'
""")


DataFrame[]

In [0]:
spark.sql("""
COMMENT ON COLUMN mvp.gold.dim_orcamento.sk_orcamento IS
'Chave substituta (surrogate key) da dimens√£o de or√ßamento, gerada na camada Gold.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.dim_orcamento.funcao IS
'Fun√ß√£o or√ßament√°ria de alto n√≠vel que representa a √°rea tem√°tica da destina√ß√£o dos recursos (ex.: Sa√∫de, Educa√ß√£o).'
""")

DataFrame[]

In [0]:
%sql
select *
from mvp.gold.dim_orcamento
limit 5

sk_orcamento,funcao
0,M√∫ltiplo
1,Organiza√ß√£o agr√°ria
2,Desporto e lazer
3,Ci√™ncia e Tecnologia
4,Encargos especiais


# Cria√ß√£o da tabela fato

## Fato_Emenda

### üìä Tabela Fato: Fato_Emenda

| Coluna            | Descri√ß√£o                                               | Tipo de Dado        | Chave | Origem |
|-------------------|---------------------------------------------------------|---------------------|-------|--------|
| id_emenda         | Identificador √∫nico do registro da emenda.              | BIGINT              | PK    | Gerada |
| sk_parlamentar    | Chave estrangeira para a Dim_Parlamentar.               | BIGINT              | FK    | Dim_Parlamentar |
| sk_tempo          | Chave estrangeira para a Dim_Tempo.                     | BIGINT              | FK    | Dim_Tempo |
| sk_localidade     | Chave estrangeira para a Dim_Localidade.                | BIGINT              | FK    | Dim_Localidade |
| sk_orcamento      | Chave estrangeira para a Dim_Orcamento.                 | BIGINT              | FK    | Dim_Orcamento |
| valor_empenhado   | Valor total empenhado da emenda.                        | DECIMAL(18,2)       | M√©trica | Silver |
| valor_liquidado   | Valor total liquidado da emenda.                        | DECIMAL(18,2)       | M√©trica | Silver |
| valor_pago        | Valor total pago da emenda.                             | DECIMAL(18,2)       | M√©trica | Silver |


In [0]:
df_dim_parlamentar = spark.read.table("mvp.gold.dim_parlamentar")
df_dim_tempo = spark.read.table("mvp.gold.dim_tempo")
df_dim_localidade = spark.read.table("mvp.gold.dim_localidade")
df_dim_orcamento = spark.read.table("mvp.gold.dim_orcamento")

In [0]:
df_fato_emenda = (
    emendas_silver
    # Parlamentar
    .join(
        df_dim_parlamentar,
        on="nome_parlamentar",
        how="inner"
    )
    # Tempo
    .join(
        df_dim_tempo,
        on="ano",
        how="left"
    )
    # Localidade
    .join(
        df_dim_localidade,
        on=["localidade_destino"],
        how="left"
    )
    # Or√ßamento
    .join(
        df_dim_orcamento,
        on="funcao",
        how="left"
    )
)

In [0]:
df_fato_emenda = (
    df_fato_emenda
    .select(
        F.monotonically_increasing_id().alias("id_emenda"),
        "sk_parlamentar",
        "sk_tempo",
        "sk_localidade",
        "sk_orcamento",
        F.col("valor_empenhado").cast("decimal(18,2)").alias("valor_empenhado"),
        F.col("valor_liquidado").cast("decimal(18,2)").alias("valor_liquidado"),
        F.col("valor_pago").cast("decimal(18,2)").alias("valor_pago")
    )
)

In [0]:
(
    df_fato_emenda
    .write
    .mode("overwrite")
    .format("delta")
    .saveAsTable("mvp.gold.fato_emenda")
)

In [0]:
spark.sql("""
COMMENT ON TABLE mvp.gold.fato_emenda IS
'Tabela fato de emendas parlamentares que registra as m√©tricas financeiras e se conecta √†s dimens√µes de parlamentar, tempo, localidade e or√ßamento.'
""")

DataFrame[]

In [0]:
spark.sql("""
COMMENT ON COLUMN mvp.gold.fato_emenda.id_emenda IS
'Identificador √∫nico do registro da emenda, gerado na camada Gold.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.fato_emenda.sk_parlamentar IS
'Chave estrangeira para a Dim_Parlamentar.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.fato_emenda.sk_tempo IS
'Chave estrangeira para a Dim_Tempo.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.fato_emenda.sk_localidade IS
'Chave estrangeira para a Dim_Localidade.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.fato_emenda.sk_orcamento IS
'Chave estrangeira para a Dim_Orcamento.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.fato_emenda.valor_empenhado IS
'Valor financeiro empenhado da emenda parlamentar.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.fato_emenda.valor_liquidado IS
'Valor financeiro liquidado da emenda parlamentar.'
""")

spark.sql("""
COMMENT ON COLUMN mvp.gold.fato_emenda.valor_pago IS
'Valor financeiro efetivamente pago da emenda parlamentar.'
""")

DataFrame[]

In [0]:
# Verificar FKs nulas (problema de join)
spark.table("mvp.gold.fato_emenda") \
    .select(
        F.sum(F.col("sk_parlamentar").isNull().cast("int")).alias("parlamentar_null"),
        F.sum(F.col("sk_tempo").isNull().cast("int")).alias("tempo_null"),
        F.sum(F.col("sk_localidade").isNull().cast("int")).alias("localidade_null"),
        F.sum(F.col("sk_orcamento").isNull().cast("int")).alias("orcamento_null")
    ) \
    .display()

parlamentar_null,tempo_null,localidade_null,orcamento_null
0,0,0,0


In [0]:
%sql
select *
from mvp.gold.fato_emenda
limit 5

id_emenda,sk_parlamentar,sk_tempo,sk_localidade,sk_orcamento,valor_empenhado,valor_liquidado,valor_pago
0,330,1,968,22,614604.0,0.0,0.0
1,485,1,743,21,12113873.0,4854777.0,4854777.0
2,243,1,627,21,3836834.98,1720960.07,527236.07
3,317,1,743,21,5145725.0,0.0,0.0
4,215,0,181,17,249923.36,231968.87,228774.79
