
# Notebook de Ingestão de Dados - Camada Bronze

Este notebook tem como objetivo realizar a ingestão de dados para a camada bronze, responsável por armazenar os dados brutos provenientes das fontes originais. Os dados adicionados neste processo são provenientes do portal de transparência do governo federal.

Serão armazenados dois conjuntos de dados:
- As emendas parlamentares, referentes aos anos de 2023 até 2025, que foram adicionadas diretamente pelo carregamento de três arquivos CSV na camada staging.
- Os parlamentares em exercício de 2023 a 2026, obtidos via requisições e ingeridos neste notebook.

# Configuração do Ambiente

## Carregando bibliotecas

In [0]:
import requests
from PIL import Image
import unicodedata
from IPython.display import display

# Criando tabelas com os dados

## Parlamentares

In [0]:
# Url para requisição de deputados em exercício
url = "https://dadosabertos.camara.leg.br/api/v2/deputados"

# Pegando todos os deputados em exercício (mandato atual)
params = {
    "ordem": "ASC",
    "ordenarPor": "nome",
    "pagina": 1,
    "itens": 100
}

todos = []
while True:
    resp = requests.get(url, params=params)
    resp.raise_for_status()

    dados = resp.json()["dados"]
    todos.extend(dados)

    # Verifica se acabou a paginação
    if "links" in resp.json():
        next_link = [lnk for lnk in resp.json()["links"] if lnk["rel"] == "next"]
        if next_link:
            params["pagina"] += 1
        else:
            break
    else:
        break

# Converter JSON para Spark DataFrame
df_parlamentares = spark.createDataFrame(todos)

# Gravar no bronze (Delta)
df_parlamentares.write \
  .format("delta") \
  .mode("overwrite") \
  .saveAsTable("mvp.bronze.parlamentares")


In [0]:
df_parlamentares.count()

512

In [0]:
df_parlamentares.limit(5).display()

email,id,idLegislatura,nome,siglaPartido,siglaUf,uri,uriPartido,urlFoto
dep.acaciofavacho@camara.leg.br,204379,57,Acácio Favacho,MDB,AP,https://dadosabertos.camara.leg.br/api/v2/deputados/204379,https://dadosabertos.camara.leg.br/api/v2/partidos/36899,https://www.camara.leg.br/internet/deputado/bandep/204379.jpg
dep.adailfilho@camara.leg.br,220714,57,Adail Filho,REPUBLICANOS,AM,https://dadosabertos.camara.leg.br/api/v2/deputados/220714,https://dadosabertos.camara.leg.br/api/v2/partidos/37908,https://www.camara.leg.br/internet/deputado/bandep/220714.jpg
dep.adolfoviana@camara.leg.br,204560,57,Adolfo Viana,PSDB,BA,https://dadosabertos.camara.leg.br/api/v2/deputados/204560,https://dadosabertos.camara.leg.br/api/v2/partidos/36835,https://www.camara.leg.br/internet/deputado/bandep/204560.jpg
dep.adrianaventura@camara.leg.br,204528,57,Adriana Ventura,NOVO,SP,https://dadosabertos.camara.leg.br/api/v2/deputados/204528,https://dadosabertos.camara.leg.br/api/v2/partidos/37901,https://www.camara.leg.br/internet/deputado/bandep/204528.jpg
dep.adrianodobaldy@camara.leg.br,121948,57,Adriano do Baldy,PP,GO,https://dadosabertos.camara.leg.br/api/v2/deputados/121948,https://dadosabertos.camara.leg.br/api/v2/partidos/37903,https://www.camara.leg.br/internet/deputado/bandep/121948.jpg


In [0]:
%sql
SELECT *
FROM mvp.bronze.parlamentares
WHERE email LIKE "%glauber%"

email,id,idLegislatura,nome,siglaPartido,siglaUf,uri,uriPartido,urlFoto


O deputado que não está contido na base foi o deputado que foi suspenso pela câmara dos deputados

https://g1.globo.com/politica/noticia/2025/12/10/camara-suspende-por-seis-meses-deputado-glauber-braga-deputado-era-alvo-de-processo-de-cassacao.ghtml


> Tabela criada com sucesso contendo 512 linhas, correspondente ao número de deputados federais no Brasil.  
> Para esses deputados, foram ingeridas as seguintes colunas:
> - email
> - id
> - idLegislatura (57 é o mandato atual do Brasil)
> - nome
> - siglaPartido
> - siglaUF
> - uri
> - uriPartido
> - uriFoto

In [0]:
spark.sql("""
COMMENT ON TABLE mvp.bronze.parlamentares IS 
'Tabela de parlamentares em exercício na legislatura 57 (2023-2026), contendo informações como nome, partido, UF, email, foto e outros dados relevantes.'
""")

DataFrame[]

In [0]:
spark.sql("""
COMMENT ON COLUMN mvp.bronze.parlamentares.email IS 'Endereço de email institucional do parlamentar.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.parlamentares.id IS 'Identificador único do parlamentar na base da Câmara dos Deputados.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.parlamentares.idLegislatura IS 'Identificador da legislatura (57 corresponde ao mandato atual 2023-2026).'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.parlamentares.nome IS 'Nome completo do parlamentar.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.parlamentares.siglaPartido IS 'Sigla do partido ao qual o parlamentar está filiado.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.parlamentares.siglaUF IS 'Sigla da unidade federativa (estado) de representação do parlamentar.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.parlamentares.uri IS 'URL de referência para o parlamentar na API da Câmara dos Deputados.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.parlamentares.uriPartido IS 'URL de referência para o partido do parlamentar na API da Câmara dos Deputados.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.parlamentares.urlFoto IS 'URL da foto oficial do parlamentar.'
""")

DataFrame[]

## Emendas


As emendas parlamentares foram adicionadas a camada staging do catalógo do mvp e será carregada no schema bronze por meio do spark.

In [0]:
df_emendas = (
    spark.read
        .option("header", True)
        .option("sep", ";")
        .csv("dbfs:/Volumes/mvp/staging/emendas/emendas_*.csv")
)

In [0]:
df_emendas.count()

18739

In [0]:
df.limit(5).display()

Ano,Tipo_de_Emenda,Autor_da_emenda,Numero_da_emenda,Possui_Apoiador_Solicitante_,Localidade_do_gasto__Regionalizacao_,Funcao,Subfuncao,Programa_Orcamentario,Acao_Orcamentaria,Plano_Orcamentario,Codigo_da_emenda,Valor_empenhado,Valor_liquidado,Valor_pago,Valor_Restos_a_Pagar_Inscritos,Valor_Restos_a_Pagar_Cancelados,Valor_Restos_a_Pagar_Pagos,_c18
2023,Emenda Individual - Transferências com Finalidade Definida,3767 - TADEU ALENCAR,4,Não se aplica,BODOCÓ - PE,Saúde,Assistência hospitalar e ambulatorial,5018 - ATENCAO ESPECIALIZADA A SAUDE,8535 - ESTRUTURACAO DE UNIDADES DE ATENCAO ESPECIALIZADA EM SAUDE,ESTRUTURACAO DE UNIDADES DE ATENCAO ESPECIALIZADA EM SAUDE - DESPESAS DIVERSAS,202337670004,"6.467,00","6.467,00","6.467,00",000,0,000,
2023,Emenda Individual - Transferências com Finalidade Definida,4028 - JUNIOR MANO,6,Não se aplica,TURURU - CE,Saúde,Atenção básica,5019 - ATENCAO PRIMARIA A SAUDE,8581 - ESTRUTURACAO DA REDE DE SERVICOS DE ATENCAO PRIMARIA A SAUDE E SAUDE BUCAL,ESTRUTURACAO DA REDE DE SERVICOS DE ATENCAO PRIMARIA A SAUDE - DESPESAS DIVERSAS,202340280006,"24.570,00","24.570,00","24.570,00",000,0,000,
2023,Emenda de Comissão,6003 - COM. CONST. JUSTICA E CIDADANIA,4,Não,Nacional,Direitos da cidadania,"Direitos individuais, coletivos e difusos",5015 - JUSTICA,2334 - PROTECAO E DEFESA DO CONSUMIDOR,PROTECAO E DEFESA DO CONSUMIDOR - DESPESAS DIVERSAS,202360030004,"25.000,00",000,000,000,0,"25.000,00",
2023,Emenda de Comissão,5013 - COM. DEFESA DO CONSUMIDOR,3,Não,Nacional,Direitos da cidadania,"Direitos individuais, coletivos e difusos",5015 - JUSTICA,2334 - PROTECAO E DEFESA DO CONSUMIDOR,PROTECAO E DEFESA DO CONSUMIDOR - DESPESAS DIVERSAS,202350130003,"25.000,00",000,000,"25.000,00",0,000,
2023,Emenda Individual - Transferências com Finalidade Definida,2885 - HUMBERTO COSTA,13,Não se aplica,PERNAMBUCO (UF),Educação,Ensino profissional,5012 - EDUCACAO PROFISSIONAL E TECNOLOGICA,"20RL - FUNCIONAMENTO DAS INSTITUICOES DA REDE FEDERAL DE EDUCACAO PROFISSIONAL, CIENTIFICA E TECNOLOGICA","FUNCIONAMENTO DAS INSTITUICOES DA REDE FEDERAL DE EDUCACAO PROFISSIONAL, CIENTIFICA E TECNOLOGICA",202328850013,"38.997,44","9.995,44","9.871,44","28.451,10",0,67490,


In [0]:

# Tratamento de texto das colunas para serem salvas na camada bronze
def remover_acentos(col):
    return ''.join(
        c for c in unicodedata.normalize('NFKD', col)
        if not unicodedata.combining(c)
    )

df = df.toDF(*[
    remover_acentos(col)
    .replace(' ', '_')
    .replace('/', '_')
    .replace('(', '_')
    .replace(')', '_')
    .replace('?', '_')
    for col in df.columns
])
df.write.format("delta").mode("overwrite").saveAsTable("mvp.bronze.emendas")

In [0]:
%sql
select *
from mvp.bronze.emendas
limit 5

Ano,Tipo_de_Emenda,Autor_da_emenda,Numero_da_emenda,Possui_Apoiador_Solicitante_,Localidade_do_gasto__Regionalizacao_,Funcao,Subfuncao,Programa_Orcamentario,Acao_Orcamentaria,Plano_Orcamentario,Codigo_da_emenda,Valor_empenhado,Valor_liquidado,Valor_pago,Valor_Restos_a_Pagar_Inscritos,Valor_Restos_a_Pagar_Cancelados,Valor_Restos_a_Pagar_Pagos,_c18
2023,Emenda Individual - Transferências com Finalidade Definida,3767 - TADEU ALENCAR,4,Não se aplica,BODOCÓ - PE,Saúde,Assistência hospitalar e ambulatorial,5018 - ATENCAO ESPECIALIZADA A SAUDE,8535 - ESTRUTURACAO DE UNIDADES DE ATENCAO ESPECIALIZADA EM SAUDE,ESTRUTURACAO DE UNIDADES DE ATENCAO ESPECIALIZADA EM SAUDE - DESPESAS DIVERSAS,202337670004,"6.467,00","6.467,00","6.467,00",000,0,000,
2023,Emenda Individual - Transferências com Finalidade Definida,4028 - JUNIOR MANO,6,Não se aplica,TURURU - CE,Saúde,Atenção básica,5019 - ATENCAO PRIMARIA A SAUDE,8581 - ESTRUTURACAO DA REDE DE SERVICOS DE ATENCAO PRIMARIA A SAUDE E SAUDE BUCAL,ESTRUTURACAO DA REDE DE SERVICOS DE ATENCAO PRIMARIA A SAUDE - DESPESAS DIVERSAS,202340280006,"24.570,00","24.570,00","24.570,00",000,0,000,
2023,Emenda de Comissão,6003 - COM. CONST. JUSTICA E CIDADANIA,4,Não,Nacional,Direitos da cidadania,"Direitos individuais, coletivos e difusos",5015 - JUSTICA,2334 - PROTECAO E DEFESA DO CONSUMIDOR,PROTECAO E DEFESA DO CONSUMIDOR - DESPESAS DIVERSAS,202360030004,"25.000,00",000,000,000,0,"25.000,00",
2023,Emenda de Comissão,5013 - COM. DEFESA DO CONSUMIDOR,3,Não,Nacional,Direitos da cidadania,"Direitos individuais, coletivos e difusos",5015 - JUSTICA,2334 - PROTECAO E DEFESA DO CONSUMIDOR,PROTECAO E DEFESA DO CONSUMIDOR - DESPESAS DIVERSAS,202350130003,"25.000,00",000,000,"25.000,00",0,000,
2023,Emenda Individual - Transferências com Finalidade Definida,2885 - HUMBERTO COSTA,13,Não se aplica,PERNAMBUCO (UF),Educação,Ensino profissional,5012 - EDUCACAO PROFISSIONAL E TECNOLOGICA,"20RL - FUNCIONAMENTO DAS INSTITUICOES DA REDE FEDERAL DE EDUCACAO PROFISSIONAL, CIENTIFICA E TECNOLOGICA","FUNCIONAMENTO DAS INSTITUICOES DA REDE FEDERAL DE EDUCACAO PROFISSIONAL, CIENTIFICA E TECNOLOGICA",202328850013,"38.997,44","9.995,44","9.871,44","28.451,10",0,67490,


> A carga das emendas parlamentares foi realizada corretamente, contendo 18739 linhas e as seguintes colunas:
> - Ano: Foram carregados os anos 2023, 2024 e 2025
> - Tipo de Emenda
> - Autor da emenda
> - Número da emenda
> - Possui Apoiador/Solicitante?
> - Localidade do gasto (Regionalização)
> - Função
> - Subfunção
> - Programa Orçamentário
> - Ação Orçamentária
> - Plano Orçamentário
> - Código da emenda
> - Valor empenhado
> - Valor liquidado
> - Valor pago
> - Valor Restos a Pagar Inscritos
> - Valor Restos a Pagar Cancelados
> - Valor Restos a Pagar Pagos
> - _c18

In [0]:
spark.sql("""
COMMENT ON TABLE mvp.bronze.emendas IS 
'Tabela de emendas parlamentares do período de 2023 até 2025, contendo informações sobre os gastos realizados, o parlamentar autor da emenda, a função associada, além de outros detalhes relevantes das emendas.'
""")

DataFrame[]

In [0]:
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Ano IS 'Ano da emenda parlamentar (2023, 2024 ou 2025).'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Tipo_de_Emenda IS 'Tipo da emenda parlamentar apresentada.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Autor_da_emenda IS 'Nome do parlamentar autor da emenda.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Numero_da_emenda IS 'Número identificador da emenda parlamentar.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Possui_Apoiador_Solicitante_ IS 'Indica se a emenda possui apoiador ou solicitante.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Localidade_do_gasto__Regionalizacao_ IS 'Localidade ou região onde o gasto da emenda foi realizado.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Funcao IS 'Função orçamentária associada à emenda.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Subfuncao IS 'Subfunção orçamentária associada à emenda.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Programa_Orcamentario IS 'Programa orçamentário relacionado à emenda.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Acao_Orcamentaria IS 'Ação orçamentária relacionada à emenda.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Plano_Orcamentario IS 'Plano orçamentário vinculado à emenda.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Codigo_da_emenda IS 'Código identificador da emenda parlamentar.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Valor_empenhado IS 'Valor empenhado na emenda parlamentar.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Valor_liquidado IS 'Valor liquidado referente à emenda parlamentar.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Valor_pago IS 'Valor pago referente à emenda parlamentar.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Valor_Restos_a_Pagar_Inscritos IS 'Valor de restos a pagar inscritos na emenda.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Valor_Restos_a_Pagar_Cancelados IS 'Valor de restos a pagar cancelados na emenda.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas.Valor_Restos_a_Pagar_Pagos IS 'Valor de restos a pagar pagos na emenda.'
""")
spark.sql("""
COMMENT ON COLUMN mvp.bronze.emendas._c18 IS 'Coluna residual do processo de carga.'
""")

DataFrame[]