## CabeÃ§alho
### Objetivo

FunÃ§Ãµes para a extraÃ§Ã£o dos dados das APIs de dados abertos da CÃ¢mara dos Deputados.

ApÃ³s extraÃ§Ã£o, cada funÃ§Ã£o serÃ¡ acionada nos respectivos notebooks.

### Sobre
**Data de criÃ§Ã£o:** 26/09/2025

**ResponsÃ¡vel:** Wandrieli Nery Barbosa

In [0]:
%run /Users/wandrieli.89@gmail.com/projeto_tiller/Parametros/nb_parametros

In [0]:
%run /Users/wandrieli.89@gmail.com/projeto_tiller/Parametros/nb_catalag_schema

In [0]:
#DefiniÃ§Ã£o do catalog e schema bronze (importado)
set_catalog_and_schema_bronze(catalog="tiller", schema="bronze")

RequisiÃ§Ã£o segura

In [0]:
#FunÃ§Ã£o segura para extraÃ§Ã£o com retry e tratamento de erro 
def safe_get(url, params, tentativas=3, espera=5, timeout=30):
    
    """
    Busca segura necessÃ¡ria para novas requisiÃ§Ãµes e tratamento de erros (erros de timeout)
    """

    for i in range(tentativas):
        try:
            response = requests.get(
                url, params=params, headers={"accept": "application/json"}, timeout=timeout
            )
            response.raise_for_status()
            return response
        except requests.exceptions.HTTPError as e:
            print(f"[ERRO HTTP] Tenativa {i+1}/{tentativas} - {e}")
        except requests.exceptions.RequestException as e:
            print(f"[ERRO REDE] Tenativa {i+1}/{tentativas} - {e}")
        time.sleep(espera)
    print(f"Falha ao acessar {url} com params={params}")
    return None

FunÃ§Ãµes nb_deputados

In [0]:
URL_DEPUTADOS = "https://dadosabertos.camara.leg.br/api/v2/deputados"

def get_deputados(pagina=1, itens=100):
   
    """
    RequisiÃ§Ã£o para API
    pagina: nÃºmero da pÃ¡gina
    itens: nÃºmero de itens por pÃ¡gina (mÃ¡x 100)
    Retorna a lista de deputados
    """

    url = f"{URL_DEPUTADOS}?pagina={pagina}&itens={itens}"
    response = requests.get(url, headers={"accept": "application/json"})
    response.raise_for_status()
    return response.json()["dados"]


def get_all_deputados(itens_por_pagina=100, limite_paginas=None):
    
    """
    Busca todos os deputados da API (com paginaÃ§Ã£o).
    itens_por_pagina: mÃ¡ximo de registros por pÃ¡gina (default 100)
    limite_paginas: Quais pÃ¡ginas, onde None = todas disponÃ­veis
    lista todos os deputados
    """

    deputados = []
    pagina = 1
    while True:
        dados = get_deputados(pagina=pagina, itens=itens_por_pagina)
        if not dados:  
            break
        deputados.extend(dados)
        pagina += 1
        if limite_paginas and pagina > limite_paginas:
            break
    return deputados


def deputados_to_dataframe(deputados):
    
    """
    Converte lista de deputados para DataFrame Spark.
    """

    df =  spark.createDataFrame(deputados) 

    df = df.withColumn('data_ingestao', F.lit(datetime.now())) #adicionando as colunas de metadados
    df = df.withColumn("url_origem", F.lit(URL_DEPUTADOS)) #adicionando as colunas de metadados

    return df


FunÃ§Ãµes nb_proposicoes

In [0]:
URL_PROPOSICOES = "https://dadosabertos.camara.leg.br/api/v2/proposicoes"



def get_proposicoes(pagina=1, itens =100, ano=None, siglaTipo=None):
    
    """
    Busca a lista de proposiÃ§Ãµes da API.
    pagina: nÃºmero da pÃ¡gina (ObrigatÃ³rio)
    itens: nÃºmero de itens por pÃ¡gina (mÃ¡x 100) (ObrigatÃ³rio)
    ano: ano da proposiÃ§Ã£o (opcional)
    siglaTipo: sigla do tipo da proposiÃ§Ã£o (opcional)
    return: retorna a lista de proposiÃ§Ãµes
    """

    params = {k: v for k, v in {
        "pagina": pagina,
        "itens": itens,
        "ano": ano,
        "siglaTipo": siglaTipo
    }.items() if v is not None
    }
    response = requests.get(URL_PROPOSICOES, params=params)
    if not response:
        return []

    return response.json()["dados"]

def get_all_proposicoes(itens_por_pagina=100, limite_paginas=None, ano=None, siglaTipo=None):
    
    """
    Busca a lista de proposiÃ§Ãµes, considerando a paginaÃ§Ã£o.
    itens_por_pagina: mÃ¡ximo de registros por pÃ¡gina (default 100)
    limite_paginas: Quais pÃ¡ginas, onde None = todas disponÃ­veis
    ano: ano da proposiÃ§Ã£o (opcional)
    siglaTipo: sigla do tipo da proposiÃ§Ã£o (opcional)
    return: lista de proposiÃ§Ãµes
    """

    proposicoes = []
    pagina = 1
    while True:
        dados = get_proposicoes(pagina=pagina, itens=itens_por_pagina, ano=ano, siglaTipo=siglaTipo)
        if not dados:
            break
        proposicoes.extend(dados)
        print(f"PÃ¡gina {pagina} carregada ({len(dados)} registros)")
        pagina += 1
        if limite_paginas and pagina > limite_paginas:
            break
    return proposicoes
    
def proposicoes_to_dataframe(proposicoes):
    
    """
    Converte lista de proposiÃ§Ãµes para DataFrame Spark.
    """

    df = spark.createDataFrame(proposicoes)

    df = df.withColumn('data_ingestao', F.lit(datetime.now())) #adicionando as colunas de metadados
    df = df.withColumn("url_origem", F.lit(URL_PROPOSICOES)) #adicionando as colunas de metadados

    return df

FunÃ§Ãµes nb_votacoes

In [0]:
URL_VOTACOES = "https://dadosabertos.camara.leg.br/api/v2/votacoes"


def get_votacoes(pagina=1, itens=100,dataInicio=None, dataFim=None):
    """
    Busca votaÃ§Ãµes por pÃ¡gina.
    """

    params = {k: v for k, v in{
        "pagina": pagina,
        "itens": itens,
        "dataInicio": dataInicio,
        "dataFim": dataFim
    }.items() if v is not None}

    response = safe_get(URL_VOTACOES, params=params)
    if not response:
        return []

    return response.json()["dados"]

def get_all_votacoes(itens_pagina=100, limite_pagina=None, dataInicio=None, dataFim=None):

    """
    Busca todas as votaÃ§Ãµes da CÃ¢mara com paginaÃ§Ã£o
    """

    votacoes = []
    pagina = 1
    while True:
        dados = get_votacoes(pagina=pagina, itens=itens_pagina, dataInicio=dataInicio, dataFim=dataFim)
        if not dados:
            break
        votacoes.extend(dados)
        print(f"PÃ¡gina {pagina} carregada ({len(dados)} registros)")
        pagina +=1
        if limite_pagina and pagina > limite_pagina:
            break
    return votacoes
    
def votacoes_to_dataframe(votacoes):

    """
    Converte lista de votaÃ§Ãµes para DataFrame Spark.
    """

    df = spark.createDataFrame(votacoes)

    df = df.withColumn('data_ingestao', F.lit(datetime.now())) #adicionando as colunas de metadados
    df = df.withColumn("url_origem", F.lit(URL_VOTACOES)) #adicionando as colunas de metadados

    return df

FunÃ§Ãµes nb_eventos

In [0]:
URL_EVENTOS = "https://dadosabertos.camara.leg.br/api/v2/eventos"


def get_eventos(pagina=1, itens=100, dataInicio=None, dataFim=None):

    """
    Busca eventos da API da CÃ¢mara.
    pagina: nÃºmero da pÃ¡gina (obrigatÃ³rio)
    itens: nÂº mÃ¡ximo de registros por pÃ¡gina (mÃ¡x=100)
    dataInicio: filtrar a partir desta data (yyyy-mm-dd)
    dataFim: filtrar atÃ© esta data (yyyy-mm-dd)
    """

    params = {
        "pagina": pagina,
        "itens": itens,
        "dataInicio": dataInicio,
        "dataFim": dataFim
    }
    params = {k: v for k, v in params.items() if v is not None}

    response = safe_get(URL_EVENTOS, params=params)
    if not response:
        return []
    return response.json()["dados"]


def get_all_eventos(itens_por_pagina=100, limite_paginas=None, dataInicio=None, dataFim=None):

    """
    Lista todos os eventos (com paginaÃ§Ã£o)
    """

    eventos = []
    pagina = 1
    while True:
        dados = get_eventos(pagina=pagina, itens=itens_por_pagina,
                            dataInicio=dataInicio, dataFim=dataFim)
        if not dados:
            break
        eventos.extend(dados)
        print(f"PÃ¡gina {pagina} carregada ({len(dados)} registros)")
        pagina += 1
        if limite_paginas and pagina > limite_paginas:
            break
    return eventos



def eventos_to_dataframe(eventos):
    
    """
    Converte lista de eventos para DataFrame Spark.
    """

    df = spark.createDataFrame(eventos)
    df = df.withColumn("data_ingestao", F.lit(datetime.now())) #adicionando as colunas de metadados
    df = df.withColumn("url_origem", F.lit(URL_EVENTOS)) #adicionando as colunas de metadados
    return df

FunÃ§Ã£o - Salva Dados

In [0]:
def save_data(df, tabela="dados_bronze"):
    
    """
    Salva o DataFrame como tabela no Databricks.
    tabela: Nome da tabela a ser criada
    """
    
    spark.sql(f'DROP TABLE IF EXISTS {tabela}')
    df.write.saveAsTable(tabela)
    print(f"Tabela '{tabela}' criada/atualizada com sucesso!") #validaÃ§Ãµes dos parÃ¢metros

FunÃ§Ãµes nb_despesas

In [0]:
path_volume = "/Volumes/tiller/information_schema/volume_tiller/"

def load_despesas_csv(path_volume):
    """
    LÃª todos os arquivos CSV do volume informado
    """
    try:
        print(f"Lendo arquivos CSV do volume: {path_volume}")

        
        df = (
        spark.read # LÃª os arquivos CSV usando o spark.read
        .option("header", "true")
        .option("inferSchema", "true")
        .option("sep", ";")     
        .csv(f"{path_volume}/*.csv")
    )
        
        for col in df.columns:
            clean_col = (
                col.strip()
                .replace(" ", "_") # Corrige nomes de colunas
                .replace(";", "_")
                .replace("(", "")
                .replace(")", "")
            )
            if clean_col != col:
                df = df.withColumnRenamed(col, clean_col)

        
        df = df.withColumn("fonte_arquivo", F.col("_metadata.file_path")) # Adiciona a coluna de origem 

        print("Arquivos CSV lidos e colunas tratadas com sucesso!")
        return df

    except Exception as e:
        print(f"Erro na leitura dos arquivos CSV: {e}")
        return None
    
def process_despesas_bronze():
    """
    Processa e salva os arquivos no formato Delta.
    """
    try:
        despesas = load_despesas_csv("/Volumes/tiller/information_schema/volume_tiller/")

        # ðŸ§© Se nÃ£o conseguiu ler, encerra
        if despesas is None:
            print("Nenhum DataFrame retornado pela leitura. Interrompendo.")
            return None

        # ðŸ§© Se o DataFrame estiver vazio, encerra
        if despesas.count() == 0:
            print("DataFrame vazio. Nenhum registro para processar.")
            return None

        print("Schema do DataFrame:")
        despesas.printSchema()

        print("Amostra de registros:")
        despesas.show(5, truncate=False)

        # Salva a tabela
        save_data(despesas, "tb_despesas_bronze")

        print("Tabela 'tb_despesas_bronze' criada/atualizada com sucesso!")
        return despesas

    except Exception as e:
        print(f"Erro ao processar discursos: {e}")
        return None

