In [17]:
# Célula 1: Configurações Iniciais e Importação do Módulo de Extração

import sys
import os
import pandas as pd # Pode ser útil para validação ou leitura pós-extração

# Adiciona o diretório raiz do projeto ao sys.path para que possamos importar de 'src'
# Isso é crucial para que o notebook encontre o módulo 'extraction' dentro de 'src'
project_root = os.path.abspath(os.path.join(os.getcwd(), '..'))
if project_root not in sys.path:
    sys.path.append(project_root)

# Agora podemos importar a função 'run_extraction' e 'FASENOMES' do nosso script
from src.extraction import run_extraction, FASENOMES

print("Configurações e importações carregadas.")


Configurações e importações carregadas.


In [18]:
# Célula 2: Definir Anos para Extrair e Executar o Processo

ANOS_PARA_EXTRAIR = [2023, 2024, 2025] # Use os anos que você precisa
DIRETORIO_RAW_DADOS = "../data/raw" # Caminho relativo à raiz do projeto

print(f"Iniciando a extração de dados para os anos: {ANOS_PARA_EXTRAIR}")
print(f"Os dados serão salvos em: {DIRETORIO_RAW_DADOS}")

# Chamar a função de extração do seu script
run_extraction(ANOS_PARA_EXTRAIR, DIRETORIO_RAW_DADOS)

print("Processo de extração concluído! Verifique a pasta 'data/raw'.")


Iniciando a extração de dados para os anos: [2023, 2024, 2025]
Os dados serão salvos em: ../data/raw

Iniciando coleta para Empenhos no ano 2023...
✅ Empenhos 2023: Página 1 com 15 registros
✅ Empenhos 2023: Página 2 com 15 registros
✅ Empenhos 2023: Página 3 com 15 registros
✅ Empenhos 2023: Página 4 com 3 registros
📁 CSV salvo: ../data/raw\2023\empenhos_2023.csv

Iniciando coleta para Liquidações no ano 2023...
✅ Liquidações 2023: Página 1 com 15 registros
✅ Liquidações 2023: Página 2 com 15 registros
✅ Liquidações 2023: Página 3 com 15 registros
✅ Liquidações 2023: Página 4 com 15 registros
✅ Liquidações 2023: Página 5 com 15 registros
✅ Liquidações 2023: Página 6 com 15 registros
✅ Liquidações 2023: Página 7 com 15 registros
✅ Liquidações 2023: Página 8 com 15 registros
✅ Liquidações 2023: Página 9 com 15 registros
✅ Liquidações 2023: Página 10 com 15 registros
✅ Liquidações 2023: Página 11 com 15 registros
✅ Liquidações 2023: Página 12 com 15 registros
✅ Liquidações 2023: Página 1

In [23]:
# Célula 3 (Opcional): Validação Rápida dos Dados Extraídos

print("\nRealizando uma validação rápida dos dados extraídos...")

try:
    # Exemplo: Carregar e exibir as primeiras linhas dos empenhos de 2024
    caminho_empenhos_2024 = os.path.join(project_root, "data", "raw", "2024", f"{FASENOMES[1].lower()}_2024.csv")
    df_empenhos_2024 = pd.read_csv(caminho_empenhos_2024, encoding='utf-8-sig')
    
    print("\nPrimeiras 5 linhas dos Empenhos de 2024:")
    display(df_empenhos_2024.head()) # Use display() para mostrar DataFrames no Jupyter
    print(f"Total de registros de Empenhos 2024: {len(df_empenhos_2024)}")

except FileNotFoundError:
    print(f"⚠️ Erro: Arquivo não encontrado em {caminho_empenhos_2024}. A extração pode ter falhado ou o caminho está incorreto.")
except Exception as e:
    print(f"⚠️ Ocorreu um erro durante a validação: {e}")

# Você pode adicionar mais células aqui para outras validações ou visualizações dos dados brutos.


Realizando uma validação rápida dos dados extraídos...

Primeiras 5 linhas dos Empenhos de 2024:


Unnamed: 0,data,documento,documentoResumido,observacao,funcao,subfuncao,programa,acao,subTitulo,localizadorGasto,...,orgaoSuperior,categoria,grupo,elemento,modalidade,numeroProcesso,planoOrcamentario,autor,favorecidoIntermediario,favorecidoListaFaturas
0,31/12/2024,153010152442024NE001263,2024NE001263,MANUTENCAO PREDIAL - MARIA DA GRACA,12 - Educação,363 - Ensino profissional,5112 - EDUCACAO PROFISSIONAL E TECNOLOGICA QUE...,20RL - FUNCIONAMENTO DAS INSTITUICOES DA REDE ...,20RL0033 - FUNCIONAMENTO DAS INSTITUICOES DA R...,0033 - FUNCIONAMENTO DAS INSTITUICOES DA RED -...,...,Ministério da Educação,3 - DESPESAS CORRENTES,3 - Outras Despesas Correntes,37 - Locação de Mão-de-Obra,90 - Aplicações Diretas,23063.002787/2023-18,0000 - FUNCIONAMENTO DAS INSTITUICOES DA REDE ...,0,False,False
1,31/12/2024,344001342012022NE000223,2022NE000223,REGISTRO DE CANCELAMENTO DE RESTOS A PAGAR BLO...,13 - Cultura,122 - Administração geral,0032 - PROGRAMA DE GESTAO E MANUTENCAO DO PODE...,2000 - ADMINISTRACAO DA UNIDADE,20000033 - ADMINISTRACAO DA UNIDADE ...,0033 - ADMINISTRACAO DA UNIDADE -...,...,Ministério da Cultura,3 - DESPESAS CORRENTES,3 - Outras Despesas Correntes,37 - Locação de Mão-de-Obra,90 - Aplicações Diretas,01550.000057/2018-82,0000 - ADMINISTRACAO DA UNIDADE,0,False,False
2,31/12/2024,153010152442024NE000060,2024NE000060,REGISTRO DE ANULACAO/REFORCO/CANCELAMENTO DO E...,12 - Educação,363 - Ensino profissional,5112 - EDUCACAO PROFISSIONAL E TECNOLOGICA QUE...,20RL - FUNCIONAMENTO DAS INSTITUICOES DA REDE ...,20RL0033 - FUNCIONAMENTO DAS INSTITUICOES DA R...,0033 - FUNCIONAMENTO DAS INSTITUICOES DA RED -...,...,Ministério da Educação,3 - DESPESAS CORRENTES,3 - Outras Despesas Correntes,37 - Locação de Mão-de-Obra,90 - Aplicações Diretas,23063.00291/2023-15,0000 - FUNCIONAMENTO DAS INSTITUICOES DA REDE ...,0,False,False
3,31/12/2024,153010152442022NE000187,2022NE000187,REGISTRO DE CANCELAMENTO DE RESTOS A PAGAR BLO...,12 - Educação,363 - Ensino profissional,5012 - EDUCACAO PROFISSIONAL E TECNOLOGICA,20RL - FUNCIONAMENTO DAS INSTITUICOES DA REDE ...,20RL0033 - FUNCIONAMENTO DAS INSTITUICOES DA R...,0033 - FUNCIONAMENTO DAS INSTITUICOES DA RED -...,...,Ministério da Educação,3 - DESPESAS CORRENTES,3 - Outras Despesas Correntes,37 - Locação de Mão-de-Obra,90 - Aplicações Diretas,23063.001995/2020-35,0000 - FUNCIONAMENTO DAS INSTITUICOES DA REDE ...,0,False,False
4,31/12/2024,153162152362022NE000042,2022NE000042,REGISTRO DE CANCELAMENTO DE RESTOS A PAGAR BLO...,12 - Educação,364 - Ensino superior,"5013 - EDUCACAO SUPERIOR - GRADUACAO, POS-GRAD...",20RK - FUNCIONAMENTO DE INSTITUICOES FEDERAIS ...,20RK0033 - FUNCIONAMENTO DE INSTITUICOES FEDER...,0033 - FUNCIONAMENTO DE INSTITUICOES FEDERAI -...,...,Ministério da Educação,3 - DESPESAS CORRENTES,3 - Outras Despesas Correntes,39 - Outros Serviços de Terceiros - Pessoa Jur...,90 - Aplicações Diretas,23079.219806/2021-02,0000 - FUNCIONAMENTO DE INSTITUICOES FEDERAIS ...,0,False,False


Total de registros de Empenhos 2024: 93
