In [2]:
import os
import shutil
import pandas as pd
pd.set_option('display.max_columns', None)

# Fonte dos dados - https://portaldatransparencia.gov.br/download-de-dados/orcamento-despesa
# Dicionário de dados arquivos brutos - https://portaldatransparencia.gov.br/pagina-interna/603417-dicionario-de-dados-orcamento-da-despesa

In [3]:
# Lê o arquivo csv da pasta 'arquivos_silver/entrada', move para 'arquivos_silver/lidos' e faz algumas transformações. No final armazena em camada gold para ser carregado

# Diretórios
silver_entrada = "../arquivos_silver/entrada"
silver_lidos = "../arquivos_silver/lidos"
gold_entrada = "../arquivos_gold/entrada"

# Lê o csv
fatoOrcamentoDespesa = pd.read_csv(
    silver_entrada + '/fatoOrcamentoDespesa.csv',
    sep=";", 
    encoding="ISO-8859-1", 
    low_memory=False
)

# Mover o arquivo csv para a pasta 'arquivos_silver/lidos'
path_silver_lidos = os.path.join(silver_entrada, 'fatoOrcamentoDespesa.csv')
shutil.move(path_silver_lidos, os.path.join(silver_lidos, 'fatoOrcamentoDespesa.csv'))
print(f"Movido para {silver_lidos}: fatoOrcamentoDespesa.csv")

Movido para ../arquivos_silver/lidos: fatoOrcamentoDespesa.csv


In [4]:
fatoOrcamentoDespesa.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301903 entries, 0 to 301902
Data columns (total 27 columns):
 #   Column                                                          Non-Null Count   Dtype 
---  ------                                                          --------------   ----- 
 0   EXERCÍCIO                                                       301903 non-null  int64 
 1   CÓDIGO ÓRGÃO SUPERIOR                                           301903 non-null  int64 
 2   NOME ÓRGÃO SUPERIOR                                             301903 non-null  object
 3   CÓDIGO ÓRGÃO SUBORDINADO                                        301903 non-null  int64 
 4   NOME ÓRGÃO SUBORDINADO                                          301903 non-null  object
 5   CÓDIGO UNIDADE ORÇAMENTÁRIA                                     301903 non-null  int64 
 6   NOME UNIDADE ORÇAMENTÁRIA                                       301903 non-null  object
 7   CÓDIGO FUNÇÃO                                  

In [5]:
fatoOrcamentoDespesa.head(2)

Unnamed: 0,EXERCÍCIO,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO SUBORDINADO,NOME ÓRGÃO SUBORDINADO,CÓDIGO UNIDADE ORÇAMENTÁRIA,NOME UNIDADE ORÇAMENTÁRIA,CÓDIGO FUNÇÃO,NOME FUNÇÃO,CÓDIGO SUBFUNÇÃO,NOME SUBFUNÇÃO,CÓDIGO PROGRAMA ORÇAMENTÁRIO,NOME PROGRAMA ORÇAMENTÁRIO,CÓDIGO AÇÃO,NOME AÇÃO,CÓDIGO CATEGORIA ECONÔMICA,NOME CATEGORIA ECONÔMICA,CÓDIGO GRUPO DE DESPESA,NOME GRUPO DE DESPESA,CÓDIGO ELEMENTO DE DESPESA,NOME ELEMENTO DE DESPESA,ORÇAMENTO INICIAL (R$),ORÇAMENTO ATUALIZADO (R$),ORÇAMENTO EMPENHADO (R$),ORÇAMENTO REALIZADO (R$),% REALIZADO DO ORÇAMENTO (COM RELAÇÃO AO ORÇAMENTO ATUALIZADO),origem
0,2014,20000,Presidência da República,20415,Empresa Brasil de Comunicação,20415,EMPRESA BRASIL DE COMUNICACAO,24,Comunicações,122,Administração geral,2101,PROGRAMA DE GESTAO E MANUTENCAO DA PRESIDENCIA...,2000,ADMINISTRACAO DA UNIDADE,3,DESPESA CORRENTE,3,Outras Despesas Correntes,32,"Material, Bem ou Serviço para Distribuição Gra...",1100600,1100600,1100600,1100600,"100,00%",2014_OrcamentoDespesa.zip
1,2014,20000,Presidência da República,20415,Empresa Brasil de Comunicação,20415,EMPRESA BRASIL DE COMUNICACAO,24,Comunicações,122,Administração geral,2101,PROGRAMA DE GESTAO E MANUTENCAO DA PRESIDENCIA...,20TP,PAGAMENTO DE PESSOAL ATIVO DA UNIAO,3,DESPESA CORRENTE,1,Pessoal e Encargos Sociais,92,Despesas de Exercícios Anteriores,90319321,90319321,90006521,90006521,"99,65%",2014_OrcamentoDespesa.zip


In [6]:
# Percorre as colunas da lista, para substituir "%" por nada, "," por "." e '.zip' por nada. Depois converte para float
columns_to_float = [
    'ORÇAMENTO INICIAL (R$)', 
    'ORÇAMENTO ATUALIZADO (R$)', 
    'ORÇAMENTO EMPENHADO (R$)', 
    'ORÇAMENTO REALIZADO (R$)', 
    '% REALIZADO DO ORÇAMENTO (COM RELAÇÃO AO ORÇAMENTO ATUALIZADO)',
    'origem'
]

for col in columns_to_float:
    if col == '% REALIZADO DO ORÇAMENTO (COM RELAÇÃO AO ORÇAMENTO ATUALIZADO)':
        fatoOrcamentoDespesa[col] = fatoOrcamentoDespesa[col].str.replace('%', '').str.replace(',', '.')
    elif col == 'origem':
        fatoOrcamentoDespesa[col] = fatoOrcamentoDespesa[col].str.replace('.zip', '')
    else:
        fatoOrcamentoDespesa[col] = fatoOrcamentoDespesa[col].str.replace(',', '.')

    if col != 'origem':
        fatoOrcamentoDespesa[col] = fatoOrcamentoDespesa[col].astype(float) # Converte para float depois das substituições
    else:
        pass

In [7]:
fatoOrcamentoDespesa.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301903 entries, 0 to 301902
Data columns (total 27 columns):
 #   Column                                                          Non-Null Count   Dtype  
---  ------                                                          --------------   -----  
 0   EXERCÍCIO                                                       301903 non-null  int64  
 1   CÓDIGO ÓRGÃO SUPERIOR                                           301903 non-null  int64  
 2   NOME ÓRGÃO SUPERIOR                                             301903 non-null  object 
 3   CÓDIGO ÓRGÃO SUBORDINADO                                        301903 non-null  int64  
 4   NOME ÓRGÃO SUBORDINADO                                          301903 non-null  object 
 5   CÓDIGO UNIDADE ORÇAMENTÁRIA                                     301903 non-null  int64  
 6   NOME UNIDADE ORÇAMENTÁRIA                                       301903 non-null  object 
 7   CÓDIGO FUNÇÃO                         

In [8]:
fatoOrcamentoDespesa.head(2)

Unnamed: 0,EXERCÍCIO,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO SUBORDINADO,NOME ÓRGÃO SUBORDINADO,CÓDIGO UNIDADE ORÇAMENTÁRIA,NOME UNIDADE ORÇAMENTÁRIA,CÓDIGO FUNÇÃO,NOME FUNÇÃO,CÓDIGO SUBFUNÇÃO,NOME SUBFUNÇÃO,CÓDIGO PROGRAMA ORÇAMENTÁRIO,NOME PROGRAMA ORÇAMENTÁRIO,CÓDIGO AÇÃO,NOME AÇÃO,CÓDIGO CATEGORIA ECONÔMICA,NOME CATEGORIA ECONÔMICA,CÓDIGO GRUPO DE DESPESA,NOME GRUPO DE DESPESA,CÓDIGO ELEMENTO DE DESPESA,NOME ELEMENTO DE DESPESA,ORÇAMENTO INICIAL (R$),ORÇAMENTO ATUALIZADO (R$),ORÇAMENTO EMPENHADO (R$),ORÇAMENTO REALIZADO (R$),% REALIZADO DO ORÇAMENTO (COM RELAÇÃO AO ORÇAMENTO ATUALIZADO),origem
0,2014,20000,Presidência da República,20415,Empresa Brasil de Comunicação,20415,EMPRESA BRASIL DE COMUNICACAO,24,Comunicações,122,Administração geral,2101,PROGRAMA DE GESTAO E MANUTENCAO DA PRESIDENCIA...,2000,ADMINISTRACAO DA UNIDADE,3,DESPESA CORRENTE,3,Outras Despesas Correntes,32,"Material, Bem ou Serviço para Distribuição Gra...",11006.0,11006.0,11006.0,11006.0,100.0,2014_OrcamentoDespesa
1,2014,20000,Presidência da República,20415,Empresa Brasil de Comunicação,20415,EMPRESA BRASIL DE COMUNICACAO,24,Comunicações,122,Administração geral,2101,PROGRAMA DE GESTAO E MANUTENCAO DA PRESIDENCIA...,20TP,PAGAMENTO DE PESSOAL ATIVO DA UNIAO,3,DESPESA CORRENTE,1,Pessoal e Encargos Sociais,92,Despesas de Exercícios Anteriores,903193.21,903193.21,900065.21,900065.21,99.65,2014_OrcamentoDespesa


In [9]:
# Renomeando as colunas para alinhar com a regra do banco de dados da organizacao
fatoOrcamentoDespesa = fatoOrcamentoDespesa.rename(columns={
    'EXERCÍCIO': 'ano_exercicio',
    'CÓDIGO ÓRGÃO SUPERIOR': 'cod_orgao_superior',
    'NOME ÓRGÃO SUPERIOR': 'nome_orgao_superior',
    'CÓDIGO ÓRGÃO SUBORDINADO': 'cod_orgao_subordinado',
    'NOME ÓRGÃO SUBORDINADO': 'nome_orgao_subordinado',
    'CÓDIGO UNIDADE ORÇAMENTÁRIA': 'cod_unidade_orcamentaria',
    'NOME UNIDADE ORÇAMENTÁRIA': 'nome_unidade_orcamentaria',
    'CÓDIGO FUNÇÃO': 'cod_funcao',
    'NOME FUNÇÃO': 'nome_funcao',
    'CÓDIGO SUBFUNÇÃO': 'cod_subfuncao',
    'NOME SUBFUNÇÃO': 'nome_subfuncao',
    'CÓDIGO PROGRAMA ORÇAMENTÁRIO': 'cod_programa_orcamentario',
    'NOME PROGRAMA ORÇAMENTÁRIO': 'nome_programa_orcamentario',
    'CÓDIGO AÇÃO': 'cod_acao',
    'NOME AÇÃO': 'nome_acao',
    'CÓDIGO CATEGORIA ECONÔMICA': 'cod_categoria_economica',
    'NOME CATEGORIA ECONÔMICA': 'nome_categoria_economica',
    'CÓDIGO GRUPO DE DESPESA': 'cod_grupo_despesa',
    'NOME GRUPO DE DESPESA': 'nome_grupo_despesa',
    'CÓDIGO ELEMENTO DE DESPESA': 'cod_elemento_despesa',
    'NOME ELEMENTO DE DESPESA': 'nome_elemento_despesa',
    'ORÇAMENTO INICIAL (R$)': 'orcamento_inicial',
    'ORÇAMENTO ATUALIZADO (R$)': 'orcamento_atualizado',
    'ORÇAMENTO EMPENHADO (R$)': 'orcamento_empenhado',
    'ORÇAMENTO REALIZADO (R$)': 'orcamento_realizado',
    '% REALIZADO DO ORÇAMENTO (COM RELAÇÃO AO ORÇAMENTO ATUALIZADO)': 'percentual_realizado_orcamento_atualizado'
})

In [10]:
fatoOrcamentoDespesa.head(2)

Unnamed: 0,ano_exercicio,cod_orgao_superior,nome_orgao_superior,cod_orgao_subordinado,nome_orgao_subordinado,cod_unidade_orcamentaria,nome_unidade_orcamentaria,cod_funcao,nome_funcao,cod_subfuncao,nome_subfuncao,cod_programa_orcamentario,nome_programa_orcamentario,cod_acao,nome_acao,cod_categoria_economica,nome_categoria_economica,cod_grupo_despesa,nome_grupo_despesa,cod_elemento_despesa,nome_elemento_despesa,orcamento_inicial,orcamento_atualizado,orcamento_empenhado,orcamento_realizado,percentual_realizado_orcamento_atualizado,origem
0,2014,20000,Presidência da República,20415,Empresa Brasil de Comunicação,20415,EMPRESA BRASIL DE COMUNICACAO,24,Comunicações,122,Administração geral,2101,PROGRAMA DE GESTAO E MANUTENCAO DA PRESIDENCIA...,2000,ADMINISTRACAO DA UNIDADE,3,DESPESA CORRENTE,3,Outras Despesas Correntes,32,"Material, Bem ou Serviço para Distribuição Gra...",11006.0,11006.0,11006.0,11006.0,100.0,2014_OrcamentoDespesa
1,2014,20000,Presidência da República,20415,Empresa Brasil de Comunicação,20415,EMPRESA BRASIL DE COMUNICACAO,24,Comunicações,122,Administração geral,2101,PROGRAMA DE GESTAO E MANUTENCAO DA PRESIDENCIA...,20TP,PAGAMENTO DE PESSOAL ATIVO DA UNIAO,3,DESPESA CORRENTE,1,Pessoal e Encargos Sociais,92,Despesas de Exercícios Anteriores,903193.21,903193.21,900065.21,900065.21,99.65,2014_OrcamentoDespesa


In [11]:
# Armazena o df transformado na pasta 'arquivos_gold/entrada'
output_path = os.path.join(gold_entrada, "fatoOrcamentoDespesa.csv")
fatoOrcamentoDespesa.to_csv(output_path, index=False, sep=";", encoding="ISO-8859-1")

print('Transformação concluida com sucesso!')

Transformação concluida com sucesso!
