In [1]:
import sys, os, shutil
import tempfile
import warnings

from glob import glob
from time import time
import numpy as np

import pandas as pd
from dask import dataframe as dd

## Construção da base de dados

A seguir, é executado o processo de obtenção da base de dados final utilizada na análise dos dados do Tribunal de Contas. Temos acesso à planilhas anuais com todos os gastos declarados pelos municípios, os quais foram concedidos pelo Tribunal de Contas. Neste caso temos o interesse apenas naquelas despesas cujo tipo seja ''Valor Liquidado'', que representam aqueles valores de fato concedidos pelo governo do estado.

A seguir construímos a tabela correspondente aos dados de 2010 manualmente, que servirá de base para a criação de uma função para a automatização deste processo de construção das bases de dados.

### Biblioteca dask

Devido à imensa quantidade de dados contida nas tabelas de despesas anuais, não é desejável o carregamento destas tabelas diretamente pela biblitoeca pandas, que armazena toda a informação na memória RAM do computador. Considerando um computador com 16GB de memória, não é possível o tratamento dos dados brutos desta maneira com facilidade. Por essa razão utilizamos a biblioteca paralelizada dask, que tem a capacidade de carregar os conjuntos de dados de modo a armazenar em memória apenas as informações de interesse a serem tratadas.

In [7]:
df_dd = dd.read_csv("despesas-2010.csv", sep = ";", encoding = "ISO-8859-1", assume_missing=True, decimal = ",")
display( df_dd.head(3) )

Unnamed: 0,id_despesa_detalhe,ano_exercicio,ds_municipio,ds_orgao,mes_referencia,mes_ref_extenso,tp_despesa,nr_empenho,identificador_despesa,ds_despesa,...,ds_subfuncao_governo,cd_programa,ds_programa,cd_acao,ds_acao,ds_fonte_recurso,ds_cd_aplicacao_fixo,ds_modalidade_lic,ds_elemento,historico_despesa
0,49141808.0,2010.0,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,1.0,janeiro,Empenhado,707-2010,CNPJ - PESSOA JURÍDICA - 61684387000137,FREAUTO PEÇAS E SERVIÇOS LTDA.,...,ENSINO FUNDAMENTAL,15.0,PROG.DE DESENVOLVIMENTO EDUCACIONAL,2029.0,GESTAO DOS RECURSOS QESE,TRANSFERÊNCIAS E CONVÊNIOS FEDERAIS-VINCULADOS,0200 - EDUCAÇÃO - RECURSOS ESPECÍFICOS,DISPENSA DE LICITAÇÃO,33903039 - MATERIAL PARA MANUTENÇÃO DE VEÍCULOS,Valor empenhado conforme Pedido de Compras 282...
1,49138019.0,2010.0,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,1.0,janeiro,Empenhado,694-2010,PESSOA FÍSICA - 949588,DOUGLAS LUIZ MONTELO,...,ENSINO FUNDAMENTAL,15.0,PROG.DE DESENVOLVIMENTO EDUCACIONAL,2029.0,GESTAO DOS RECURSOS QESE,TRANSFERÊNCIAS E CONVÊNIOS FEDERAIS-VINCULADOS,0200 - EDUCAÇÃO - RECURSOS ESPECÍFICOS,DISPENSA DE LICITAÇÃO,33903620 - MANUTENÇÃO E CONSERVAÇÃO DE VEÍCULOS,Valor empenhado conforme Pedido de Compras 269...
2,49133666.0,2010.0,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,1.0,janeiro,Empenhado,79-2010,CNPJ - PESSOA JURÍDICA - 07753097000152,KAENE CONSTRUTORA LTDA,...,EDUCAÇÃO INFANTIL,15.0,PROG.DE DESENVOLVIMENTO EDUCACIONAL,1011.0,CONSTR/AMPL/REFORMA DE CRECHES,TESOURO,0200 - EDUCAÇÃO - RECURSOS ESPECÍFICOS,TOMADA DE PREÇOS,44905191 - OBRAS EM ANDAMENTO,Valor empenhado conforme Pedido de Compras 14/...


Acima ao chamarmos o método ''head'', os dados foram recuperados do arquivo dinamicamente. Como podemos ver a seguir, o objeto consiste em uma ''máscara'' dos dados originais.

In [3]:
display( df_dd )

Unnamed: 0_level_0,id_despesa_detalhe,ano_exercicio,ds_municipio,ds_orgao,mes_referencia,mes_ref_extenso,tp_despesa,nr_empenho,identificador_despesa,ds_despesa,dt_emissao_despesa,vl_despesa,ds_funcao_governo,ds_subfuncao_governo,cd_programa,ds_programa,cd_acao,ds_acao,ds_fonte_recurso,ds_cd_aplicacao_fixo,ds_modalidade_lic,ds_elemento,historico_despesa
npartitions=162,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1
,float64,float64,object,object,float64,object,object,object,object,object,object,float64,object,object,float64,object,float64,object,object,object,object,object,object
,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...


Com essa funcionalidade em mente, simplificamos todo o processo de sumarização desta base fazendo o uso do método loc para selecionar apenas as despesas de interesse para a criação da base (''Valor Liquidado''). Em seguida, os dados já filtrados são salvos em 8 arquivos de extensão parquet, os quais podem ser tranquilamente carregados e processados pela biblioteca pandas para processamento.

In [4]:
warnings.filterwarnings("ignore")

# Filtra as informações
df_dd = df_dd.loc[df_dd.tp_despesa == "Valor Liquidado", :]
# Define o número de partições do dataframe e salva em formato .parquet
df_dd = df_dd.repartition(npartitions = 8)
dd.to_parquet(df_dd, "2010", write_index = False)

Uma vez salvo o dataframe em diferentes arquivos, basta percorrermos todos eles, já agregando as despesas totais segundo as datas e os códigos de municípios, órgãos e despesas.

In [5]:
arquivos = glob('2010/*.parquet')
print(arquivos)

['2010/part.4.parquet', '2010/part.5.parquet', '2010/part.3.parquet', '2010/part.2.parquet', '2010/part.0.parquet', '2010/part.6.parquet', '2010/part.7.parquet', '2010/part.1.parquet']


In [16]:
df = None
for arquivo in arquivos:
    df_aux = pd.read_parquet(arquivo)
    # Agrega as despesas segundo as datas e os códigos indicadores de município, órgão e despesa
    df_aux = (
        df_aux.
        groupby(["ano_exercicio", "mes_referencia", "ds_municipio", "ds_orgao", "ds_elemento"]).
        agg({
            "vl_despesa": "sum",
        }).
        reset_index()
    )
    if(df is None):
        df = df_aux.copy()
    else:
        df = pd.concat([df, df_aux], axis = 0)
# Agrega todos os valores novamente, garantindo que despesas iguais em diferentes arquivos sejam consideradas como iguais        
df = (
    df.
    groupby(["ano_exercicio", "mes_referencia", "ds_municipio", "ds_orgao", "ds_elemento"]).
    agg({
        "vl_despesa": "sum",
    }).
    reset_index()
)
print("Tamanho final da tabela: {}".format(df.shape))
display( df.head(3) )

Tamanho final da tabela: (750715, 6)


Unnamed: 0,ano_exercicio,mes_referencia,ds_municipio,ds_orgao,ds_elemento,vl_despesa
0,2010.0,1.0,Adamantina,CENTRO UNIVERSITÁRIO DE ADAMANTINA,31900187 - COMPLEMENTAÇÃO DE APOSENTADORIAS,15550.64
1,2010.0,1.0,Adamantina,CENTRO UNIVERSITÁRIO DE ADAMANTINA,31900386 - COMPLEMENTAÇÃO DE PENSÕES - PESSOAL...,1428.79
2,2010.0,1.0,Adamantina,CENTRO UNIVERSITÁRIO DE ADAMANTINA,31900415 - OBRIGAÇÕES PATRONAIS,28524.52


## Generalização em uma função

Para formatarmos toda a base de dados com diferentes valores anuais, façamos uma função que carrega uma única base de dados e unifica todas as informações da mesma forma abordada acima para o ano de 2010. Vale destacar que, uma vez que utilizaremos uma grande quantidade de dados, o código cria as bases necessárias e em seguida as deleta do disco, resultando apenas na tabela final já processada.

In [4]:
def criar_tabela_ano(data_path, out_path = None, show_temp_dir = False):
    data_name = data_path[:-4]
    df_dd = dd.read_csv(data_path, sep = ";", encoding = "ISO-8859-1", assume_missing=True, decimal = ",")
    
    # Cria um diretório temporário para o arquivo segmentado (parquet)
    temp_dir = tempfile.TemporaryDirectory().name
    if(show_temp_dir):
        print("Armazenando arquivos auxiliares em {}".format(temp_dir))
    
    warnings.filterwarnings("ignore")
    # Separa o arquivo grande em 8 partes menores
    df_dd = df_dd.loc[df_dd.tp_despesa == "Valor Liquidado", :]
    df_dd = df_dd.repartition(npartitions = 8)
    dd.to_parquet(df_dd, "{}/{}".format(temp_dir, data_name), write_index = False)    

    # Percorre todos os arquivos segmentados, sumariznando e contatenando a uma única tabela
    arquivos = glob("{}/{}/*.parquet".format(temp_dir, data_name))
    df = None
    for arquivo in arquivos:
        df_aux = pd.read_parquet(arquivo)
        df_aux = (
            df_aux.
            groupby(["ano_exercicio", "mes_referencia", "ds_municipio", "ds_orgao", "ds_elemento"]).
            agg({
                "vl_despesa": "sum",
            }).
            reset_index()
        )
        if(df is None):
            df = df_aux.copy()
        else:
            df = pd.concat([df, df_aux], axis = 0)        
            
    # Agrega todos os valores novamente, garantindo que despesas iguais em diferentes arquivos sejam consideradas como iguais        
    df = (
        df.
        groupby(["ano_exercicio", "mes_referencia", "ds_municipio", "ds_orgao", "ds_elemento"]).
        agg({
            "vl_despesa": "sum",
        }).
        reset_index()
    )
    
    # Uma vez obtida a tabela já agregada, deleta as pastas auxiliares do disco
    shutil.rmtree(temp_dir)
    
    if(out_path is None):
        return df
    
    df.to_parquet(out_path)

In [14]:
df = criar_tabela_ano("despesas-2010.csv", show_temp_dir = True)
display( df.head(3) )

Unnamed: 0,ano_exercicio,mes_referencia,ds_municipio,ds_orgao,ds_elemento,vl_despesa
0,2010.0,1.0,Adamantina,CENTRO UNIVERSITÁRIO DE ADAMANTINA,31900187 - COMPLEMENTAÇÃO DE APOSENTADORIAS,15550.64
1,2010.0,1.0,Adamantina,CENTRO UNIVERSITÁRIO DE ADAMANTINA,31900386 - COMPLEMENTAÇÃO DE PENSÕES - PESSOAL...,1428.79
2,2010.0,1.0,Adamantina,CENTRO UNIVERSITÁRIO DE ADAMANTINA,31900415 - OBRIGAÇÕES PATRONAIS,28524.52
