In [1]:
import sqlite3
from sqlite3 import Error
import numpy as np
import pandas as pd
import json
import os
import glob
import unicodedata as ud

In [5]:

def beautifier_cols(dataframe):
    cols = dataframe.columns
    cols_new = [j.lower().strip().replace(" ", "_") for j in cols]
    df_new = dataframe.rename(columns=dict(zip(cols, cols_new))).drop_duplicates().reset_index(drop=True)
    return df_new


def credores():
    # 2016
    path = r'./raw_data/cred_2016/'
    files = glob.glob(path + "credores_2016_*.csv")
    credores_list = []
    for filename in files:
        df = pd.read_csv(filename, index_col=None, header=0)
        df = df.rename(columns={'Valor Em LiquidaÃ§Ã£o': 'Valor Em Liquidação'})
        credores_list.append(df)
    cred16 = pd.concat(credores_list, axis=0, ignore_index=True, sort=True).reset_index(drop=True)
    cred16 = cred16.drop(cred16.filter(like=r'Unnamed').columns, axis=1)
    cred16 = cred16.iloc[cred16['Nome'].str.normalize('NFKD').argsort()]  # sort columns containing special chars

    # 2018
    path = r'./raw_data/cred_2018/'
    files = glob.glob(path + "credores_2018_*.csv")
    credores_list = []
    for filename in files:
        df = pd.read_csv(filename, index_col=None, header=0)
        df = df.rename(columns={'Valor Em LiquidaÃ§Ã£o': 'Valor Em Liquidação'})
        credores_list.append(df)
    cred18 = pd.concat(credores_list, axis=0, ignore_index=True, sort=True).reset_index(drop=True)
    cred18 = cred18.drop(cred18.filter(like=r'Unnamed').columns, axis=1)
    cred18 = cred18.iloc[cred18['Nome'].str.normalize('NFKD').argsort()]  # sort columns containing special chars
    creds = pd.concat([pd.read_csv('raw_data/credores_2015.csv', sep="\t"),
                       cred16,
                       pd.read_csv('./raw_data/credores_2017.csv'),
                       cred18,
                       pd.read_csv('./raw_data/credores_2019.csv', sep="\t")], sort=True).drop_duplicates()
    creds = creds[['Nome', 'CNPJ/CPF', 'Valor Empenhado', 'Valor Em Liquidação',
                   'Valor Liquidado', 'Valor Pago', 'Valor Anulado', 'ano']]
    creds = beautifier_cols(creds)
    creds = creds.iloc[creds['nome'].str.normalize('NFKD').argsort()]  # sort columns containing special chars
    creds = creds.sort_values(['ano', 'nome']).sort_index()
    return creds


def credores_liquida():
    cred_liq = ['credores_liquidacoes_2015.csv',
                'credores_liquidacoes_2016.csv',
                'credores_liquidacoes_2017.csv',
                'credores_liquidacoes_2018.csv',
                'credores_liquidacoes_2019.csv']
    credores_liquid = pd.DataFrame()
    for i in cred_liq:
        file = './raw_data/' + str(i)
        df = pd.read_csv(file, sep='\t')
        df['ano'] = i.split('.')[0][-4:]
        credores_liquid = credores_liquid.append(df).drop_duplicates()

    credores_liquid = credores_liquid[~credores_liquid['Data da Liquidação'].str.contains("Data da")]
    credores_liquid = credores_liquid[['Data da Liquidação', 'Número de Liquidação', 'Complemento Histórico',
                                       'Valor Liquidado', 'Valor Estornado', 'credor', 'empenho', 'ano']]
    credores_liquid['empenho'] = credores_liquid['empenho'].astype(int)
    credores_liquid = beautifier_cols(credores_liquid)
    return credores_liquid


def credores_pagtos():
    cred_pagtos = ['credores_pagamentos_2015.csv',
                   'credores_pagamentos_2016.csv',
                   'credores_pagamentos_2017.csv',
                   'credores_pagamentos_2018.csv',
                   'credores_pagamentos_2019.csv']
    credores_pagamentos = pd.DataFrame()
    for i in cred_pagtos:
        file = './raw_data/' + str(i)
        df = pd.read_csv(file, sep='\t')
        df['ano'] = i.split('.')[0][-4:]
        credores_pagamentos = credores_pagamentos.append(df).drop_duplicates()

    credores_pagamentos = credores_pagamentos[~credores_pagamentos['Data do Pagamento'].str.contains("Data do Pagamento")]
    credores_pagamentos = credores_pagamentos[['Data do Pagamento', 'Número do Pagamento', 'Número de liquidação',
                                               'Complemento Histórico', 'Valor Pago', 'Valor Estornado', 'credor',
                                               'empenho', 'ano']]
    credores_pagamentos = beautifier_cols(credores_pagamentos)
    return credores_pagamentos


# DETALHES EMPENHOS
def detalhes_empenhos(df_credores):
    det_emp = ['detalhes_emp_2015.csv',
               'detalhes_emp_2016.csv',
               'detalhes_emp_2017.csv',
               'detalhes_emp_2018.csv',
               'detalhes_emp_2019.csv']
    detalhes_emp_list = []
    for i in det_emp:
        file = './raw_data/' + str(i)
        df = pd.read_csv(file)
        df['ano_referencia'] = i.split('.')[0][-4:]
        df = df.iloc[df['Credor'].str.normalize('NFKD').argsort()]  # sort columns containing special chars
        detalhes_emp_list.append(df)
    detalhes_emp = pd.concat(detalhes_emp_list, sort=True).drop_duplicates()

    detalhes_emp = detalhes_emp.sort_index(axis=1)
    detalhes_emp = detalhes_emp.loc[:, 'Ação de Governo':]
    detalhes_emp = detalhes_emp.loc[:, ~detalhes_emp.columns.duplicated()]

    detalhes_emp = beautifier_cols(detalhes_emp)
    detalhes_emp = detalhes_emp.merge(df_credores[['nome', 'cnpj/cpf']],
                                      left_on='credor',
                                      right_on='nome',
                                      how='inner')
    detalhes_emp = detalhes_emp[['data_emissão_empenho', 'número_do_empenho', 'unidade_gestora',
                                 'credor', 'cnpj/cpf', 'valor_empenhado', 'valor_em_liquidação', 'valor_liquidado',
                                 'valor_pago', 'valor_anulado', 'atualizado_em', 'período',
                                 'tipo_empenho', 'categoria',
                                 'órgão', 'unidade', 'função', 'subfunção', 'programa_de_governo',
                                 'ação_de_governo', 'esfera', 'ie',
                                 'categoria_econômica', 'grupo_da_despesa', 'modalidade_de_aplicação',
                                 'natureza_da_despesa', 'desdobramento_da_despesa', 'fonte_de_recursos',
                                 'detalhamento_da_fonte', 'licitação', 'número_da_licitação',
                                 'data_de_homologação', 'processo_da_compra', 'processo_administrativo', 'contrato',
                                 'convênio', 'empenhado', 'em_liquidação', 'liquidado',
                                 'pago', 'anulado', 'ano_referencia']]

    detalhes_emp = detalhes_emp.reset_index(drop=True)
    detalhes_emp['número_do_empenho'] = detalhes_emp['número_do_empenho'].astype(int)
    detalhes_emp['credor'] = detalhes_emp['credor'].apply(lambda x: ud.normalize('NFKD', x))
    detalhes_emp = detalhes_emp.sort_values(['ano_referencia', 'credor']).drop_duplicates().reset_index(drop=True)

    d_emi = pd.to_datetime(detalhes_emp['data_emissão_empenho'])
    d_hom = pd.to_datetime(detalhes_emp['data_de_homologação'])

    detalhes_emp['tempo_entre_homologacao_empenho'] = (d_emi - d_hom) / np.timedelta64(1, 'D')

    return detalhes_emp


In [6]:
df_credores = credores()
credores_liquidacoes = credores_liquida()
credores_pagamentos = credores_pagtos()
detalhes_emp = detalhes_empenhos(df_credores)

In [67]:
detalhes_emp = detalhes_emp.rename(columns={'número_do_empenho':'empenho'})
credores_pagamentos['empenho'] = credores_pagamentos.empenho.astype(int)

df = pd.merge(credores_liquidacoes, detalhes_emp, on = ['empenho', 'credor'])
df_final = pd.merge(credores_pagamentos, df, on = ['credor', 'empenho', 'número_de_liquidação'])

df_dates = df_final[['data_da_liquidação', 'data_emissão_empenho','data_de_homologação', 'data_do_pagamento']]

for i in df_dates:
    df_dates = df_dates.copy()
    df_dates[i] = pd.to_datetime(df_dates[i], format='%d/%m/%Y')

tempo_entre_homologacao_empenho = (df_dates['data_emissão_empenho'] - df_dates['data_de_homologação']) / np.timedelta64(1, 'D')

tempo_entre_empenho_liquidacao = (df_dates['data_da_liquidação'] - df_dates['data_emissão_empenho']) / np.timedelta64(1, 'D')

tempo_entre_liquidacao_pagamento = (df_dates['data_do_pagamento'] - df_dates['data_da_liquidação']) / np.timedelta64(1, 'D')

tempo_entre_empenho_pagamento = (df_dates['data_do_pagamento'] - df_dates['data_emissão_empenho']) / np.timedelta64(1, 'D')

tempo_total = (df_dates['data_do_pagamento'] - df_dates['data_de_homologação']) / np.timedelta64(1, 'D')

df_final['tempo_entre_empenho_liquidacao'] = tempo_entre_empenho_liquidacao
df_final['tempo_entre_liquidacao_pagamento'] = tempo_entre_liquidacao_pagamento
df_final['tempo_total2'] = tempo_entre_empenho_pagamento
df_final['tempo_total'] = tempo_total

df_final['tempo_entre_homologacao_empenho'] = tempo_entre_homologacao_empenho

In [68]:
pd.to_datetime(str('12/02/2016')) - pd.to_datetime(str('19/11/2013'))

Timedelta('1109 days 00:00:00')

In [69]:
df_final[['credor', 'data_da_liquidação', 'data_emissão_empenho','data_de_homologação', 'data_do_pagamento',
         'tempo_entre_homologacao_empenho','tempo_entre_empenho_liquidacao', 'tempo_entre_liquidacao_pagamento',
          'tempo_total2', 'tempo_total']][df_final.credor=='ALFREDO TANOS FILHO'].sort_values('data_de_homologação')

Unnamed: 0,credor,data_da_liquidação,data_emissão_empenho,data_de_homologação,data_do_pagamento,tempo_entre_homologacao_empenho,tempo_entre_empenho_liquidacao,tempo_entre_liquidacao_pagamento,tempo_total2,tempo_total
13443,ALFREDO TANOS FILHO,12/02/2016,12/02/2016,19/11/2013,12/02/2016,815.0,0.0,0.0,0.0,815.0
13446,ALFREDO TANOS FILHO,26/01/2016,20/01/2016,19/11/2013,26/01/2016,792.0,6.0,0.0,6.0,798.0
22692,ALFREDO TANOS FILHO,01/02/2017,12/02/2016,19/11/2013,06/02/2017,815.0,355.0,5.0,360.0,1175.0
32250,ALFREDO TANOS FILHO,02/03/2018,12/02/2016,19/11/2013,09/03/2018,815.0,749.0,7.0,756.0,1571.0
13423,ALFREDO TANOS FILHO,14/12/2016,14/12/2016,,31/12/2016,,0.0,17.0,17.0,
...,...,...,...,...,...,...,...,...,...,...
43113,ALFREDO TANOS FILHO,22/02/2019,21/02/2019,,28/02/2019,,1.0,6.0,7.0,
43114,ALFREDO TANOS FILHO,22/02/2019,06/02/2017,,28/02/2019,,746.0,6.0,752.0,
43115,ALFREDO TANOS FILHO,22/02/2019,21/02/2019,,28/02/2019,,1.0,6.0,7.0,
43116,ALFREDO TANOS FILHO,25/01/2019,22/01/2019,,01/02/2019,,3.0,7.0,10.0,


In [26]:
for i in df_dates:
    df_dates = df_dates.copy()
    df_dates[i] = pd.to_datetime(df_dates[i])

In [17]:
df_dates[['data_da_liquidação', 'data_emissão_empenho','data_de_homologação', 'data_do_pagamento']].iloc[13513:13517,:]

Unnamed: 0,data_da_liquidação,data_emissão_empenho,data_de_homologação,data_do_pagamento
13513,2016-09-05,2016-04-29,NaT,2016-06-06
13514,2016-09-05,2016-04-29,NaT,2016-01-06
13515,2016-09-05,2016-04-29,NaT,2016-02-06
13516,2016-09-05,2016-04-29,NaT,2016-02-06


In [25]:
pd.DataFrame(df_dates['data_da_liquidação'] - df_dates['data_emissão_empenho']).iloc[13513:13517,:]

Unnamed: 0,0
13513,129 days
13514,129 days
13515,129 days
13516,129 days
