# Objective

The objective of this notebook is to read all `zip` files with expenses from a given year and add it to a table in a MySQL database. This would make it easier to perform later post-processing on the information, given the fact that the amount of information makes unfeasible to load everything on the RAM (information of a single year occupies around 10GB of RAM).

The workflow is divided into a few steps:

- Define utility functions that will be responsible for:
  - Parsing expense document type identification.
  - Read a single `zip` file, parsing it accordingly. This would convert information into the desired format and types, returning a Pandas DataFrame.
  - Reads a complete year dataset, appending the information to a MySQL database.
- Read the TCE-SP dataset for a given year and append it to a MySQL db.
- Perform general checks on the database information, focusing on increasing knowledge on the information as well as memory/disk usage optimization.
- Sample dataset entries in order to get familiar with the data, particularly the spending description.
- Additional checks on value uniqueness for some columns (city information and spending id number).
- Try-out to load data from TCE-SP database only for cities included in the IBGE database (obtained from another MySQL table). 

## Defining utility functions

Data from TCE-SP are encoded on `Western Europe (Windows-1252/WinLatin 1)`.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

pd.set_option("display.max_columns", None)

In [2]:
# Utility function that categorizes the type of document (CPF, CNPJ, Unidentified or not-categorized)
def parse_tipo_identif(string):
    str_tmp = string.split(' - ')[0]
    options = {
        'CNPJ': 'CNPJ',
        'PESSOA FÍSICA': 'CPF',
        'IDENTIFICAÇÃO ESPECIAL': 'SEM CPF/CNPJ',
        'INSCRIÇÃO GENÉRICA-OUTROS': 'GENÉRICO',
        'INSCRIÇÃO GENÉRICA-PRECATÓRIOS-OUTROS': 'PRECATÓRIOS'
    }
    return options.get(str_tmp, 'INVALID TYPE')

In [3]:
''' Utility function that reads zipped spending file, returning DataFrame with
    only "commited" spendings. Performs the following tranformations:
    + Drops reference months (leaves only emission date)
    + Drops spending type (always "commited" spending)
    + Converts date format to Pandas format
    + Drops rows with NaNs in 'identificador_despesa', 'ds_despesa', 'cd_acao', 'cd_programa'
    +TODO (MODIFY AFTER DEBUG) Parses CNPJ and natural individual IDs
    + Sorts entries according to date of expenditure
    +DISABLED: Calculates the cumulative sum per year and per city
    + Converts some columns from object to category or integer types
    
'''
def read_spending(year, fname):
    df = pd.read_csv('../not_tracked/'+str(year) + '/' + fname, compression='zip',
                 delimiter=';', encoding='latin_1', decimal=',', dayfirst=True)
    
    # Drops reference months and spending type (leaves only "commited" spending type)
    df.drop(df[df.tp_despesa != 'Empenhado'].index, inplace=True)
    df.drop(['mes_referencia', 'mes_ref_extenso', 'tp_despesa'], axis=1, inplace=True)
    
    # Converts date format to Pandas format
    df['dt_emissao_despesa'] = pd.to_datetime(df['dt_emissao_despesa'], format='%d/%m/%Y')
    
    # Drops rows with NaNs in 'identificador_despesa', 'ds_despesa', 'cd_acao', 'cd_programa'
    df.dropna(subset=['identificador_despesa', 'ds_despesa', 'cd_acao', 'cd_programa'], axis=0, inplace=True)
    
    # Parses CNPJ and CPF and drops original column
    df['ds_cpf_cnpj'] = df['identificador_despesa'].apply(lambda x: x.split(' - ')[-1])
    ###df['ds_tipo_identif'] = df['identificador_despesa'].apply(lambda x: x.split(' - ')[:-2])
    df['ds_tipo_identif'] = df['identificador_despesa'].apply(parse_tipo_identif)
    ### UNCOMMENT AFTER DEBUG ####df.drop('identificador_despesa', axis=1, inplace=True)
    
    # Sorts entries according to date of expenditure
    df.sort_values(by='dt_emissao_despesa', inplace=True)
    
    # Calculates the cumulative sum per year and per city
    #df['vl_acumulado'] = df['vl_despesa'].cumsum(axis=0)
    
    # Converts some columns from object to category or integer types
    cat_columns = ['ds_municipio', 'ds_orgao', 'ds_funcao_governo', 'ds_subfuncao_governo', 'ds_programa',
                   'ds_acao', 'ds_fonte_recurso', 'ds_modalidade_lic']
    for col in cat_columns:
        df[col] = df[col].astype('category')
    
    return df

In [4]:
''' Utility function that reads a year of spending records and appends the result to a SQL table '''
def read_spending_year_mysql(year, table, engine):
    
    # Define file list (only zip files that start with "despesa")
    flist = os.listdir('../not_tracked/'+str(year)+'/')
    flist_desp = [x for x in flist if x[0:7] == 'despesa' and x[-3:] == 'zip']
    flist_desp = sorted(flist_desp)
    
    # Leaves only the first 300 cities
    nfiles = len(flist_desp)

    # Load each file and import to MySQL table
    i = 1
    for fname in flist_desp:
        print('Importing file '+str(i)+'/'+str(nfiles)+': '+ fname)
        df = read_spending(year, fname)
        df.to_sql(table, con=engine, if_exists='append', index=False)
        del df
        i += 1

## Reading files with expenses data

This section appends the TCE-SP dataset into a MySQL database for a given year range. Loading each year may take about one hour and use up to 2GB of disk space.

In [19]:
import datetime
from sqlalchemy import create_engine
engine = create_engine('mysql://root:Dougroot1!@127.0.0.1/db_tce')

for year in range(2014, 2007, -1):
    print('Reading year %d' % (year))
    print(datetime.datetime.now())
    read_spending_year_mysql(year, table='despesas', engine=engine)
    print(datetime.datetime.now())

Reading year 2014
2019-01-06 15:35:21.426732
Importing file 1/644: despesas-adamantina-2014.zip
Importing file 2/644: despesas-adolfo-2014.zip
Importing file 3/644: despesas-aguai-2014.zip
Importing file 4/644: despesas-aguas-da-prata-2014.zip
Importing file 5/644: despesas-aguas-de-lindoia-2014.zip
Importing file 6/644: despesas-aguas-de-santa-barbara-2014.zip
Importing file 7/644: despesas-aguas-de-sao-pedro-2014.zip
Importing file 8/644: despesas-agudos-2014.zip
Importing file 9/644: despesas-alambari-2014.zip
Importing file 10/644: despesas-alfredo-marcondes-2014.zip
Importing file 11/644: despesas-altair-2014.zip
Importing file 12/644: despesas-altinopolis-2014.zip
Importing file 13/644: despesas-alto-alegre-2014.zip
Importing file 14/644: despesas-aluminio-2014.zip
Importing file 15/644: despesas-alvares-florence-2014.zip
Importing file 16/644: despesas-alvares-machado-2014.zip
Importing file 17/644: despesas-alvaro-de-carvalho-2014.zip
Importing file 18/644: despesas-alvinlandia

Importing file 157/644: despesas-dobrada-2014.zip
Importing file 158/644: despesas-dois-corregos-2014.zip
Importing file 159/644: despesas-dolcinopolis-2014.zip
Importing file 160/644: despesas-dourado-2014.zip
Importing file 161/644: despesas-dracena-2014.zip
Importing file 162/644: despesas-duartina-2014.zip
Importing file 163/644: despesas-dumont-2014.zip
Importing file 164/644: despesas-echapora-2014.zip
Importing file 165/644: despesas-eldorado-2014.zip
Importing file 166/644: despesas-elias-fausto-2014.zip
Importing file 167/644: despesas-elisiario-2014.zip
Importing file 168/644: despesas-embauba-2014.zip
Importing file 169/644: despesas-embu-das-artes-2014.zip
Importing file 170/644: despesas-embu-guacu-2014.zip
Importing file 171/644: despesas-emilianopolis-2014.zip
Importing file 172/644: despesas-engenheiro-coelho-2014.zip
Importing file 173/644: despesas-espirito-santo-do-pinhal-2014.zip
Importing file 174/644: despesas-espirito-santo-do-turvo-2014.zip
Importing file 175/64

Importing file 314/644: despesas-luis-antonio-2014.zip
Importing file 315/644: despesas-luiziania-2014.zip
Importing file 316/644: despesas-lupercio-2014.zip
Importing file 317/644: despesas-lutecia-2014.zip
Importing file 318/644: despesas-macatuba-2014.zip
Importing file 319/644: despesas-macaubal-2014.zip
Importing file 320/644: despesas-macedonia-2014.zip
Importing file 321/644: despesas-magda-2014.zip
Importing file 322/644: despesas-mairinque-2014.zip
Importing file 323/644: despesas-mairipora-2014.zip
Importing file 324/644: despesas-manduri-2014.zip
Importing file 325/644: despesas-maraba-paulista-2014.zip
Importing file 326/644: despesas-maracai-2014.zip
Importing file 327/644: despesas-marapoama-2014.zip
Importing file 328/644: despesas-mariapolis-2014.zip
Importing file 329/644: despesas-marilia-2014.zip
Importing file 330/644: despesas-marinopolis-2014.zip
Importing file 331/644: despesas-martinopolis-2014.zip
Importing file 332/644: despesas-matao-2014.zip
Importing file 3

Importing file 468/644: despesas-presidente-venceslau-2014.zip
Importing file 469/644: despesas-promissao-2014.zip
Importing file 470/644: despesas-quadra-2014.zip
Importing file 471/644: despesas-quata-2014.zip
Importing file 472/644: despesas-queiroz-2014.zip
Importing file 473/644: despesas-queluz-2014.zip
Importing file 474/644: despesas-quintana-2014.zip
Importing file 475/644: despesas-rafard-2014.zip
Importing file 476/644: despesas-rancharia-2014.zip
Importing file 477/644: despesas-redencao-da-serra-2014.zip
Importing file 478/644: despesas-regente-feijo-2014.zip
Importing file 479/644: despesas-reginopolis-2014.zip
Importing file 480/644: despesas-registro-2014.zip
Importing file 481/644: despesas-restinga-2014.zip
Importing file 482/644: despesas-ribeira-2014.zip
Importing file 483/644: despesas-ribeirao-bonito-2014.zip
Importing file 484/644: despesas-ribeirao-branco-2014.zip
Importing file 485/644: despesas-ribeirao-corrente-2014.zip
Importing file 486/644: despesas-ribeir

Importing file 615/644: despesas-tremembe-2014.zip
Importing file 616/644: despesas-tres-fronteiras-2014.zip
Importing file 617/644: despesas-tuiuti-2014.zip
Importing file 618/644: despesas-tupa-2014.zip
Importing file 619/644: despesas-tupi-paulista-2014.zip
Importing file 620/644: despesas-turiuba-2014.zip
Importing file 621/644: despesas-turmalina-2014.zip
Importing file 622/644: despesas-ubarana-2014.zip
Importing file 623/644: despesas-ubatuba-2014.zip
Importing file 624/644: despesas-ubirajara-2014.zip
Importing file 625/644: despesas-uchoa-2014.zip
Importing file 626/644: despesas-uniao-paulista-2014.zip
Importing file 627/644: despesas-urania-2014.zip
Importing file 628/644: despesas-uru-2014.zip
Importing file 629/644: despesas-urupes-2014.zip
Importing file 630/644: despesas-valentim-gentil-2014.zip
Importing file 631/644: despesas-valinhos-2014.zip
Importing file 632/644: despesas-valparaiso-2014.zip
Importing file 633/644: despesas-vargem-2014.zip
Importing file 634/644: d

Importing file 126/644: despesas-castilho-2013.zip
Importing file 127/644: despesas-catanduva-2013.zip
Importing file 128/644: despesas-catigua-2013.zip
Importing file 129/644: despesas-cedral-2013.zip
Importing file 130/644: despesas-cerqueira-cesar-2013.zip
Importing file 131/644: despesas-cerquilho-2013.zip
Importing file 132/644: despesas-cesario-lange-2013.zip
Importing file 133/644: despesas-charqueada-2013.zip
Importing file 134/644: despesas-chavantes-2013.zip
Importing file 135/644: despesas-clementina-2013.zip
Importing file 136/644: despesas-colina-2013.zip
Importing file 137/644: despesas-colombia-2013.zip
Importing file 138/644: despesas-conchal-2013.zip
Importing file 139/644: despesas-conchas-2013.zip
Importing file 140/644: despesas-cordeiropolis-2013.zip
Importing file 141/644: despesas-coroados-2013.zip
Importing file 142/644: despesas-coronel-macedo-2013.zip
Importing file 143/644: despesas-corumbatai-2013.zip
Importing file 144/644: despesas-cosmopolis-2013.zip
Impo

Importing file 283/644: despesas-jaguariuna-2013.zip
Importing file 284/644: despesas-jales-2013.zip
Importing file 285/644: despesas-jambeiro-2013.zip
Importing file 286/644: despesas-jandira-2013.zip
Importing file 287/644: despesas-jardinopolis-2013.zip
Importing file 288/644: despesas-jarinu-2013.zip
Importing file 289/644: despesas-jau-2013.zip
Importing file 290/644: despesas-jeriquara-2013.zip
Importing file 291/644: despesas-joanopolis-2013.zip
Importing file 292/644: despesas-joao-ramalho-2013.zip
Importing file 293/644: despesas-jose-bonifacio-2013.zip
Importing file 294/644: despesas-julio-mesquita-2013.zip
Importing file 295/644: despesas-jumirim-2013.zip
Importing file 296/644: despesas-jundiai-2013.zip
Importing file 297/644: despesas-junqueiropolis-2013.zip
Importing file 298/644: despesas-juquia-2013.zip
Importing file 299/644: despesas-juquitiba-2013.zip
Importing file 300/644: despesas-lagoinha-2013.zip
Importing file 301/644: despesas-laranjal-paulista-2013.zip
Impor

Importing file 438/644: despesas-pirajui-2013.zip
Importing file 439/644: despesas-pirangi-2013.zip
Importing file 440/644: despesas-pirapora-do-bom-jesus-2013.zip
Importing file 441/644: despesas-pirapozinho-2013.zip
Importing file 442/644: despesas-pirassununga-2013.zip
Importing file 443/644: despesas-piratininga-2013.zip
Importing file 444/644: despesas-pitangueiras-2013.zip
Importing file 445/644: despesas-planalto-2013.zip
Importing file 446/644: despesas-platina-2013.zip
Importing file 447/644: despesas-poa-2013.zip
Importing file 448/644: despesas-poloni-2013.zip
Importing file 449/644: despesas-pompeia-2013.zip
Importing file 450/644: despesas-pongai-2013.zip
Importing file 451/644: despesas-pontal-2013.zip
Importing file 452/644: despesas-pontalinda-2013.zip
Importing file 453/644: despesas-pontes-gestal-2013.zip
Importing file 454/644: despesas-populina-2013.zip
Importing file 455/644: despesas-porangaba-2013.zip
Importing file 456/644: despesas-porto-feliz-2013.zip
Importin

Importing file 584/644: despesas-sud-mennucci-2013.zip
Importing file 585/644: despesas-sumare-2013.zip
Importing file 586/644: despesas-suzanapolis-2013.zip
Importing file 587/644: despesas-suzano-2013.zip
Importing file 588/644: despesas-tabapua-2013.zip
Importing file 589/644: despesas-tabatinga-2013.zip
Importing file 590/644: despesas-taboao-da-serra-2013.zip
Importing file 591/644: despesas-taciba-2013.zip
Importing file 592/644: despesas-taguai-2013.zip
Importing file 593/644: despesas-taiacu-2013.zip
Importing file 594/644: despesas-taiuva-2013.zip
Importing file 595/644: despesas-tambau-2013.zip
Importing file 596/644: despesas-tanabi-2013.zip
Importing file 597/644: despesas-tapirai-2013.zip
Importing file 598/644: despesas-tapiratiba-2013.zip
Importing file 599/644: despesas-taquaral-2013.zip
Importing file 600/644: despesas-taquaritinga-2013.zip
Importing file 601/644: despesas-taquarituba-2013.zip
Importing file 602/644: despesas-taquarivai-2013.zip
Importing file 603/644:

  exec(code_obj, self.user_global_ns, self.user_ns)


Importing file 87/644: despesas-braganca-paulista-2012.zip
Importing file 88/644: despesas-brauna-2012.zip
Importing file 89/644: despesas-brejo-alegre-2012.zip
Importing file 90/644: despesas-brodowski-2012.zip
Importing file 91/644: despesas-brotas-2012.zip
Importing file 92/644: despesas-buri-2012.zip
Importing file 93/644: despesas-buritama-2012.zip
Importing file 94/644: despesas-buritizal-2012.zip
Importing file 95/644: despesas-cabralia-paulista-2012.zip
Importing file 96/644: despesas-cabreuva-2012.zip
Importing file 97/644: despesas-cacapava-2012.zip
Importing file 98/644: despesas-cachoeira-paulista-2012.zip
Importing file 99/644: despesas-caconde-2012.zip
Importing file 100/644: despesas-cafelandia-2012.zip
Importing file 101/644: despesas-caiabu-2012.zip
Importing file 102/644: despesas-caieiras-2012.zip
Importing file 103/644: despesas-caiua-2012.zip
Importing file 104/644: despesas-cajamar-2012.zip
Importing file 105/644: despesas-cajati-2012.zip
Importing file 106/644: d

Importing file 242/644: despesas-ipaussu-2012.zip
Importing file 243/644: despesas-ipero-2012.zip
Importing file 244/644: despesas-ipeuna-2012.zip
Importing file 245/644: despesas-ipigua-2012.zip
Importing file 246/644: despesas-iporanga-2012.zip
Importing file 247/644: despesas-ipua-2012.zip
Importing file 248/644: despesas-iracemapolis-2012.zip
Importing file 249/644: despesas-irapua-2012.zip
Importing file 250/644: despesas-irapuru-2012.zip
Importing file 251/644: despesas-itabera-2012.zip
Importing file 252/644: despesas-itai-2012.zip
Importing file 253/644: despesas-itajobi-2012.zip
Importing file 254/644: despesas-itaju-2012.zip
Importing file 255/644: despesas-itanhaem-2012.zip
Importing file 256/644: despesas-itaoca-2012.zip
Importing file 257/644: despesas-itapecerica-da-serra-2012.zip
Importing file 258/644: despesas-itapetininga-2012.zip
Importing file 259/644: despesas-itapeva-2012.zip
Importing file 260/644: despesas-itapevi-2012.zip
Importing file 261/644: despesas-itapir

Importing file 399/644: despesas-palmeira-d-oeste-2012.zip
Importing file 400/644: despesas-palmital-2012.zip
Importing file 401/644: despesas-panorama-2012.zip
Importing file 402/644: despesas-paraguacu-paulista-2012.zip
Importing file 403/644: despesas-paraibuna-2012.zip
Importing file 404/644: despesas-paraiso-2012.zip
Importing file 405/644: despesas-paranapanema-2012.zip
Importing file 406/644: despesas-paranapua-2012.zip
Importing file 407/644: despesas-parapua-2012.zip
Importing file 408/644: despesas-pardinho-2012.zip
Importing file 409/644: despesas-pariquera-acu-2012.zip
Importing file 410/644: despesas-parisi-2012.zip
Importing file 411/644: despesas-patrocinio-paulista-2012.zip
Importing file 412/644: despesas-pauliceia-2012.zip
Importing file 413/644: despesas-paulinia-2012.zip
Importing file 414/644: despesas-paulistania-2012.zip
Importing file 415/644: despesas-paulo-de-faria-2012.zip
Importing file 416/644: despesas-pederneiras-2012.zip
Importing file 417/644: despesas-

Importing file 548/644: despesas-sao-caetano-do-sul-2012.zip
Importing file 549/644: despesas-sao-carlos-2012.zip
Importing file 550/644: despesas-sao-francisco-2012.zip
Importing file 551/644: despesas-sao-joao-da-boa-vista-2012.zip
Importing file 552/644: despesas-sao-joao-das-duas-pontes-2012.zip
Importing file 553/644: despesas-sao-joao-de-iracema-2012.zip
Importing file 554/644: despesas-sao-joao-do-pau-d-alho-2012.zip
Importing file 555/644: despesas-sao-joaquim-da-barra-2012.zip
Importing file 556/644: despesas-sao-jose-da-bela-vista-2012.zip
Importing file 557/644: despesas-sao-jose-do-barreiro-2012.zip
Importing file 558/644: despesas-sao-jose-do-rio-pardo-2012.zip
Importing file 559/644: despesas-sao-jose-do-rio-preto-2012.zip
Importing file 560/644: despesas-sao-jose-dos-campos-2012.zip
Importing file 561/644: despesas-sao-lourenco-da-serra-2012.zip
Importing file 562/644: despesas-sao-luis-do-paraitinga-2012.zip
Importing file 563/644: despesas-sao-manuel-2012.zip
Importing

Importing file 57/644: despesas-barao-de-antonina-2011.zip
Importing file 58/644: despesas-barbosa-2011.zip
Importing file 59/644: despesas-bariri-2011.zip
Importing file 60/644: despesas-barra-bonita-2011.zip
Importing file 61/644: despesas-barra-do-chapeu-2011.zip
Importing file 62/644: despesas-barra-do-turvo-2011.zip
Importing file 63/644: despesas-barretos-2011.zip
Importing file 64/644: despesas-barrinha-2011.zip
Importing file 65/644: despesas-barueri-2011.zip
Importing file 66/644: despesas-bastos-2011.zip
Importing file 67/644: despesas-batatais-2011.zip
Importing file 68/644: despesas-bauru-2011.zip
Importing file 69/644: despesas-bebedouro-2011.zip
Importing file 70/644: despesas-bento-de-abreu-2011.zip
Importing file 71/644: despesas-bernardino-de-campos-2011.zip
Importing file 72/644: despesas-bertioga-2011.zip
Importing file 73/644: despesas-bilac-2011.zip
Importing file 74/644: despesas-birigui-2011.zip
Importing file 75/644: despesas-biritiba-mirim-2011.zip
Importing fi

Importing file 212/644: despesas-guarei-2011.zip
Importing file 213/644: despesas-guariba-2011.zip
Importing file 214/644: despesas-guaruja-2011.zip
Importing file 215/644: despesas-guarulhos-2011.zip
Importing file 216/644: despesas-guatapara-2011.zip
Importing file 217/644: despesas-guzolandia-2011.zip
Importing file 218/644: despesas-herculandia-2011.zip
Importing file 219/644: despesas-holambra-2011.zip
Importing file 220/644: despesas-hortolandia-2011.zip
Importing file 221/644: despesas-iacanga-2011.zip
Importing file 222/644: despesas-iacri-2011.zip
Importing file 223/644: despesas-iaras-2011.zip
Importing file 224/644: despesas-ibate-2011.zip
Importing file 225/644: despesas-ibira-2011.zip
Importing file 226/644: despesas-ibirarema-2011.zip
Importing file 227/644: despesas-ibitinga-2011.zip
Importing file 228/644: despesas-ibiuna-2011.zip
Importing file 229/644: despesas-icem-2011.zip
Importing file 230/644: despesas-iepe-2011.zip
Importing file 231/644: despesas-igaracu-do-tie

Importing file 370/644: despesas-nova-alianca-2011.zip
Importing file 371/644: despesas-nova-campina-2011.zip
Importing file 372/644: despesas-nova-canaa-paulista-2011.zip
Importing file 373/644: despesas-nova-castilho-2011.zip
Importing file 374/644: despesas-nova-europa-2011.zip
Importing file 375/644: despesas-nova-granada-2011.zip
Importing file 376/644: despesas-nova-guataporanga-2011.zip
Importing file 377/644: despesas-nova-independencia-2011.zip
Importing file 378/644: despesas-nova-luzitania-2011.zip
Importing file 379/644: despesas-nova-odessa-2011.zip
Importing file 380/644: despesas-novais-2011.zip
Importing file 381/644: despesas-novo-horizonte-2011.zip
Importing file 382/644: despesas-nuporanga-2011.zip
Importing file 383/644: despesas-ocaucu-2011.zip
Importing file 384/644: despesas-oleo-2011.zip
Importing file 385/644: despesas-olimpia-2011.zip
Importing file 386/644: despesas-onda-verde-2011.zip
Importing file 387/644: despesas-oriente-2011.zip
Importing file 388/644: 

Importing file 522/644: despesas-santa-cruz-do-rio-pardo-2011.zip
Importing file 523/644: despesas-santa-ernestina-2011.zip
Importing file 524/644: despesas-santa-fe-do-sul-2011.zip
Importing file 525/644: despesas-santa-gertrudes-2011.zip
Importing file 526/644: despesas-santa-isabel-2011.zip
Importing file 527/644: despesas-santa-lucia-2011.zip
Importing file 528/644: despesas-santa-maria-da-serra-2011.zip
Importing file 529/644: despesas-santa-mercedes-2011.zip
Importing file 530/644: despesas-santa-rita-d-oeste-2011.zip
Importing file 531/644: despesas-santa-rita-do-passa-quatro-2011.zip
Importing file 532/644: despesas-santa-rosa-de-viterbo-2011.zip
Importing file 533/644: despesas-santa-salete-2011.zip
Importing file 534/644: despesas-santana-da-ponte-pensa-2011.zip
Importing file 535/644: despesas-santana-de-parnaiba-2011.zip
Importing file 536/644: despesas-santo-anastacio-2011.zip
Importing file 537/644: despesas-santo-andre-2011.zip
Importing file 538/644: despesas-santo-anto

Importing file 25/644: despesas-angatuba-2010.zip
Importing file 26/644: despesas-anhembi-2010.zip
Importing file 27/644: despesas-anhumas-2010.zip
Importing file 28/644: despesas-aparecida-2010.zip
Importing file 29/644: despesas-aparecida-d-oeste-2010.zip
Importing file 30/644: despesas-apiai-2010.zip
Importing file 31/644: despesas-aracariguama-2010.zip
Importing file 32/644: despesas-aracatuba-2010.zip
Importing file 33/644: despesas-aracoiaba-da-serra-2010.zip
Importing file 34/644: despesas-aramina-2010.zip
Importing file 35/644: despesas-arandu-2010.zip
Importing file 36/644: despesas-arapei-2010.zip
Importing file 37/644: despesas-araraquara-2010.zip
Importing file 38/644: despesas-araras-2010.zip
Importing file 39/644: despesas-arco-iris-2010.zip
Importing file 40/644: despesas-arealva-2010.zip
Importing file 41/644: despesas-areias-2010.zip
Importing file 42/644: despesas-areiopolis-2010.zip
Importing file 43/644: despesas-ariranha-2010.zip
Importing file 44/644: despesas-art

Importing file 181/644: despesas-fernandopolis-2010.zip
Importing file 182/644: despesas-fernao-2010.zip
Importing file 183/644: despesas-ferraz-de-vasconcelos-2010.zip
Importing file 184/644: despesas-flora-rica-2010.zip
Importing file 185/644: despesas-floreal-2010.zip
Importing file 186/644: despesas-florida-paulista-2010.zip
Importing file 187/644: despesas-florinia-2010.zip
Importing file 188/644: despesas-franca-2010.zip
Importing file 189/644: despesas-francisco-morato-2010.zip
Importing file 190/644: despesas-franco-da-rocha-2010.zip
Importing file 191/644: despesas-gabriel-monteiro-2010.zip
Importing file 192/644: despesas-galia-2010.zip
Importing file 193/644: despesas-garca-2010.zip
Importing file 194/644: despesas-gastao-vidigal-2010.zip
Importing file 195/644: despesas-gaviao-peixoto-2010.zip
Importing file 196/644: despesas-general-salgado-2010.zip
Importing file 197/644: despesas-getulina-2010.zip
Importing file 198/644: despesas-glicerio-2010.zip
Importing file 199/644:

Importing file 340/644: despesas-miracatu-2010.zip
Importing file 341/644: despesas-mirandopolis-2010.zip
Importing file 342/644: despesas-mirante-do-paranapanema-2010.zip
Importing file 343/644: despesas-mirassol-2010.zip
Importing file 344/644: despesas-mirassolandia-2010.zip
Importing file 345/644: despesas-mococa-2010.zip
Importing file 346/644: despesas-mogi-das-cruzes-2010.zip
Importing file 347/644: despesas-mogi-guacu-2010.zip
Importing file 348/644: despesas-mogi-mirim-2010.zip
Importing file 349/644: despesas-mombuca-2010.zip
Importing file 350/644: despesas-moncoes-2010.zip
Importing file 351/644: despesas-mongagua-2010.zip
Importing file 352/644: despesas-monte-alegre-do-sul-2010.zip
Importing file 353/644: despesas-monte-alto-2010.zip
Importing file 354/644: despesas-monte-aprazivel-2010.zip
Importing file 355/644: despesas-monte-azul-paulista-2010.zip
Importing file 356/644: despesas-monte-castelo-2010.zip
Importing file 357/644: despesas-monte-mor-2010.zip
Importing file

Importing file 493/644: despesas-rinopolis-2010.zip
Importing file 494/644: despesas-rio-claro-2010.zip
Importing file 495/644: despesas-rio-das-pedras-2010.zip
Importing file 496/644: despesas-rio-grande-da-serra-2010.zip
Importing file 497/644: despesas-riolandia-2010.zip
Importing file 498/644: despesas-riversul-2010.zip
Importing file 499/644: despesas-rosana-2010.zip
Importing file 500/644: despesas-roseira-2010.zip
Importing file 501/644: despesas-rubiacea-2010.zip
Importing file 502/644: despesas-rubineia-2010.zip
Importing file 503/644: despesas-sabino-2010.zip
Importing file 504/644: despesas-sagres-2010.zip
Importing file 505/644: despesas-sales-2010.zip
Importing file 506/644: despesas-sales-oliveira-2010.zip
Importing file 507/644: despesas-salesopolis-2010.zip
Importing file 508/644: despesas-salmourao-2010.zip
Importing file 509/644: despesas-saltinho-2010.zip
Importing file 510/644: despesas-salto-2010.zip
Importing file 511/644: despesas-salto-de-pirapora-2010.zip
Impor

Importing file 641/644: despesas-vitoria-brasil-2010.zip
Importing file 642/644: despesas-votorantim-2010.zip
Importing file 643/644: despesas-votuporanga-2010.zip
Importing file 644/644: despesas-zacarias-2010.zip
2019-01-06 20:07:44.533819
Reading year 2009
2019-01-06 20:07:44.534212
Importing file 1/644: despesas-adamantina-2009.zip
Importing file 2/644: despesas-adolfo-2009.zip
Importing file 3/644: despesas-aguai-2009.zip
Importing file 4/644: despesas-aguas-da-prata-2009.zip
Importing file 5/644: despesas-aguas-de-lindoia-2009.zip
Importing file 6/644: despesas-aguas-de-santa-barbara-2009.zip
Importing file 7/644: despesas-aguas-de-sao-pedro-2009.zip
Importing file 8/644: despesas-agudos-2009.zip
Importing file 9/644: despesas-alambari-2009.zip
Importing file 10/644: despesas-alfredo-marcondes-2009.zip
Importing file 11/644: despesas-altair-2009.zip
Importing file 12/644: despesas-altinopolis-2009.zip
Importing file 13/644: despesas-alto-alegre-2009.zip
Importing file 14/644: des

Importing file 152/644: despesas-cunha-2009.zip
Importing file 153/644: despesas-descalvado-2009.zip
Importing file 154/644: despesas-diadema-2009.zip
Importing file 155/644: despesas-dirce-reis-2009.zip
Importing file 156/644: despesas-divinolandia-2009.zip
Importing file 157/644: despesas-dobrada-2009.zip
Importing file 158/644: despesas-dois-corregos-2009.zip
Importing file 159/644: despesas-dolcinopolis-2009.zip
Importing file 160/644: despesas-dourado-2009.zip
Importing file 161/644: despesas-dracena-2009.zip
Importing file 162/644: despesas-duartina-2009.zip
Importing file 163/644: despesas-dumont-2009.zip
Importing file 164/644: despesas-echapora-2009.zip
Importing file 165/644: despesas-eldorado-2009.zip
Importing file 166/644: despesas-elias-fausto-2009.zip
Importing file 167/644: despesas-elisiario-2009.zip
Importing file 168/644: despesas-embauba-2009.zip
Importing file 169/644: despesas-embu-das-artes-2009.zip
Importing file 170/644: despesas-embu-guacu-2009.zip
Importing f

Importing file 309/644: despesas-lorena-2009.zip
Importing file 310/644: despesas-lourdes-2009.zip
Importing file 311/644: despesas-louveira-2009.zip
Importing file 312/644: despesas-lucelia-2009.zip
Importing file 313/644: despesas-lucianopolis-2009.zip
Importing file 314/644: despesas-luis-antonio-2009.zip
Importing file 315/644: despesas-luiziania-2009.zip
Importing file 316/644: despesas-lupercio-2009.zip
Importing file 317/644: despesas-lutecia-2009.zip
Importing file 318/644: despesas-macatuba-2009.zip
Importing file 319/644: despesas-macaubal-2009.zip
Importing file 320/644: despesas-macedonia-2009.zip
Importing file 321/644: despesas-magda-2009.zip
Importing file 322/644: despesas-mairinque-2009.zip
Importing file 323/644: despesas-mairipora-2009.zip
Importing file 324/644: despesas-manduri-2009.zip
Importing file 325/644: despesas-maraba-paulista-2009.zip
Importing file 326/644: despesas-maracai-2009.zip
Importing file 327/644: despesas-marapoama-2009.zip
Importing file 328/64

Importing file 463/644: despesas-pratania-2009.zip
Importing file 464/644: despesas-presidente-alves-2009.zip
Importing file 465/644: despesas-presidente-bernardes-2009.zip
Importing file 466/644: despesas-presidente-epitacio-2009.zip
Importing file 467/644: despesas-presidente-prudente-2009.zip
Importing file 468/644: despesas-presidente-venceslau-2009.zip
Importing file 469/644: despesas-promissao-2009.zip
Importing file 470/644: despesas-quadra-2009.zip
Importing file 471/644: despesas-quata-2009.zip
Importing file 472/644: despesas-queiroz-2009.zip
Importing file 473/644: despesas-queluz-2009.zip
Importing file 474/644: despesas-quintana-2009.zip
Importing file 475/644: despesas-rafard-2009.zip
Importing file 476/644: despesas-rancharia-2009.zip
Importing file 477/644: despesas-redencao-da-serra-2009.zip
Importing file 478/644: despesas-regente-feijo-2009.zip
Importing file 479/644: despesas-reginopolis-2009.zip
Importing file 480/644: despesas-registro-2009.zip
Importing file 481/

OperationalError: (_mysql_exceptions.OperationalError) (1048, "Column 'ds_acao' cannot be null") [SQL: 'INSERT INTO despesas (id_despesa_detalhe, ano_exercicio, ds_municipio, ds_orgao, nr_empenho, identificador_despesa, ds_despesa, dt_emissao_despesa, vl_despesa, ds_funcao_governo, ds_subfuncao_governo, cd_programa, ds_programa, cd_acao, ds_acao, ds_fonte_recurso, ds_cd_aplicacao_fixo, ds_modalidade_lic, ds_elemento, historico_despesa, ds_cpf_cnpj, ds_tipo_identif) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)'] [parameters: ((25586122, 2009, 'Tatuí', 'FUNDAÇÃO MANOEL GUEDES', '56-2009', 'CNPJ - PESSOA JURÍDICA - 05495317000160', 'SINDICATO DOS ESTAB PART DE ENS BAS SOROC E REGIAO', datetime.datetime(2009, 1, 5, 0, 0), 385.0, 'EDUCAÇÃO', 'ENSINO PROFISSIONAL', 932, 'MANUTENCAO DA FUNDACAO', 2927, 'Manutencao das Instalacoes da Fundacao', 'TESOURO', '0110 - GERAL', 'DISPENSA DE LICITAÇÃO', '33903901 - ASSINATURAS DE PERIÓDICOS E ANUIDADES', 'RECOLHIMENTO DE CONTRIBUICAO SINDICAL PATRONAL2009', '05495317000160', 'CNPJ'), (40421972, 2009, 'Tatuí', 'PREFEITURA MUNICIPAL DE TATUÍ', '19-2009', 'CNPJ - PESSOA JURÍDICA - 09119554000187', 'EDILAINE RODRIGUES SAMPAIO - ME', datetime.datetime(2009, 1, 5, 0, 0), 203612.51, 'HABITAÇÃO', 'INFRA-ESTRUTURA URBANA', 308, 'MORADIAS POPULARES', 1456, 'Execucao das obras - CDHU', 'TRANSFERÊNCIAS E CONVÊNIOS ESTADUAIS-VINCULADOS', '0110 - GERAL', 'PREGÃO', '44905199 - OUTRAS OBRAS E INSTALAÇÕES', 'BENGALA - BUCHA - TOMADA - DISJUNTOR - CONDUITE  MATERIAL DE CONSTRUCAO PARA CDHU - RP -', '09119554000187', 'CNPJ'), (25596194, 2009, 'Tatuí', 'PREFEITURA MUNICIPAL DE TATUÍ', '19-2009', 'CNPJ - PESSOA JURÍDICA - 09119554000187', 'EDILAINE RODRIGUES SAMPAIO - ME', datetime.datetime(2009, 1, 5, 0, 0), 203612.51, 'HABITAÇÃO', 'INFRA-ESTRUTURA URBANA', 308, 'MORADIAS POPULARES', 1456, 'Execucao das obras - CDHU', 'TRANSFERÊNCIAS E CONVÊNIOS ESTADUAIS-VINCULADOS', '0110 - GERAL', 'PREGÃO', '44905199 - OUTRAS OBRAS E INSTALAÇÕES', 'BENGALA - BUCHA - TOMADA - DISJUNTOR - CONDUITE  MATERIAL DE CONSTRUCAO PARA CDHU - RP -', '09119554000187', 'CNPJ'), (40420636, 2009, 'Tatuí', 'PREFEITURA MUNICIPAL DE TATUÍ', '18-2009', 'CNPJ - PESSOA JURÍDICA - 03100212000139', 'PAVANELLI MATERIAIS P/ CONSTRUCAO LTDA', datetime.datetime(2009, 1, 5, 0, 0), 254899.79, 'HABITAÇÃO', 'INFRA-ESTRUTURA URBANA', 308, 'MORADIAS POPULARES', 1456, 'Execucao das obras - CDHU', 'TRANSFERÊNCIAS E CONVÊNIOS ESTADUAIS-VINCULADOS', '0110 - GERAL', 'PREGÃO', '44905199 - OUTRAS OBRAS E INSTALAÇÕES', 'ABRIGO P/ HIDROMETRO - CONECTOR BRONZE - CAVALETE - LUVA  MATERIAIS DE CONSTRUCAO  MATERIAIS DE CONSTRUCAO  MATERIAIS DE CONSTRUCAO', '03100212000139', 'CNPJ'), (25610365, 2009, 'Tatuí', 'PREFEITURA MUNICIPAL DE TATUÍ', '18-2009', 'CNPJ - PESSOA JURÍDICA - 03100212000139', 'PAVANELLI MATERIAIS P/ CONSTRUCAO LTDA', datetime.datetime(2009, 1, 5, 0, 0), 254899.79, 'HABITAÇÃO', 'INFRA-ESTRUTURA URBANA', 308, 'MORADIAS POPULARES', 1456, 'Execucao das obras - CDHU', 'TRANSFERÊNCIAS E CONVÊNIOS ESTADUAIS-VINCULADOS', '0110 - GERAL', 'PREGÃO', '44905199 - OUTRAS OBRAS E INSTALAÇÕES', 'ABRIGO P/ HIDROMETRO - CONECTOR BRONZE - CAVALETE - LUVA  MATERIAIS DE CONSTRUCAO  MATERIAIS DE CONSTRUCAO  MATERIAIS DE CONSTRUCAO', '03100212000139', 'CNPJ'), (40415413, 2009, 'Tatuí', 'PREFEITURA MUNICIPAL DE TATUÍ', '13-2009', 'CNPJ - PESSOA JURÍDICA - 03100212000139', 'PAVANELLI MATERIAIS P/ CONSTRUCAO LTDA', datetime.datetime(2009, 1, 5, 0, 0), 95472.47, 'HABITAÇÃO', 'INFRA-ESTRUTURA URBANA', 308, 'MORADIAS POPULARES', 1456, 'Execucao das obras - CDHU', 'TRANSFERÊNCIAS E CONVÊNIOS ESTADUAIS-VINCULADOS', '0110 - GERAL', 'PREGÃO', '44905199 - OUTRAS OBRAS E INSTALAÇÕES', 'CIMENTO - CAL  CIMENTO E CAL  PARA CONSTRUCAO  -   REC CDHU  -', '03100212000139', 'CNPJ'), (25584123, 2009, 'Tatuí', 'PREFEITURA MUNICIPAL DE TATUÍ', '13-2009', 'CNPJ - PESSOA JURÍDICA - 03100212000139', 'PAVANELLI MATERIAIS P/ CONSTRUCAO LTDA', datetime.datetime(2009, 1, 5, 0, 0), 95472.47, 'HABITAÇÃO', 'INFRA-ESTRUTURA URBANA', 308, 'MORADIAS POPULARES', 1456, 'Execucao das obras - CDHU', 'TRANSFERÊNCIAS E CONVÊNIOS ESTADUAIS-VINCULADOS', '0110 - GERAL', 'PREGÃO', '44905199 - OUTRAS OBRAS E INSTALAÇÕES', 'CIMENTO - CAL  CIMENTO E CAL  PARA CONSTRUCAO  -   REC CDHU  -', '03100212000139', 'CNPJ'), (40417742, 2009, 'Tatuí', 'PREFEITURA MUNICIPAL DE TATUÍ', '227-2009', 'CNPJ - PESSOA JURÍDICA - 08212138000166', 'CONCEITO - CONSULTORES ASSOCIADOS LTDA.', datetime.datetime(2009, 1, 5, 0, 0), 52440.0, 'HABITAÇÃO', 'INFRA-ESTRUTURA URBANA', 308, 'MORADIAS POPULARES', 1456, 'Execucao das obras - CDHU', 'TRANSFERÊNCIAS E CONVÊNIOS ESTADUAIS-VINCULADOS', '0110 - GERAL', 'CONVITE', '44905199 - OUTRAS OBRAS E INSTALAÇÕES', 'CONSULTORIA E ASSESSORIA NA AREA SOCIOECONOMICO DO EMPREENDIMENTO CDHU  SERVICOS TECNICOS ADM CDHU  SERVS  TECNICOS DE CONSTRUCAO PARA CDHU - RP -  SERVS TEC ADMINISTRATIVOS  - REC  CDHU  -', '08212138000166', 'CNPJ')  ... displaying 10 of 17319 total bound parameter sets ...  (44993245, 2009, 'Tatuí', 'PREFEITURA MUNICIPAL DE TATUÍ', '12701-2009', 'INSCRIÇÃO GENÉRICA-OUTROS - 03625', 'PRESTADORES DE SERVICOS AUTONOMOS', datetime.datetime(2009, 12, 30, 0, 0), 2131.0, 'COMÉRCIO E SERVIÇOS', 'TURISMO', 920, 'PROJETOS FEIRAS TURISTICAS', 2437, 'Eventos para Promocao de Atividades Culturais e Espirituais', 'TESOURO', '0110 - GERAL', 'OUTROS/NÃO APLICÁVEL', '33903607 - ESTAGIÁRIOS', None, '03625', 'GENÉRICO'), (44992898, 2009, 'Tatuí', 'PREFEITURA MUNICIPAL DE TATUÍ', '12783-2009', 'INSCRIÇÃO GENÉRICA-OUTROS - 04733', 'REGIME PROPRIO PREVIDENCIA SOCIAL - RPPS', datetime.datetime(2009, 12, 30, 0, 0), 2262.81, 'ADMINISTRAÇÃO', 'ADMINISTRAÇÃO GERAL', 300, 'MANUTENCAO DA SECRETARIA', 2205, 'Manutencao das atividades da SEPLAN', 'TESOURO', '0110 - GERAL', 'OUTROS/NÃO APLICÁVEL', '31911341 - CONTRIBUIÇÃO PATRONAL DO EXERCÍCIO PARA O RPPS - PESSOAL CIVIL ATIVO - INTRA-ORÇAMENTÁRIO', None, '04733', 'GENÉRICO'))] (Background on this error at: http://sqlalche.me/e/e3q8)

## General checks regarding data columns

This section focuses on analyzing each column in the dataset, aiming at a better understanding of the data available in the dataset, as well as optimizing it for memory/disk usage. Due to memory limitations, a sample of only 5 million entries will be used for this analysis step, with no significant lack of generalization to the final dataset.

In [17]:
from sqlalchemy import create_engine
engine = create_engine('mysql://root:Dougroot1!@127.0.0.1/db_tce')

df = pd.read_sql_query('SELECT * FROM despesas WHERE ano_exercicio=2017 LIMIT 5000000', con=engine)

In [18]:
# Converts some columns from object to category or integer types
cat_columns = ['ds_municipio', 'ds_orgao', 'ds_funcao_governo', 'ds_subfuncao_governo', 'ds_programa',
               'ds_acao', 'ds_fonte_recurso', 'ds_modalidade_lic']
for col in cat_columns:
    df[col] = df[col].astype('category')

In [19]:
df.head()

Unnamed: 0,id_despesa_detalhe,ano_exercicio,ds_municipio,ds_orgao,nr_empenho,identificador_despesa,ds_despesa,dt_emissao_despesa,vl_despesa,ds_funcao_governo,ds_subfuncao_governo,cd_programa,ds_programa,cd_acao,ds_acao,ds_fonte_recurso,ds_cd_aplicacao_fixo,ds_modalidade_lic,ds_elemento,historico_despesa,ds_cpf_cnpj,ds_tipo_identif
0,354220976,2017,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,103-2017,CNPJ - PESSOA JURÍDICA - 08720483000100,ELIANE CRISTINA MOURA DA SILVA - ME,2017-01-02,1752.7,EDUCAÇÃO,EDUCAÇÃO INFANTIL,15,GESTÃO DA EDUCAÇÃO,2042,GESTÃO DAS CRECHES,TESOURO,0210 - EDUCAÇÃO INFANTIL - RECURSOS ESPECÍFICOS,PREGÃO,33903022 - MATERIAL DE LIMPEZA E PRODUTOS DE H...,Item 001: ÁGUA SANITÁRIA - COMPOSTA DE HIPOCLO...,8720483000100,CNPJ
1,354220744,2017,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,34-2017,CNPJ - PESSOA JURÍDICA - 02558157000162,TELEFONICA BRASIL S.A,2017-01-02,2000.0,ADMINISTRAÇÃO,ADMINISTRAÇÃO GERAL,3,ADMINISTRANDO COM RESPONSABILIDADE,2011,CUSTEIO FIXO OPERACIONAL,TESOURO,0110 - GERAL,DISPENSA DE LICITAÇÃO,33903958 - SERVIÇOS DE TELECOMUNICAÇÕES,"PROV. PAGAMENTO DE TELEFONE E INTERNET, REF. ...",2558157000162,CNPJ
2,354221844,2017,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,33-2017,CNPJ - PESSOA JURÍDICA - 43776517000180,SABESP - CIA SANEAMENTO BAS EST S PAULO,2017-01-02,68000.0,AGRICULTURA,ADMINISTRAÇÃO GERAL,23,GESTÃO AGRÍCOLA E RURAL,2011,CUSTEIO FIXO OPERACIONAL,TESOURO,0110 - GERAL,DISPENSA DE LICITAÇÃO,33903944 - SERVIÇOS DE ÁGUA E ESGOTO,"PROV. PAGAMENTO DE ÁGUA E ESGOTO, REF. AOS MES...",43776517000180,CNPJ
3,354222606,2017,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,19-2017,CNPJ - PESSOA JURÍDICA - 07282377000120,ENERGISA SUL-SUDESTE DIST. DE ENERGIA S.A,2017-01-02,40000.0,DESPORTO E LAZER,DESPORTO COMUNITÁRIO,3,ADMINISTRANDO COM RESPONSABILIDADE,2011,CUSTEIO FIXO OPERACIONAL,TESOURO,0110 - GERAL,DISPENSA DE LICITAÇÃO,33903943 - SERVIÇOS DE ENERGIA ELÉTRICA,"PROV. PAGTO. DE DESPESAS C/ ENERGIA, REF. AOS ...",7282377000120,CNPJ
4,354220862,2017,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,75-2017,CNPJ - PESSOA JURÍDICA - 15804087000127,SOUZA E MASTELLINI LTDA ME,2017-01-02,258.68,EDUCAÇÃO,ENSINO FUNDAMENTAL,15,GESTÃO DA EDUCAÇÃO,2039,GESTÃO DOS RECURSO DO QESE,TRANSFERÊNCIAS E CONVÊNIOS FEDERAIS-VINCULADOS,0200 - EDUCAÇÃO - RECURSOS ESPECÍFICOS,PREGÃO,33903099 - OUTROS MATERIAIS DE CONSUMO,Item 001: FITA CREPE. PACOTE CONTENDO 5 ROLAS ...,15804087000127,CNPJ


### Memory usage

Some memory usage information can be seen below, segregated per column. Data is shown in MB.

In [20]:
df.memory_usage(deep=True)/1024/1024

Index                      0.000076
id_despesa_detalhe        38.146973
ano_exercicio             38.146973
ds_municipio               9.596111
ds_orgao                   9.749841
nr_empenho               315.974287
identificador_despesa    567.396705
ds_despesa               422.557128
dt_emissao_despesa        38.146973
vl_despesa                38.146973
ds_funcao_governo          4.772098
ds_subfuncao_governo       4.784760
cd_programa               38.146973
ds_programa               10.820309
cd_acao                   38.146973
ds_acao                   13.988244
ds_fonte_recurso           4.771158
ds_cd_aplicacao_fixo     440.311937
ds_modalidade_lic          4.769725
ds_elemento              571.643009
historico_despesa        830.141891
ds_cpf_cnpj              326.042683
ds_tipo_identif          304.088693
dtype: float64

In [21]:
np.sum(df.memory_usage(deep=True)/1024/1024)

4070.2904901504517

In [22]:
dtypes = df.dtypes

dtypes_col = dtypes.index
dtypes_type = [i.name for i in dtypes.values]

column_types = dict(zip(dtypes_col, dtypes_type))
column_types

{'id_despesa_detalhe': 'int64',
 'ano_exercicio': 'int64',
 'ds_municipio': 'category',
 'ds_orgao': 'category',
 'nr_empenho': 'object',
 'identificador_despesa': 'object',
 'ds_despesa': 'object',
 'dt_emissao_despesa': 'datetime64[ns]',
 'vl_despesa': 'float64',
 'ds_funcao_governo': 'category',
 'ds_subfuncao_governo': 'category',
 'cd_programa': 'int64',
 'ds_programa': 'category',
 'cd_acao': 'int64',
 'ds_acao': 'category',
 'ds_fonte_recurso': 'category',
 'ds_cd_aplicacao_fixo': 'object',
 'ds_modalidade_lic': 'category',
 'ds_elemento': 'object',
 'historico_despesa': 'object',
 'ds_cpf_cnpj': 'object',
 'ds_tipo_identif': 'object'}

### Unique values on categorical columns

Some column values consist of a few category options. This sections tries to exemplify which categories are present in multiple text columns.

It is clear that most text entries are categorical, with exception of the following:

- Column related to the spending description: `historico_despesa`
- Columns probably not standardized between municipalities: `nr_empenho`, `ds_programa`, `ds_acao`
- Columns related to the spending destination: `identificador_despesa`, `ds_despesa`, `ds_cpf_cnpj`

In [23]:
df['ds_tipo_identif'].unique()

array(['CNPJ', 'SEM CPF/CNPJ', 'CPF', 'GENÉRICO', 'INVALID TYPE',
       'PRECATÓRIOS'], dtype=object)

In [24]:
print('Total number of lines from database included in this analysis: %d\n' % (len(df)))
for col in df.select_dtypes(include=['object', 'category']).columns:
    print('%30s: %8d unique values' % (col, df[col].nunique()))

Total number of lines from database included in this analysis: 5000000

                  ds_municipio:      513 unique values
                      ds_orgao:     1372 unique values
                    nr_empenho:    93742 unique values
         identificador_despesa:   254207 unique values
                    ds_despesa:   429536 unique values
             ds_funcao_governo:       28 unique values
          ds_subfuncao_governo:      100 unique values
                   ds_programa:     9099 unique values
                       ds_acao:    27526 unique values
              ds_fonte_recurso:       14 unique values
          ds_cd_aplicacao_fixo:       54 unique values
             ds_modalidade_lic:       11 unique values
                   ds_elemento:      525 unique values
             historico_despesa:  2495271 unique values
                   ds_cpf_cnpj:   253438 unique values
               ds_tipo_identif:        6 unique values


In [25]:
list(df.ds_funcao_governo.unique())

['EDUCAÇÃO',
 'ADMINISTRAÇÃO',
 'AGRICULTURA',
 'DESPORTO E LAZER',
 'URBANISMO',
 'SAÚDE',
 'ASSISTÊNCIA SOCIAL',
 'COMUNICAÇÕES',
 'LEGISLATIVA',
 'CULTURA',
 'ENCARGOS ESPECIAIS',
 'PREVIDÊNCIA SOCIAL',
 'GESTÃO AMBIENTAL',
 'TRANSPORTE',
 'SANEAMENTO',
 'COMÉRCIO E SERVIÇOS',
 'SEGURANÇA PÚBLICA',
 'JUDICIÁRIA',
 'HABITAÇÃO',
 'ESSENCIAL À JUSTIÇA',
 'TRABALHO',
 'ENERGIA',
 'INDÚSTRIA',
 'DEFESA NACIONAL',
 'ORGANIZAÇÃO AGRÁRIA',
 'DIREITOS DA CIDADANIA',
 'CIÊNCIA E TECNOLOGIA',
 'RELAÇÕES EXTERIORES']

In [26]:
list(df.ds_fonte_recurso.unique())

['TESOURO',
 'TRANSFERÊNCIAS E CONVÊNIOS FEDERAIS-VINCULADOS',
 'RECURSOS PRÓPRIOS DA ADMINISTRAÇÃO INDIRETA',
 'TRANSFERÊNCIAS E CONVÊNIOS ESTADUAIS-VINCULADOS',
 'RECURSOS PRÓPRIOS DE FUNDOS ESPECIAIS DE DESPESA-VINCULADOS',
 'OPERAÇÕES DE CRÉDITO',
 'OUTRAS FONTES DE RECURSOS',
 'TRANSFERÊNCIAS E CONVÊNIOS FEDERAIS-VINCULADOS - EXERCICIOS ANTERIORES',
 'TESOURO - EXERCICIOS ANTERIORES',
 'TRANSFERÊNCIAS E CONVÊNIOS ESTADUAIS-VINCULADOS - EXERCICIOS ANTERIORES',
 'OUTRAS FONTES DE RECURSOS - EXERCICIOS ANTERIORES',
 'RECURSOS PRÓPRIOS DE FUNDOS ESPECIAIS DE DESPESA-VINCULADOS - EXERCICIOS ANTERIORES',
 'OPERAÇÕES DE CRÉDITO - EXERCICIOS ANTERIORES',
 'RECURSOS PRÓPRIOS DA ADMINISTRAÇÃO INDIRETA - EXERCICIOS ANTERIORES']

In [27]:
list(df.ds_modalidade_lic.unique())

['PREGÃO',
 'DISPENSA DE LICITAÇÃO',
 'OUTROS/NÃO APLICÁVEL',
 'CONVITE',
 'TOMADA DE PREÇOS',
 'INEXIGÍVEL',
 'CONCORRÊNCIA',
 'BEC-BOLSA ELETRÔNICA DE COMPRAS',
 'CONCURSO',
 'RDC',
 'Leilão']

### Maximum string length for each text column

This information is used to optimize the MySQL database, considering only the required string length for each column. The approximated maximum string lengths are:

- `ds_municipio`: 26
- `ds_orgao`: 94
- `nr_empenho`: 17
- `identificador_despesa`: 71
- `ds_despesa`: 100
- `ds_funcao_governo`: 21
- `ds_subfuncao_governo`: 50
- `ds_programa`: 100
- `ds_acao`: 100
- `ds_fonte_recurso`: 83
- `ds_cd_aplicacao_fixo`: 65
- `ds_modalidade_lic`: 31
- `ds_elemento`: 134
- `historico_despesa`: 2205
- `ds_cpf_cnpj`: 20
- `ds_tipo_identif`: 12

In [28]:
df_len = {}
for col in df.select_dtypes(include=['object', 'category']).columns:
    print(col)
    df_len[col] = df[col].apply(lambda x: len(str(x))).unique().astype(str).astype(int).max()

ds_municipio
ds_orgao
nr_empenho
identificador_despesa
ds_despesa
ds_funcao_governo
ds_subfuncao_governo
ds_programa
ds_acao
ds_fonte_recurso
ds_cd_aplicacao_fixo
ds_modalidade_lic
ds_elemento
historico_despesa
ds_cpf_cnpj
ds_tipo_identif


In [29]:
df_len

{'ds_municipio': 26,
 'ds_orgao': 94,
 'nr_empenho': 17,
 'identificador_despesa': 71,
 'ds_despesa': 100,
 'ds_funcao_governo': 21,
 'ds_subfuncao_governo': 50,
 'ds_programa': 100,
 'ds_acao': 100,
 'ds_fonte_recurso': 83,
 'ds_cd_aplicacao_fixo': 65,
 'ds_modalidade_lic': 31,
 'ds_elemento': 134,
 'historico_despesa': 2205,
 'ds_cpf_cnpj': 20,
 'ds_tipo_identif': 12}

### Maximum number of algarisms for numerical columns

Similar to what was done for categorical columns, every numerical category is analyzed in order to define the proper integer or float precision.

In [30]:
df.describe()

Unnamed: 0,id_despesa_detalhe,ano_exercicio,vl_despesa,cd_programa,cd_acao
count,5000000.0,5000000.0,5000000.0,5000000.0,5000000.0
mean,368414900.0,2017.0,16702.96,498.1153,2169.481
std,9389752.0,0.0,330355.1,1476.66,1612.724
min,354220700.0,2017.0,0.01,0.0,0.0
25%,360289800.0,2017.0,215.8,7.0,2012.0
50%,368957900.0,2017.0,820.0,19.0,2029.0
75%,377211300.0,2017.0,3570.0,100.0,2073.0
max,392568500.0,2017.0,460000000.0,9999.0,30012.0


In [31]:
mask = df['ds_cpf_cnpj'].apply(lambda x: x.isnumeric())
df[mask != True]['identificador_despesa'].unique()

array(['INSCRIÇÃO GENÉRICA-OUTROS - PASEP',
       'INSCRIÇÃO GENÉRICA-OUTROS - INSS',
       'INSCRIÇÃO GENÉRICA-OUTROS - TABELIAODENOTASE',
       'INSCRIÇÃO GENÉRICA-OUTROS - FGTS',
       'INSCRIÇÃO GENÉRICA-OUTROS - PREFEITURAMUNICIPAL',
       'INSCRIÇÃO GENÉRICA-OUTROS - BANCODOBRASILSA',
       'INSCRIÇÃO GENÉRICA-OUTROS - FUNSETFUNDONACIO',
       'INSCRIÇÃO GENÉRICA-OUTROS - EDIVALDOCANDIDODOS',
       'INSCRIÇÃO GENÉRICA-OUTROS - BANCOBRADESCOSA',
       'INSCRIÇÃO GENÉRICA-OUTROS - CAIXAECONOMICAFEDE',
       'INSCRIÇÃO GENÉRICA-OUTROS - CONSREGENGARQUIT',
       'INSCRIÇÃO GENÉRICA-OUTROS - TRIBUNALDEJUSTICA',
       'INSCRIÇÃO GENÉRICA-OUTROS - DIVERSOSCONFORMEES',
       'INSCRIÇÃO GENÉRICA-OUTROS - INSTITUTONACIONALD',
       'INSCRIÇÃO GENÉRICA-OUTROS - FOLHADEPAGAMENTOF',
       'INSCRIÇÃO GENÉRICA-OUTROS - FOLHADEPAGTODEEV',
       'INSCRIÇÃO GENÉRICA-OUTROS - FOLHAPAGAMENTOADIA',
       'INSCRIÇÃO GENÉRICA-OUTROS - FOLHAPAGAMENTOPRO',
       'INSCRIÇÃO GENÉRICA-OUTR

In [32]:
df_num = {}
for col in df.select_dtypes(exclude=['object', 'category', 'datetime64']).columns:
    print(col)
    df_num[col] = df[col].max()

id_despesa_detalhe
ano_exercicio
vl_despesa
cd_programa
cd_acao


In [33]:
# Maximum values for each 
df_num

{'id_despesa_detalhe': 392568526,
 'ano_exercicio': 2017,
 'vl_despesa': 460000000.0,
 'cd_programa': 9999,
 'cd_acao': 30012}

## Analysis of spending description

This section randomly samples a few columns, including the `historico_despesa` which contains a detailed text description of every spending entry. This column is the most complicated to be analyzed, since the information contained there is not standardized.

In [34]:
for i in range(20):
    n = int(len(df)* np.random.random())
    print(df[['ds_orgao','ds_despesa','vl_despesa','ds_funcao_governo']].iloc[n], '\n', df['historico_despesa'].iloc[n], '\n')

ds_orgao             PREFEITURA MUNICIPAL DE ESPÍRITO SANTO DO PINHAL
ds_despesa                             LUIS EUGENIO ORSINI PORRECA ME
vl_despesa                                                    1452.48
ds_funcao_governo                                            EDUCAÇÃO
Name: 1661395, dtype: object 
 FORNECIMENTO PARCELADO DE AGUA MINERAL  EM GARRAFAO DE 20 LITROS  1 AGUA MINERAL NATURAL SEM GAS  ACONDICIONADOS EM  

ds_orgao             PREFEITURA MUNICIPAL DE COSMORAMA
ds_despesa                   GRAFICA SAO BENTO LTDA-ME
vl_despesa                                         180
ds_funcao_governo                        ADMINISTRAÇÃO
Name: 1460071, dtype: object 
 Despesa com servicos graficos e editoriais. 

ds_orgao                    PREFEITURA MUNICIPAL DE MARÍLIA
ds_despesa           PRAMOTO PECAS PARA TRATORES LTDA   EPP
vl_despesa                                           305.03
ds_funcao_governo                                 URBANISMO
Name: 3238802, dtype: object 
 AN

In [35]:
df.iloc[n]

id_despesa_detalhe                                               377763836
ano_exercicio                                                         2017
ds_municipio                                                      Panorama
ds_orgao                                  PREFEITURA MUNICIPAL DE PANORAMA
nr_empenho                                                       8381-2017
identificador_despesa          IDENTIFICAÇÃO ESPECIAL - SEM CPF/CNPJ - 230
ds_despesa                                      SEGURO OBRIGATORIO - DPVAT
dt_emissao_despesa                                     2017-10-18 00:00:00
vl_despesa                                                           67.84
ds_funcao_governo                                                 EDUCAÇÃO
ds_subfuncao_governo                                    ENSINO FUNDAMENTAL
cd_programa                                                             14
ds_programa              ACESSO A EDUCACAO E QUALIDADE DO ENSINO- FUNDA...
cd_acao                  

## Uniqueness check

### Checks `id_despesa_detalhe` uniqueness

This section confirms that the `id_despesa_detalhe` value is indeed unique for each spending, even considering different years.

In [6]:
from sqlalchemy import create_engine
engine = create_engine('mysql://root:Dougroot1!@127.0.0.1/db_tce')

df2 = pd.read_sql_query('SELECT COUNT(DISTINCT id_despesa_detalhe),'
                        'COUNT(id_despesa_detalhe) FROM despesas', con=engine)

In [7]:
df2

Unnamed: 0,COUNT(DISTINCT id_despesa_detalhe),COUNT(id_despesa_detalhe)
0,18990734,18990734


### Checks if city names are all similar between years

This section confirms that the city names are the same between years 2015 and 2017.

In [7]:
from sqlalchemy import create_engine
engine = create_engine('mysql://root:Dougroot1!@127.0.0.1/db_tce')

df2017 = pd.read_sql_query('SELECT DISTINCT ds_municipio FROM despesas WHERE ano_exercicio=2017', con=engine)

In [9]:
df2016 = pd.read_sql_query('SELECT DISTINCT ds_municipio FROM despesas WHERE ano_exercicio=2016', con=engine)
df2015 = pd.read_sql_query('SELECT DISTINCT ds_municipio FROM despesas WHERE ano_exercicio=2015', con=engine)

In [10]:
df2017.equals(df2016)

True

In [11]:
df2017.equals(df2015)

True

## Try-out to load only data for specific columns from year 2017

This try-out loads exemplifies how to load selected columns from a single year, considering only municipalities that are included in the IBGE table from MySQL.

In [19]:
from sqlalchemy import create_engine
engine = create_engine('mysql://root:Dougroot1!@127.0.0.1/db_tce')

query = 'SELECT id_despesa_detalhe, ds_municipio, ds_funcao_governo, ds_subfuncao_governo, vl_despesa ' \
        'FROM despesas WHERE ano_exercicio=2017 AND ' \
        'ds_municipio IN (SELECT name_city FROM ibge)'
df = pd.read_sql_query(query, con=engine)

In [20]:
df

Unnamed: 0,id_despesa_detalhe,ds_municipio,ds_funcao_governo,ds_subfuncao_governo
0,354230224,Americana,PREVIDÊNCIA SOCIAL,ADMINISTRAÇÃO GERAL
1,354624229,Americana,SEGURANÇA PÚBLICA,POLICIAMENTO
2,354230741,Americana,SEGURANÇA PÚBLICA,POLICIAMENTO
3,354230095,Americana,SAÚDE,ASSISTÊNCIA HOSPITALAR E AMBULATORIAL
4,354230088,Americana,SAÚDE,ASSISTÊNCIA HOSPITALAR E AMBULATORIAL
5,354231170,Americana,SAÚDE,ASSISTÊNCIA HOSPITALAR E AMBULATORIAL
6,354229470,Americana,LEGISLATIVA,AÇÃO LEGISLATIVA
7,354230347,Americana,SAÚDE,ASSISTÊNCIA HOSPITALAR E AMBULATORIAL
8,354641136,Americana,SAÚDE,ASSISTÊNCIA HOSPITALAR E AMBULATORIAL
9,354227987,Americana,ADMINISTRAÇÃO,ADMINISTRAÇÃO GERAL


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9706222 entries, 0 to 9706221
Data columns (total 4 columns):
id_despesa_detalhe      int64
ds_municipio            object
ds_funcao_governo       object
ds_subfuncao_governo    object
dtypes: int64(1), object(3)
memory usage: 296.2+ MB
