# Objective

The objective of this notebook is to read all `zip` files with expenses from a given year and add it to a table in a MySQL database. This would make it easier to perform later post-processing on the information, given the fact that the amount of information makes unfeasible to load everything on the RAM (information of a single year occupies around 10GB of RAM).

The workflow is divided into a few steps:

- Define utility functions that will be responsible for:
  - Parsing expense document type identification.
  - Read a single `zip` file, parsing it accordingly. This would convert information into the desired format and types, returning a Pandas DataFrame.
  - Reads a complete year dataset, appending the information to a MySQL database.
- Read the TCE-SP dataset for a given year and append it to a MySQL db.
- Perform general checks on the database information, focusing on increasing knowledge on the information as well as memory/disk usage optimization.
- Sample dataset entries in order to get familiar with the data, particularly the spending description.
- Additional checks on value uniqueness for some columns (city information and spending id number).
- Try-out to load data from TCE-SP database only for cities included in the IBGE database (obtained from another MySQL table). 

## Defining utility functions

Data from TCE-SP are encoded on `Western Europe (Windows-1252/WinLatin 1)`.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

pd.set_option("display.max_columns", None)

In [2]:
# Utility function that categorizes the type of document (CPF, CNPJ, Unidentified or not-categorized)
def parse_tipo_identif(string):
    str_tmp = string.split(' - ')[0]
    options = {
        'CNPJ': 'CNPJ',
        'PESSOA FÍSICA': 'CPF',
        'IDENTIFICAÇÃO ESPECIAL': 'SEM CPF/CNPJ',
        'INSCRIÇÃO GENÉRICA-OUTROS': 'GENÉRICO',
        'INSCRIÇÃO GENÉRICA-PRECATÓRIOS-OUTROS': 'PRECATÓRIOS'
    }
    return options.get(str_tmp, 'INVALID TYPE')

In [18]:
''' Utility function that reads zipped spending file, returning DataFrame with
    only "commited" spendings. Performs the following tranformations:
    + Drops reference months (leaves only emission date)
    + Drops spending type (always "commited" spending)
    + Converts date format to Pandas format
    + Drops rows with NaNs in 'identificador_despesa', 'ds_despesa', 'cd_acao', 'cd_programa', 'ds_acao'
    +TODO (MODIFY AFTER DEBUG) Parses CNPJ and natural individual IDs
    + Sorts entries according to date of expenditure
    +DISABLED: Calculates the cumulative sum per year and per city
    + Converts some columns from object to category or integer types
    
'''
def read_spending(year, fname):
    df = pd.read_csv('../not_tracked/'+str(year) + '/' + fname, compression='zip',
                 delimiter=';', encoding='latin_1', decimal=',', dayfirst=True)
    
    # Drops reference months and spending type (leaves only "commited" spending type)
    df.drop(df[df.tp_despesa != 'Empenhado'].index, inplace=True)
    df.drop(['mes_referencia', 'mes_ref_extenso', 'tp_despesa'], axis=1, inplace=True)
    
    # Converts date format to Pandas format
    df['dt_emissao_despesa'] = pd.to_datetime(df['dt_emissao_despesa'], format='%d/%m/%Y')
    
    # Drops rows with NaNs in 'identificador_despesa', 'ds_despesa', 'cd_acao', 'cd_programa', 'ds_acao'
    df.dropna(subset=['identificador_despesa', 'ds_despesa', 'cd_acao',
                      'cd_programa', 'ds_acao'], axis=0, inplace=True)
    
    # Parses CNPJ and CPF and drops original column
    df['ds_cpf_cnpj'] = df['identificador_despesa'].apply(lambda x: x.split(' - ')[-1])
    ###df['ds_tipo_identif'] = df['identificador_despesa'].apply(lambda x: x.split(' - ')[:-2])
    df['ds_tipo_identif'] = df['identificador_despesa'].apply(parse_tipo_identif)
    ### UNCOMMENT AFTER DEBUG ####df.drop('identificador_despesa', axis=1, inplace=True)
    
    # Sorts entries according to date of expenditure
    df.sort_values(by='dt_emissao_despesa', inplace=True)
    
    # Calculates the cumulative sum per year and per city
    #df['vl_acumulado'] = df['vl_despesa'].cumsum(axis=0)
    
    # Converts some columns from object to category or integer types
    cat_columns = ['ds_municipio', 'ds_orgao', 'ds_funcao_governo', 'ds_subfuncao_governo', 'ds_programa',
                   'ds_acao', 'ds_fonte_recurso', 'ds_modalidade_lic']
    for col in cat_columns:
        df[col] = df[col].astype('category')
    
    return df

In [24]:
''' Utility function that reads a year of spending records and appends the result to a SQL table '''
def read_spending_year_mysql(year, table, engine):
    
    # Define file list (only zip files that start with "despesa")
    flist = os.listdir('../not_tracked/'+str(year)+'/')
    flist_desp = [x for x in flist if x[0:7] == 'despesa' and x[-3:] == 'zip']
    flist_desp = sorted(flist_desp)
    
    # Loads all cities
    nfiles = len(flist_desp)

    # Load each file and import to MySQL table
    i = 1
    for fname in flist_desp:
        print('Importing file '+str(i)+'/'+str(nfiles)+': '+ fname)
        df = read_spending(year, fname)
        df.to_sql(table, con=engine, if_exists='append', index=False)
        del df
        i += 1

## Reading files with expenses data

This section appends the TCE-SP dataset into a MySQL database for a given year range. Loading each year may take about one hour and use up to 2GB of disk space.

In [25]:
import datetime
from sqlalchemy import create_engine
engine = create_engine('mysql://root:Dougroot1!@127.0.0.1/db_tce')

for year in range(2017, 2007, -1):
    print('Reading year %d' % (year))
    print(datetime.datetime.now())
    read_spending_year_mysql(year, table='despesas', engine=engine)
    print(datetime.datetime.now())

Reading year 2008
2019-01-20 10:32:54.497482
Importing file 1/639: despesas-adamantina-2008.zip
Importing file 2/639: despesas-adolfo-2008.zip
Importing file 3/639: despesas-aguai-2008.zip
Importing file 4/639: despesas-aguas-da-prata-2008.zip
Importing file 5/639: despesas-aguas-de-lindoia-2008.zip
Importing file 6/639: despesas-aguas-de-santa-barbara-2008.zip
Importing file 7/639: despesas-aguas-de-sao-pedro-2008.zip
Importing file 8/639: despesas-agudos-2008.zip
Importing file 9/639: despesas-alambari-2008.zip
Importing file 10/639: despesas-alfredo-marcondes-2008.zip
Importing file 11/639: despesas-altair-2008.zip
Importing file 12/639: despesas-altinopolis-2008.zip
Importing file 13/639: despesas-alto-alegre-2008.zip
Importing file 14/639: despesas-aluminio-2008.zip
Importing file 15/639: despesas-alvares-florence-2008.zip
Importing file 16/639: despesas-alvares-machado-2008.zip
Importing file 17/639: despesas-alvaro-de-carvalho-2008.zip
Importing file 18/639: despesas-alvinlandia

  exec(code_obj, self.user_global_ns, self.user_ns)


Importing file 72/639: despesas-bertioga-2008.zip
Importing file 73/639: despesas-bilac-2008.zip
Importing file 74/639: despesas-birigui-2008.zip
Importing file 75/639: despesas-biritiba-mirim-2008.zip
Importing file 76/639: despesas-boa-esperanca-do-sul-2008.zip
Importing file 77/639: despesas-bocaina-2008.zip
Importing file 78/639: despesas-bofete-2008.zip
Importing file 79/639: despesas-boituva-2008.zip
Importing file 80/639: despesas-bom-jesus-dos-perdoes-2008.zip
Importing file 81/639: despesas-bom-sucesso-de-itarare-2008.zip
Importing file 82/639: despesas-bora-2008.zip
Importing file 83/639: despesas-boraceia-2008.zip
Importing file 84/639: despesas-borborema-2008.zip
Importing file 85/639: despesas-borebi-2008.zip
Importing file 86/639: despesas-botucatu-2008.zip
Importing file 87/639: despesas-braganca-paulista-2008.zip
Importing file 88/639: despesas-brauna-2008.zip
Importing file 89/639: despesas-brejo-alegre-2008.zip
Importing file 90/639: despesas-brodowski-2008.zip
Import

Importing file 227/639: despesas-ibitinga-2008.zip
Importing file 228/639: despesas-ibiuna-2008.zip
Importing file 229/639: despesas-icem-2008.zip
Importing file 230/639: despesas-iepe-2008.zip
Importing file 231/639: despesas-igaracu-do-tiete-2008.zip
Importing file 232/639: despesas-igarapava-2008.zip
Importing file 233/639: despesas-igarata-2008.zip
Importing file 234/639: despesas-iguape-2008.zip
Importing file 235/639: despesas-ilha-comprida-2008.zip
Importing file 236/639: despesas-ilha-solteira-2008.zip
Importing file 237/639: despesas-ilhabela-2008.zip
Importing file 238/639: despesas-indaiatuba-2008.zip
Importing file 239/639: despesas-indiana-2008.zip
Importing file 240/639: despesas-indiapora-2008.zip
Importing file 241/639: despesas-inubia-paulista-2008.zip
Importing file 242/639: despesas-ipaussu-2008.zip
Importing file 243/639: despesas-ipero-2008.zip
Importing file 244/639: despesas-ipeuna-2008.zip
Importing file 245/639: despesas-ipigua-2008.zip
Importing file 246/639: 

Importing file 384/639: despesas-onda-verde-2008.zip
Importing file 385/639: despesas-oriente-2008.zip
Importing file 386/639: despesas-orindiuva-2008.zip
Importing file 387/639: despesas-orlandia-2008.zip
Importing file 388/639: despesas-osasco-2008.zip
Importing file 389/639: despesas-oscar-bressane-2008.zip
Importing file 390/639: despesas-osvaldo-cruz-2008.zip
Importing file 391/639: despesas-ourinhos-2008.zip
Importing file 392/639: despesas-ouroeste-2008.zip
Importing file 393/639: despesas-pacaembu-2008.zip
Importing file 394/639: despesas-palestina-2008.zip
Importing file 395/639: despesas-palmares-paulista-2008.zip
Importing file 396/639: despesas-palmeira-d-oeste-2008.zip
Importing file 397/639: despesas-palmital-2008.zip
Importing file 398/639: despesas-panorama-2008.zip
Importing file 399/639: despesas-paraguacu-paulista-2008.zip
Importing file 400/639: despesas-paraibuna-2008.zip
Importing file 401/639: despesas-paraiso-2008.zip
Importing file 402/639: despesas-paranapanem

Importing file 535/639: despesas-santo-antonio-de-posse-2008.zip
Importing file 536/639: despesas-santo-antonio-do-aracangua-2008.zip
Importing file 537/639: despesas-santo-antonio-do-jardim-2008.zip
Importing file 538/639: despesas-santo-antonio-do-pinhal-2008.zip
Importing file 539/639: despesas-santo-expedito-2008.zip
Importing file 540/639: despesas-santopolis-do-aguapei-2008.zip
Importing file 541/639: despesas-santos-2008.zip
Importing file 542/639: despesas-sao-bento-do-sapucai-2008.zip
Importing file 543/639: despesas-sao-bernardo-do-campo-2008.zip
Importing file 544/639: despesas-sao-caetano-do-sul-2008.zip
Importing file 545/639: despesas-sao-carlos-2008.zip
Importing file 546/639: despesas-sao-francisco-2008.zip
Importing file 547/639: despesas-sao-joao-da-boa-vista-2008.zip
Importing file 548/639: despesas-sao-joao-das-duas-pontes-2008.zip
Importing file 549/639: despesas-sao-joao-de-iracema-2008.zip
Importing file 550/639: despesas-sao-joaquim-da-barra-2008.zip
Importing f

## General checks regarding data columns

This section focuses on analyzing each column in the dataset, aiming at a better understanding of the data available in the dataset, as well as optimizing it for memory/disk usage. Due to memory limitations, a sample of only 5 million entries will be used for this analysis step, with no significant lack of generalization to the final dataset.

In [17]:
from sqlalchemy import create_engine
engine = create_engine('mysql://root:Dougroot1!@127.0.0.1/db_tce')

df = pd.read_sql_query('SELECT * FROM despesas WHERE ano_exercicio=2017 LIMIT 5000000', con=engine)

In [18]:
# Converts some columns from object to category or integer types
cat_columns = ['ds_municipio', 'ds_orgao', 'ds_funcao_governo', 'ds_subfuncao_governo', 'ds_programa',
               'ds_acao', 'ds_fonte_recurso', 'ds_modalidade_lic']
for col in cat_columns:
    df[col] = df[col].astype('category')

In [19]:
df.head()

Unnamed: 0,id_despesa_detalhe,ano_exercicio,ds_municipio,ds_orgao,nr_empenho,identificador_despesa,ds_despesa,dt_emissao_despesa,vl_despesa,ds_funcao_governo,ds_subfuncao_governo,cd_programa,ds_programa,cd_acao,ds_acao,ds_fonte_recurso,ds_cd_aplicacao_fixo,ds_modalidade_lic,ds_elemento,historico_despesa,ds_cpf_cnpj,ds_tipo_identif
0,354220976,2017,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,103-2017,CNPJ - PESSOA JURÍDICA - 08720483000100,ELIANE CRISTINA MOURA DA SILVA - ME,2017-01-02,1752.7,EDUCAÇÃO,EDUCAÇÃO INFANTIL,15,GESTÃO DA EDUCAÇÃO,2042,GESTÃO DAS CRECHES,TESOURO,0210 - EDUCAÇÃO INFANTIL - RECURSOS ESPECÍFICOS,PREGÃO,33903022 - MATERIAL DE LIMPEZA E PRODUTOS DE H...,Item 001: ÁGUA SANITÁRIA - COMPOSTA DE HIPOCLO...,8720483000100,CNPJ
1,354220744,2017,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,34-2017,CNPJ - PESSOA JURÍDICA - 02558157000162,TELEFONICA BRASIL S.A,2017-01-02,2000.0,ADMINISTRAÇÃO,ADMINISTRAÇÃO GERAL,3,ADMINISTRANDO COM RESPONSABILIDADE,2011,CUSTEIO FIXO OPERACIONAL,TESOURO,0110 - GERAL,DISPENSA DE LICITAÇÃO,33903958 - SERVIÇOS DE TELECOMUNICAÇÕES,"PROV. PAGAMENTO DE TELEFONE E INTERNET, REF. ...",2558157000162,CNPJ
2,354221844,2017,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,33-2017,CNPJ - PESSOA JURÍDICA - 43776517000180,SABESP - CIA SANEAMENTO BAS EST S PAULO,2017-01-02,68000.0,AGRICULTURA,ADMINISTRAÇÃO GERAL,23,GESTÃO AGRÍCOLA E RURAL,2011,CUSTEIO FIXO OPERACIONAL,TESOURO,0110 - GERAL,DISPENSA DE LICITAÇÃO,33903944 - SERVIÇOS DE ÁGUA E ESGOTO,"PROV. PAGAMENTO DE ÁGUA E ESGOTO, REF. AOS MES...",43776517000180,CNPJ
3,354222606,2017,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,19-2017,CNPJ - PESSOA JURÍDICA - 07282377000120,ENERGISA SUL-SUDESTE DIST. DE ENERGIA S.A,2017-01-02,40000.0,DESPORTO E LAZER,DESPORTO COMUNITÁRIO,3,ADMINISTRANDO COM RESPONSABILIDADE,2011,CUSTEIO FIXO OPERACIONAL,TESOURO,0110 - GERAL,DISPENSA DE LICITAÇÃO,33903943 - SERVIÇOS DE ENERGIA ELÉTRICA,"PROV. PAGTO. DE DESPESAS C/ ENERGIA, REF. AOS ...",7282377000120,CNPJ
4,354220862,2017,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,75-2017,CNPJ - PESSOA JURÍDICA - 15804087000127,SOUZA E MASTELLINI LTDA ME,2017-01-02,258.68,EDUCAÇÃO,ENSINO FUNDAMENTAL,15,GESTÃO DA EDUCAÇÃO,2039,GESTÃO DOS RECURSO DO QESE,TRANSFERÊNCIAS E CONVÊNIOS FEDERAIS-VINCULADOS,0200 - EDUCAÇÃO - RECURSOS ESPECÍFICOS,PREGÃO,33903099 - OUTROS MATERIAIS DE CONSUMO,Item 001: FITA CREPE. PACOTE CONTENDO 5 ROLAS ...,15804087000127,CNPJ


### Memory usage

Some memory usage information can be seen below, segregated per column. Data is shown in MB.

In [20]:
df.memory_usage(deep=True)/1024/1024

Index                      0.000076
id_despesa_detalhe        38.146973
ano_exercicio             38.146973
ds_municipio               9.596111
ds_orgao                   9.749841
nr_empenho               315.974287
identificador_despesa    567.396705
ds_despesa               422.557128
dt_emissao_despesa        38.146973
vl_despesa                38.146973
ds_funcao_governo          4.772098
ds_subfuncao_governo       4.784760
cd_programa               38.146973
ds_programa               10.820309
cd_acao                   38.146973
ds_acao                   13.988244
ds_fonte_recurso           4.771158
ds_cd_aplicacao_fixo     440.311937
ds_modalidade_lic          4.769725
ds_elemento              571.643009
historico_despesa        830.141891
ds_cpf_cnpj              326.042683
ds_tipo_identif          304.088693
dtype: float64

In [21]:
np.sum(df.memory_usage(deep=True)/1024/1024)

4070.2904901504517

In [22]:
dtypes = df.dtypes

dtypes_col = dtypes.index
dtypes_type = [i.name for i in dtypes.values]

column_types = dict(zip(dtypes_col, dtypes_type))
column_types

{'id_despesa_detalhe': 'int64',
 'ano_exercicio': 'int64',
 'ds_municipio': 'category',
 'ds_orgao': 'category',
 'nr_empenho': 'object',
 'identificador_despesa': 'object',
 'ds_despesa': 'object',
 'dt_emissao_despesa': 'datetime64[ns]',
 'vl_despesa': 'float64',
 'ds_funcao_governo': 'category',
 'ds_subfuncao_governo': 'category',
 'cd_programa': 'int64',
 'ds_programa': 'category',
 'cd_acao': 'int64',
 'ds_acao': 'category',
 'ds_fonte_recurso': 'category',
 'ds_cd_aplicacao_fixo': 'object',
 'ds_modalidade_lic': 'category',
 'ds_elemento': 'object',
 'historico_despesa': 'object',
 'ds_cpf_cnpj': 'object',
 'ds_tipo_identif': 'object'}

### Unique values on categorical columns

Some column values consist of a few category options. This sections tries to exemplify which categories are present in multiple text columns.

It is clear that most text entries are categorical, with exception of the following:

- Column related to the spending description: `historico_despesa`
- Columns probably not standardized between municipalities: `nr_empenho`, `ds_programa`, `ds_acao`
- Columns related to the spending destination: `identificador_despesa`, `ds_despesa`, `ds_cpf_cnpj`

In [23]:
df['ds_tipo_identif'].unique()

array(['CNPJ', 'SEM CPF/CNPJ', 'CPF', 'GENÉRICO', 'INVALID TYPE',
       'PRECATÓRIOS'], dtype=object)

In [24]:
print('Total number of lines from database included in this analysis: %d\n' % (len(df)))
for col in df.select_dtypes(include=['object', 'category']).columns:
    print('%30s: %8d unique values' % (col, df[col].nunique()))

Total number of lines from database included in this analysis: 5000000

                  ds_municipio:      513 unique values
                      ds_orgao:     1372 unique values
                    nr_empenho:    93742 unique values
         identificador_despesa:   254207 unique values
                    ds_despesa:   429536 unique values
             ds_funcao_governo:       28 unique values
          ds_subfuncao_governo:      100 unique values
                   ds_programa:     9099 unique values
                       ds_acao:    27526 unique values
              ds_fonte_recurso:       14 unique values
          ds_cd_aplicacao_fixo:       54 unique values
             ds_modalidade_lic:       11 unique values
                   ds_elemento:      525 unique values
             historico_despesa:  2495271 unique values
                   ds_cpf_cnpj:   253438 unique values
               ds_tipo_identif:        6 unique values


In [25]:
list(df.ds_funcao_governo.unique())

['EDUCAÇÃO',
 'ADMINISTRAÇÃO',
 'AGRICULTURA',
 'DESPORTO E LAZER',
 'URBANISMO',
 'SAÚDE',
 'ASSISTÊNCIA SOCIAL',
 'COMUNICAÇÕES',
 'LEGISLATIVA',
 'CULTURA',
 'ENCARGOS ESPECIAIS',
 'PREVIDÊNCIA SOCIAL',
 'GESTÃO AMBIENTAL',
 'TRANSPORTE',
 'SANEAMENTO',
 'COMÉRCIO E SERVIÇOS',
 'SEGURANÇA PÚBLICA',
 'JUDICIÁRIA',
 'HABITAÇÃO',
 'ESSENCIAL À JUSTIÇA',
 'TRABALHO',
 'ENERGIA',
 'INDÚSTRIA',
 'DEFESA NACIONAL',
 'ORGANIZAÇÃO AGRÁRIA',
 'DIREITOS DA CIDADANIA',
 'CIÊNCIA E TECNOLOGIA',
 'RELAÇÕES EXTERIORES']

In [26]:
list(df.ds_fonte_recurso.unique())

['TESOURO',
 'TRANSFERÊNCIAS E CONVÊNIOS FEDERAIS-VINCULADOS',
 'RECURSOS PRÓPRIOS DA ADMINISTRAÇÃO INDIRETA',
 'TRANSFERÊNCIAS E CONVÊNIOS ESTADUAIS-VINCULADOS',
 'RECURSOS PRÓPRIOS DE FUNDOS ESPECIAIS DE DESPESA-VINCULADOS',
 'OPERAÇÕES DE CRÉDITO',
 'OUTRAS FONTES DE RECURSOS',
 'TRANSFERÊNCIAS E CONVÊNIOS FEDERAIS-VINCULADOS - EXERCICIOS ANTERIORES',
 'TESOURO - EXERCICIOS ANTERIORES',
 'TRANSFERÊNCIAS E CONVÊNIOS ESTADUAIS-VINCULADOS - EXERCICIOS ANTERIORES',
 'OUTRAS FONTES DE RECURSOS - EXERCICIOS ANTERIORES',
 'RECURSOS PRÓPRIOS DE FUNDOS ESPECIAIS DE DESPESA-VINCULADOS - EXERCICIOS ANTERIORES',
 'OPERAÇÕES DE CRÉDITO - EXERCICIOS ANTERIORES',
 'RECURSOS PRÓPRIOS DA ADMINISTRAÇÃO INDIRETA - EXERCICIOS ANTERIORES']

In [27]:
list(df.ds_modalidade_lic.unique())

['PREGÃO',
 'DISPENSA DE LICITAÇÃO',
 'OUTROS/NÃO APLICÁVEL',
 'CONVITE',
 'TOMADA DE PREÇOS',
 'INEXIGÍVEL',
 'CONCORRÊNCIA',
 'BEC-BOLSA ELETRÔNICA DE COMPRAS',
 'CONCURSO',
 'RDC',
 'Leilão']

### Maximum string length for each text column

This information is used to optimize the MySQL database, considering only the required string length for each column. The approximated maximum string lengths are:

- `ds_municipio`: 26
- `ds_orgao`: 94
- `nr_empenho`: 17
- `identificador_despesa`: 71
- `ds_despesa`: 100
- `ds_funcao_governo`: 21
- `ds_subfuncao_governo`: 50
- `ds_programa`: 100
- `ds_acao`: 100
- `ds_fonte_recurso`: 83
- `ds_cd_aplicacao_fixo`: 65
- `ds_modalidade_lic`: 31
- `ds_elemento`: 134
- `historico_despesa`: 2205
- `ds_cpf_cnpj`: 20
- `ds_tipo_identif`: 12

In [28]:
df_len = {}
for col in df.select_dtypes(include=['object', 'category']).columns:
    print(col)
    df_len[col] = df[col].apply(lambda x: len(str(x))).unique().astype(str).astype(int).max()

ds_municipio
ds_orgao
nr_empenho
identificador_despesa
ds_despesa
ds_funcao_governo
ds_subfuncao_governo
ds_programa
ds_acao
ds_fonte_recurso
ds_cd_aplicacao_fixo
ds_modalidade_lic
ds_elemento
historico_despesa
ds_cpf_cnpj
ds_tipo_identif


In [29]:
df_len

{'ds_municipio': 26,
 'ds_orgao': 94,
 'nr_empenho': 17,
 'identificador_despesa': 71,
 'ds_despesa': 100,
 'ds_funcao_governo': 21,
 'ds_subfuncao_governo': 50,
 'ds_programa': 100,
 'ds_acao': 100,
 'ds_fonte_recurso': 83,
 'ds_cd_aplicacao_fixo': 65,
 'ds_modalidade_lic': 31,
 'ds_elemento': 134,
 'historico_despesa': 2205,
 'ds_cpf_cnpj': 20,
 'ds_tipo_identif': 12}

### Maximum number of algarisms for numerical columns

Similar to what was done for categorical columns, every numerical category is analyzed in order to define the proper integer or float precision.

In [30]:
df.describe()

Unnamed: 0,id_despesa_detalhe,ano_exercicio,vl_despesa,cd_programa,cd_acao
count,5000000.0,5000000.0,5000000.0,5000000.0,5000000.0
mean,368414900.0,2017.0,16702.96,498.1153,2169.481
std,9389752.0,0.0,330355.1,1476.66,1612.724
min,354220700.0,2017.0,0.01,0.0,0.0
25%,360289800.0,2017.0,215.8,7.0,2012.0
50%,368957900.0,2017.0,820.0,19.0,2029.0
75%,377211300.0,2017.0,3570.0,100.0,2073.0
max,392568500.0,2017.0,460000000.0,9999.0,30012.0


In [31]:
mask = df['ds_cpf_cnpj'].apply(lambda x: x.isnumeric())
df[mask != True]['identificador_despesa'].unique()

array(['INSCRIÇÃO GENÉRICA-OUTROS - PASEP',
       'INSCRIÇÃO GENÉRICA-OUTROS - INSS',
       'INSCRIÇÃO GENÉRICA-OUTROS - TABELIAODENOTASE',
       'INSCRIÇÃO GENÉRICA-OUTROS - FGTS',
       'INSCRIÇÃO GENÉRICA-OUTROS - PREFEITURAMUNICIPAL',
       'INSCRIÇÃO GENÉRICA-OUTROS - BANCODOBRASILSA',
       'INSCRIÇÃO GENÉRICA-OUTROS - FUNSETFUNDONACIO',
       'INSCRIÇÃO GENÉRICA-OUTROS - EDIVALDOCANDIDODOS',
       'INSCRIÇÃO GENÉRICA-OUTROS - BANCOBRADESCOSA',
       'INSCRIÇÃO GENÉRICA-OUTROS - CAIXAECONOMICAFEDE',
       'INSCRIÇÃO GENÉRICA-OUTROS - CONSREGENGARQUIT',
       'INSCRIÇÃO GENÉRICA-OUTROS - TRIBUNALDEJUSTICA',
       'INSCRIÇÃO GENÉRICA-OUTROS - DIVERSOSCONFORMEES',
       'INSCRIÇÃO GENÉRICA-OUTROS - INSTITUTONACIONALD',
       'INSCRIÇÃO GENÉRICA-OUTROS - FOLHADEPAGAMENTOF',
       'INSCRIÇÃO GENÉRICA-OUTROS - FOLHADEPAGTODEEV',
       'INSCRIÇÃO GENÉRICA-OUTROS - FOLHAPAGAMENTOADIA',
       'INSCRIÇÃO GENÉRICA-OUTROS - FOLHAPAGAMENTOPRO',
       'INSCRIÇÃO GENÉRICA-OUTR

In [32]:
df_num = {}
for col in df.select_dtypes(exclude=['object', 'category', 'datetime64']).columns:
    print(col)
    df_num[col] = df[col].max()

id_despesa_detalhe
ano_exercicio
vl_despesa
cd_programa
cd_acao


In [33]:
# Maximum values for each 
df_num

{'id_despesa_detalhe': 392568526,
 'ano_exercicio': 2017,
 'vl_despesa': 460000000.0,
 'cd_programa': 9999,
 'cd_acao': 30012}

## Analysis of spending description

This section randomly samples a few columns, including the `historico_despesa` which contains a detailed text description of every spending entry. This column is the most complicated to be analyzed, since the information contained there is not standardized.

In [34]:
for i in range(20):
    n = int(len(df)* np.random.random())
    print(df[['ds_orgao','ds_despesa','vl_despesa','ds_funcao_governo']].iloc[n], '\n', df['historico_despesa'].iloc[n], '\n')

ds_orgao             PREFEITURA MUNICIPAL DE ESPÍRITO SANTO DO PINHAL
ds_despesa                             LUIS EUGENIO ORSINI PORRECA ME
vl_despesa                                                    1452.48
ds_funcao_governo                                            EDUCAÇÃO
Name: 1661395, dtype: object 
 FORNECIMENTO PARCELADO DE AGUA MINERAL  EM GARRAFAO DE 20 LITROS  1 AGUA MINERAL NATURAL SEM GAS  ACONDICIONADOS EM  

ds_orgao             PREFEITURA MUNICIPAL DE COSMORAMA
ds_despesa                   GRAFICA SAO BENTO LTDA-ME
vl_despesa                                         180
ds_funcao_governo                        ADMINISTRAÇÃO
Name: 1460071, dtype: object 
 Despesa com servicos graficos e editoriais. 

ds_orgao                    PREFEITURA MUNICIPAL DE MARÍLIA
ds_despesa           PRAMOTO PECAS PARA TRATORES LTDA   EPP
vl_despesa                                           305.03
ds_funcao_governo                                 URBANISMO
Name: 3238802, dtype: object 
 AN

In [35]:
df.iloc[n]

id_despesa_detalhe                                               377763836
ano_exercicio                                                         2017
ds_municipio                                                      Panorama
ds_orgao                                  PREFEITURA MUNICIPAL DE PANORAMA
nr_empenho                                                       8381-2017
identificador_despesa          IDENTIFICAÇÃO ESPECIAL - SEM CPF/CNPJ - 230
ds_despesa                                      SEGURO OBRIGATORIO - DPVAT
dt_emissao_despesa                                     2017-10-18 00:00:00
vl_despesa                                                           67.84
ds_funcao_governo                                                 EDUCAÇÃO
ds_subfuncao_governo                                    ENSINO FUNDAMENTAL
cd_programa                                                             14
ds_programa              ACESSO A EDUCACAO E QUALIDADE DO ENSINO- FUNDA...
cd_acao                  

## Uniqueness check

### Checks `id_despesa_detalhe` uniqueness

This section confirms that the `id_despesa_detalhe` value is indeed unique for each spending, even considering different years.

In [6]:
from sqlalchemy import create_engine
engine = create_engine('mysql://root:Dougroot1!@127.0.0.1/db_tce')

df2 = pd.read_sql_query('SELECT COUNT(DISTINCT id_despesa_detalhe),'
                        'COUNT(id_despesa_detalhe) FROM despesas', con=engine)

In [7]:
df2

Unnamed: 0,COUNT(DISTINCT id_despesa_detalhe),COUNT(id_despesa_detalhe)
0,18990734,18990734


### Checks if city names are all similar between years

This section confirms that the city names are the same between years 2015 and 2017.

In [7]:
from sqlalchemy import create_engine
engine = create_engine('mysql://root:Dougroot1!@127.0.0.1/db_tce')

df2017 = pd.read_sql_query('SELECT DISTINCT ds_municipio FROM despesas WHERE ano_exercicio=2017', con=engine)

In [9]:
df2016 = pd.read_sql_query('SELECT DISTINCT ds_municipio FROM despesas WHERE ano_exercicio=2016', con=engine)
df2015 = pd.read_sql_query('SELECT DISTINCT ds_municipio FROM despesas WHERE ano_exercicio=2015', con=engine)

In [10]:
df2017.equals(df2016)

True

In [11]:
df2017.equals(df2015)

True

## Try-out to load only data for specific columns from year 2017

This try-out loads exemplifies how to load selected columns from a single year, considering only municipalities that are included in the IBGE table from MySQL.

In [19]:
from sqlalchemy import create_engine
engine = create_engine('mysql://root:Dougroot1!@127.0.0.1/db_tce')

query = 'SELECT id_despesa_detalhe, ds_municipio, ds_funcao_governo, ds_subfuncao_governo, vl_despesa ' \
        'FROM despesas WHERE ano_exercicio=2017 AND ' \
        'ds_municipio IN (SELECT name_city FROM ibge)'
df = pd.read_sql_query(query, con=engine)

In [20]:
df

Unnamed: 0,id_despesa_detalhe,ds_municipio,ds_funcao_governo,ds_subfuncao_governo
0,354230224,Americana,PREVIDÊNCIA SOCIAL,ADMINISTRAÇÃO GERAL
1,354624229,Americana,SEGURANÇA PÚBLICA,POLICIAMENTO
2,354230741,Americana,SEGURANÇA PÚBLICA,POLICIAMENTO
3,354230095,Americana,SAÚDE,ASSISTÊNCIA HOSPITALAR E AMBULATORIAL
4,354230088,Americana,SAÚDE,ASSISTÊNCIA HOSPITALAR E AMBULATORIAL
5,354231170,Americana,SAÚDE,ASSISTÊNCIA HOSPITALAR E AMBULATORIAL
6,354229470,Americana,LEGISLATIVA,AÇÃO LEGISLATIVA
7,354230347,Americana,SAÚDE,ASSISTÊNCIA HOSPITALAR E AMBULATORIAL
8,354641136,Americana,SAÚDE,ASSISTÊNCIA HOSPITALAR E AMBULATORIAL
9,354227987,Americana,ADMINISTRAÇÃO,ADMINISTRAÇÃO GERAL


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9706222 entries, 0 to 9706221
Data columns (total 4 columns):
id_despesa_detalhe      int64
ds_municipio            object
ds_funcao_governo       object
ds_subfuncao_governo    object
dtypes: int64(1), object(3)
memory usage: 296.2+ MB
