## Gastos registrados na Câmara dos Deputados utilizando cota parlamentar

Este notebook objetiva prever de maneira exploratória os dados de gastos de deputados, disponibilizado pelo [Brasil.IO](https://brasil.io/dataset/gastos-deputados/cota_parlamentar).

Autores: Anderson Pimentel; Davi Almeida Torobay; Filyppe Coelho; Nelson Reis.

In [1]:
import numpy as np
import pandas as pd
from sys import getsizeof

In [2]:
# fonte: https://brasil.io/dataset/gastos-deputados/cota_parlamentar
df = pd.read_csv('cota_parlamentar.csv.gz', compression='gzip')

In [3]:
# checa datas
line = 0
set_lines = set()
set_values = []

for value in df['datemissao']:
    type_value = type(value)
    if type_value != str:
        set_lines.add(line)
        set_values.append(value)
    line += 1
    
print(len(set_lines), 'linhas com problema de data')

183862 linhas com problema de data


In [4]:
# checa valor máximo por series
dictc = {}

for c in df:
    
    if df[c].dtype in (np.float64, np.int64):
        maxvalue = df[c].max()
        maxuniq = len(df[c].unique())
        maxbytes = int(getsizeof(maxvalue))
        dictc[c] = {'max_value': maxvalue,
                    'max_bytes': maxbytes,
                    'unique_values': maxuniq}
    
    elif df[c].dtype == np.object:
        maxlen = 0
        maxvalue = 0
        
        for v in df[c]:
            try: newlen = len(v)
            except: continue
            
            if (newlen>maxlen):
                maxlen = newlen
                maxvalue = v
        
        maxbytes = int(getsizeof(maxvalue))
        
        dictc[c] = {'max_len': maxlen,
                    'max_value': maxvalue,
                    'max_bytes': maxbytes,
                    'unique_values':
                    maxuniq}

pdc = pd.DataFrame.from_dict(dictc)
pdc = pd.DataFrame.transpose(pdc)

In [5]:
pdc # "max_len" será NaN quando o tipo for numérico

Unnamed: 0,max_bytes,max_len,max_value,unique_values
codlegislatura,32,,56,7.0
datemissao,68,19.0,2019-01-16 00:00:00,7.0
idedocumento,32,,6.7616e+06,2513170.0
idecadastro,32,,205303,1225.0
indtipodocumento,32,,4,5.0
nucarteiraparlamentar,32,,674,661.0
nudeputadoid,32,,3436,1243.0
nulegislatura,32,,2015,4.0
numano,32,,2019,11.0
numespecificacaosubcota,32,,4,5.0


Descrição dos campos:

- codLegislatura -> Código da Legislatura
- datEmissao -> Data de Emissão
- ideCadastro -> Identificador Único do Parlamentar
- indTipoDocumento -> Indicativo de Tipo de Documento Fiscal
- nuCarteiraParlamentar -> Número da Carteira Parlamentar
- nuDeputadoId -> Identificador do Solicitante
- nuLegislatura -> Número da Legislatura
- numAno -> Ano
- numEspecificacaoSubCota -> Número da Especificação da Subcota
- numLote -> Número do Lote
- numMes -> Mês
- numParcela -> Número da Parcela
- numRessarcimento -> Número do Ressarcimento
- numSubCota -> Número da Subcota
- sgPartido -> Sigla do Partido
- sgUF -> Sigla da UF
- txNomeParlamentar -> Nome Parlamentar
- txtCNPJCPF -> CNPJ/CPF
- txtDescricao -> Descrição da Subcota
- txtDescricaoEspecificacao -> Descrição da Especificação da Subcota
- txtFornecedor -> Fornecedor
- txtNumero -> Número do Documento
- txtPassageiro -> Passageiro
- txtTrecho -> Trecho
- vlrDocumento -> Valor do Documento
- vlrGlosa -> Valor da Glosa
- vlrLiquido -> Valor Líquido
- vlrRestituicao -> Valor da Restituição