# Manipulating external files to import on Tableau

## File(s):
`Ano-2019.csv` - original filepath: http://www.camara.leg.br/cotas/Ano-2019.csv.zip

## Purpose:
Clean the data to import on Tableau to finish visualisation

## Strategy:
`groupby-apply` with Pandas - Split-apply-combine tutorial https://towardsdatascience.com/how-to-use-the-split-apply-combine-strategy-in-pandas-groupby-29e0eb44b62e

## Output:
`.csv` file to import on Tableau


In [25]:
import pandas as pd

In [2]:
df_2019 = pd.read_csv('Ano-2019.csv',sep=';')

In [3]:
df_2019.head(20)

Unnamed: 0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,...,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
0,AVANTE,,,,2019,,,56,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,...,2019,0,,,1609131,,,3175,6862742,https://www.camara.leg.br/cota-parlamentar/doc...
1,AVANTE,,,,2019,,,56,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,...,2019,0,,,1609175,,,3175,6862865,https://www.camara.leg.br/cota-parlamentar/doc...
2,AVANTE,,,,2019,,,56,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,...,2019,0,,,1609512,,,3175,6863041,https://www.camara.leg.br/cota-parlamentar/doc...
3,AVANTE,,,,2019,,,56,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,...,2019,0,,,1609551,,,3175,6863850,https://www.camara.leg.br/cota-parlamentar/doc...
4,AVANTE,,,,2019,,,56,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,...,2019,0,,,1616929,,,3175,6881372,https://www.camara.leg.br/cota-parlamentar/doc...
5,AVANTE,,,,2019,,,56,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,...,2019,0,,,1620562,,,3175,6890144,https://www.camara.leg.br/cota-parlamentar/doc...
6,AVANTE,,,,2019,,,56,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,...,2019,0,,,1628615,,,3175,6908147,https://www.camara.leg.br/cota-parlamentar/doc...
7,AVANTE,,,,2019,,,56,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,...,2019,0,,,1629290,,,3175,6909516,https://www.camara.leg.br/cota-parlamentar/doc...
8,AVANTE,,,,2019,,,56,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,...,2019,0,,,1629196,,,3175,6909320,https://www.camara.leg.br/cota-parlamentar/doc...
9,AVANTE,,,,2019,,,56,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,...,2019,0,,,1629196,,,3175,6909310,https://www.camara.leg.br/cota-parlamentar/doc...


In [4]:
df_2019.head(5)
df_2019['ideDocumento'].value_counts

<bound method IndexOpsMixin.value_counts of 0         6862742
1         6862865
2         6863041
3         6863850
4         6881372
           ...   
281986    1722569
281987    7035691
281988    6995992
281989          0
281990    7022622
Name: ideDocumento, Length: 281991, dtype: int64>

In [5]:
df_clean = df_2019.copy()
df_clean.drop(['numEspecificacaoSubCota','txtDescricaoEspecificacao','numAno','numParcela','txtPassageiro',
                       'txtTrecho','numLote','numRessarcimento','vlrRestituicao','numSubCota','indTipoDocumento','vlrGlosa',
                          'urlDocumento','vlrLiquido','nuLegislatura','cpf','ideCadastro','nuCarteiraParlamentar',
                          'codLegislatura','txtFornecedor','txtCNPJCPF','txtNumero','numMes','nuDeputadoId'],axis=1,inplace=True)
df_clean.columns

Index(['txNomeParlamentar', 'sgUF', 'sgPartido', 'txtDescricao', 'datEmissao',
       'vlrDocumento', 'ideDocumento'],
      dtype='object')

In [6]:
column_names = ['Nome do Parlamentar','UF','Partido','Categoria de Despesa','Data de Emissao',
               'Valor','ID Documento']

In [7]:
df_clean.columns = column_names

In [8]:
df_clean['Categoria de Despesa'].value_counts()

PASSAGEM AÉREA - RPA                                         78231
COMBUSTÍVEIS E LUBRIFICANTES.                                64747
SERVIÇO DE TÁXI, PEDÁGIO E ESTACIONAMENTO                    31557
MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE PARLAMENTAR    22010
TELEFONIA                                                    21880
FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR                   17726
SERVIÇOS POSTAIS                                             14961
DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR.                         10943
LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES                 6279
HOSPEDAGEM ,EXCETO DO PARLAMENTAR NO DISTRITO FEDERAL.        5576
PASSAGEM AÉREA - REEMBOLSO                                    3145
CONSULTORIAS, PESQUISAS E TRABALHOS TÉCNICOS.                 2397
PASSAGENS TERRESTRES, MARÍTIMAS OU FLUVIAIS                   1136
ASSINATURA DE PUBLICAÇÕES                                      605
SERVIÇO DE SEGURANÇA PRESTADO POR EMPRESA ESPECIALIZADA.      

In [9]:
df_clean_checkpoint =  df_clean.copy()

In [10]:
df_clean['Data de Emissao'] = df_clean['Data de Emissao'].astype(str)
df_clean['Data de Emissao'] = df_clean['Data de Emissao'].apply(lambda x: x.split('-')[0])
df_clean['Data de Emissao'] = df_clean['Data de Emissao'].replace('nan', 2019)

In [11]:
df_clean['Categoria de Despesa'].unique()

array(['FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR',
       'CONSULTORIAS, PESQUISAS E TRABALHOS TÉCNICOS.',
       'DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR.',
       'ASSINATURA DE PUBLICAÇÕES', 'COMBUSTÍVEIS E LUBRIFICANTES.',
       'PASSAGEM AÉREA - REEMBOLSO',
       'MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE PARLAMENTAR',
       'LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES',
       'HOSPEDAGEM ,EXCETO DO PARLAMENTAR NO DISTRITO FEDERAL.',
       'PASSAGENS TERRESTRES, MARÍTIMAS OU FLUVIAIS', 'TELEFONIA',
       'SERVIÇOS POSTAIS', 'PASSAGEM AÉREA - RPA',
       'SERVIÇO DE TÁXI, PEDÁGIO E ESTACIONAMENTO',
       'PASSAGEM AÉREA - SIGEPA',
       'SERVIÇO DE SEGURANÇA PRESTADO POR EMPRESA ESPECIALIZADA.',
       'PARTICIPAÇÃO EM CURSO, PALESTRA OU EVENTO SIMILAR',
       'LOCAÇÃO OU FRETAMENTO DE AERONAVES',
       'LOCAÇÃO OU FRETAMENTO DE EMBARCAÇÕES'], dtype=object)

In [12]:
categories = {'FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR':'ALIMENTAÇÃO',
             'CONSULTORIAS, PESQUISAS E TRABALHOS TÉCNICOS.':'EDUCAÇÃO',
             'DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR.':'DIVULGAÇÃO',
             'ASSINATURA DE PUBLICAÇÕES':'EDUCAÇÃO',
             'COMBUSTÍVEIS E LUBRIFICANTES.':'TRANSPORTE',
             'PASSAGEM AÉREA - REEMBOLSO':'TRANSPORTE',
             'MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE PARLAMENTAR':'MANUTENÇÃO E SEGURANÇA',
             'LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES':'TRANSPORTE',
             'HOSPEDAGEM ,EXCETO DO PARLAMENTAR NO DISTRITO FEDERAL.':'HOSPEDAGEM',
             'PASSAGENS TERRESTRES, MARÍTIMAS OU FLUVIAIS':'TRANSPORTE',
             'SERVIÇOS POSTAIS':'MANUTENÇÃO',
             'PASSAGEM AÉREA - RPA':'TRANSPORTE',
             'SERVIÇO DE TÁXI, PEDÁGIO E ESTACIONAMENTO':'TRANSPORTE',
             'PASSAGEM AÉREA - SIGEPA':'TRANSPORTE',
             'SERVIÇO DE SEGURANÇA PRESTADO POR EMPRESA ESPECIALIZADA.':'MANUTENÇÃO E SEGURANÇA',
             'PARTICIPAÇÃO EM CURSO, PALESTRA OU EVENTO SIMILAR':'EDUCAÇÃO',
             'LOCAÇÃO OU FRETAMENTO DE AERONAVES':'TRANSPORTE',
             'LOCAÇÃO OU FRETAMENTO DE EMBARCAÇÕES':'TRANSPORTE'}

In [13]:
df_clean['Categoria de Despesa'].replace(to_replace=categories,value=None,inplace=True)
df_clean

Unnamed: 0,Nome do Parlamentar,UF,Partido,Categoria de Despesa,Data de Emissao,Valor,ID Documento
0,AVANTE,,,ALIMENTAÇÃO,2019,2100.00,6862742
1,AVANTE,,,ALIMENTAÇÃO,2019,1200.00,6862865
2,AVANTE,,,ALIMENTAÇÃO,2019,1650.00,6863041
3,AVANTE,,,ALIMENTAÇÃO,2019,1200.00,6863850
4,AVANTE,,,ALIMENTAÇÃO,2019,1200.00,6881372
...,...,...,...,...,...,...,...
281986,Dr. Gonçalo,MA,REPUBLICANOS,TRANSPORTE,2019,1930.57,1722569
281987,Marcão Gomes,RJ,PL,MANUTENÇÃO E SEGURANÇA,2019,233.00,7035691
281988,Marcão Gomes,RJ,PL,TRANSPORTE,2019,1890.66,6995992
281989,Marcão Gomes,RJ,PL,TELEFONIA,2019,1.19,0


In [14]:
df_clean['Document_ID'] = df_clean.index
df_clean = df_clean.drop('ID Documento',axis=1)
df_clean

Unnamed: 0,Nome do Parlamentar,UF,Partido,Categoria de Despesa,Data de Emissao,Valor,Document_ID
0,AVANTE,,,ALIMENTAÇÃO,2019,2100.00,0
1,AVANTE,,,ALIMENTAÇÃO,2019,1200.00,1
2,AVANTE,,,ALIMENTAÇÃO,2019,1650.00,2
3,AVANTE,,,ALIMENTAÇÃO,2019,1200.00,3
4,AVANTE,,,ALIMENTAÇÃO,2019,1200.00,4
...,...,...,...,...,...,...,...
281986,Dr. Gonçalo,MA,REPUBLICANOS,TRANSPORTE,2019,1930.57,281986
281987,Marcão Gomes,RJ,PL,MANUTENÇÃO E SEGURANÇA,2019,233.00,281987
281988,Marcão Gomes,RJ,PL,TRANSPORTE,2019,1890.66,281988
281989,Marcão Gomes,RJ,PL,TELEFONIA,2019,1.19,281989


In [15]:
df_checkpoint = df_clean.copy()

In [16]:
df_clean.loc[0:50,('Partido')] = df_clean.loc[0:50,('Partido')].fillna('AVANTE')
df_clean.loc[0:50,('UF')] = df_clean.loc[0:50,('UF')].fillna('DF')
df_clean

Unnamed: 0,Nome do Parlamentar,UF,Partido,Categoria de Despesa,Data de Emissao,Valor,Document_ID
0,AVANTE,DF,AVANTE,ALIMENTAÇÃO,2019,2100.00,0
1,AVANTE,DF,AVANTE,ALIMENTAÇÃO,2019,1200.00,1
2,AVANTE,DF,AVANTE,ALIMENTAÇÃO,2019,1650.00,2
3,AVANTE,DF,AVANTE,ALIMENTAÇÃO,2019,1200.00,3
4,AVANTE,DF,AVANTE,ALIMENTAÇÃO,2019,1200.00,4
...,...,...,...,...,...,...,...
281986,Dr. Gonçalo,MA,REPUBLICANOS,TRANSPORTE,2019,1930.57,281986
281987,Marcão Gomes,RJ,PL,MANUTENÇÃO E SEGURANÇA,2019,233.00,281987
281988,Marcão Gomes,RJ,PL,TRANSPORTE,2019,1890.66,281988
281989,Marcão Gomes,RJ,PL,TELEFONIA,2019,1.19,281989


In [17]:
df_checkpoint = df_clean.copy()

In [18]:
df_clean

Unnamed: 0,Nome do Parlamentar,UF,Partido,Categoria de Despesa,Data de Emissao,Valor,Document_ID
0,AVANTE,DF,AVANTE,ALIMENTAÇÃO,2019,2100.00,0
1,AVANTE,DF,AVANTE,ALIMENTAÇÃO,2019,1200.00,1
2,AVANTE,DF,AVANTE,ALIMENTAÇÃO,2019,1650.00,2
3,AVANTE,DF,AVANTE,ALIMENTAÇÃO,2019,1200.00,3
4,AVANTE,DF,AVANTE,ALIMENTAÇÃO,2019,1200.00,4
...,...,...,...,...,...,...,...
281986,Dr. Gonçalo,MA,REPUBLICANOS,TRANSPORTE,2019,1930.57,281986
281987,Marcão Gomes,RJ,PL,MANUTENÇÃO E SEGURANÇA,2019,233.00,281987
281988,Marcão Gomes,RJ,PL,TRANSPORTE,2019,1890.66,281988
281989,Marcão Gomes,RJ,PL,TELEFONIA,2019,1.19,281989


In [19]:
x = df_clean.groupby(['Nome do Parlamentar','Partido','UF'])[['Valor']].sum()
y = df_clean.groupby(['Nome do Parlamentar','Partido','UF','Categoria de Despesa'])[['Categoria de Despesa']].count()
y

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Categoria de Despesa
Nome do Parlamentar,Partido,UF,Categoria de Despesa,Unnamed: 4_level_1
ABEL MESQUITA JR.,DEM,RR,DIVULGAÇÃO,1
ABEL MESQUITA JR.,DEM,RR,MANUTENÇÃO,1
ABEL MESQUITA JR.,DEM,RR,MANUTENÇÃO E SEGURANÇA,1
ABEL MESQUITA JR.,DEM,RR,TELEFONIA,5
ABEL MESQUITA JR.,DEM,RR,TRANSPORTE,7
...,...,...,...,...
Áurea Carolina,PSOL,MG,HOSPEDAGEM,19
Áurea Carolina,PSOL,MG,MANUTENÇÃO,15
Áurea Carolina,PSOL,MG,MANUTENÇÃO E SEGURANÇA,54
Áurea Carolina,PSOL,MG,TELEFONIA,24


In [20]:
z = df_clean.groupby(['Nome do Parlamentar','Partido','UF','Categoria de Despesa'])[['Document_ID']].nunique()
z

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Document_ID
Nome do Parlamentar,Partido,UF,Categoria de Despesa,Unnamed: 4_level_1
ABEL MESQUITA JR.,DEM,RR,DIVULGAÇÃO,1
ABEL MESQUITA JR.,DEM,RR,MANUTENÇÃO,1
ABEL MESQUITA JR.,DEM,RR,MANUTENÇÃO E SEGURANÇA,1
ABEL MESQUITA JR.,DEM,RR,TELEFONIA,5
ABEL MESQUITA JR.,DEM,RR,TRANSPORTE,7
...,...,...,...,...
Áurea Carolina,PSOL,MG,HOSPEDAGEM,19
Áurea Carolina,PSOL,MG,MANUTENÇÃO,15
Áurea Carolina,PSOL,MG,MANUTENÇÃO E SEGURANÇA,54
Áurea Carolina,PSOL,MG,TELEFONIA,24


In [22]:
shelby = df_clean.groupby(['Nome do Parlamentar','Partido','UF','Categoria de Despesa','Data de Emissao']).agg({'Categoria de Despesa':'count','Valor':np.sum})
shelby['Quantidade'] = shelby['Categoria de Despesa']
shelby.drop('Categoria de Despesa',axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Valor,Quantidade
Nome do Parlamentar,Partido,UF,Categoria de Despesa,Data de Emissao,Unnamed: 5_level_1,Unnamed: 6_level_1
ABEL MESQUITA JR.,DEM,RR,DIVULGAÇÃO,2019,15000.00,1
ABEL MESQUITA JR.,DEM,RR,MANUTENÇÃO,2019,109.85,1
ABEL MESQUITA JR.,DEM,RR,MANUTENÇÃO E SEGURANÇA,2019,8500.00,1
ABEL MESQUITA JR.,DEM,RR,TELEFONIA,2019,67.50,1
ABEL MESQUITA JR.,DEM,RR,TELEFONIA,2019,404.85,4
...,...,...,...,...,...,...
Áurea Carolina,PSOL,MG,MANUTENÇÃO E SEGURANÇA,2019,76765.79,52
Áurea Carolina,PSOL,MG,MANUTENÇÃO E SEGURANÇA,2020,9877.00,2
Áurea Carolina,PSOL,MG,TELEFONIA,2019,260.22,11
Áurea Carolina,PSOL,MG,TELEFONIA,2019,1576.77,13


In [23]:
shelby

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Categoria de Despesa,Valor,Quantidade
Nome do Parlamentar,Partido,UF,Categoria de Despesa,Data de Emissao,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
ABEL MESQUITA JR.,DEM,RR,DIVULGAÇÃO,2019,1,15000.00,1
ABEL MESQUITA JR.,DEM,RR,MANUTENÇÃO,2019,1,109.85,1
ABEL MESQUITA JR.,DEM,RR,MANUTENÇÃO E SEGURANÇA,2019,1,8500.00,1
ABEL MESQUITA JR.,DEM,RR,TELEFONIA,2019,1,67.50,1
ABEL MESQUITA JR.,DEM,RR,TELEFONIA,2019,4,404.85,4
...,...,...,...,...,...,...,...
Áurea Carolina,PSOL,MG,MANUTENÇÃO E SEGURANÇA,2019,52,76765.79,52
Áurea Carolina,PSOL,MG,MANUTENÇÃO E SEGURANÇA,2020,2,9877.00,2
Áurea Carolina,PSOL,MG,TELEFONIA,2019,11,260.22,11
Áurea Carolina,PSOL,MG,TELEFONIA,2019,13,1576.77,13


In [124]:
shelby.to_csv('shelby.csv')