In [7]:
import pandas as pd

In [30]:
def format_data(data: pd.DataFrame) -> pd.DataFrame:
    data = data.drop(['urlDocumento', 'numSubCota', 'numEspecificacaoSubCota', 'txtNumero', 'numLote', 'nuCarteiraParlamentar', 'codLegislatura', 'ideDocumento'], axis=1)
    data['vlrDocumento'] = data['vlrDocumento'].apply(int)
    return data

def format_million(data: pd.DataFrame, column) -> pd.DataFrame:
    return (data[column] / 1000000).round(2)



In [9]:
data_2022 = pd.read_csv('./data/Ano-2022.csv', sep=';')
data_2021 = pd.read_csv('./data/Ano-2021.csv', sep=';')
data_2020 = pd.read_csv('./data/Ano-2020.csv', sep=';')
data_2019 = pd.read_csv('./data/Ano-2019.csv', sep=';')

frames = [data_2022, data_2021, data_2020, data_2019]

data = pd.concat(frames)

In [10]:
print(data.columns)

Index(['txNomeParlamentar', 'cpf', 'ideCadastro', 'nuCarteiraParlamentar',
       'nuLegislatura', 'sgUF', 'sgPartido', 'codLegislatura', 'numSubCota',
       'txtDescricao', 'numEspecificacaoSubCota', 'txtDescricaoEspecificacao',
       'txtFornecedor', 'txtCNPJCPF', 'txtNumero', 'indTipoDocumento',
       'datEmissao', 'vlrDocumento', 'vlrGlosa', 'vlrLiquido', 'numMes',
       'numAno', 'numParcela', 'txtPassageiro', 'txtTrecho', 'numLote',
       'numRessarcimento', 'vlrRestituicao', 'nuDeputadoId', 'ideDocumento',
       'urlDocumento'],
      dtype='object')


In [11]:
formated_data = format_data(data)
print(formated_data.head(5))

         txNomeParlamentar  cpf  ideCadastro  nuLegislatura sgUF sgPartido  \
0   LIDERANÇA DO CIDADANIA  NaN          NaN           2019  NaN       NaN   
1  LIDERANÇA DO DEMOCRATAS  NaN          NaN           2019  NaN       NaN   
2  LIDERANÇA DO DEMOCRATAS  NaN          NaN           2019  NaN       NaN   
3  LIDERANÇA DO DEMOCRATAS  NaN          NaN           2019  NaN       NaN   
4  LIDERANÇA DO DEMOCRATAS  NaN          NaN           2019  NaN       NaN   

                                 txtDescricao txtDescricaoEspecificacao  \
0        DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR.                       NaN   
1                   ASSINATURA DE PUBLICAÇÕES                       NaN   
2                   ASSINATURA DE PUBLICAÇÕES                       NaN   
3                   ASSINATURA DE PUBLICAÇÕES                       NaN   
4  FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR                       NaN   

                                       txtFornecedor          txtCNPJCPF  ...  \

In [31]:
expenses_by_txNomeParlamentar = data.groupby(by=['txNomeParlamentar'])['vlrDocumento'].sum().reset_index().sort_values(by='vlrDocumento', ascending=False)
expenses_by_txNomeParlamentar['vlrDocumento'] = format_million(expenses_by_txNomeParlamentar, 'vlrDocumento')
print(expenses_by_txNomeParlamentar.head(10))

      txNomeParlamentar  vlrDocumento
433       Jéssica Sales          1.72
765        Silas Câmara          1.71
670    Perpétua Almeida          1.71
394   Jhonatan de Jesus          1.70
392        Jesus Sérgio          1.70
836  Wellington Roberto          1.69
91            Beto Faro          1.67
278       Flaviano Melo          1.66
409      José Guimarães          1.65
420           João Maia          1.65


In [32]:
expenses_by_sgPartido = data.groupby(by=['sgPartido'])['vlrDocumento'].sum().reset_index().sort_values(by='vlrDocumento', ascending=False)
expenses_by_sgPartido['vlrDocumento'] = format_million(expenses_by_sgPartido, 'vlrDocumento')
print(expenses_by_sgPartido.head(10))

       sgPartido  vlrDocumento
10            PL         89.63
24            PT         75.51
12            PP         67.41
31         UNIÃO         61.47
28  REPUBLICANOS         59.50
20           PSD         57.82
3            MDB         50.14
21          PSDB         31.71
18           PSB         24.74
8            PDT         24.29


In [33]:
expenses_by_txtFornecedor = data.groupby(by=['txtFornecedor'])['vlrDocumento'].sum().reset_index().sort_values(by='vlrDocumento', ascending=False)
expenses_by_txtFornecedor['vlrDocumento'] = format_million(expenses_by_txtFornecedor, 'vlrDocumento')
print(expenses_by_txtFornecedor.head(30))

                                           txtFornecedor  vlrDocumento
12941                                    Cia Aérea - TAM         38.31
12939                                    Cia Aérea - GOL         32.14
40759                                                TAM         26.50
17985                                                GOL         14.01
12938                                   Cia Aérea - AZUL         10.45
28827                             PANTANAL VEÍCULOS LTDA          7.28
7221                                                AZUL          5.81
9975                                   CELULAR FUNCIONAL          3.33
18003          GOLD CAR BRASILIA LOCADORA DE VEICULOS ME          3.08
13968                DMD Gestão Administrativa LTDA - ME          2.68
42237  VERTICE - SOCIEDADE CIVIL DE PROFISSIONAIS ASS...          2.04
16244            FACEBOOK SERVIÇOS ONLINE DO BRASIL LTDA          2.02
40702     T2 COMUNICACAO, VIDEO E PRODUCOES EIRELI - EPP          1.69
9781  

In [34]:
expenses_by_txtDescricao = data.groupby(by=['txtDescricao'])['vlrDocumento'].sum().reset_index().sort_values(by='vlrDocumento', ascending=False)
expenses_by_txtDescricao['vlrDocumento'] = format_million(expenses_by_txtDescricao, 'vlrDocumento')
print(expenses_by_txtDescricao.head(20))

                                         txtDescricao  vlrDocumento
3                DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR.        182.93
8       LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES         86.33
12                               PASSAGEM AÉREA - RPA         82.58
9   MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...         78.44
2       CONSULTORIAS, PESQUISAS E TRABALHOS TÉCNICOS.         69.62
1                       COMBUSTÍVEIS E LUBRIFICANTES.         48.38
13                            PASSAGEM AÉREA - SIGEPA         46.25
18                                          TELEFONIA         15.07
11                         PASSAGEM AÉREA - REEMBOLSO          7.26
17                                   SERVIÇOS POSTAIS          5.11
5   HOSPEDAGEM ,EXCETO DO PARLAMENTAR NO DISTRITO ...          5.05
6                  LOCAÇÃO OU FRETAMENTO DE AERONAVES          4.63
15  SERVIÇO DE SEGURANÇA PRESTADO POR EMPRESA ESPE...          3.19
4          FORNECIMENTO DE ALIMENTAÇÃO DO PARLAM

In [36]:
expenses_by_txtCNPJCPF = data.groupby(by=['txtCNPJCPF', 'txtFornecedor'])['vlrDocumento'].sum().reset_index().sort_values(by=['vlrDocumento'], ascending=False)
expenses_by_txtCNPJCPF['vlrDocumento'] = format_million(expenses_by_txtCNPJCPF, 'vlrDocumento')
print(expenses_by_txtCNPJCPF.head(10))

               txtCNPJCPF                                      txtFornecedor  \
3321   020.128.620/0016-0                                    Cia Aérea - TAM   
13014  075.756.510/0015-9                                    Cia Aérea - GOL   
16136  092.962.950/0016-0                                   Cia Aérea - AZUL   
12401  073.193.230/0019-1                             PANTANAL VEÍCULOS LTDA   
5      000.000.000/0000-1                                  CELULAR FUNCIONAL   
31998  267.352.270/0017-9          GOLD CAR BRASILIA LOCADORA DE VEICULOS ME   
4591   026.102.350/0012-0                DMD Gestão Administrativa LTDA - ME   
9889   054.434.490/0014-8  VERTICE - SOCIEDADE CIVIL DE PROFISSIONAIS ASS...   
20916  133.470.160/0011-7            FACEBOOK SERVIÇOS ONLINE DO BRASIL LTDA   
29740  237.210.170/0013-3     T2 COMUNICACAO, VIDEO E PRODUCOES EIRELI - EPP   

       vlrDocumento  
3321          38.31  
13014         32.14  
16136         10.45  
12401          7.28  
5        