In [76]:
import pandas as pd 
import numpy as np

pd.set_option('display.max_columns', 30)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

Importando a tabela de gastos de 2020:

In [62]:
gastos = pd.read_csv('gastos-2020', 
                      parse_dates=['data'])
gastos.head(3)

Unnamed: 0,data,documento,documentoResumido,observacao,funcao,subfuncao,programa,acao,subtitulo,localizadorGasto,fase,especie,favorecido,codigoFavorecido,nomeFavorecido,ufFavorecido,valor,ug,uo,orgao,orgaoSuperior,categoria,grupo,elemento,modalidade,numeroProcesso,autor
0,2020-02-01,154040152572020OB800038,2020OB800038,APROPRIACAO DA FOLHA DE PAGAMENTO DO SERVIDOR ...,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,Pagamento,Original,00.000.000/0001-91 - BANCO DO BRASIL SA,00.000.000/0001-91,BANCO DO BRASIL SA,DF,"20.000.000,00",FUNDACAO UNIVERSIDADE DE BRASILIA - FUB,FUNDACAO UNIVERSIDADE DE BRASILIA,Fundação Universidade de Brasília,Ministério da Educação,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.006576/2019-16,Sem Informação
1,2020-02-01,154040152572020OB800037,2020OB800037,APROPRIACAO DA FOLHA DE PAGAMENTO DO SERVIDOR ...,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,Pagamento,Original,00.000.000/0001-91 - BANCO DO BRASIL SA,00.000.000/0001-91,BANCO DO BRASIL SA,DF,"20.000.000,00",FUNDACAO UNIVERSIDADE DE BRASILIA - FUB,FUNDACAO UNIVERSIDADE DE BRASILIA,Fundação Universidade de Brasília,Ministério da Educação,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.006576/2019-16,Sem Informação
2,2020-02-01,154040152572020OB800036,2020OB800036,APROPRIACAO DA FOLHA DE PAGAMENTO DO SERVIDOR ...,12 - Educação,364 - Ensino superior,2109 - PROGRAMA DE GESTAO E MANUTENCAO DO MINI...,20TP - ATIVOS CIVIS DA UNIAO,20TP0053 - ATIVOS CIVIS DA UNIAO ...,0053 - NO DISTRITO FEDERAL,Pagamento,Original,02.038.232/0001-64 - BANCO COOPERATIVO DO BRAS...,02.038.232/0001-64,BANCO COOPERATIVO DO BRASIL S/A,DF,"1.462.417,50",FUNDACAO UNIVERSIDADE DE BRASILIA - FUB,FUNDACAO UNIVERSIDADE DE BRASILIA,Fundação Universidade de Brasília,Ministério da Educação,3 - DESPESAS CORRENTES,1 - Pessoal e Encargos Sociais,11 - Vencimentos e Vantagens Fixas - Pessoal C...,90 - Reserva de Contingência,23106.006576/2019-16,Sem Informação


Há muitas colunas (27), então vamos tentar eliminar as que não têm informação relevante. Vamos primeiro identificar colunas que têm apenas um valor:

In [63]:
colunas_constantes = gastos.columns[gastos.nunique() <= 1]
print('As colunas constantes, que estão sendo eliminadas do dataframe, são: '
      + str(list(colunas_constantes)))

gastos.drop(list(colunas_constantes), inplace=True, axis=1)
gastos.head(3)

As colunas constantes, que estão sendo eliminadas do dataframe, são: ['fase', 'ug', 'orgao', 'orgaoSuperior', 'autor']


Unnamed: 0,data,documento,documentoResumido,observacao,funcao,subfuncao,programa,acao,subtitulo,localizadorGasto,especie,favorecido,codigoFavorecido,nomeFavorecido,ufFavorecido,valor,uo,categoria,grupo,elemento,modalidade,numeroProcesso
0,2020-02-01,154040152572020OB800038,2020OB800038,APROPRIACAO DA FOLHA DE PAGAMENTO DO SERVIDOR ...,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,Original,00.000.000/0001-91 - BANCO DO BRASIL SA,00.000.000/0001-91,BANCO DO BRASIL SA,DF,"20.000.000,00",FUNDACAO UNIVERSIDADE DE BRASILIA,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.006576/2019-16
1,2020-02-01,154040152572020OB800037,2020OB800037,APROPRIACAO DA FOLHA DE PAGAMENTO DO SERVIDOR ...,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,Original,00.000.000/0001-91 - BANCO DO BRASIL SA,00.000.000/0001-91,BANCO DO BRASIL SA,DF,"20.000.000,00",FUNDACAO UNIVERSIDADE DE BRASILIA,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.006576/2019-16
2,2020-02-01,154040152572020OB800036,2020OB800036,APROPRIACAO DA FOLHA DE PAGAMENTO DO SERVIDOR ...,12 - Educação,364 - Ensino superior,2109 - PROGRAMA DE GESTAO E MANUTENCAO DO MINI...,20TP - ATIVOS CIVIS DA UNIAO,20TP0053 - ATIVOS CIVIS DA UNIAO ...,0053 - NO DISTRITO FEDERAL,Original,02.038.232/0001-64 - BANCO COOPERATIVO DO BRAS...,02.038.232/0001-64,BANCO COOPERATIVO DO BRASIL S/A,DF,"1.462.417,50",FUNDACAO UNIVERSIDADE DE BRASILIA,3 - DESPESAS CORRENTES,1 - Pessoal e Encargos Sociais,11 - Vencimentos e Vantagens Fixas - Pessoal C...,90 - Reserva de Contingência,23106.006576/2019-16


Ainda na tentativa de reduzir o número de colunas, vamos explorar algumas delas em detalhe. Começando pela coluna 'especie', vejamos quais os valores possíveis.

In [64]:
gastos.especie.unique()

array(['Original', 'Estorno / Cancelamento'], dtype=object)

Vamos considerar que para a nossa análise, precisamos apenas dos pagamentos originais. Estornos vamos avaliar posteriormente.

In [66]:
gastos = gastos.loc[gastos['especie']=='Original']
gastos.drop(['especie'], axis=1, inplace=True)
gastos.head(3)

Unnamed: 0,data,documento,documentoResumido,observacao,funcao,subfuncao,programa,acao,subtitulo,localizadorGasto,favorecido,codigoFavorecido,nomeFavorecido,ufFavorecido,valor,uo,categoria,grupo,elemento,modalidade,numeroProcesso
0,2020-02-01,154040152572020OB800038,2020OB800038,APROPRIACAO DA FOLHA DE PAGAMENTO DO SERVIDOR ...,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,00.000.000/0001-91 - BANCO DO BRASIL SA,00.000.000/0001-91,BANCO DO BRASIL SA,DF,"20.000.000,00",FUNDACAO UNIVERSIDADE DE BRASILIA,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.006576/2019-16
1,2020-02-01,154040152572020OB800037,2020OB800037,APROPRIACAO DA FOLHA DE PAGAMENTO DO SERVIDOR ...,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,00.000.000/0001-91 - BANCO DO BRASIL SA,00.000.000/0001-91,BANCO DO BRASIL SA,DF,"20.000.000,00",FUNDACAO UNIVERSIDADE DE BRASILIA,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.006576/2019-16
2,2020-02-01,154040152572020OB800036,2020OB800036,APROPRIACAO DA FOLHA DE PAGAMENTO DO SERVIDOR ...,12 - Educação,364 - Ensino superior,2109 - PROGRAMA DE GESTAO E MANUTENCAO DO MINI...,20TP - ATIVOS CIVIS DA UNIAO,20TP0053 - ATIVOS CIVIS DA UNIAO ...,0053 - NO DISTRITO FEDERAL,02.038.232/0001-64 - BANCO COOPERATIVO DO BRAS...,02.038.232/0001-64,BANCO COOPERATIVO DO BRASIL S/A,DF,"1.462.417,50",FUNDACAO UNIVERSIDADE DE BRASILIA,3 - DESPESAS CORRENTES,1 - Pessoal e Encargos Sociais,11 - Vencimentos e Vantagens Fixas - Pessoal C...,90 - Reserva de Contingência,23106.006576/2019-16


Vamos verificar a situação do nosso dataset agora:

In [67]:
gastos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3630 entries, 0 to 3751
Data columns (total 21 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   data               3630 non-null   datetime64[ns]
 1   documento          3630 non-null   object        
 2   documentoResumido  3630 non-null   object        
 3   observacao         3630 non-null   object        
 4   funcao             3630 non-null   object        
 5   subfuncao          3630 non-null   object        
 6   programa           3630 non-null   object        
 7   acao               3630 non-null   object        
 8   subtitulo          3630 non-null   object        
 9   localizadorGasto   3630 non-null   object        
 10  favorecido         3630 non-null   object        
 11  codigoFavorecido   3630 non-null   object        
 12  nomeFavorecido     3630 non-null   object        
 13  ufFavorecido       3630 non-null   object        
 14  valor   

In [69]:
def formatar_valor(df):
    df_copy = df.copy()
    
    df_copy['valor'] = [x.replace('.', '') for x in df_copy['valor']]
    df_copy['valor'] = [x.replace(' ', '') for x in df_copy['valor']]
    df_copy['valor'] = [x.replace(',', '.') for x in df_copy['valor']]
    df_copy['valor'] = df_copy['valor'].astype(float)
    df_copy.valor = df_copy.valor.round(2)
    
    return df_copy

In [70]:
gastos = formatar_valor(gastos)
gastos.valor

0       20000000.00
1       20000000.00
2        1462417.50
3          26338.26
4        3542903.35
           ...     
3747         808.00
3748         475.00
3749         404.00
3750          71.00
3751         374.00
Name: valor, Length: 3630, dtype: float64

In [71]:
gastos_por_elemento = gastos.groupby("elemento")["valor"].sum().sort_values(ascending=False)
gastos_por_elemento

elemento
-4 - Múltiplo                                                               2.443323e+08
39 - Outros Serviços de Terceiros - Pessoa Jurídica                         3.468604e+07
11 - Vencimentos e Vantagens Fixas - Pessoal Civil                          3.281838e+07
37 - Locação de Mão-de-Obra                                                 1.083919e+07
18 - Auxílio Financeiro a Estudantes                                        1.007679e+07
91 - Sentenças Judiciais                                                    4.065824e+06
20 - Auxílio Financeiro a Pesquisadores                                     2.877969e+06
51 - Obras e Instalações                                                    2.612127e+06
52 - Equipamentos e Material Permanente                                     2.398513e+06
30 - Material de Consumo                                                    1.732829e+06
46 - Auxílio-Alimentação                                                    1.001060e+06
40 - Serviço

In [72]:
gastos_por_grupo = gastos.groupby("grupo")["valor"].sum().sort_values(ascending=False)
gastos_por_grupo

grupo
M - Múltiplo                      2.443323e+08
3 - Outras Despesas Correntes     6.409376e+07
1 - Pessoal e Encargos Sociais    3.688883e+07
4 - Investimentos                 5.061235e+06
S - Sem informação                2.042460e+05
Name: valor, dtype: float64

Não fica claro o que são esses gastos do grupo 'Múltiplo', vamos explorar no detalhe esse grupo e elemento

In [73]:
gastos_multiplos = gastos.loc[gastos['grupo']=='M - Múltiplo']
gastos_multiplos.head(10)

Unnamed: 0,data,documento,documentoResumido,observacao,funcao,subfuncao,programa,acao,subtitulo,localizadorGasto,favorecido,codigoFavorecido,nomeFavorecido,ufFavorecido,valor,uo,categoria,grupo,elemento,modalidade,numeroProcesso
0,2020-02-01,154040152572020OB800038,2020OB800038,APROPRIACAO DA FOLHA DE PAGAMENTO DO SERVIDOR ...,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,00.000.000/0001-91 - BANCO DO BRASIL SA,00.000.000/0001-91,BANCO DO BRASIL SA,DF,20000000.0,FUNDACAO UNIVERSIDADE DE BRASILIA,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.006576/2019-16
1,2020-02-01,154040152572020OB800037,2020OB800037,APROPRIACAO DA FOLHA DE PAGAMENTO DO SERVIDOR ...,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,-14 - Múltiplo,00.000.000/0001-91 - BANCO DO BRASIL SA,00.000.000/0001-91,BANCO DO BRASIL SA,DF,20000000.0,FUNDACAO UNIVERSIDADE DE BRASILIA,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.006576/2019-16
6,2020-02-01,154040152572020OB800032,2020OB800032,APROPRIACAO DA FOLHA DE PAGAMENTO DO SERVIDOR ...,12 - Educação,364 - Ensino superior,2109 - PROGRAMA DE GESTAO E MANUTENCAO DO MINI...,20TP - ATIVOS CIVIS DA UNIAO,20TP0053 - ATIVOS CIVIS DA UNIAO ...,0053 - NO DISTRITO FEDERAL,00.360.305/0001-04 - CAIXA ECONOMICA FEDERAL,00.360.305/0001-04,CAIXA ECONOMICA FEDERAL,DF,11538052.05,FUNDACAO UNIVERSIDADE DE BRASILIA,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.006576/2019-16
9,2020-02-01,154040152572020OB800029,2020OB800029,APROPRIACAO DA FOLHA DE PAGAMENTO DO SERVIDOR ...,12 - Educação,364 - Ensino superior,2109 - PROGRAMA DE GESTAO E MANUTENCAO DO MINI...,20TP - ATIVOS CIVIS DA UNIAO,20TP0053 - ATIVOS CIVIS DA UNIAO ...,0053 - NO DISTRITO FEDERAL,00.000.000/0001-91 - BANCO DO BRASIL SA,00.000.000/0001-91,BANCO DO BRASIL SA,DF,23655843.48,FUNDACAO UNIVERSIDADE DE BRASILIA,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.006576/2019-16
51,2020-10-01,154040152572020OB800120,2020OB800120,"FATURA ENEL 2725133 EMITIDA EM 18/12/2019, COD...",12 - Educação,364 - Ensino superior,2080 - EDUCACAO DE QUALIDADE PARA TODOS,20RK - FUNCIONAMENTO DE INSTITUICOES FEDERAIS ...,20RK0053 - FUNCIONAMENTO DE INSTITUICOES FEDER...,0053 - NO DISTRITO FEDERAL,00.000.000/0001-91 - BANCO DO BRASIL SA,00.000.000/0001-91,BANCO DO BRASIL SA,DF,159.71,FUNDACAO UNIVERSIDADE DE BRASILIA,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.156256/2019-14
84,2020-01-15,154040152572020OB800258,2020OB800258,NFSE-98922 EMITIDA EM 23/12/2019 // SERVICOS D...,12 - Educação,364 - Ensino superior,2080 - EDUCACAO DE QUALIDADE PARA TODOS,20RK - FUNCIONAMENTO DE INSTITUICOES FEDERAIS ...,20RK0053 - FUNCIONAMENTO DE INSTITUICOES FEDER...,0053 - NO DISTRITO FEDERAL,07.432.517/0001-07 - SIMPRESS COMERCIO LOCACAO...,07.432.517/0001-07,SIMPRESS COMERCIO LOCACAO E SERVICOS LTDA,SP,100066.67,FUNDACAO UNIVERSIDADE DE BRASILIA,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.158188/2019-10
123,2020-01-17,154040152572020OB800456,2020OB800456,"ID 41203-1 EMITIDA EM 10/12/2019, NF 2427242//...",12 - Educação,364 - Ensino superior,2080 - EDUCACAO DE QUALIDADE PARA TODOS,20RK - FUNCIONAMENTO DE INSTITUICOES FEDERAIS ...,20RK0053 - FUNCIONAMENTO DE INSTITUICOES FEDER...,0053 - NO DISTRITO FEDERAL,00.000.000/0001-91 - BANCO DO BRASIL SA,00.000.000/0001-91,BANCO DO BRASIL SA,DF,760.77,FUNDACAO UNIVERSIDADE DE BRASILIA,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.001531/2020-99
124,2020-01-17,154040152572020OB800455,2020OB800455,"ID 41194-9 EMITIDA EM 10/12/2019, NF 2427233//...",12 - Educação,364 - Ensino superior,2080 - EDUCACAO DE QUALIDADE PARA TODOS,20RK - FUNCIONAMENTO DE INSTITUICOES FEDERAIS ...,20RK0053 - FUNCIONAMENTO DE INSTITUICOES FEDER...,0053 - NO DISTRITO FEDERAL,00.000.000/0001-91 - BANCO DO BRASIL SA,00.000.000/0001-91,BANCO DO BRASIL SA,DF,278.78,FUNDACAO UNIVERSIDADE DE BRASILIA,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.001531/2020-99
125,2020-01-17,154040152572020OB800454,2020OB800454,"ID 41195-7 EMITIDA EM 10/12/2019, NF 2427234//...",12 - Educação,364 - Ensino superior,2080 - EDUCACAO DE QUALIDADE PARA TODOS,20RK - FUNCIONAMENTO DE INSTITUICOES FEDERAIS ...,20RK0053 - FUNCIONAMENTO DE INSTITUICOES FEDER...,0053 - NO DISTRITO FEDERAL,00.000.000/0001-91 - BANCO DO BRASIL SA,00.000.000/0001-91,BANCO DO BRASIL SA,DF,47.26,FUNDACAO UNIVERSIDADE DE BRASILIA,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.001531/2020-99
126,2020-01-17,154040152572020OB800453,2020OB800453,"ID 41190-6 EMITIDA EM 10/12/2019, NF 2427226//...",12 - Educação,364 - Ensino superior,2080 - EDUCACAO DE QUALIDADE PARA TODOS,20RK - FUNCIONAMENTO DE INSTITUICOES FEDERAIS ...,20RK0053 - FUNCIONAMENTO DE INSTITUICOES FEDER...,0053 - NO DISTRITO FEDERAL,00.000.000/0001-91 - BANCO DO BRASIL SA,00.000.000/0001-91,BANCO DO BRASIL SA,DF,272.77,FUNDACAO UNIVERSIDADE DE BRASILIA,M - Múltiplo,M - Múltiplo,-4 - Múltiplo,-4 - Múltiplo,23106.001531/2020-99


In [77]:
gastos_multiplos.groupby("nomeFavorecido")["valor"].sum().sort_values(ascending=False)

nomeFavorecido
BANCO DO BRASIL SA                                                                          203620012.99
CAIXA ECONOMICA FEDERAL                                                                      20510409.30
ITAU UNIBANCO S.A.                                                                            7611351.01
FUNDACAO DE EMPREENDIMENTOS CIENTIFICOS E TECNOLOGICOS                                        4048643.34
BANCO SANTANDER (BRASIL) S.A.                                                                 3073263.17
CEB DISTRIBUICAO S.A.                                                                         2769816.49
BANCO COOPERATIVO DO BRASIL S/A                                                               1447804.27
CENTRO BRASILEIRO DE PESQUISA EM  AVALIACAO E SELECAO E DE PROMOCAO DE EVENTOS - CEBRASPE      625657.57
LIFE DEFENSE SEGURANCA LTDA                                                                    210182.43
PAULO RICARDO DOS SANTOS FERNANDES      