Definição do problema
Os orçamentos públicos dos entes federativos prevêem a projeção de receitas, e a partir delas são planejadas as despesas para o ano.
É sempre um desafio para os gestores públicos prever os valores realizáveis dessas receitas, dadas as variáveis que afetam a arrecadação.
Este trabalho pretende apresentar um modelo supervisionado que auxilie a projeção das receitas tributárias para os anos seguintes, baseado no histórico de arrecadação dos tributos, por estado.
Nossa hipótese inicial é de que perfil do crescimento ou redução de cada tributo ao passar dos anos possa indicar os efeitos na arrecadação dos anos seguintes.
Para isso, será utilizado um dataset extraído do portal de dados abertos do governo federal. Partimos do pressuposto de que as informações nele contidas, foram aprovados pelos tribunais de contas e que são os dados oficiais de cada estado.
Os dados do dataset estão atualizados até março de 2023, mas dada a proposta de projeção de receitas para o ano, serão considerados apenas os dados até dezembro de 2022. Em virtude da pandemia e os seus efeitos econômicos, o comportamento dos dados de 2020 e 2021 farão parte do teste, porém poderão serem avaliados em separado.

In [19]:
#Importando bibliotecas que serão utilizadas no trabalho
import pandas as pd
import matplotlib.pyplot as plt

Carregando dataset

In [20]:
#Definindo path do dataset
url_dados: str = 'https://raw.githubusercontent.com/leonardevop/mvp_1/main/arrecadacao-estado%20(1).csv'

#Carregando dataset. Utilizado encoding cp1252 após inconsistências com o padrão utf-8.
arrecadacao = pd.read_csv(url_dados, delimiter=';', encoding='cp1252')

Análise de Dados

In [21]:
#Avaliando o conjunto completo do dataframe
arrecadacao

Unnamed: 0,Ano,Mês,UF,IMPOSTO SOBRE IMPORTAÇÃO,IMPOSTO SOBRE EXPORTAÇÃO,IPI - FUMO,IPI - BEBIDAS,IPI - AUTOMÓVEIS,IPI - VINCULADO À IMPORTACAO,IPI - OUTROS,...,REFIS,PAES,"RETENÇÃO NA FONTE - LEI 10.833, Art. 30",PAGAMENTO UNIFICADO,OUTRAS RECEITAS ADMINISTRADAS,DEMAIS RECEITAS,RECEITA PREVIDENCIÁRIA,RECEITA PREVIDENCIÁRIA - PRÓPRIA,RECEITA PREVIDENCIÁRIA - DEMAIS,ADMINISTRADAS POR OUTROS ÓRGÃOS
0,2000,Janeiro,AC,231,0,292096,0,0,167,1558,...,,,,,20911,,,,,
1,2000,Janeiro,AL,475088,33873,1329338,812470,0,141735,3676847,...,,,,,127189,,,,,
2,2000,Janeiro,AM,11679405,0,1507146,1791471,27796,4414483,1800346,...,,,,,187988,,,,,
3,2000,Janeiro,AP,24267,0,424862,1419,321,22333,12165,...,,,,,10769,,,,,
4,2000,Janeiro,BA,10476457,13,5542123,11533707,0,7496476,23743858,...,,,,,536498,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7528,2023,Março,RS,15836217,0,0,0,0,2420866,23524606,...,,,,,56294066,,6874600294,,,1065145948
7529,2023,Março,SC,1002120548,858532,0,897532412,3011745881,3881102956,3720682797,...,,,,,8971306055,,2420498485,,,2907056629
7530,2023,Março,SE,1792437623,-1309421,231803776,451808802,1839273499,6451088764,1033460741,...,,,,,1480417865,,17794414313,,,257433219
7531,2023,Março,SP,379440024,214698413,37450835,203994968,0,11139877,657689162,...,,,,,380583903,,2347738898,,,3542186066


In [22]:
#Verificando os tipos de dados de cada coluna do dataframe
arrecadacao.dtypes
#Dado que o dataset está voltado para a apresentação de valores de cada fonte de arrecadação, percebe-se algo estranho com a maioria das colunas apresentadas como objects.

Ano                                                               int64
Mês                                                              object
UF                                                               object
IMPOSTO SOBRE IMPORTAÇÃO                                         object
IMPOSTO SOBRE EXPORTAÇÃO                                         object
IPI - FUMO                                                       object
IPI - BEBIDAS                                                    object
IPI - AUTOMÓVEIS                                                 object
IPI - VINCULADO À IMPORTACAO                                     object
IPI - OUTROS                                                     object
IRPF                                                             object
IRPJ - ENTIDADES FINANCEIRAS                                     object
IRPJ - DEMAIS EMPRESAS                                           object
IRRF - RENDIMENTOS DO TRABALHO                                  

In [23]:
#Consultando os primeiros registros do dataframe
arrecadacao.head()
#Identificados alguns dados faltantes com o registro "NaN".
#Identificado que o dataset possui 45 atributos.

Unnamed: 0,Ano,Mês,UF,IMPOSTO SOBRE IMPORTAÇÃO,IMPOSTO SOBRE EXPORTAÇÃO,IPI - FUMO,IPI - BEBIDAS,IPI - AUTOMÓVEIS,IPI - VINCULADO À IMPORTACAO,IPI - OUTROS,...,REFIS,PAES,"RETENÇÃO NA FONTE - LEI 10.833, Art. 30",PAGAMENTO UNIFICADO,OUTRAS RECEITAS ADMINISTRADAS,DEMAIS RECEITAS,RECEITA PREVIDENCIÁRIA,RECEITA PREVIDENCIÁRIA - PRÓPRIA,RECEITA PREVIDENCIÁRIA - DEMAIS,ADMINISTRADAS POR OUTROS ÓRGÃOS
0,2000,Janeiro,AC,231,0,292096,0,0,167,1558,...,,,,,20911,,,,,
1,2000,Janeiro,AL,475088,33873,1329338,812470,0,141735,3676847,...,,,,,127189,,,,,
2,2000,Janeiro,AM,11679405,0,1507146,1791471,27796,4414483,1800346,...,,,,,187988,,,,,
3,2000,Janeiro,AP,24267,0,424862,1419,321,22333,12165,...,,,,,10769,,,,,
4,2000,Janeiro,BA,10476457,13,5542123,11533707,0,7496476,23743858,...,,,,,536498,,,,,


In [24]:
#Consultando os últimos registros no dataframe
arrecadacao.tail()
#Identificado que os últimos registros indicam que os dados foram atualizados até Março de 2023.
#Verificado que há 7533 linhas no dataset.

Unnamed: 0,Ano,Mês,UF,IMPOSTO SOBRE IMPORTAÇÃO,IMPOSTO SOBRE EXPORTAÇÃO,IPI - FUMO,IPI - BEBIDAS,IPI - AUTOMÓVEIS,IPI - VINCULADO À IMPORTACAO,IPI - OUTROS,...,REFIS,PAES,"RETENÇÃO NA FONTE - LEI 10.833, Art. 30",PAGAMENTO UNIFICADO,OUTRAS RECEITAS ADMINISTRADAS,DEMAIS RECEITAS,RECEITA PREVIDENCIÁRIA,RECEITA PREVIDENCIÁRIA - PRÓPRIA,RECEITA PREVIDENCIÁRIA - DEMAIS,ADMINISTRADAS POR OUTROS ÓRGÃOS
7528,2023,Março,RS,15836217,0,0,0,0,2420866,23524606,...,,,,,56294066,,6874600294,,,1065145948
7529,2023,Março,SC,1002120548,858532,0,897532412,3011745881,3881102956,3720682797,...,,,,,8971306055,,2420498485,,,2907056629
7530,2023,Março,SE,1792437623,-1309421,231803776,451808802,1839273499,6451088764,1033460741,...,,,,,1480417865,,17794414313,,,257433219
7531,2023,Março,SP,379440024,214698413,37450835,203994968,0,11139877,657689162,...,,,,,380583903,,2347738898,,,3542186066
7532,2023,Março,TO,24659064,0,0,32331297,0,168231541,140113866,...,,,,,23348497,,1952184288,,,2955794943


In [25]:
#Consultando as 45 colunas do dataframe
arrecadacao.columns
#Identificado que há segregações do mesmo imposto em diferentes categorias.
#Identificadas colunas que podem conter subtotais das colunas segregadas, ou mudanças de critérios de totalização dos valores ao longo do tempo.

Index(['Ano', 'Mês', 'UF', 'IMPOSTO SOBRE IMPORTAÇÃO',
       'IMPOSTO SOBRE EXPORTAÇÃO', 'IPI - FUMO', 'IPI - BEBIDAS',
       'IPI - AUTOMÓVEIS', 'IPI - VINCULADO À IMPORTACAO', 'IPI - OUTROS',
       'IRPF', 'IRPJ - ENTIDADES FINANCEIRAS', 'IRPJ - DEMAIS EMPRESAS',
       'IRRF - RENDIMENTOS DO TRABALHO', 'IRRF - RENDIMENTOS DO CAPITAL',
       'IRRF - REMESSAS P/ EXTERIOR', 'IRRF - OUTROS RENDIMENTOS',
       'IMPOSTO S/ OPERAÇÕES FINANCEIRAS', 'IMPOSTO TERRITORIAL RURAL',
       'IMPOSTO PROVIS.S/ MOVIMENT. FINANC. - IPMF', 'CPMF', 'COFINS',
       'COFINS - FINANCEIRAS', 'COFINS - DEMAIS',
       'CONTRIBUIÇÃO PARA O PIS/PASEP',
       'CONTRIBUIÇÃO PARA O PIS/PASEP - FINANCEIRAS',
       'CONTRIBUIÇÃO PARA O PIS/PASEP - DEMAIS', 'CSLL', 'CSLL - FINANCEIRAS',
       'CSLL - DEMAIS', 'CIDE-COMBUSTÍVEIS (parc. não dedutível)',
       'CIDE-COMBUSTÍVEIS', 'CONTRIBUIÇÃO PLANO SEG. SOC. SERVIDORES',
       'CPSSS - Contrib. p/ o Plano de Segurid. Social Serv. Público',
       'CONTRIB

In [26]:
#Confirmando dimensões do dataframe
arrecadacao.shape
#Volume de dados anteriormente identificados confirmados

(7533, 45)

In [27]:
#Verificando o total de registros por cada coluna do dataframe
arrecadacao.count()
#Identificado que apenas algumas colunas possuem registros em todas as linhas, sugerindo eventuais erros ou alterações de critérios de totalização. 

Ano                                                             7533
Mês                                                             7533
UF                                                              7533
IMPOSTO SOBRE IMPORTAÇÃO                                        7533
IMPOSTO SOBRE EXPORTAÇÃO                                        7533
IPI - FUMO                                                      7533
IPI - BEBIDAS                                                   7533
IPI - AUTOMÓVEIS                                                7533
IPI - VINCULADO À IMPORTACAO                                    7533
IPI - OUTROS                                                    7533
IRPF                                                            7533
IRPJ - ENTIDADES FINANCEIRAS                                    7533
IRPJ - DEMAIS EMPRESAS                                          7533
IRRF - RENDIMENTOS DO TRABALHO                                  7533
IRRF - RENDIMENTOS DO CAPITAL     

In [28]:
#Obtendo um resumo das informações do dataframe
arrecadacao.describe()
#Verificado que tratamento das colunas de data estão gerando cálculos indevidos

Unnamed: 0,Ano,IMPOSTO PROVIS.S/ MOVIMENT. FINANC. - IPMF,REFIS,PAES,"RETENÇÃO NA FONTE - LEI 10.833, Art. 30",PAGAMENTO UNIFICADO
count,7533.0,648.0,324.0,324.0,270.0,378.0
mean,2011.129032,0.0,2163363.0,8472560.0,12959350.0,9749743.0
std,6.713017,0.0,3904852.0,16573780.0,35089990.0,18769110.0
min,2000.0,0.0,-1797889.0,136000.0,9309.0,116195.0
25%,2005.0,0.0,297292.2,1179268.0,517719.8,1236024.0
50%,2011.0,0.0,762045.5,2561976.0,2529214.0,2937894.0
75%,2017.0,0.0,2336568.0,6589126.0,8767503.0,8698714.0
max,2023.0,0.0,24589670.0,85323030.0,213886300.0,103222200.0


In [29]:
#Alterando a ordem da distribuição por UF, Ano e Mês
arrecadacao.sort_values(by=['UF', 'Ano', 'Mês'])
#Identificado que o atributo mês, por ser categórico, atrapalha a ordenação


Unnamed: 0,Ano,Mês,UF,IMPOSTO SOBRE IMPORTAÇÃO,IMPOSTO SOBRE EXPORTAÇÃO,IPI - FUMO,IPI - BEBIDAS,IPI - AUTOMÓVEIS,IPI - VINCULADO À IMPORTACAO,IPI - OUTROS,...,REFIS,PAES,"RETENÇÃO NA FONTE - LEI 10.833, Art. 30",PAGAMENTO UNIFICADO,OUTRAS RECEITAS ADMINISTRADAS,DEMAIS RECEITAS,RECEITA PREVIDENCIÁRIA,RECEITA PREVIDENCIÁRIA - PRÓPRIA,RECEITA PREVIDENCIÁRIA - DEMAIS,ADMINISTRADAS POR OUTROS ÓRGÃOS
81,2000,Abril,AC,69,0,281844,0,0,53,15332,...,,,,,16011,,,,,
189,2000,Agosto,AC,514,0,278217,0,0,0,12191,...,,,,,53755,,,,,
297,2000,Dezembro,AC,784,0,313571,0,0,111,7409,...,,,,,38439,,,,,
27,2000,Fevereiro,AC,441,0,255361,0,0,0,11437,...,,,,,21142,,,,,
0,2000,Janeiro,AC,231,0,292096,0,0,167,1558,...,,,,,20911,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7397,2022,Outubro,TO,035,49347,0,913183,0,0,188935471,...,,,,,397732912,,193062055,,,1337499573
7370,2022,Setembro,TO,84315,2732,0,18089442,0,48994066,236816107,...,,,,,544496168,,1955863262,,,3669632027
7505,2023,Fevereiro,TO,329789178,-004,0,36343944,686202,108584577,97787379,...,,,,,5169123,,1837454226,,,2698647263
7478,2023,Janeiro,TO,317412404,-044,0,37682617,0,162485421,108892604,...,,,,,207209162,,2040046546,,,2675652344


In [30]:

#Verificando algumas colunas com segregações para checar se há subtotalizações, analisando todas as linhas.
arrecadacao.loc[:, ['IPI - FUMO', 'IPI - BEBIDAS', 'IPI - AUTOMÓVEIS', 'IPI - VINCULADO À IMPORTACAO', 'IPI - OUTROS']]
#Não identificadas subtotalizações, mas aparentemente, informações inconsistentes, tais como arrecadação zerada de IPI para Fumo e Bebidas.


Unnamed: 0,IPI - FUMO,IPI - BEBIDAS,IPI - AUTOMÓVEIS,IPI - VINCULADO À IMPORTACAO,IPI - OUTROS
0,292096,0,0,167,1558
1,1329338,812470,0,141735,3676847
2,1507146,1791471,27796,4414483,1800346
3,424862,1419,321,22333,12165
4,5542123,11533707,0,7496476,23743858
...,...,...,...,...,...
7528,0,0,0,2420866,23524606
7529,0,897532412,3011745881,3881102956,3720682797
7530,231803776,451808802,1839273499,6451088764,1033460741
7531,37450835,203994968,0,11139877,657689162


In [31]:
arrecadacao.loc[:,['Ano', 'Mês', 'UF','COFINS', 'COFINS - FINANCEIRAS', 'COFINS - DEMAIS']]
#Identificada que a distribuição inicial não contém números para as segregações, e as finais, contém. Provavelmente, houve uma mudança de critério de totalização em um determinado período, onde se passou a usar a segregação dos valores para os dados de COFINS.

Unnamed: 0,Ano,Mês,UF,COFINS,COFINS - FINANCEIRAS,COFINS - DEMAIS
0,2000,Janeiro,AC,1770475,,
1,2000,Janeiro,AL,7493570,,
2,2000,Janeiro,AM,44000981,,
3,2000,Janeiro,AP,1682102,,
4,2000,Janeiro,BA,81027229,,
...,...,...,...,...,...,...
7528,2023,Março,RS,,880335,1617154873
7529,2023,Março,SC,,258878515,2008500806
7530,2023,Março,SE,,1295632231,9767005309
7531,2023,Março,SP,,219504899,6062309981


In [32]:
arrecadacao.loc[:,['Ano', 'Mês', 'UF','RECEITA PREVIDENCIÁRIA', 'RECEITA PREVIDENCIÁRIA - PRÓPRIA', 'RECEITA PREVIDENCIÁRIA - DEMAIS', 'ADMINISTRADAS POR OUTROS ÓRGÃOS']]


Unnamed: 0,Ano,Mês,UF,RECEITA PREVIDENCIÁRIA,RECEITA PREVIDENCIÁRIA - PRÓPRIA,RECEITA PREVIDENCIÁRIA - DEMAIS,ADMINISTRADAS POR OUTROS ÓRGÃOS
0,2000,Janeiro,AC,,,,
1,2000,Janeiro,AL,,,,
2,2000,Janeiro,AM,,,,
3,2000,Janeiro,AP,,,,
4,2000,Janeiro,BA,,,,
...,...,...,...,...,...,...,...
7528,2023,Março,RS,6874600294,,,1065145948
7529,2023,Março,SC,2420498485,,,2907056629
7530,2023,Março,SE,17794414313,,,257433219
7531,2023,Março,SP,2347738898,,,3542186066


In [33]:

arrecadacao.loc[:,['Ano', 'Mês', 'UF','CSLL', 'CSLL - FINANCEIRAS', 'CSLL - DEMAIS']]


Unnamed: 0,Ano,Mês,UF,CSLL,CSLL - FINANCEIRAS,CSLL - DEMAIS
0,2000,Janeiro,AC,392830,,
1,2000,Janeiro,AL,1775834,,
2,2000,Janeiro,AM,7652859,,
3,2000,Janeiro,AP,346964,,
4,2000,Janeiro,BA,15699282,,
...,...,...,...,...,...,...
7528,2023,Março,RS,,78535,727077066
7529,2023,Março,SC,,344215554,2777629778
7530,2023,Março,SE,,1886353611,2964038221
7531,2023,Março,SP,,243427136,2701283341


In [34]:
#Verificando as médias de valores
arrecadacao.groupby('UF').mean()
#Será necessário pré-processamento para analisar melhor os valores médios.

  arrecadacao.groupby('UF').mean()


Unnamed: 0_level_0,Ano,IMPOSTO PROVIS.S/ MOVIMENT. FINANC. - IPMF,REFIS,PAES,"RETENÇÃO NA FONTE - LEI 10.833, Art. 30",PAGAMENTO UNIFICADO
UF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
AC,2011.129032,0.0,31461.83,258183.8,50946.3,274428.6
AL,2011.129032,0.0,446002.0,1293728.0,825347.6,1449263.0
AM,2011.129032,0.0,512410.4,2288855.0,4546511.9,2772890.0
AP,2011.129032,0.0,-10639.42,465264.9,164126.0,572015.6
BA,2011.129032,0.0,2030807.0,6123181.0,9447899.3,6266294.0
CE,2011.129032,0.0,1771432.0,3877032.0,3574198.1,5576285.0
DF,2011.129032,0.0,1851827.0,3522120.0,15114969.0,7699806.0
ES,2011.129032,0.0,837037.5,3901774.0,5602276.7,4543115.0
GO,2011.129032,0.0,785977.7,6988374.0,3142717.7,9251319.0
MA,2011.129032,0.0,286774.2,1748610.0,970137.4,1966981.0
