## 0. Import packages

In [503]:
import pandas as pd
import numpy as np
import sys 
import seaborn as sns
import matplotlib.pyplot as plt

sys.path.append("..")

from src.support_cleaning import normalize

## 1. Data import and preliminary exploration

In [504]:
data_2013 = pd.read_csv("../data/datos-2013.csv", sep=";").assign(fichero="data_2013")
data_2013.columns = [normalize(column).replace(" ","_") for column in data_2013.columns]
print("\n\nHead:")
display(data_2013.head(5))
print("\n\nData types:")
data_2013.info()



Head:


Unnamed: 0,codigo_orgao_superior,nome_orgao_superior,codigo_orgao,nome_orgao,codigo_unidade_gestora,nome_unidade_gestora,categoria_economica,origem_receita,especie_receita,detalhamento,valor_previsto_atualizado,valor_lancado,valor_realizado,percentual_realizado,data_lancamento,ano_exercicio,fichero
0,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,,data_2013
1,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0,0,2666662142,0,31/12/2013,2013.0,data_2013
2,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",OUTRAS MULTAS E JUROS DE MORA,0,0,30125113,0,31/12/2013,2013.0,data_2013
3,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,0,0,185558,0,31/12/2013,2013.0,data_2013
4,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",OUTRAS RESTITUICOES,0,0,5214068,0,31/12/2013,2013.0,data_2013




Data types:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4498 entries, 0 to 4497
Data columns (total 17 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   codigo_orgao_superior      4282 non-null   float64
 1   nome_orgao_superior        2924 non-null   object 
 2   codigo_orgao               4362 non-null   float64
 3   nome_orgao                 4286 non-null   object 
 4   codigo_unidade_gestora     4324 non-null   float64
 5   nome_unidade_gestora       4278 non-null   object 
 6   categoria_economica        4303 non-null   object 
 7   origem_receita             4413 non-null   object 
 8   especie_receita            4355 non-null   object 
 9   detalhamento               4377 non-null   object 
 10  valor_previsto_atualizado  4273 non-null   object 
 11  valor_lancado              4282 non-null   object 
 12  valor_realizado            4309 non-null   object 
 13  percentual_realizado       4360 no

## 1.1 Data types
Data types appear to be correct for most columns except for the following ones that are object datatypes and should instead be:
- codigo_orgao_superior: object/category
- codigo_orgao: object: object
- codigo_unidade_gestora: object
- valor_previsto_atualizado: float  
- valor_lancado: float           
- valor_realizado: float         
- percentual_realizado: float
- data_lancamento: datetime[ns]

The codes although numerical, are actually a unique representation of organizations and bear no magnitude. Thus it is more interesting to change them to object to explore their summary statistics more comfortably. 

The revenue values carry a comma instead of a floating point, making conversion to float not feasible until replaced by a point. 

Data_lancamento will just need to simply be converted to datetime.

This will have to be corrected with in the cleaning notebook with a dictionary of the sort below.

In [505]:
data_types_dict = {
    "codigo_orgao_superior": object,
    "codigo_orgao": object,  
    "codigo_unidade_gestora": object,      
    "valor_previsto_atualizado": float,
    "valor_lancado": float,  
    "valor_realizado": float,      
    "percentual_realizado": float,
    "data_lancamento": "datetime64[ns]"
}

## 1.2 Import all data, explore and concatenate

In [506]:
data_dict = {
    "data_2013": pd.read_csv("../data/datos-2013.csv", sep=";"),
    "data_2014": pd.read_csv("../data/datos-2014.csv", sep=";"),
    "data_2015": pd.read_csv("../data/datos-2015.csv", sep=";"),
    "data_2016": pd.read_csv("../data/datos-2016.csv", sep=";"),
    "data_2017": pd.read_csv("../data/datos-2017.csv", sep=";"),
    "data_2018": pd.read_csv("../data/datos-2018.csv", sep=";"),
    "data_2019": pd.read_csv("../data/datos-2019.csv", sep=";"),
    "data_2020": pd.read_csv("../data/datos-2020.csv", sep=";"),
    "data_2021": pd.read_csv("../data/datos-2021.csv", sep=";")
}

data_df = pd.DataFrame(columns=[normalize(column).replace(" ","_") for column in data_2013.columns])
for df_name, df in data_dict.items():
    df.columns = [normalize(column).replace(" ","_") for column in df.columns]
    print("\n\n\n\n------------------")
    print(f"\n{df_name}")
    print("\n\nInfo summary")
    print(df.info())
    print("\n\nDescriptive statistics summary")
    print("\nNumerical data:")
    display(df.describe().T.assign(missing_values=lambda x: df.shape[0]-x["count"]))
    print("\nObject types:")
    display(df.describe(include=['O']).T.assign(missing_values=lambda x: df.shape[0]-x["count"]))

    print("\n\nDuplicated values:")
    display(df.duplicated().sum())

    data_df = pd.concat([data_df,df.assign(fichero=df_name[-4:])])






------------------

data_2013


Info summary
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4498 entries, 0 to 4497
Data columns (total 16 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   codigo_orgao_superior      4282 non-null   float64
 1   nome_orgao_superior        2924 non-null   object 
 2   codigo_orgao               4362 non-null   float64
 3   nome_orgao                 4286 non-null   object 
 4   codigo_unidade_gestora     4324 non-null   float64
 5   nome_unidade_gestora       4278 non-null   object 
 6   categoria_economica        4303 non-null   object 
 7   origem_receita             4413 non-null   object 
 8   especie_receita            4355 non-null   object 
 9   detalhamento               4377 non-null   object 
 10  valor_previsto_atualizado  4273 non-null   object 
 11  valor_lancado              4282 non-null   object 
 12  valor_realizado            4309 non-null   object 
 13 

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,4282.0,31739.60766,10692.607398,20000.0,25000.0,26000.0,36000.0,81000.0,216.0
codigo_orgao,4362.0,31484.209995,10810.318732,20101.0,26000.0,26292.0,35000.0,91214.0,136.0
codigo_unidade_gestora,4324.0,232766.252775,141238.719759,110005.0,153978.0,160075.0,253003.0,913001.0,174.0
ano_exercicio,3374.0,2013.0,0.0,2013.0,2013.0,2013.0,2013.0,2013.0,1124.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,2924,25,Ministério da Educação,1173,1574
nome_orgao,4286,264,Ministério da Economia - Unidades com vínculo ...,476,212
nome_unidade_gestora,4278,279,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,392,220
categoria_economica,4303,4,Receitas Correntes,3829,195
origem_receita,4413,15,Outras Receitas Correntes,1945,85
especie_receita,4355,44,Receita de Serviços,955,143
detalhamento,4377,694,RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,210,121
valor_previsto_atualizado,4273,2646,000,1546,225
valor_lancado,4282,51,000,4232,216
valor_realizado,4309,3583,000,678,189




Duplicated values:


np.int64(0)





------------------

data_2014


Info summary
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4553 entries, 0 to 4552
Data columns (total 16 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   codigo_orgao_superior      4331 non-null   float64
 1   nome_orgao_superior        2959 non-null   object 
 2   codigo_orgao               4493 non-null   float64
 3   nome_orgao                 4439 non-null   object 
 4   codigo_unidade_gestora     4332 non-null   float64
 5   nome_unidade_gestora       4392 non-null   object 
 6   categoria_economica        4502 non-null   object 
 7   origem_receita             4487 non-null   object 
 8   especie_receita            4455 non-null   object 
 9   detalhamento               4506 non-null   object 
 10  valor_previsto_atualizado  4325 non-null   object 
 11  valor_lancado              4375 non-null   object 
 12  valor_realizado            4328 non-null   object 
 13 

  data_df = pd.concat([data_df,df.assign(fichero=df_name[-4:])])


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,4331.0,31847.841145,10813.244886,20000.0,25000.0,26000.0,36000.0,81000.0,222.0
codigo_orgao,4493.0,31818.443356,11143.198081,20101.0,26000.0,26298.0,36201.0,91214.0,60.0
codigo_unidade_gestora,4332.0,236574.978532,145862.242362,110005.0,153167.0,160075.0,255000.0,913001.0,221.0
ano_exercicio,3415.0,2014.0,0.0,2014.0,2014.0,2014.0,2014.0,2014.0,1138.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,2959,25,Ministério da Educação,1171,1594
nome_orgao,4439,267,Ministério da Economia - Unidades com vínculo ...,465,114
nome_unidade_gestora,4392,278,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,365,161
categoria_economica,4502,5,Receitas Correntes,4051,51
origem_receita,4487,14,Outras Receitas Correntes,2025,66
especie_receita,4455,46,"Multas administrativas, contratuais e judicia",951,98
detalhamento,4506,706,RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,214,47
valor_previsto_atualizado,4325,2592,000,1637,228
valor_lancado,4375,70,000,4306,178
valor_realizado,4328,3560,000,706,225




Duplicated values:


np.int64(0)





------------------

data_2015


Info summary
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4523 entries, 0 to 4522
Data columns (total 16 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   codigo_orgao_superior      4324 non-null   float64
 1   nome_orgao_superior        2940 non-null   object 
 2   codigo_orgao               4351 non-null   float64
 3   nome_orgao                 4361 non-null   object 
 4   codigo_unidade_gestora     4326 non-null   float64
 5   nome_unidade_gestora       4449 non-null   object 
 6   categoria_economica        4463 non-null   object 
 7   origem_receita             4346 non-null   object 
 8   especie_receita            4320 non-null   object 
 9   detalhamento               4393 non-null   object 
 10  valor_previsto_atualizado  4297 non-null   object 
 11  valor_lancado              4381 non-null   object 
 12  valor_realizado            4351 non-null   object 
 13 

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,4324.0,31970.860315,10941.671616,20000.0,25000.0,26000.0,36000.0,81000.0,199.0
codigo_orgao,4351.0,32019.609975,11465.439048,20101.0,26000.0,26298.0,36211.0,91214.0,172.0
codigo_unidade_gestora,4326.0,237160.81877,145720.161158,110005.0,153173.0,167086.0,264001.0,913001.0,197.0
ano_exercicio,3392.0,2015.0,0.0,2015.0,2015.0,2015.0,2015.0,2015.0,1131.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,2940,25,Ministério da Educação,1216,1583
nome_orgao,4361,271,Ministério da Economia - Unidades com vínculo ...,466,162
nome_unidade_gestora,4449,288,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,374,74
categoria_economica,4463,4,Receitas Correntes,4037,60
origem_receita,4346,14,Outras Receitas Correntes,1999,177
especie_receita,4320,41,"Multas administrativas, contratuais e judicia",927,203
detalhamento,4393,694,RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,218,130
valor_previsto_atualizado,4297,2522,000,1694,226
valor_lancado,4381,82,000,4300,142
valor_realizado,4351,3619,000,671,172




Duplicated values:


np.int64(0)





------------------

data_2016


Info summary
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 194533 entries, 0 to 194532
Data columns (total 16 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   codigo_orgao_superior      190214 non-null  float64
 1   nome_orgao_superior        126446 non-null  object 
 2   codigo_orgao               190506 non-null  float64
 3   nome_orgao                 191144 non-null  object 
 4   codigo_unidade_gestora     185211 non-null  float64
 5   nome_unidade_gestora       191552 non-null  object 
 6   categoria_economica        192399 non-null  object 
 7   origem_receita             186042 non-null  object 
 8   especie_receita            190129 non-null  object 
 9   detalhamento               186707 non-null  object 
 10  valor_previsto_atualizado  184806 non-null  object 
 11  valor_lancado              188960 non-null  object 
 12  valor_realizado            188766 non

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,190214.0,32735.986836,11072.787723,20000.0,26000.0,26000.0,39000.0,81000.0,4319.0
codigo_orgao,190506.0,32087.913158,10958.211896,20101.0,26232.0,26406.0,36212.0,91214.0,4027.0
codigo_unidade_gestora,185211.0,231662.563579,143282.285279,110005.0,153165.0,167086.0,253003.0,913001.0,9322.0
ano_exercicio,145900.0,2016.0,0.0,2016.0,2016.0,2016.0,2016.0,2016.0,48633.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,126446,25,Ministério da Educação,46771,68087
nome_orgao,191144,269,Ministério da Economia - Unidades com vínculo ...,13510,3389
nome_unidade_gestora,191552,292,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,10952,2981
categoria_economica,192399,4,Receitas Correntes,184635,2134
origem_receita,186042,14,Outras Receitas Correntes,67579,8491
especie_receita,190129,44,Serviços Administrativos e Comerciais Gerais,53659,4404
detalhamento,186707,525,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,28989,7826
valor_previsto_atualizado,184806,1758,000,182993,9727
valor_lancado,188960,975,000,187909,5573
valor_realizado,188766,125625,000,2888,5767




Duplicated values:


np.int64(3)





------------------

data_2017


Info summary
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 190479 entries, 0 to 190478
Data columns (total 16 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   codigo_orgao_superior      185999 non-null  float64
 1   nome_orgao_superior        123811 non-null  object 
 2   codigo_orgao               188418 non-null  float64
 3   nome_orgao                 185457 non-null  object 
 4   codigo_unidade_gestora     186949 non-null  float64
 5   nome_unidade_gestora       188076 non-null  object 
 6   categoria_economica        187950 non-null  object 
 7   origem_receita             181808 non-null  object 
 8   especie_receita            181798 non-null  object 
 9   detalhamento               186726 non-null  object 
 10  valor_previsto_atualizado  180955 non-null  object 
 11  valor_lancado              182124 non-null  object 
 12  valor_realizado            182807 non

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,185999.0,32547.115845,10955.975665,20000.0,26000.0,26000.0,39000.0,81000.0,4480.0
codigo_orgao,188418.0,31814.245996,10681.942444,20101.0,26231.0,26405.0,36201.0,91214.0,2061.0
codigo_unidade_gestora,186949.0,231583.87488,142775.277196,110005.0,153166.0,167086.0,253003.0,913001.0,3530.0
ano_exercicio,142859.0,2017.0,0.0,2017.0,2017.0,2017.0,2017.0,2017.0,47620.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,123811,24,Ministério da Educação,46100,66668
nome_orgao,185457,268,Ministério da Economia - Unidades com vínculo ...,13789,5022
nome_unidade_gestora,188076,318,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,11063,2403
categoria_economica,187950,5,Receitas Correntes,180236,2529
origem_receita,181808,15,Outras Receitas Correntes,65611,8671
especie_receita,181798,47,Serviços Administrativos e Comerciais Gerais,49265,8681
detalhamento,186726,514,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,29255,3753
valor_previsto_atualizado,180955,1737,000,179160,9524
valor_lancado,182124,996,000,181126,8355
valor_realizado,182807,123949,000,2692,7672




Duplicated values:


np.int64(23)





------------------

data_2018


Info summary
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 173944 entries, 0 to 173943
Data columns (total 16 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   codigo_orgao_superior      165690 non-null  float64
 1   nome_orgao_superior        113064 non-null  object 
 2   codigo_orgao               168716 non-null  float64
 3   nome_orgao                 166611 non-null  object 
 4   codigo_unidade_gestora     166913 non-null  float64
 5   nome_unidade_gestora       171411 non-null  object 
 6   categoria_economica        170516 non-null  object 
 7   origem_receita             168037 non-null  object 
 8   especie_receita            166386 non-null  object 
 9   detalhamento               167435 non-null  object 
 10  valor_previsto_atualizado  165247 non-null  object 
 11  valor_lancado              170168 non-null  object 
 12  valor_realizado            165640 non

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,165690.0,31425.408896,10166.459924,20000.0,25000.0,26000.0,36000.0,81000.0,8254.0
codigo_orgao,168716.0,30759.630468,9821.452882,20101.0,25000.0,26285.0,32396.0,91214.0,5228.0
codigo_unidade_gestora,166913.0,224882.574233,138519.077341,110005.0,154034.0,167086.0,240901.0,913001.0,7031.0
ano_exercicio,130458.0,2018.0,0.0,2018.0,2018.0,2018.0,2018.0,2018.0,43486.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,113064,20,Ministério da Educação,42722,60880
nome_orgao,166611,260,Ministério da Economia - Unidades com vínculo ...,21908,7333
nome_unidade_gestora,171411,312,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,20882,2533
categoria_economica,170516,5,Receitas Correntes,162326,3428
origem_receita,168037,15,Receita de Serviços,56686,5907
especie_receita,166386,47,Serviços Administrativos e Comerciais Gerais,49206,7558
detalhamento,167435,608,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,28215,6509
valor_previsto_atualizado,165247,1741,000,163453,8697
valor_lancado,170168,817,000,169349,3776
valor_realizado,165640,116523,000,2597,8304




Duplicated values:


np.int64(7)





------------------

data_2019


Info summary
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 176828 entries, 0 to 176827
Data columns (total 16 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   codigo_orgao_superior      170865 non-null  float64
 1   nome_orgao_superior        114938 non-null  object 
 2   codigo_orgao               173643 non-null  float64
 3   nome_orgao                 169862 non-null  object 
 4   codigo_unidade_gestora     171547 non-null  float64
 5   nome_unidade_gestora       174840 non-null  object 
 6   categoria_economica        174890 non-null  object 
 7   origem_receita             168623 non-null  object 
 8   especie_receita            172708 non-null  object 
 9   detalhamento               172006 non-null  object 
 10  valor_previsto_atualizado  167987 non-null  object 
 11  valor_lancado              172190 non-null  object 
 12  valor_realizado            169191 non

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,170865.0,31409.703567,10161.744743,20000.0,25000.0,26000.0,36000.0,81000.0,5963.0
codigo_orgao,173643.0,30825.272945,9834.693796,20101.0,25000.0,26290.0,32396.0,91214.0,3185.0
codigo_unidade_gestora,171547.0,225092.502475,139752.985581,110005.0,154039.0,167086.0,240102.0,913001.0,5281.0
ano_exercicio,132621.0,2019.0,0.0,2019.0,2019.0,2019.0,2019.0,2019.0,44207.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,114938,19,Ministério da Educação,43554,61890
nome_orgao,169862,248,Ministério da Economia - Unidades com vínculo ...,22593,6966
nome_unidade_gestora,174840,269,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,22102,1988
categoria_economica,174890,5,Receitas Correntes,167342,1938
origem_receita,168623,15,Receita de Serviços,57171,8205
especie_receita,172708,46,Serviços Administrativos e Comerciais Gerais,51505,4120
detalhamento,172006,635,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,28394,4822
valor_previsto_atualizado,167987,1718,000,166221,8841
valor_lancado,172190,1081,000,171040,4638
valor_realizado,169191,119064,000,2983,7637




Duplicated values:


np.int64(2)





------------------

data_2020


Info summary
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 142348 entries, 0 to 142347
Data columns (total 16 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   codigo_orgao_superior      137044 non-null  float64
 1   nome_orgao_superior        92526 non-null   object 
 2   codigo_orgao               135491 non-null  float64
 3   nome_orgao                 135255 non-null  object 
 4   codigo_unidade_gestora     138764 non-null  float64
 5   nome_unidade_gestora       139702 non-null  object 
 6   categoria_economica        136452 non-null  object 
 7   origem_receita             138019 non-null  object 
 8   especie_receita            137467 non-null  object 
 9   detalhamento               138373 non-null  object 
 10  valor_previsto_atualizado  135231 non-null  object 
 11  valor_lancado              140252 non-null  object 
 12  valor_realizado            138063 non

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,137044.0,32086.125624,10598.32121,20000.0,25000.0,26000.0,39000.0,81000.0,5304.0
codigo_orgao,135491.0,31579.852618,10454.175702,20101.0,25000.0,26290.0,36201.0,90000.0,6857.0
codigo_unidade_gestora,138764.0,238443.493471,151544.696762,110005.0,154044.0,170013.0,253003.0,873001.0,3584.0
ano_exercicio,106761.0,2020.0,0.0,2020.0,2020.0,2020.0,2020.0,2020.0,35587.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,92526,19,Ministério da Educação,26577,49822
nome_orgao,135255,253,Ministério da Economia - Unidades com vínculo ...,21549,7093
nome_unidade_gestora,139702,268,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,20696,2646
categoria_economica,136452,5,Receitas Correntes,129594,5896
origem_receita,138019,15,Outras Receitas Correntes,40864,4329
especie_receita,137467,45,Serviços Administrativos e Comerciais Gerais,32138,4881
detalhamento,138373,624,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,20397,3975
valor_previsto_atualizado,135231,1864,000,133328,7117
valor_lancado,140252,1547,000,138601,2096
valor_realizado,138063,104012,000,3722,4285




Duplicated values:


np.int64(1)





------------------

data_2021


Info summary
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 134593 entries, 0 to 134592
Data columns (total 16 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   codigo_orgao_superior      133191 non-null  float64
 1   nome_orgao_superior        87485 non-null   object 
 2   codigo_orgao               131202 non-null  float64
 3   nome_orgao                 129997 non-null  object 
 4   codigo_unidade_gestora     130352 non-null  float64
 5   nome_unidade_gestora       128118 non-null  object 
 6   categoria_economica        131846 non-null  object 
 7   origem_receita             132106 non-null  object 
 8   especie_receita            132754 non-null  object 
 9   detalhamento               132439 non-null  object 
 10  valor_previsto_atualizado  127863 non-null  object 
 11  valor_lancado              133148 non-null  object 
 12  valor_realizado            129379 non

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,133191.0,31980.689386,10477.36015,20000.0,25000.0,26000.0,39000.0,81000.0,1402.0
codigo_orgao,131202.0,31457.17534,10274.244983,20101.0,25000.0,26285.0,36000.0,90000.0,3391.0
codigo_unidade_gestora,130352.0,238690.054506,151288.080629,110005.0,154044.0,170013.0,253002.0,873001.0,4241.0
ano_exercicio,100945.0,2021.0,0.0,2021.0,2021.0,2021.0,2021.0,2021.0,33648.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,87485,20,Ministério da Educação,25997,47108
nome_orgao,129997,256,Ministério da Economia - Unidades com vínculo ...,20681,4596
nome_unidade_gestora,128118,267,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,19344,6475
categoria_economica,131846,5,Receitas Correntes,125477,2747
origem_receita,132106,15,Receita de Serviços,39200,2487
especie_receita,132754,42,Serviços Administrativos e Comerciais Gerais,33667,1839
detalhamento,132439,598,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,19208,2154
valor_previsto_atualizado,127863,1722,000,126102,6730
valor_lancado,133148,1174,000,131975,1445
valor_realizado,129379,95809,000,3284,5214




Duplicated values:


np.int64(13)

The main problem with this dataset is the presence of missing values, specially problematic for the feature 'nome_orgao_superior'. Nonetheless, it seems the value from this column can in many cases be inferred from the codigo_orgao_superior or the nome_orgao column. To check that:

In [507]:
data_df.loc[:,["nome_orgao_superior","codigo_orgao_superior"]].head()

Unnamed: 0,nome_orgao_superior,codigo_orgao_superior
0,,63000.0
1,Advocacia-Geral da União,63000.0
2,Advocacia-Geral da União,63000.0
3,,63000.0
4,Advocacia-Geral da União,63000.0


In [508]:
nome_orgao_superior_notnull = ~data_df["nome_orgao_superior"].isna()
nome_orgao_notnull = ~data_df["nome_orgao"].isna()
data_df.loc[nome_orgao_superior_notnull & nome_orgao_notnull,["nome_orgao_superior","nome_orgao"]].head()

Unnamed: 0,nome_orgao_superior,nome_orgao
1,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...
2,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...
4,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...
5,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...
6,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...


There are many different organizations and management units, but not so many unique types of economical categories. Details, albeit highly cardinal, seem to be part of fixed categories, at least for every given year.

One other thing to note is that the most frequent values for valor columns are 0, which might mean these are missing values not encoded as such.

In [509]:
valor_previsto_atualizado_zero = data_df["valor_previsto_atualizado"] == "0,00"
valor_lancado = data_df["valor_lancado"] == "0,00"
valor_realizado = data_df["valor_realizado"] == "0,00"
percentual_realizado = data_df["percentual_realizado"] == "0,00"
data_df.loc[valor_previsto_atualizado_zero | valor_lancado | percentual_realizado | valor_realizado,:]

Unnamed: 0,codigo_orgao_superior,nome_orgao_superior,codigo_orgao,nome_orgao,codigo_unidade_gestora,nome_unidade_gestora,categoria_economica,origem_receita,especie_receita,detalhamento,valor_previsto_atualizado,valor_lancado,valor_realizado,percentual_realizado,data_lancamento,ano_exercicio,fichero
0,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,000,000,129713,000,31/12/2013,,2013
1,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,000,000,2666662142,000,31/12/2013,2013.0,2013
2,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",OUTRAS MULTAS E JUROS DE MORA,000,000,30125113,000,31/12/2013,2013.0,2013
3,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,000,000,185558,000,31/12/2013,2013.0,2013
4,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",OUTRAS RESTITUICOES,000,000,5214068,000,31/12/2013,2013.0,2013
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
134588,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,1694089100,000,000,000,23/04/2021,2021.0,2021
134589,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",000,000,,000,22/11/2021,2021.0,2021
134590,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",20000000,000,000,000,23/04/2021,2021.0,2021
134591,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",000,000,100000000,,10/05/2021,2021.0,2021


It seems that NaN values are not encoded as 0 in the end. However, one thing to note is that in many cases the realised value comes from an expected value of 0 and viceversa. That means that there are of course unexpected revenues, but could also mean that there are many unrealised revenues or that sometimes the same account for a revenue divides its registration into two rows. That is something to explore once the data cleaning has been performed.

Speaking of duplicates, not many rows in the dataset are doubled and this will be solved in the cleaning phase.


Appart from those things, a last interesting fact is the increment in available data from the year 2016, maybe pointing to an effort to track public revenue more rigourously.

Printing the concatenated dataframe:

In [510]:
print("Final concatenated dataframe:")
data_df

Final concatenated dataframe:


Unnamed: 0,codigo_orgao_superior,nome_orgao_superior,codigo_orgao,nome_orgao,codigo_unidade_gestora,nome_unidade_gestora,categoria_economica,origem_receita,especie_receita,detalhamento,valor_previsto_atualizado,valor_lancado,valor_realizado,percentual_realizado,data_lancamento,ano_exercicio,fichero
0,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,000,000,129713,000,31/12/2013,,2013
1,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,000,000,2666662142,000,31/12/2013,2013.0,2013
2,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",OUTRAS MULTAS E JUROS DE MORA,000,000,30125113,000,31/12/2013,2013.0,2013
3,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,000,000,185558,000,31/12/2013,2013.0,2013
4,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",OUTRAS RESTITUICOES,000,000,5214068,000,31/12/2013,2013.0,2013
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
134588,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,1694089100,000,000,000,23/04/2021,2021.0,2021
134589,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",000,000,,000,22/11/2021,2021.0,2021
134590,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",20000000,000,000,000,23/04/2021,2021.0,2021
134591,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",000,000,100000000,,10/05/2021,2021.0,2021


## 1.3 Save and prepare for cleaning

Finally, saving the concatenated dataframe to parquet for optimised storage to work with it during the cleaning phase in `cleaning.ipynb`.

In [511]:
data_df.to_parquet("../data/concatenated_data.parquet")

## 2. EDA of cleaned data

Coming back from `cleaning.ipynb` with now clean data, proper exploration and analysis of the data can be carried out.

In [512]:
cleaned_data_df = pd.read_parquet("../data/cleaned_data.parquet")
cleaned_data_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1026079 entries, 0 to 1026078
Data columns (total 18 columns):
 #   Column                     Non-Null Count    Dtype         
---  ------                     --------------    -----         
 0   codigo_orgao_superior      1026079 non-null  object        
 1   nome_orgao_superior        1026079 non-null  object        
 2   codigo_orgao               1026073 non-null  object        
 3   nome_orgao                 1026079 non-null  object        
 4   codigo_unidade_gestora     1025139 non-null  object        
 5   nome_unidade_gestora       1025932 non-null  object        
 6   categoria_economica        1026068 non-null  object        
 7   origem_receita             1025738 non-null  object        
 8   especie_receita            1021995 non-null  object        
 9   detalhamento               996881 non-null   object        
 10  valor_previsto_atualizado  975126 non-null   float64       
 11  valor_lancado              999660 non

In [513]:
value_features = ["valor_previsto_atualizado","valor_lancado","valor_realizado","percentual_realizado"]

Let's perform a basic descriptive summary of the 'valor' features.

In [514]:
cleaned_data_df[value_features].describe().T.assign(nulls= lambda x: cleaned_data_df.shape[0] - x["count"], 
                                                    null_pct=lambda x: x["nulls"]/cleaned_data_df.shape[0]*100)


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,nulls,null_pct
valor_previsto_atualizado,975126.0,28799240.0,3479050000.0,-214773700.0,0.0,0.0,0.0,1603522000000.0,50953.0,4.965797
valor_lancado,999660.0,5277950.0,817178800.0,-148347300000.0,0.0,0.0,0.0,357160700000.0,26419.0,2.574753
valor_realizado,986947.0,25246920.0,1431466000.0,-156285900000.0,261.04,3032.91,41032.56,771117700000.0,39132.0,3.813741
percentual_realizado,1002467.0,82.2194,72325.79,-114552.0,0.0,0.0,0.0,72363770.0,23612.0,2.301187


Per the above descriptive summary it can be concluded that:
- There is an enormous spread in the data for all four features.
- Except for valor_realizado, more than 75% of the values are 0. All four features range by hundreds of millions negative and positive, showing a standard deaviation higher than the mean.
- Nulls percentage is not too high, as it does not reach 5% (an industry standard), however, these missing values could potentially be hiding the most interesting information, that will have to be observed through analysis.

### 2.1 Missing values

#### 2.1.1 Are all zero values also missing values?

All zero values could be considered null values, but for this analysis, all zero values are considered registration of activities related to revenue that carry no magnitude.

In [549]:
filtro = (cleaned_data_df['valor_previsto_atualizado'] == 0) & (cleaned_data_df['valor_realizado'] == 0) & (cleaned_data_df['valor_lancado'] == 0) & (cleaned_data_df['percentual_realizado'] == 0 )
cleaned_data_df[filtro]

Unnamed: 0,codigo_orgao_superior,nome_orgao_superior,codigo_orgao,nome_orgao,codigo_unidade_gestora,nome_unidade_gestora,categoria_economica,origem_receita,especie_receita,detalhamento,valor_previsto_atualizado,valor_lancado,valor_realizado,percentual_realizado,data_lancamento,ano_exercicio,fichero,intra_orcamentaria,nan_per_row,month,month_name,register,diff_valor_previsto_realizado
1429,25000_0,ministerio_da_economia,25207_0,servico_federal_de_processamento_de_dados,806001_0,serpro_sede_departamento_financeiro,receitas_correntes,receita_de_servicos,receita_de_servicos,certificacao_de_produtos_e_servico,0.0,0.0,0.0,0.0,2013-12-31,2013.0,data_2013,No,0.000000,12.0,December,1,0.0
2067,26000_0,ministerio_da_educacao,26275_0,fundacao_universidade_federal_do_acre,154044_0,fundacao_universidade_federal_do_acre,receitas_de_capital,alienacao_de_bens,alienacao_de_bens_moveis,alienacao_de_outras_bens_moveis,0.0,0.0,0.0,0.0,2013-12-31,2013.0,data_2013,No,0.000000,12.0,December,1,0.0
2407,26000_0,ministerio_da_educacao,26290_0,instituto_nacional_de_estudos_e_pesquisas_educ...,153978_0,inst_nacional_de_est_e_pesquisas_educacionais,receitas_correntes,outras_receitas_correntes,multas_administrativas_contratuais_e_judicia,multas_e_juros_previstos_em_contratos,0.0,0.0,0.0,0.0,2013-12-31,2013.0,data_2013,No,0.000000,12.0,December,1,0.0
2606,26000_0,ministerio_da_educacao,26242_0,universidade_federal_de_pernambuco,153080_0,universidade_federal_de_pernambuco,receitas_de_capital,alienacao_de_bens,alienacao_de_bens_imoveis,alienacao_de_imoveis_urbanos,0.0,0.0,0.0,0.0,2013-12-31,2013.0,data_2013,No,0.000000,12.0,December,1,0.0
3284,26000_0,ministerio_da_educacao,26248_0,universidade_federal_rural_de_pernambuco,153165_0,universidade_federal_rural_de_pernambuco,receitas_correntes,receita_de_servicos,receita_de_servicos,outras_servico_de_saude,0.0,0.0,0.0,0.0,2013-12-31,2013.0,data_2013,No,0.000000,12.0,December,1,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1023829,54000_0,ministerio_do_turismo,34902_0,fundo_nacional_de_cultura,540030_0,fundo_nacional_da_cultura_fnc,receitas_correntes,receita_patrimonial,delegacao_de_servicos_publicos_mediante_conce,outras_dlg_sv_telec_nao_p_orbitais_da_prc,0.0,0.0,0.0,0.0,NaT,2021.0,data_2021,No,0.055556,,,1,0.0
1023930,54000_0,ministerio_do_turismo,34902_0,fundo_nacional_de_cultura,540030_0,fundo_nacional_da_cultura_fnc,receitas_correntes,receita_patrimonial,delegacao_de_servicos_publicos_mediante_conce,cess_dir_uso_radfrq_nao_p_orbitais_da_prc,0.0,0.0,0.0,0.0,2021-01-03,2021.0,data_2021,No,0.000000,1.0,January,1,0.0
1024310,54000_0,ministerio_do_turismo,34902_0,fundo_nacional_de_cultura,540030_0,fundo_nacional_da_cultura_fnc,receitas_correntes,receita_de_servicos,servicos_administrativos_e_comerciais_gerais,servs_tecnicos_aprov_laudos_telcom_prc,0.0,0.0,0.0,0.0,2021-01-03,2021.0,data_2021,No,0.000000,1.0,January,1,0.0
1024313,54000_0,ministerio_do_turismo,34902_0,fundo_nacional_de_cultura,540030_0,fundo_nacional_da_cultura_fnc,receitas_correntes,outras_receitas_correntes,multas_administrativas_contratuais_e_judicia,mlt_lei_ger_telecom_nao_p_orbitais_da_mlt+jrs,0.0,0.0,0.0,0.0,2021-01-03,2021.0,data_2021,No,0.000000,1.0,January,1,0.0


### 2.1.2 Pattern in missing values

It is suspected that missing values carry some sort of pattern that could uncover valuable insights like:
- Where is information not being recorded properly. What organisms? What type of categories?
- Is there a malicious hand behind these missing values?

This part of the analysis is left for future steps.

##### Missing values per nome orgao superior

In [552]:
(cleaned_data_df.groupby('nome_orgao_superior')[['valor_previsto_atualizado','valor_lancado',
                                                 'valor_realizado', 'percentual_realizado',]]
                                                 .apply(lambda x: np.round(x.isna().sum() / x.count()*100,2))
                                                 .sort_values(by="valor_previsto_atualizado",ascending=False))

Unnamed: 0_level_0,valor_previsto_atualizado,valor_lancado,valor_realizado,percentual_realizado
nome_orgao_superior,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
ministerio_das_relacoes_exteriores,5.58,2.65,3.79,2.12
ministerio_do_desenvolvimento_agrario,5.55,2.94,3.1,2.3
controladoria_geral_da_uniao,5.44,1.61,2.86,2.02
ministerio_da_ciencia_tecnologia_inovacoes_,5.41,2.52,3.94,2.43
ministerio_da_infraestrutura,5.39,2.65,3.71,2.29
ministerio_da_mulher_familia_e_direitos_huma,5.37,3.21,3.86,2.48
ministerio_da_cidadania,5.27,2.79,4.22,2.18
ministerio_da_economia,5.24,2.48,4.03,2.42
ministerio_da_educacao,5.24,2.71,3.98,2.34
ministerio_da_saude,5.24,2.77,3.91,2.17


##### Missing values per especie receita

In [554]:
(cleaned_data_df.groupby('especie_receita')[['valor_previsto_atualizado','valor_lancado',
                                                 'valor_realizado', 'percentual_realizado',]]
                                                 .apply(lambda x: np.round(x.isna().sum(),2))
                                                 .sort_values(by="valor_previsto_atualizado",ascending=False))

Unnamed: 0_level_0,valor_previsto_atualizado,valor_lancado,valor_realizado,percentual_realizado
especie_receita,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
servicos_administrativos_e_comerciais_gerais,14014,7244,10786,6471
indenizacoes_restituicoes_e_ressarcimentos,6935,3880,5273,3179
multas_administrativas_contratuais_e_judicia,5662,3015,4365,2611
exploracao_do_patrimonio_imobiliario_do_estad,4449,2308,3292,2064
taxas,3195,1476,2338,1550
demais_receitas_correntes,2718,1367,2071,1165
contribuicoes_economicas,1783,850,1389,834
valores_mobiliarios,1637,807,1270,755
contribuicoes_sociais,1517,740,1185,830
exploracao_de_recursos_naturais,1088,529,857,479


## 2.2 Negative values

Negative values in the dataset can be seen as incorrect (null) or simply corrections of either previously introduced data, either realised, lancado or forecasted. Besides, its prevalence is rather small being less than 2%.

In [562]:
print("Percentage of total negative values in valor realizado:", np.round(cleaned_data_df[cleaned_data_df["valor_realizado"] < 0].shape[0] / cleaned_data_df.shape[0] *100,2))
print("Percentage of total negative values in valor lancado:", np.round(cleaned_data_df[cleaned_data_df["valor_lancado"] < 0].shape[0] / cleaned_data_df.shape[0] *100,2))
print("Percentage of total negative values in valor previsto:", np.round(cleaned_data_df[cleaned_data_df["valor_previsto_atualizado"] < 0].shape[0] / cleaned_data_df.shape[0] *100,2))
cleaned_data_df[cleaned_data_df["valor_realizado"] < 0]

Percentage of total negative values in valor realizado: 1.75
Percentage of total negative values in valor lancado: 0.31
Percentage of total negative values in valor previsto: 0.0


Unnamed: 0,codigo_orgao_superior,nome_orgao_superior,codigo_orgao,nome_orgao,codigo_unidade_gestora,nome_unidade_gestora,categoria_economica,origem_receita,especie_receita,detalhamento,valor_previsto_atualizado,valor_lancado,valor_realizado,percentual_realizado,data_lancamento,ano_exercicio,fichero,intra_orcamentaria,nan_per_row,month,month_name,register,diff_valor_previsto_realizado
53,22000_0,ministerio_da_agricultura_pecuaria_e_abastec,22211_0,companhia_nacional_de_abastecimento,135100_0,companhia_nacional_de_abastecimento,receitas_de_capital,alienacao_de_bens,alienacao_de_bens_moveis,alienacao_de_titulos_mobiliarios,0.0,0.0,-35.20,0.0,2013-12-31,2013.0,data_2013,No,0.000000,12.0,December,1,-35.20
78,22000_0,ministerio_da_agricultura_pecuaria_e_abastec,22211_0,companhia_nacional_de_abastecimento,135100_0,companhia_nacional_de_abastecimento,receitas_de_capital,alienacao_de_bens,alienacao_de_bens_moveis,alienacao_de_outras_bens_moveis,1031.0,,-1224.80,-119.0,2013-12-31,2013.0,data_2013,No,0.055556,12.0,December,1,-2255.80
81,22000_0,ministerio_da_agricultura_pecuaria_e_abastec,22000_0,ministerio_da_agricultura_pecuaria_e_abastecim...,130101_0,coord_geral_de_orcamento_e_financas_mapa,receitas_de_capital,alienacao_de_bens,alienacao_de_bens_moveis,alienacao_de_outras_bens_moveis,359956.0,0.0,-35007.50,-10.0,2013-12-31,2013.0,data_2013,No,0.000000,12.0,December,1,-394963.50
135,22000_0,ministerio_da_agricultura_pecuaria_e_abastec,22202_0,empresa_brasileira_de_pesquisa_agropecuaria,135037_0,embrapa_setorial,receitas_correntes,receita_de_servicos,receita_de_servicos,outras_servico_comerciais,0.0,0.0,-37.90,0.0,2013-12-31,2013.0,data_2013,No,0.000000,12.0,December,1,-37.90
543,52000_0,ministerio_da_defesa,52121_0,comando_do_exercito,160075_0,d_cont_setorial_financeira,receitas_correntes,receita_patrimonial,demais_receitas_patrimoniais,demais_receitas_patrimoniais,0.0,0.0,-91.00,0.0,2013-12-31,2013.0,data_2013,No,0.000000,12.0,December,1,-91.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1025148,54000_0,ministerio_do_turismo,20404_0,fundacao_biblioteca_nacional,344042_0,fundacao_biblioteca_nacional,receitas_correntes,receita_de_servicos,servicos_administrativos_e_comerciais_gerais,serv_administrat_e_comerciais_gerais_princ_,0.0,0.0,-40.00,0.0,2021-11-11,2021.0,data_2021,No,0.000000,11.0,November,1,-40.00
1025295,54000_0,ministerio_do_turismo,20203_0,agencia_nacional_do_cinema,203003_0,agencia_nacional_do_cinema,receitas_correntes,outras_receitas_correntes,multas_administrativas_contratuais_e_judicia,multas_previstas_em_legisl_especifica_div_at_,0.0,,-794.60,0.0,2021-01-04,2021.0,data_2021,No,0.055556,1.0,January,1,-794.60
1025299,54000_0,ministerio_do_turismo,20203_0,agencia_nacional_do_cinema,203003_0,agencia_nacional_do_cinema,receitas_correntes,outras_receitas_correntes,multas_administrativas_contratuais_e_judicia,multas_previstas_em_legisl_especifica_div_at_,0.0,0.0,-18841.35,0.0,2021-01-07,2021.0,data_2021,No,0.000000,1.0,January,1,-18841.35
1025341,54000_0,ministerio_do_turismo,20203_0,agencia_nacional_do_cinema,203003_0,agencia_nacional_do_cinema,receitas_correntes,outras_receitas_correntes,multas_administrativas_contratuais_e_judicia,multas_previstas_em_legisl_especifica_princ_,0.0,0.0,-683.54,0.0,2021-01-09,2021.0,data_2021,No,0.000000,1.0,January,1,-683.54


These values are more frequent and of bigger cyphers in the 'ministerio_da_economia' and quickly increases with time, correlated with the forecast as it increases too, until 2018 where it stabilises.

In [527]:
cleaned_data_df[cleaned_data_df['valor_realizado'] < 0].groupby('nome_orgao_superior')["valor_realizado"].agg(["count","sum"]).reset_index().sort_values(by="sum")

Unnamed: 0,nome_orgao_superior,count,sum
5,ministerio_da_economia,5237,-868325200000.0
16,ministerio_de_minas_e_energia,359,-11939180000.0
4,ministerio_da_defesa,3783,-3221729000.0
2,ministerio_da_cidadania,66,-1699881000.0
8,ministerio_da_justica_e_seguranca_publica,387,-1401902000.0
6,ministerio_da_educacao,4224,-1179784000.0
3,ministerio_da_ciencia_tecnologia_inovacoes_,927,-1046826000.0
18,ministerio_do_desenvolvimento_regional,525,-415799800.0
7,ministerio_da_infraestrutura,242,-398023200.0
12,ministerio_da_saude,344,-349113200.0


In [565]:
display(cleaned_data_df[cleaned_data_df['valor_realizado'] < 0].groupby('ano_exercicio')["valor_realizado"].agg(["count","sum"]).reset_index())
cleaned_data_df.groupby('ano_exercicio')["valor_previsto_atualizado"].agg(["count","sum"]).reset_index()

Unnamed: 0,ano_exercicio,count,sum
0,2013.0,36,-391246100.0
1,2014.0,41,-1054032000.0
2,2015.0,51,-888683900.0
3,2016.0,3418,-320436100000.0
4,2017.0,3236,-115832000000.0
5,2018.0,2800,-54693490000.0
6,2019.0,2665,-172486200000.0
7,2020.0,2713,-114165100000.0
8,2021.0,2974,-110951100000.0


Unnamed: 0,ano_exercicio,count,sum
0,2013.0,4376,2140104000000.0
1,2014.0,4432,2389317000000.0
2,2015.0,4392,2876864000000.0
3,2016.0,184802,2936421000000.0
4,2017.0,180867,3401924000000.0
5,2018.0,165213,3476683000000.0
6,2019.0,167987,3250029000000.0
7,2020.0,135228,3568124000000.0
8,2021.0,127829,4043419000000.0


### Top contributing revenue categories

The 3 top contributing revenue categories are: 'operacoes_de_credito_mercado_interno', 'contribuicoes_sociais' and 'impostos'.

In [533]:
pd.set_option("display.max_rows",65)
contribution_especie = cleaned_data_df.groupby(["especie_receita"])[["valor_realizado"]].sum().assign(valor_realizado_pct=lambda x: np.round(x["valor_realizado"]/cleaned_data_df["valor_realizado"].sum()*100,2)).sort_values("valor_realizado",ascending=False)
contribution_especie[0:10]

Unnamed: 0_level_0,valor_realizado,valor_realizado_pct
especie_receita,Unnamed: 1_level_1,Unnamed: 2_level_1
operacoes_de_credito_mercado_interno,9511317000000.0,38.17
contribuicoes_sociais,6699447000000.0,26.89
impostos,4028138000000.0,16.17
resultado_do_banco_central_do_brasil,1021719000000.0,4.1
amortizacoes_de_emprestimos,788937700000.0,3.17
exploracao_de_recursos_naturais,550762000000.0,2.21
remuneracao_das_disponibilidades_do_tesouro,498024400000.0,2.0
valores_mobiliarios,251449700000.0,1.01
servicos_e_atividades_financeiras,201404600000.0,0.81
demais_receitas_correntes,176573600000.0,0.71


### Difference between forecast and realised per category

Creating useful columns for analysis.

In [534]:
cleaned_data_df["month"] = cleaned_data_df["data_lancamento"].dt.month
cleaned_data_df["month_name"] = cleaned_data_df["data_lancamento"].dt.month_name() 
cleaned_data_df["register"] = 1

In [535]:
cleaned_data_df["diff_valor_previsto_realizado"] = cleaned_data_df["valor_realizado"] - cleaned_data_df["valor_previsto_atualizado"]

In [536]:
yearly_total_category = cleaned_data_df.groupby(['ano_exercicio', 'categoria_economica'])['diff_valor_previsto_realizado'].sum().reset_index()
mean_yearly_revenue_category = yearly_total_category.groupby('categoria_economica')['diff_valor_previsto_realizado'].mean().reset_index()
mean_yearly_revenue_category.columns = ["categoria_economica","mean_yearly_revenue_diff"]
mean_yearly_revenue_category.sort_values(by="mean_yearly_revenue_diff")

Unnamed: 0,categoria_economica,mean_yearly_revenue_diff
1,receitas_de_capital,-307624200000.0
0,receitas_correntes,-102620600000.0
2,sem_informacao,6.652857


The top revenue contributing categories are also the ones showing the biggest deviation in forecast VS. realised. Although there are categories like 'alienacao_de_bens_imoveis' or 'receita_titulos_do_tesouro_nacional_resgatado' that were expecting more than 20 times more revenue (revenue_diff_valor_realizado_pct), or worse 'demais_recetas_de_capital' that expected hundreds of millions and received zero, the top first 'operacoes_de_credito_mercado_interno' that overforecasts on avegerage by a stunning 36% represents a 92% of the whole overforecasted revenue. 

Similarly, 'contribuicoes_sociais' and 'contribuicoes_sociais', represent respectively a 15% and a 8% of the whole overforecasted revenue. On the other hand, another top revenue contributor, 'resultado_do_banco_central_do_brasil' underforecasts by 50% and brings in a 15% of the overforcasted revenue in form of unexpected revenue.

In [537]:
yearly_total_category = cleaned_data_df.groupby(['ano_exercicio', 'especie_receita'])[['diff_valor_previsto_realizado',"valor_realizado"]].sum().reset_index()
mean_yearly_revenue_category = yearly_total_category.groupby('especie_receita')[['diff_valor_previsto_realizado',"valor_realizado"]].mean().reset_index()
mean_yearly_revenue_category.columns = ["especie_receita","mean_yearly_revenue_diff","valor_realizado"]

(mean_yearly_revenue_category.assign(revenue_diff_pct= lambda x: np.round(x["mean_yearly_revenue_diff"]/x["mean_yearly_revenue_diff"].sum()*100,2))
                            .assign(revenue_diff_valor_realizado_pct=lambda x: np.round(x["mean_yearly_revenue_diff"]/x["valor_realizado"]*100,2))
                            .sort_values(by="mean_yearly_revenue_diff"))

Unnamed: 0,especie_receita,mean_yearly_revenue_diff,valor_realizado,revenue_diff_pct,revenue_diff_valor_realizado_pct
22,operacoes_de_credito_mercado_interno,-388126800000.0,1056813000000.0,92.67,-36.73
8,contribuicoes_sociais,-63076360000.0,744383000000.0,15.06,-8.47
16,impostos,-33700420000.0,447570900000.0,8.05,-7.53
11,demais_receitas_de_capital,-16923240000.0,0.0,4.04,-inf
40,receitas_decorrentes_de_compensacoes_ao_regim,-11110500000.0,0.0,2.65,-inf
31,receita_de_servicos,-6089730000.0,46920460000.0,1.45,-12.98
10,demais_receitas_correntes,-5030085000.0,19619290000.0,1.2,-25.64
47,servicos_e_atividades_financeiras,-4484815000.0,33567440000.0,1.07,-13.36
0,alienacao_de_bens_imoveis,-3925167000.0,196971200.0,0.94,-1992.76
4,bens_direitos_e_valores_incorporados_ao_patr,-2275905000.0,4553911000.0,0.54,-49.98


### Observation of trends along the years and months of activity

As it can be observed from the table below, in 2017 an outstading event creates a bigger gap in the form of overforecasting, that extends up to 2019, after which it returns to its previous path. This overforecast comes from both an increment in forecast with regards to the previous year and a decrease in realised revenue.

In [538]:
yearly_total = (cleaned_data_df.groupby(['ano_exercicio'])[['diff_valor_previsto_realizado',"valor_previsto_atualizado","valor_realizado"]].sum().reset_index()
                                .assign(pct_valor_realizado=lambda x: x["diff_valor_previsto_realizado"]/x["valor_realizado"]*100))
yearly_total

Unnamed: 0,ano_exercicio,diff_valor_previsto_realizado,valor_previsto_atualizado,valor_realizado,pct_valor_realizado
0,2013.0,-272931400000.0,2140104000000.0,1863088000000.0,-14.649408
1,2014.0,-137668800000.0,2389317000000.0,2236156000000.0,-6.156493
2,2015.0,-167809900000.0,2876864000000.0,2662288000000.0,-6.303221
3,2016.0,-258893400000.0,2936421000000.0,2787772000000.0,-9.286752
4,2017.0,-1067581000000.0,3401924000000.0,2476073000000.0,-43.115885
5,2018.0,-757034600000.0,3476683000000.0,2865977000000.0,-26.414538
6,2019.0,-465352300000.0,3250029000000.0,2883240000000.0,-16.139907
7,2020.0,-219871500000.0,3568124000000.0,3463722000000.0,-6.347839
8,2021.0,-345060100000.0,4043419000000.0,3679059000000.0,-9.379032


Averaging out, without lookign at the specific years yet, it seems that most months stay on even forecasting, with a slightly low undeforecasting and most months realising the same amount of revenue. 

However, on months January, March and December there seems to be a big overforecasting, it being tremendous in January and more moderate in December. Those dates can be explained as the moments where a forecast is prepared for the upcoming next or current year. The spike from March is harder to explain and could mean another 2 quarter forecast, but it is unlikely given that there are no other quarter forecasts.

In [539]:
monthly_total = (cleaned_data_df.groupby(['month'])[['diff_valor_previsto_realizado',"valor_previsto_atualizado","valor_realizado"]].sum().reset_index()
                                .assign(pct_valor_realizado=lambda x: x["diff_valor_previsto_realizado"]/x["valor_realizado"]*100))
monthly_total

Unnamed: 0,month,diff_valor_previsto_realizado,valor_previsto_atualizado,valor_realizado,pct_valor_realizado
0,1.0,-11501140000000.0,13055390000000.0,1567656000000.0,-733.651945
1,2.0,1035446000000.0,0.0,1085701000000.0,95.371228
2,3.0,1227635000000.0,-49471220.0,1310075000000.0,93.707239
3,4.0,-2458520000000.0,3963314000000.0,1379915000000.0,-178.164645
4,5.0,1254735000000.0,0.0,1316637000000.0,95.298459
5,6.0,1006580000000.0,0.0,1090755000000.0,92.282809
6,7.0,1268192000000.0,53118100.0,1351878000000.0,93.809674
7,8.0,1679712000000.0,141765900.0,1759725000000.0,95.453089
8,9.0,1801486000000.0,0.0,1839940000000.0,97.910087
9,10.0,2264182000000.0,0.0,2377384000000.0,95.238359



### Differences between forecast and realised


Funny enough, the biggest disruptions created from overforecasting come from the economy ministry, which is however explained its bigger contribution to the national arcs in the form of revenue collection.

In [540]:
yearly_total_category = cleaned_data_df.groupby(['ano_exercicio', 'nome_orgao_superior','nome_orgao'])[['diff_valor_previsto_realizado',"valor_realizado"]].sum().reset_index()
mean_yearly_revenue_category = yearly_total_category.groupby(['nome_orgao_superior','nome_orgao'])[['diff_valor_previsto_realizado',"valor_realizado"]].mean().reset_index()
mean_yearly_revenue_category.columns = ["nome_orgao_superior","nome_orgao","mean_yearly_revenue_diff","valor_realizado"]

(mean_yearly_revenue_category.assign(revenue_diff_pct= lambda x: np.round(x["mean_yearly_revenue_diff"]/x["mean_yearly_revenue_diff"].sum()*100,2))
                            .assign(revenue_diff_valor_realizado_pct=lambda x: np.round(x["mean_yearly_revenue_diff"]/x["valor_realizado"]*100,2))
                            .sort_values(by="mean_yearly_revenue_diff")).head(10)

Unnamed: 0,nome_orgao_superior,nome_orgao,mean_yearly_revenue_diff,valor_realizado,revenue_diff_pct,revenue_diff_valor_realizado_pct
57,ministerio_da_economia,ministerio_da_economia_unidades_com_vinculo_di...,-198298100000.0,2253087000000.0,47.21,-8.8
50,ministerio_da_economia,fundo_do_regime_geral_da_previdencia_social,-106337200000.0,368749800000.0,25.32,-28.84
130,ministerio_da_educacao,ministerio_da_educacao_unidades_com_vinculo_di...,-30064500000.0,56701600.0,7.16,-53022.31
241,ministerio_de_minas_e_energia,ministerio_de_minas_e_energia_unidades_com_vin...,-29497640000.0,357133900.0,7.02,-8259.55
44,ministerio_da_economia,fundo_de_amparo_ao_trabalhador,-27504180000.0,37981510000.0,6.55,-72.41
251,ministerio_do_desenvolvimento_regional,fundo_constitucional_de_financiamento_do_nordeste,-6685419000.0,0.0,1.59,-inf
27,ministerio_da_defesa,comando_do_exercito,-5120457000.0,42752410.0,1.22,-11977.0
285,presidencia_da_republica,presidencia_da_republica,-5066923000.0,1568072000.0,1.21,-323.13
25,ministerio_da_defesa,comando_da_marinha,-3438476000.0,576540000.0,0.82,-596.4
11,ministerio_da_cidadania,fundo_nacional_de_assistencia_social,-3418543000.0,41849620.0,0.81,-8168.64


#### Discrepancies between receitas intra_orcamentaria

The impact of intra_orcamentaria is very low.

In [541]:
yearly_total_category = cleaned_data_df.groupby(['ano_exercicio', 'intra_orcamentaria'])[['diff_valor_previsto_realizado',"valor_realizado"]].sum().reset_index()
mean_yearly_revenue_category = yearly_total_category.groupby('intra_orcamentaria')[['diff_valor_previsto_realizado',"valor_realizado"]].mean().reset_index()
mean_yearly_revenue_category.columns = ["intra_orcamentaria","mean_yearly_revenue_diff","valor_realizado"]

(mean_yearly_revenue_category.assign(revenue_diff_pct= lambda x: np.round(x["mean_yearly_revenue_diff"]/x["mean_yearly_revenue_diff"].sum()*100,2))
                            .assign(revenue_diff_valor_realizado_pct=lambda x: np.round(x["mean_yearly_revenue_diff"]/x["valor_realizado"]*100,2))
                            .sort_values(by="mean_yearly_revenue_diff"))

Unnamed: 0,intra_orcamentaria,mean_yearly_revenue_diff,valor_realizado,revenue_diff_pct,revenue_diff_valor_realizado_pct
0,No,-410558900000.0,2735025000000.0,100.08,-15.01
1,Yes,314087100.0,33571980000.0,-0.08,0.94


### Evaluation of situation: 2017

Between 2016 and 2017 there is a decrease in revenue. The impact is of about 0.31 billions of Brazilian reales. Inspecting throuhg the top receitas it could be possible to find the biggest contributors to this decrease:

In [542]:
top5_especies = contribution_especie[:5].index.to_list()
filter_top5_contributors = cleaned_data_df["especie_receita"].isin(top5_especies)
filter_years = cleaned_data_df["ano_exercicio"].between(2016,2020,inclusive="both")
pivot_table = cleaned_data_df[filter_top5_contributors & filter_years].pivot_table(
    index=['especie_receita'], 
    columns='ano_exercicio', 
    values='valor_realizado', 
    aggfunc='sum'
)
pivot_table.sort_values(by=2016, ascending=False)

ano_exercicio,2016.0,2017.0,2018.0,2019.0,2020.0
especie_receita,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
operacoes_de_credito_mercado_interno,1012530000000.0,902764300000.0,920294200000.0,913158000000.0,1574974000000.0
contribuicoes_sociais,722090800000.0,792724100000.0,797372700000.0,839199400000.0,739092100000.0
impostos,438259100000.0,429755600000.0,482023700000.0,511947300000.0,442904000000.0
resultado_do_banco_central_do_brasil,156285900000.0,19426770000.0,169256400000.0,47386640000.0,372310900000.0
amortizacoes_de_emprestimos,142615400000.0,74183410000.0,163836500000.0,151461100000.0,34626280000.0


In [543]:
sum(pivot_table.loc[["operacoes_de_credito_mercado_interno"],2016] - pivot_table.loc[["operacoes_de_credito_mercado_interno"],2017])/10**12


0.10976536312301001

The result is that the revenue loss coming from the results of the bank of brasil and the operations of internal market credit had not been forecasted.


## Fase 4: Visualización de Datos

1. **Gráficos de Barras y Líneas:**

   - Crear gráficos que muestren la comparación entre ingresos previstos, lanzados y realizados para cada categoría.


In [545]:
top5_filter = cleaned_data_df["especie_receita"].isin(contribution_especie.index[:5].to_list())
top5_categories_melted = pd.melt(cleaned_data_df[top5_filter], id_vars=["ano_exercicio","mes","especie_receita"] , value_vars=['valor_previsto_atualizado', 'valor_lancado','valor_realizado'])

plt.figure(figsize=(20,10))

plt.suptitle("Forecasted VS realised")
sns.barplot(data=top5_categories_melted,
            x="especie_receita",
            y="value",
        hue= "variable",
        estimator="sum",
        order=top5_especies)

plt.tight_layout()
plt.show()

KeyError: "The following id_vars or value_vars are not present in the DataFrame: ['mes']"

In [None]:
plt.figure(figsize=(20,20))

summarized_df = cleaned_data_df.groupby('especie_receita').agg({
                                'valor_previsto_atualizado': 'sum',
                                'valor_realizado': 'sum'
                            }).reset_index()


ordered_df = summarized_df.sort_values(by='valor_previsto_atualizado')
my_range = range(1, len(ordered_df.index) + 1)

plt.hlines(y=my_range, xmin=ordered_df['valor_previsto_atualizado'], xmax=ordered_df['valor_realizado'], color='grey', alpha=0.4, zorder=1)
plt.scatter(ordered_df['valor_previsto_atualizado'], my_range, color='skyblue', alpha=1, label='Valor Previsto Atualizado')
plt.scatter(ordered_df['valor_realizado'], my_range, color='lightgreen', alpha=1, label='Valor Realizado')


plt.legend()
plt.yticks(my_range, ordered_df['especie_receita'])
plt.title("Comparison of Valor Previsto Atualizado and Valor Realizado", loc='left')
plt.xlabel('Value')
plt.ylabel('Especie Receitas')
plt.show()



   - Graficar la evolución temporal de los ingresos realizados y previstos.


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(20,10))

plt.suptitle("Forecasted VS realised")
sns.lineplot(data=cleaned_data_df,
            x="ano_exercicio",
            y="valor_previsto_atualizado",
        marker = "o", 
        linewidth = 2, 
        label="forecasted",
        color="blue", 
        linestyle = "dashed",
        estimator="sum",
        errorbar=None)
sns.lineplot(data=cleaned_data_df,
    x="ano_exercicio",
    y="valor_realizado",
    marker = "o", 
    linewidth = 2, 
    label="realised", 
    color="orange", 
    linestyle = "dashed",
    estimator="sum",
    errorbar=None)

plt.tight_layout()
plt.show()

In [None]:

plt.figure(figsize=(20,10))
plt.suptitle("Forecasted vs Realized - Stacked Area Chart")

data_pivot = cleaned_data_df[top5_filter].pivot_table(
    index="ano_exercicio", 
    columns="especie_receita", 
    values="valor_realizado", 
    aggfunc="sum"
).fillna(0)

plt.stackplot(data_pivot.index, data_pivot.T, labels=data_pivot.columns)

plt.xlabel("Year")
plt.ylabel("Realized Value")
plt.legend(loc="upper left")

plt.tight_layout()
plt.show()


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
fig, axes = plt.subplots(5,2,figsize=(20,20))

axes = axes.flat

plt.suptitle("Forecasted VS realised")
for ax, year in enumerate(cleaned_data_df["ano_exercicio"].unique()):
    axes[ax].set_title(year)
    sns.lineplot(data=cleaned_data_df[cleaned_data_df["ano_exercicio"]==year],
             x="month",
             y="valor_previsto_atualizado",
            marker = "o", 
            linewidth = 1, 
            label="forecasted",
            color="blue", 
            linestyle = "dashed", 
            errorbar = None,
            ax=axes[ax],
            estimator="sum")
    sns.lineplot(data=cleaned_data_df[cleaned_data_df["ano_exercicio"]==year],
        x="month",
        y="valor_realizado",
        marker = "o", 
        linewidth = 1, 
        label="realised", 
        color="orange", 
        linestyle = "dashed", 
        errorbar = None,
        ax=axes[ax],
        estimator="sum")
    axes[ax].tick_params(axis='x', labelrotation=45)

plt.tight_layout()
plt.show()


2. **Diagramas de Caja:**

   - Evaluar la dispersión de las diferencias entre los valores previstos y realizados en diferentes categorías.
  
Los problemas concretos que te han pedido resolver son:

1.	**Desviaciones entre lo previsto y lo recaudado**: Determinar en qué categorías económicas o tipos de ingresos las diferencias son más pronunciadas.

2.	**Evolución temporal de la recaudación**: Identificar cómo han cambiado las previsiones y recaudaciones año a año, y si existen patrones temporales, como meses específicos donde hay mayores discrepancias.

3.	**Rendimiento por órgano y unidad gestora**: Evaluar qué órganos o unidades gestoras son más eficientes en términos de alcanzar las metas de recaudación y cuáles presentan consistentemente una baja ejecución.

Análisis Temporal:

Evaluar las tendencias a lo largo del tiempo, por ejemplo, cómo cambian los ingresos realizados de un mes a otro o de un año a otro.

Annual total forecast vs realised

Forecast VS. realised, monthly data per year

### Comparison between forcasted, launched and realised

1. **Distribución de Ingresos por Categoría Económica:**

   - Analizar las categorías de ingresos más significativas y su participación en los ingresos totales.



   - Calcular la diferencia promedio entre ingresos previstos y realizados por cada categoría.

2. **Análisis Temporal:**

   - Evaluar las tendencias a lo largo del tiempo, por ejemplo, cómo cambian los ingresos realizados de un mes a otro o de un año a otro.

3. **Identificación de Discrepancias:**

   - Investigar las categorías con mayor diferencia entre lo previsto y lo realizado, identificando patrones en la subejecución o sobre ejecución.

## Fase 4: Visualización de Datos

1. **Gráficos de Barras y Líneas:**

   - Crear gráficos que muestren la comparación entre ingresos previstos, lanzados y realizados para cada categoría.

   - Graficar la evolución temporal de los ingresos realizados y previstos.

2. **Diagramas de Caja:**

   - Evaluar la dispersión de las diferencias entre los valores previstos y realizados en diferentes categorías.
  
Los problemas concretos que te han pedido resolver son:

1.	**Desviaciones entre lo previsto y lo recaudado**: Determinar en qué categorías económicas o tipos de ingresos las diferencias son más pronunciadas.

2.	**Evolución temporal de la recaudación**: Identificar cómo han cambiado las previsiones y recaudaciones año a año, y si existen patrones temporales, como meses específicos donde hay mayores discrepancias.

3.	**Rendimiento por órgano y unidad gestora**: Evaluar qué órganos o unidades gestoras son más eficientes en términos de alcanzar las metas de recaudación y cuáles presentan consistentemente una baja ejecución.

### Distributions

In [487]:
value_features = ["valor_previsto_atualizado","valor_lancado","valor_realizado","percentual_realizado","diff_valor_previsto_realizado"]
contribution_especie_top10 = contribution_especie[:10].index.to_list()

In [None]:
fig, axes = plt.subplots(5,2,figsize=(20,10), sharex=True)

axes = axes.flat

plt.suptitle("Histogram per type of valor - logarithmic scale")
for ax, especie in enumerate(contribution_especie_top10):
    # axes[ax].set_xscale("log")
    axes[ax].set_title(especie.capitalize())
    sns.boxplot(data = cleaned_data_df.query('especie_receita == @especie'), x="diff_valor_previsto_realizado", ax=axes[ax])

plt.tight_layout()
plt.show()

In [None]:
cleaned_data_df.nunique()

In [None]:
fig, axes = plt.subplots(5,2,figsize=(20,10), sharex=True)

axes = axes.flat

plt.suptitle("Histogram per type of valor - logarithmic scale")
for ax, especie in enumerate(cleaned_data_df.nome_orao):
    # axes[ax].set_xscale("log")
    axes[ax].set_title(especie.capitalize())
    sns.boxplot(data = cleaned_data_df.query('especie_receita == @especie'), x="diff_valor_previsto_realizado", ax=axes[ax])

plt.tight_layout()
plt.show()

In [None]:
pd.set_option("display.max_rows",65)
contribution_especie = cleaned_data_df.groupby(["nome_unidade_gestora"])[["valor_realizado"]].sum().assign(valor_realizado_pct=lambda x: np.round(x["valor_realizado"]/cleaned_data_df["valor_realizado"].sum()*100,2)).sort_values("valor_realizado",ascending=False)
contribution_especie[0:10]

In [None]:
pd.set_option("display.max_rows",65)
contribution_especie = cleaned_data_df.groupby(["nome_orgao"])[["valor_realizado"]].sum().assign(valor_realizado_pct=lambda x: np.round(x["valor_realizado"]/cleaned_data_df["valor_realizado"].sum()*100,2)).sort_values("valor_realizado",ascending=False)
contribution_especie[0:10]

In general, it seems that smaller, non financially related entities perform better than bigger ones.

In [None]:
yearly_total_category = cleaned_data_df.groupby(['ano_exercicio', 'nome_orgao'])[['diff_valor_previsto_realizado',"valor_realizado"]].sum().reset_index()
mean_yearly_revenue_category = yearly_total_category.groupby('nome_orgao')[['diff_valor_previsto_realizado',"valor_realizado"]].mean().reset_index()
mean_yearly_revenue_category.columns = ["nome_orgao","mean_yearly_revenue_diff","valor_realizado"]

(mean_yearly_revenue_category.assign(revenue_diff_pct= lambda x: np.round(x["mean_yearly_revenue_diff"]/x["mean_yearly_revenue_diff"].sum()*100,2))
                            .assign(revenue_diff_valor_realizado_pct=lambda x: np.round(x["mean_yearly_revenue_diff"]/x["valor_realizado"]*100,2))
                            .sort_values(by="mean_yearly_revenue_diff"))

In [None]:
yearly_total_category = cleaned_data_df.groupby(['ano_exercicio', 'nome_unidade_gestora'])[['diff_valor_previsto_realizado',"valor_realizado"]].sum().reset_index()
mean_yearly_revenue_category = yearly_total_category.groupby('nome_unidade_gestora')[['diff_valor_previsto_realizado',"valor_realizado"]].mean().reset_index()
mean_yearly_revenue_category.columns = ["nome_unidade_gestora","mean_yearly_revenue_diff","valor_realizado"]

(mean_yearly_revenue_category.assign(revenue_diff_pct= lambda x: np.round(x["mean_yearly_revenue_diff"]/x["mean_yearly_revenue_diff"].sum()*100,2))
                            .assign(revenue_diff_valor_realizado_pct=lambda x: np.round(x["mean_yearly_revenue_diff"]/x["valor_realizado"]*100,2))
                            .sort_values(by="mean_yearly_revenue_diff"))