In [7]:
import pandas as pd
import numpy as np
import sys 

sys.path.append("..")

from src.support_cleaning import normalize

In [8]:
data_2013 = pd.read_csv("../data/datos-2013.csv", sep=";").assign(fichero="data_2013")
data_2013.columns = [normalize(column) for column in data_2013.columns]
print("\n\nHead:")
display(data_2013.head(5))
print("\n\nData types:")
data_2013.info()



Head:


Unnamed: 0,codigo_orgao_superior,nome_orgao_superior,codigo_orgao,nome_orgao,codigo_unidade_gestora,nome_unidade_gestora,categoria_economica,origem_receita,especie_receita,detalhamento,valor_previsto_atualizado,valor_lancado,valor_realizado,percentual_realizado,data_lancamento,ano_exercicio,fichero
0,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,,data_2013
1,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0,0,2666662142,0,31/12/2013,2013.0,data_2013
2,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",OUTRAS MULTAS E JUROS DE MORA,0,0,30125113,0,31/12/2013,2013.0,data_2013
3,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,0,0,185558,0,31/12/2013,2013.0,data_2013
4,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",OUTRAS RESTITUICOES,0,0,5214068,0,31/12/2013,2013.0,data_2013




Data types:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4498 entries, 0 to 4497
Data columns (total 17 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   codigo_orgao_superior      4282 non-null   float64
 1   nome_orgao_superior        2924 non-null   object 
 2   codigo_orgao               4362 non-null   float64
 3   nome_orgao                 4286 non-null   object 
 4   codigo_unidade_gestora     4324 non-null   float64
 5   nome_unidade_gestora       4278 non-null   object 
 6   categoria_economica        4303 non-null   object 
 7   origem_receita             4413 non-null   object 
 8   especie_receita            4355 non-null   object 
 9   detalhamento               4377 non-null   object 
 10  valor_previsto_atualizado  4273 non-null   object 
 11  valor_lancado              4282 non-null   object 
 12  valor_realizado            4309 non-null   object 
 13  percentual_realizado       4360 no

##### Data types
Data types appear to be correct for most columns except for the following ones that are object datatypes and should instead be:
- codigo_orgao_superior: object/category
- codigo_orgao: object: object
- codigo_unidade_gestora: object
- valor_previsto_atualizado: float  
- valor_lancado: float           
- valor_realizado: float         
- percentual_realizado: float
- data_lancamento: datetime[ns]

The codes although numerical, are actually a unique representation of organizations and bear no magnitude. Thus it is more interesting to change them to object to explore their summary statistics more comfortably. 

The revenue values and the date are self explanatory.

This will have to be corrected with in the cleaning notebook with a dictionary of the sort below.

In [21]:
data_types_dict = {
    "codigo_orgao_superior": object,
    "codigo_orgao": object,  
    "codigo_unidade_gestora": object,      
    "valor_previsto_atualizado": float,
    "valor_lancado": float,  
    "valor_realizado": float,      
    "percentual_realizado": float,
    "data_lancamento": "datetime64[ns]"
}

#### 2.1.1 Replacing floating commas by floating point

However, floating points in this file come formatted as commas. Thus, they will also need to be replaced.  This problem will probably cascade over all files from the business case. For this reason, it makes sense to concatenate all files and explore their individual distributions in the process.

In [16]:
data_dict = {
    "data_2013": pd.read_csv("../data/datos-2013.csv", sep=";"),
    "data_2014": pd.read_csv("../data/datos-2014.csv", sep=";"),
    "data_2015": pd.read_csv("../data/datos-2015.csv", sep=";"),
    "data_2016": pd.read_csv("../data/datos-2016.csv", sep=";"),
    "data_2017": pd.read_csv("../data/datos-2017.csv", sep=";"),
    "data_2018": pd.read_csv("../data/datos-2018.csv", sep=";"),
    "data_2019": pd.read_csv("../data/datos-2019.csv", sep=";"),
    "data_2020": pd.read_csv("../data/datos-2020.csv", sep=";"),
    "data_2021": pd.read_csv("../data/datos-2021.csv", sep=";")
}

data_df = pd.DataFrame(columns=[normalize(column) for column in data_2013.columns])
for df_name, df in data_dict.items():
    df.columns = [normalize(column) for column in df.columns]
    print("\n\n\n\n------------------")
    print(f"\n{df_name}")
    print("\n\nDescriptive summary")
    print("\nNumerical data:")
    display(df.describe().T.assign(missing_values=lambda x: df.shape[0]-x["count"]))
    print("\nObject types:")
    display(df.describe(include=['O']).T.assign(missing_values=lambda x: df.shape[0]-x["count"]))

    print("\n\nDuplicated values:")
    display(df.duplicated().sum())

    data_df = pd.concat([data_df,df.assign(fichero=df_name)])






------------------

data_2013


Descriptive summary

Numerical data:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,4282.0,31739.60766,10692.607398,20000.0,25000.0,26000.0,36000.0,81000.0,216.0
codigo_orgao,4362.0,31484.209995,10810.318732,20101.0,26000.0,26292.0,35000.0,91214.0,136.0
codigo_unidade_gestora,4324.0,232766.252775,141238.719759,110005.0,153978.0,160075.0,253003.0,913001.0,174.0
ano_exercicio,3374.0,2013.0,0.0,2013.0,2013.0,2013.0,2013.0,2013.0,1124.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,2924,25,Ministério da Educação,1173,1574
nome_orgao,4286,264,Ministério da Economia - Unidades com vínculo ...,476,212
nome_unidade_gestora,4278,279,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,392,220
categoria_economica,4303,4,Receitas Correntes,3829,195
origem_receita,4413,15,Outras Receitas Correntes,1945,85
especie_receita,4355,44,Receita de Serviços,955,143
detalhamento,4377,694,RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,210,121
valor_previsto_atualizado,4273,2646,000,1546,225
valor_lancado,4282,51,000,4232,216
valor_realizado,4309,3583,000,678,189




Duplicated values:


np.int64(0)





------------------

data_2014


Descriptive summary

Numerical data:


  data_df = pd.concat([data_df,df.assign(fichero=df_name)])


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,4331.0,31847.841145,10813.244886,20000.0,25000.0,26000.0,36000.0,81000.0,222.0
codigo_orgao,4493.0,31818.443356,11143.198081,20101.0,26000.0,26298.0,36201.0,91214.0,60.0
codigo_unidade_gestora,4332.0,236574.978532,145862.242362,110005.0,153167.0,160075.0,255000.0,913001.0,221.0
ano_exercicio,3415.0,2014.0,0.0,2014.0,2014.0,2014.0,2014.0,2014.0,1138.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,2959,25,Ministério da Educação,1171,1594
nome_orgao,4439,267,Ministério da Economia - Unidades com vínculo ...,465,114
nome_unidade_gestora,4392,278,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,365,161
categoria_economica,4502,5,Receitas Correntes,4051,51
origem_receita,4487,14,Outras Receitas Correntes,2025,66
especie_receita,4455,46,"Multas administrativas, contratuais e judicia",951,98
detalhamento,4506,706,RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,214,47
valor_previsto_atualizado,4325,2592,000,1637,228
valor_lancado,4375,70,000,4306,178
valor_realizado,4328,3560,000,706,225




Duplicated values:


np.int64(0)





------------------

data_2015


Descriptive summary

Numerical data:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,4324.0,31970.860315,10941.671616,20000.0,25000.0,26000.0,36000.0,81000.0,199.0
codigo_orgao,4351.0,32019.609975,11465.439048,20101.0,26000.0,26298.0,36211.0,91214.0,172.0
codigo_unidade_gestora,4326.0,237160.81877,145720.161158,110005.0,153173.0,167086.0,264001.0,913001.0,197.0
ano_exercicio,3392.0,2015.0,0.0,2015.0,2015.0,2015.0,2015.0,2015.0,1131.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,2940,25,Ministério da Educação,1216,1583
nome_orgao,4361,271,Ministério da Economia - Unidades com vínculo ...,466,162
nome_unidade_gestora,4449,288,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,374,74
categoria_economica,4463,4,Receitas Correntes,4037,60
origem_receita,4346,14,Outras Receitas Correntes,1999,177
especie_receita,4320,41,"Multas administrativas, contratuais e judicia",927,203
detalhamento,4393,694,RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,218,130
valor_previsto_atualizado,4297,2522,000,1694,226
valor_lancado,4381,82,000,4300,142
valor_realizado,4351,3619,000,671,172




Duplicated values:


np.int64(0)





------------------

data_2016


Descriptive summary

Numerical data:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,190214.0,32735.986836,11072.787723,20000.0,26000.0,26000.0,39000.0,81000.0,4319.0
codigo_orgao,190506.0,32087.913158,10958.211896,20101.0,26232.0,26406.0,36212.0,91214.0,4027.0
codigo_unidade_gestora,185211.0,231662.563579,143282.285279,110005.0,153165.0,167086.0,253003.0,913001.0,9322.0
ano_exercicio,145900.0,2016.0,0.0,2016.0,2016.0,2016.0,2016.0,2016.0,48633.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,126446,25,Ministério da Educação,46771,68087
nome_orgao,191144,269,Ministério da Economia - Unidades com vínculo ...,13510,3389
nome_unidade_gestora,191552,292,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,10952,2981
categoria_economica,192399,4,Receitas Correntes,184635,2134
origem_receita,186042,14,Outras Receitas Correntes,67579,8491
especie_receita,190129,44,Serviços Administrativos e Comerciais Gerais,53659,4404
detalhamento,186707,525,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,28989,7826
valor_previsto_atualizado,184806,1758,000,182993,9727
valor_lancado,188960,975,000,187909,5573
valor_realizado,188766,125625,000,2888,5767




Duplicated values:


np.int64(3)





------------------

data_2017


Descriptive summary

Numerical data:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,185999.0,32547.115845,10955.975665,20000.0,26000.0,26000.0,39000.0,81000.0,4480.0
codigo_orgao,188418.0,31814.245996,10681.942444,20101.0,26231.0,26405.0,36201.0,91214.0,2061.0
codigo_unidade_gestora,186949.0,231583.87488,142775.277196,110005.0,153166.0,167086.0,253003.0,913001.0,3530.0
ano_exercicio,142859.0,2017.0,0.0,2017.0,2017.0,2017.0,2017.0,2017.0,47620.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,123811,24,Ministério da Educação,46100,66668
nome_orgao,185457,268,Ministério da Economia - Unidades com vínculo ...,13789,5022
nome_unidade_gestora,188076,318,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,11063,2403
categoria_economica,187950,5,Receitas Correntes,180236,2529
origem_receita,181808,15,Outras Receitas Correntes,65611,8671
especie_receita,181798,47,Serviços Administrativos e Comerciais Gerais,49265,8681
detalhamento,186726,514,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,29255,3753
valor_previsto_atualizado,180955,1737,000,179160,9524
valor_lancado,182124,996,000,181126,8355
valor_realizado,182807,123949,000,2692,7672




Duplicated values:


np.int64(23)





------------------

data_2018


Descriptive summary

Numerical data:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,165690.0,31425.408896,10166.459924,20000.0,25000.0,26000.0,36000.0,81000.0,8254.0
codigo_orgao,168716.0,30759.630468,9821.452882,20101.0,25000.0,26285.0,32396.0,91214.0,5228.0
codigo_unidade_gestora,166913.0,224882.574233,138519.077341,110005.0,154034.0,167086.0,240901.0,913001.0,7031.0
ano_exercicio,130458.0,2018.0,0.0,2018.0,2018.0,2018.0,2018.0,2018.0,43486.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,113064,20,Ministério da Educação,42722,60880
nome_orgao,166611,260,Ministério da Economia - Unidades com vínculo ...,21908,7333
nome_unidade_gestora,171411,312,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,20882,2533
categoria_economica,170516,5,Receitas Correntes,162326,3428
origem_receita,168037,15,Receita de Serviços,56686,5907
especie_receita,166386,47,Serviços Administrativos e Comerciais Gerais,49206,7558
detalhamento,167435,608,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,28215,6509
valor_previsto_atualizado,165247,1741,000,163453,8697
valor_lancado,170168,817,000,169349,3776
valor_realizado,165640,116523,000,2597,8304




Duplicated values:


np.int64(7)





------------------

data_2019


Descriptive summary

Numerical data:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,170865.0,31409.703567,10161.744743,20000.0,25000.0,26000.0,36000.0,81000.0,5963.0
codigo_orgao,173643.0,30825.272945,9834.693796,20101.0,25000.0,26290.0,32396.0,91214.0,3185.0
codigo_unidade_gestora,171547.0,225092.502475,139752.985581,110005.0,154039.0,167086.0,240102.0,913001.0,5281.0
ano_exercicio,132621.0,2019.0,0.0,2019.0,2019.0,2019.0,2019.0,2019.0,44207.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,114938,19,Ministério da Educação,43554,61890
nome_orgao,169862,248,Ministério da Economia - Unidades com vínculo ...,22593,6966
nome_unidade_gestora,174840,269,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,22102,1988
categoria_economica,174890,5,Receitas Correntes,167342,1938
origem_receita,168623,15,Receita de Serviços,57171,8205
especie_receita,172708,46,Serviços Administrativos e Comerciais Gerais,51505,4120
detalhamento,172006,635,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,28394,4822
valor_previsto_atualizado,167987,1718,000,166221,8841
valor_lancado,172190,1081,000,171040,4638
valor_realizado,169191,119064,000,2983,7637




Duplicated values:


np.int64(2)





------------------

data_2020


Descriptive summary

Numerical data:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,137044.0,32086.125624,10598.32121,20000.0,25000.0,26000.0,39000.0,81000.0,5304.0
codigo_orgao,135491.0,31579.852618,10454.175702,20101.0,25000.0,26290.0,36201.0,90000.0,6857.0
codigo_unidade_gestora,138764.0,238443.493471,151544.696762,110005.0,154044.0,170013.0,253003.0,873001.0,3584.0
ano_exercicio,106761.0,2020.0,0.0,2020.0,2020.0,2020.0,2020.0,2020.0,35587.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,92526,19,Ministério da Educação,26577,49822
nome_orgao,135255,253,Ministério da Economia - Unidades com vínculo ...,21549,7093
nome_unidade_gestora,139702,268,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,20696,2646
categoria_economica,136452,5,Receitas Correntes,129594,5896
origem_receita,138019,15,Outras Receitas Correntes,40864,4329
especie_receita,137467,45,Serviços Administrativos e Comerciais Gerais,32138,4881
detalhamento,138373,624,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,20397,3975
valor_previsto_atualizado,135231,1864,000,133328,7117
valor_lancado,140252,1547,000,138601,2096
valor_realizado,138063,104012,000,3722,4285




Duplicated values:


np.int64(1)





------------------

data_2021


Descriptive summary

Numerical data:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing_values
codigo_orgao_superior,133191.0,31980.689386,10477.36015,20000.0,25000.0,26000.0,39000.0,81000.0,1402.0
codigo_orgao,131202.0,31457.17534,10274.244983,20101.0,25000.0,26285.0,36000.0,90000.0,3391.0
codigo_unidade_gestora,130352.0,238690.054506,151288.080629,110005.0,154044.0,170013.0,253002.0,873001.0,4241.0
ano_exercicio,100945.0,2021.0,0.0,2021.0,2021.0,2021.0,2021.0,2021.0,33648.0



Object types:


Unnamed: 0,count,unique,top,freq,missing_values
nome_orgao_superior,87485,20,Ministério da Educação,25997,47108
nome_orgao,129997,256,Ministério da Economia - Unidades com vínculo ...,20681,4596
nome_unidade_gestora,128118,267,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,19344,6475
categoria_economica,131846,5,Receitas Correntes,125477,2747
origem_receita,132106,15,Receita de Serviços,39200,2487
especie_receita,132754,42,Serviços Administrativos e Comerciais Gerais,33667,1839
detalhamento,132439,598,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,19208,2154
valor_previsto_atualizado,127863,1722,000,126102,6730
valor_lancado,133148,1174,000,131975,1445
valor_realizado,129379,95809,000,3284,5214




Duplicated values:


np.int64(13)

The main problem with this dataset is the presence of missing values, specially problematic for the feature 'nome_orgao_superior'. Nonetheless, it seems the value from this column can in many cases be inferred from the codigo_orgao_superior or the nome_orgao column. To check that:

In [23]:
data_df.loc[:,["nome_orgao_superior","codigo_orgao_superior"]].head()

Unnamed: 0,nome_orgao_superior,codigo_orgao_superior
0,,63000.0
1,Advocacia-Geral da União,63000.0
2,Advocacia-Geral da União,63000.0
3,,63000.0
4,Advocacia-Geral da União,63000.0


In [17]:
nome_orgao_superior_notnull = ~data_df["nome_orgao_superior"].isna()
nome_orgao_notnull = ~data_df["nome_orgao"].isna()
data_df.loc[nome_orgao_superior_notnull & nome_orgao_notnull,["nome_orgao_superior","nome_orgao"]].head()

Unnamed: 0,nome_orgao_superior,nome_orgao
1,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...
2,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...
4,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...
5,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...
6,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...


There are many different organizations and management units, but not so many unique types of economical categories. Details, albeit highly cardinal, seem to be part of fixed categories, at least for every given year.

One other thing to note is that the most frequent values for valor columns are 0, which might mean these are missing values not encoded as such.

In [18]:
valor_previsto_atualizado_zero = data_df["valor_previsto_atualizado"] == "0,00"
valor_lancado = data_df["valor_lancado"] == "0,00"
valor_realizado = data_df["valor_realizado"] == "0,00"
percentual_realizado = data_df["percentual_realizado"] == "0,00"
data_df.loc[valor_previsto_atualizado_zero | valor_lancado | percentual_realizado | valor_realizado,:]

Unnamed: 0,codigo_orgao_superior,nome_orgao_superior,codigo_orgao,nome_orgao,codigo_unidade_gestora,nome_unidade_gestora,categoria_economica,origem_receita,especie_receita,detalhamento,valor_previsto_atualizado,valor_lancado,valor_realizado,percentual_realizado,data_lancamento,ano_exercicio,fichero
0,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,000,000,129713,000,31/12/2013,,data_2013
1,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,000,000,2666662142,000,31/12/2013,2013.0,data_2013
2,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",OUTRAS MULTAS E JUROS DE MORA,000,000,30125113,000,31/12/2013,2013.0,data_2013
3,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,000,000,185558,000,31/12/2013,2013.0,data_2013
4,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",OUTRAS RESTITUICOES,000,000,5214068,000,31/12/2013,2013.0,data_2013
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
134588,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,1694089100,000,000,000,23/04/2021,2021.0,data_2021
134589,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",000,000,,000,22/11/2021,2021.0,data_2021
134590,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",20000000,000,000,000,23/04/2021,2021.0,data_2021
134591,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",000,000,100000000,,10/05/2021,2021.0,data_2021


It seems that NaN values are not encoded as 0 in the end. However, one thing to note is that in many cases the realised value comes from an expected value of 0 and viceversa. That means that there are of course unexpected revenues, but could also mean that there are many unrealised revenues or that sometimes the same account for a revenue divides its registration into two rows. That is something to explore once the data cleaning has been performed.

Speaking of duplicates, not many rows in the dataset are doubled and this will be solved in the cleaning phase.


Appart from those things, a last interesting fact is the increment in available data from the year 2016, maybe pointing to an effort to track public revenue more rigourously.

Printing the concatenated dataframe:

In [19]:
print("Final concatenated dataframe:")
data_df

Final concatenated dataframe:


Unnamed: 0,codigo_orgao_superior,nome_orgao_superior,codigo_orgao,nome_orgao,codigo_unidade_gestora,nome_unidade_gestora,categoria_economica,origem_receita,especie_receita,detalhamento,valor_previsto_atualizado,valor_lancado,valor_realizado,percentual_realizado,data_lancamento,ano_exercicio,fichero
0,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,000,000,129713,000,31/12/2013,,data_2013
1,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,000,000,2666662142,000,31/12/2013,2013.0,data_2013
2,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",OUTRAS MULTAS E JUROS DE MORA,000,000,30125113,000,31/12/2013,2013.0,data_2013
3,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,000,000,185558,000,31/12/2013,2013.0,data_2013
4,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",OUTRAS RESTITUICOES,000,000,5214068,000,31/12/2013,2013.0,data_2013
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
134588,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,1694089100,000,000,000,23/04/2021,2021.0,data_2021
134589,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",000,000,,000,22/11/2021,2021.0,data_2021
134590,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",20000000,000,000,000,23/04/2021,2021.0,data_2021
134591,20000.0,Presidência da República,24208.0,Instituto Nacional de Tecnologia da Informação,243001.0,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",000,000,100000000,,10/05/2021,2021.0,data_2021


Finally, saving the concatenated dataframe to parquet for optimised storage to work with it during the cleaning phase.

In [20]:
data_df.to_parquet("../data/concatenated_data.parquet")