### **Proyecto 2. Análisis de la Ejecución de Ingresos Públicos en Brasil**

- Librerías y configuración

In [1]:
# Para tratamiento de datos
import numpy as np
import pandas as pd
# Para visualizaciones
import seaborn as sns 
import matplotlib.pyplot as plt
# Para generar todas las combinaciones posibles
import itertools
# Para guardar DataFrames en Excel
from pandas import ExcelWriter
# Para gestión de fechas
from datetime import datetime
# Ignorar warnings
import warnings
warnings.filterwarnings("ignore")
# Configuración para poder visualizar todas las columnas de los DataFrames
pd.set_option('display.max_columns', None) 
# importamos funciones de soporte
from src import soporte_limpieza as sl

### Fase 1: Unión de Conjuntos de Datos

- Carga de archivos

In [100]:
# cargamos los archivos
# tenemos que añadir el sep = ";" porque los archivos están separados por ; y no por ,
# añadimos el encoding = "latin-1" porque como es un archivo en portugués, pandas no lo lee bien
df_2013 = pd.read_csv("datos/datos-2013.csv", sep = ";", encoding = "latin-1")
df_2014 = pd.read_csv("datos/datos-2014.csv", sep = ";", encoding = "latin-1")
df_2015 = pd.read_csv("datos/datos-2015.csv", sep = ";", encoding = "latin-1")
df_2016 = pd.read_csv("datos/datos-2016.csv", sep = ";", encoding = "latin-1")
df_2017 = pd.read_csv("datos/datos-2017.csv", sep = ";", encoding = "latin-1")
df_2018 = pd.read_csv("datos/datos-2018.csv", sep = ";", encoding = "latin-1")
df_2019 = pd.read_csv("datos/datos-2019.csv", sep = ";", encoding = "latin-1")
df_2020 = pd.read_csv("datos/datos-2020.csv", sep = ";", encoding = "latin-1")
df_2021 = pd.read_csv("datos/datos-2021.csv", sep = ";", encoding = "latin-1")

- Exploramos cada archivo individualmente

In [101]:
df_2013.shape

(4498, 16)

In [102]:
reporte_2013 = sl.reporte(df_2013)
reporte_2013

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


No hay valores nulos y la mayoría de las columnas son de tipo object. Esto no acaba de encajar con el tipo de datos que deberían contener las columnas, es posible que las columnas de VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO' y 'PERCENTUAL REALIZADO' deban ser de tipo numérico y 'DATA LANÇAMENTO' de tipo fecha
Pasamos a hacer un describe de las columnas tipo object para tener un recuento de valores únicos

In [103]:
df_2013.describe(include ="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,4498,25,Ministério da Educação,1833
NOME ÓRGÃO,4498,266,Ministério da Economia - Unidades com vínculo ...,494
NOME UNIDADE GESTORA,4498,279,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,415
CATEGORIA ECONÔMICA,4498,5,Receitas Correntes,4001
ORIGEM RECEITA,4498,15,Outras Receitas Correntes,1982
ESPÉCIE RECEITA,4498,44,Receita de Serviços,978
DETALHAMENTO,4498,704,RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,214
VALOR PREVISTO ATUALIZADO,4498,2788,000,1625
VALOR LANÇADO,4498,52,000,4447
VALOR REALIZADO,4498,3738,000,704


In [104]:
df_2013.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
CÓDIGO ÓRGÃO SUPERIOR,4498.0,31729.657626,10691.972258,20000.0,25000.0,26000.0,36000.0,81000.0
CÓDIGO ÓRGÃO,4498.0,31447.970431,10798.289531,20101.0,25916.0,26292.0,35000.0,91214.0
CÓDIGO UNIDADE GESTORA,4498.0,233059.79791,141561.057724,110005.0,153173.0,160075.0,254420.0,913001.0
ANO EXERCÍCIO,4498.0,2013.0,0.0,2013.0,2013.0,2013.0,2013.0,2013.0


El describe() de las columnas numéricas en este caso no aporta nada, ya que los códigos son identificadores de cada organización y el año es el mismo en todos los registros.

In [105]:
df_2014.shape

(4553, 16)

In [106]:
reporte_2014 = sl.reporte(df_2014)
reporte_2014

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [107]:
df_2014.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,4553,25,Ministério da Educação,1841
NOME ÓRGÃO,4553,267,Ministério da Economia - Unidades com vínculo ...,482
NOME UNIDADE GESTORA,4553,278,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,382
CATEGORIA ECONÔMICA,4553,5,Receitas Correntes,4095
ORIGEM RECEITA,4553,15,Outras Receitas Correntes,2050
ESPÉCIE RECEITA,4553,46,Receita de Serviços,973
DETALHAMENTO,4553,708,RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,216
VALOR PREVISTO ATUALIZADO,4553,2740,000,1706
VALOR LANÇADO,4553,72,000,4482
VALOR REALIZADO,4553,3726,000,757


In [108]:
df_2015.shape

(4523, 16)

In [109]:
reporte_2015 = sl.reporte(df_2015)
reporte_2015


Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [110]:
df_2015.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,4523,25,Ministério da Educação,1803
NOME ÓRGÃO,4523,271,Ministério da Economia - Unidades com vínculo ...,481
NOME UNIDADE GESTORA,4523,288,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,385
CATEGORIA ECONÔMICA,4523,4,Receitas Correntes,4088
ORIGEM RECEITA,4523,14,Outras Receitas Correntes,2076
ESPÉCIE RECEITA,4523,41,"Multas administrativas, contratuais e judicia",962
DETALHAMENTO,4523,707,RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,225
VALOR PREVISTO ATUALIZADO,4523,2648,000,1785
VALOR LANÇADO,4523,83,000,4441
VALOR REALIZADO,4523,3744,000,711


In [111]:
df_2016.shape

(194533, 16)

In [112]:
reporte_2016 =sl.reporte(df_2016)
reporte_2016

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [113]:
df_2016.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,194533,25,Ministério da Educação,71840
NOME ÓRGÃO,194533,269,Ministério da Economia - Unidades com vínculo ...,13749
NOME UNIDADE GESTORA,194533,293,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,11126
CATEGORIA ECONÔMICA,194533,4,Receitas Correntes,186687
ORIGEM RECEITA,194533,14,Outras Receitas Correntes,70647
ESPÉCIE RECEITA,194533,44,Serviços Administrativos e Comerciais Gerais,54941
DETALHAMENTO,194533,525,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,30237
VALOR PREVISTO ATUALIZADO,194533,1835,000,192639
VALOR LANÇADO,194533,1003,000,193450
VALOR REALIZADO,194533,129122,000,2972


In [114]:
df_2017.shape

(190479, 16)

In [115]:
reporte_2017 =sl.reporte(df_2017)
reporte_2017

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [116]:
df_2017.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,190479,24,Ministério da Educação,70837
NOME ÓRGÃO,190479,268,Ministério da Economia - Unidades com vínculo ...,14158
NOME UNIDADE GESTORA,190479,318,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,11227
CATEGORIA ECONÔMICA,190479,5,Receitas Correntes,182668
ORIGEM RECEITA,190479,15,Outras Receitas Correntes,68818
ESPÉCIE RECEITA,190479,47,Serviços Administrativos e Comerciais Gerais,51633
DETALHAMENTO,190479,516,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,29841
VALOR PREVISTO ATUALIZADO,190479,1827,000,188589
VALOR LANÇADO,190479,1043,000,189434
VALOR REALIZADO,190479,128532,000,2800


In [117]:
df_2018.shape

(173944, 16)

In [118]:
reporte_2018 =sl.reporte(df_2018)
reporte_2018

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [119]:
df_2018.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,173944,22,Ministério da Educação,65876
NOME ÓRGÃO,173944,260,Ministério da Economia - Unidades com vínculo ...,22844
NOME UNIDADE GESTORA,173944,312,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,21206
CATEGORIA ECONÔMICA,173944,5,Receitas Correntes,165585
ORIGEM RECEITA,173944,15,Receita de Serviços,58581
ESPÉCIE RECEITA,173944,47,Serviços Administrativos e Comerciais Gerais,51444
DETALHAMENTO,173944,608,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,29257
VALOR PREVISTO ATUALIZADO,173944,1846,000,172042
VALOR LANÇADO,173944,828,000,173114
VALOR REALIZADO,173944,121803,000,2715


In [120]:
df_2019.shape

(176828, 16)

In [121]:
reporte_2019 =sl.reporte(df_2019)
reporte_2019

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [122]:
df_2019.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,176828,20,Ministério da Educação,67104
NOME ÓRGÃO,176828,249,Ministério da Economia - Unidades com vínculo ...,23514
NOME UNIDADE GESTORA,176828,269,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,22389
CATEGORIA ECONÔMICA,176828,5,Receitas Correntes,169210
ORIGEM RECEITA,176828,15,Receita de Serviços,59957
ESPÉCIE RECEITA,176828,46,Serviços Administrativos e Comerciais Gerais,52747
DETALHAMENTO,176828,636,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,29143
VALOR PREVISTO ATUALIZADO,176828,1801,000,174975
VALOR LANÇADO,176828,1105,000,175649
VALOR REALIZADO,176828,124002,000,3107


In [123]:
df_2020.shape

(142348, 16)

In [124]:
reporte_2020 = sl.reporte(df_2020)
reporte_2020

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [125]:
df_2020.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,142348,20,Ministério da Educação,40888
NOME ÓRGÃO,142348,254,Ministério da Economia - Unidades com vínculo ...,22686
NOME UNIDADE GESTORA,142348,270,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,21074
CATEGORIA ECONÔMICA,142348,5,Receitas Correntes,135172
ORIGEM RECEITA,142348,15,Outras Receitas Correntes,42127
ESPÉCIE RECEITA,142348,45,Serviços Administrativos e Comerciais Gerais,33271
DETALHAMENTO,142348,625,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,21029
VALOR PREVISTO ATUALIZADO,142348,1951,000,140352
VALOR LANÇADO,142348,1579,000,140661
VALOR REALIZADO,142348,106992,000,3837


In [126]:
df_2021.shape

(134593, 16)

In [127]:
reporte_2021 = sl.reporte(df_2021)
reporte_2021

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [128]:
df_2021.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,134593,20,Ministério da Educação,39869
NOME ÓRGÃO,134593,256,Ministério da Economia - Unidades com vínculo ...,21403
NOME UNIDADE GESTORA,134593,268,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,20277
CATEGORIA ECONÔMICA,134593,5,Receitas Correntes,128090
ORIGEM RECEITA,134593,15,Receita de Serviços,39917
ESPÉCIE RECEITA,134593,42,Serviços Administrativos e Comerciais Gerais,34121
DETALHAMENTO,134593,600,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,19532
VALOR PREVISTO ATUALIZADO,134593,1803,000,132746
VALOR LANÇADO,134593,1191,000,133403
VALOR REALIZADO,134593,99376,000,3404


Los 3 primeros años (2013, 2014 y 2015) no tienen valores nulos, sin embargo, del 2016 en adelante encontramos valores nulos en la columna "DATA LANÇAMENTO", son pocos, entre el 0.04 y el 0.09 %.
Mientras que en los 3 primeros años esta fecha era la misma en todos los registros, a partir de 2016 hay diferentes valores de fecha por lo que se plantea el problema de cómo rellenar esos valores en el caso de que sea necesario. 

- Comprobamos que los tipos y nombres de las columnas son consistentes en todos los archivos
    

Para eso comparamos las columnas "index" y "tipo_dato" de los reportes que hemos generado. 

In [129]:
reporte_2013[["index", "tipo_dato"]].equals(reporte_2014[["index", "tipo_dato"]])

True

In [130]:
reporte_2014[["index", "tipo_dato"]].equals(reporte_2015[["index", "tipo_dato"]])

True

In [131]:
reporte_2015[["index", "tipo_dato"]].equals(reporte_2016[["index", "tipo_dato"]])

True

In [132]:
reporte_2016[["index", "tipo_dato"]].equals(reporte_2017[["index", "tipo_dato"]])

True

In [133]:
reporte_2017[["index", "tipo_dato"]].equals(reporte_2018[["index", "tipo_dato"]])

True

In [134]:
reporte_2018[["index", "tipo_dato"]].equals(reporte_2019[["index", "tipo_dato"]])

True

In [135]:
reporte_2019[["index", "tipo_dato"]].equals(reporte_2020[["index", "tipo_dato"]])

True

In [136]:
reporte_2020[["index", "tipo_dato"]].equals(reporte_2021[["index", "tipo_dato"]])

True

- Unión de los archivos

En todas las comparaciones hemos obtenido True, por lo que podemos unir todos los dataframe usando concat.

In [141]:
# Unimos todos los archivos usando concat y axis = 0 para que los una de forma vertical
datos_brasil = pd.concat([df_2013, df_2014, df_2015, df_2016, df_2017, df_2018, df_2019, df_2020, df_2021], axis =0)

In [143]:
# Cambios comas por puntos en las columnas 'VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO' y 'PERCENTUAL REALIZADO' para poder cambiar el tipo a float
sl.reemplazar(datos_brasil, ['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO','PERCENTUAL REALIZADO'], ",", ".")

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.00,0.00,1297.13,0.00,31/12/2013,2013
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0.00,0.00,26666621.42,0.00,31/12/2013,2013
2,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",OUTRAS MULTAS E JUROS DE MORA,0.00,0.00,301251.13,0.00,31/12/2013,2013
3,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,0.00,0.00,1855.58,0.00,31/12/2013,2013
4,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",OUTRAS RESTITUICOES,0.00,0.00,52140.68,0.00,31/12/2013,2013
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
134588,20000,Presidência da República,24208,Instituto Nacional de Tecnologia da Informação,243001,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,16940891.00,0.00,0.00,0.00,23/04/2021,2021
134589,20000,Presidência da República,24208,Instituto Nacional de Tecnologia da Informação,243001,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",0.00,0.00,372.90,0.00,22/11/2021,2021
134590,20000,Presidência da República,24208,Instituto Nacional de Tecnologia da Informação,243001,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",200000.00,0.00,0.00,0.00,23/04/2021,2021
134591,20000,Presidência da República,24208,Instituto Nacional de Tecnologia da Informação,243001,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",0.00,0.00,1000000.00,0.00,10/05/2021,2021


In [149]:
# Cambiamos el tipo de dato de las columnas 'VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO' y 'PERCENTUAL REALIZADO' a float usando .astype
datos_brasil[['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO','PERCENTUAL REALIZADO']] = datos_brasil[['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO','PERCENTUAL REALIZADO']].astype(float)
# Cambiamos el tipo de la columna DATA LANÇAMENTO a datetime
datos_brasil["DATA LANÇAMENTO"] = pd.to_datetime(datos_brasil["DATA LANÇAMENTO"])
# Por último, como los códigos de las entidades no se usan en ninguna operación, los pasamos a string para que no generen ruido en los análisis estadísticos
datos_brasil[["CÓDIGO ÓRGÃO SUPERIOR", "CÓDIGO ÓRGÃO", "CÓDIGO UNIDADE GESTORA"]] = datos_brasil[["CÓDIGO ÓRGÃO SUPERIOR", "CÓDIGO ÓRGÃO", "CÓDIGO UNIDADE GESTORA"]].astype(str)
reporte_brasil = sl.reporte(datos_brasil)
reporte_brasil

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,object
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,object
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,object
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


La cantidad de valores nulos (todos en la columna "DATA LANÇAMENTO") es mínima, un 0.06 %. Para decidir si los podemos eliminar, vamos a analizar los valores de ingresos.

In [150]:
# Guardamos en formato pickle para mantener los tipos de dato
datos_brasil.to_pickle("datos/datos_brasil.pkl")

In [151]:
datos_brasil.describe(include="O").T

Unnamed: 0,count,unique,top,freq
CÓDIGO ÓRGÃO SUPERIOR,1026299,25,26000,361891
NOME ÓRGÃO SUPERIOR,1026299,25,Ministério da Educação,361891
CÓDIGO ÓRGÃO,1026299,291,25000,119811
NOME ÓRGÃO,1026299,287,Ministério da Economia - Unidades com vínculo ...,119811
CÓDIGO UNIDADE GESTORA,1026299,364,170013,108481
NOME UNIDADE GESTORA,1026299,356,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,108481
CATEGORIA ECONÔMICA,1026299,5,Receitas Correntes,979596
ORIGEM RECEITA,1026299,15,Outras Receitas Correntes,322907
ESPÉCIE RECEITA,1026299,63,Serviços Administrativos e Comerciais Gerais,278157
DETALHAMENTO,1026299,1886,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,159039


Se puede ver que los valores únicos de la columna 'CÓDIGO ÓRGÃO' no coinciden con los valores únicos de 'NOME ÓRGÃO', y lo mismo ocurre con 'CÓDIGO UNIDADE GESTORA' y 'NOME UNIDADE GESTORA'. Como en ambos casos hay más códigos que nombres, esto puede deberse a que hay nombres que tienen más de un código asignado. Dado que no vamos a usar los códigos en operaciones, usaremos las columnas de nombres para evitar confusiones.