# **Proyecto 2. Análisis de la Ejecución de Ingresos Públicos en Brasil**

- Librerías y configuración

In [1]:
# Para tratamiento de datos
import numpy as np
import pandas as pd
# Para visualizaciones
import seaborn as sns 
import matplotlib.pyplot as plt
# Para generar todas las combinaciones posibles
import itertools
# Para guardar DataFrames en Excel
from pandas import ExcelWriter
# Para gestión de fechas
from datetime import datetime
# Ignorar warnings
import warnings
warnings.filterwarnings("ignore")
# Configuración para poder visualizar todas las columnas de los DataFrames
pd.set_option('display.max_columns', None) 
# importamos funciones de soporte
from src import soporte_limpieza as sl

## **Fase 1: Unión de Conjuntos de Datos**

- Carga de archivos

In [2]:
# cargamos los archivos
# tenemos que añadir el sep = ";" porque los archivos están separados por ; y no por ,
# añadimos el encoding = "latin-1" porque como es un archivo en portugués, pandas no lo lee bien
df_2013 = pd.read_csv("datos/datos-2013.csv", sep = ";", encoding = "latin-1")
df_2014 = pd.read_csv("datos/datos-2014.csv", sep = ";", encoding = "latin-1")
df_2015 = pd.read_csv("datos/datos-2015.csv", sep = ";", encoding = "latin-1")
df_2016 = pd.read_csv("datos/datos-2016.csv", sep = ";", encoding = "latin-1")
df_2017 = pd.read_csv("datos/datos-2017.csv", sep = ";", encoding = "latin-1")
df_2018 = pd.read_csv("datos/datos-2018.csv", sep = ";", encoding = "latin-1")
df_2019 = pd.read_csv("datos/datos-2019.csv", sep = ";", encoding = "latin-1")
df_2020 = pd.read_csv("datos/datos-2020.csv", sep = ";", encoding = "latin-1")
df_2021 = pd.read_csv("datos/datos-2021.csv", sep = ";", encoding = "latin-1")

- Exploramos cada archivo individualmente

In [3]:
df_2013.shape

(4498, 16)

In [4]:
reporte_2013 = sl.reporte(df_2013)
reporte_2013

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


No hay valores nulos y la mayoría de las columnas son de tipo object. Esto no acaba de encajar con el tipo de datos que deberían contener las columnas, es posible que las columnas de VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO' y 'PERCENTUAL REALIZADO' deban ser de tipo numérico y 'DATA LANÇAMENTO' de tipo fecha.  
Pasamos a hacer un describe de las columnas tipo object para tener un recuento de valores únicos

In [5]:
df_2013.describe(include ="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,4498,25,Ministério da Educação,1833
NOME ÓRGÃO,4498,266,Ministério da Economia - Unidades com vínculo ...,494
NOME UNIDADE GESTORA,4498,279,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,415
CATEGORIA ECONÔMICA,4498,5,Receitas Correntes,4001
ORIGEM RECEITA,4498,15,Outras Receitas Correntes,1982
ESPÉCIE RECEITA,4498,44,Receita de Serviços,978
DETALHAMENTO,4498,704,RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,214
VALOR PREVISTO ATUALIZADO,4498,2788,000,1625
VALOR LANÇADO,4498,52,000,4447
VALOR REALIZADO,4498,3738,000,704


In [6]:
df_2013.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
CÓDIGO ÓRGÃO SUPERIOR,4498.0,31729.657626,10691.972258,20000.0,25000.0,26000.0,36000.0,81000.0
CÓDIGO ÓRGÃO,4498.0,31447.970431,10798.289531,20101.0,25916.0,26292.0,35000.0,91214.0
CÓDIGO UNIDADE GESTORA,4498.0,233059.79791,141561.057724,110005.0,153173.0,160075.0,254420.0,913001.0
ANO EXERCÍCIO,4498.0,2013.0,0.0,2013.0,2013.0,2013.0,2013.0,2013.0


El describe() de las columnas numéricas en este caso no aporta nada, ya que los códigos son identificadores de cada organización y el año es el mismo en todos los registros.

In [7]:
df_2014.shape

(4553, 16)

In [8]:
reporte_2014 = sl.reporte(df_2014)
reporte_2014

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [9]:
df_2014.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,4553,25,Ministério da Educação,1841
NOME ÓRGÃO,4553,267,Ministério da Economia - Unidades com vínculo ...,482
NOME UNIDADE GESTORA,4553,278,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,382
CATEGORIA ECONÔMICA,4553,5,Receitas Correntes,4095
ORIGEM RECEITA,4553,15,Outras Receitas Correntes,2050
ESPÉCIE RECEITA,4553,46,Receita de Serviços,973
DETALHAMENTO,4553,708,RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,216
VALOR PREVISTO ATUALIZADO,4553,2740,000,1706
VALOR LANÇADO,4553,72,000,4482
VALOR REALIZADO,4553,3726,000,757


In [10]:
df_2015.shape

(4523, 16)

In [11]:
reporte_2015 = sl.reporte(df_2015)
reporte_2015

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [12]:
df_2015.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,4523,25,Ministério da Educação,1803
NOME ÓRGÃO,4523,271,Ministério da Economia - Unidades com vínculo ...,481
NOME UNIDADE GESTORA,4523,288,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,385
CATEGORIA ECONÔMICA,4523,4,Receitas Correntes,4088
ORIGEM RECEITA,4523,14,Outras Receitas Correntes,2076
ESPÉCIE RECEITA,4523,41,"Multas administrativas, contratuais e judicia",962
DETALHAMENTO,4523,707,RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,225
VALOR PREVISTO ATUALIZADO,4523,2648,000,1785
VALOR LANÇADO,4523,83,000,4441
VALOR REALIZADO,4523,3744,000,711


In [13]:
df_2016.shape

(194533, 16)

In [14]:
reporte_2016 =sl.reporte(df_2016)
reporte_2016

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [15]:
df_2016.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,194533,25,Ministério da Educação,71840
NOME ÓRGÃO,194533,269,Ministério da Economia - Unidades com vínculo ...,13749
NOME UNIDADE GESTORA,194533,293,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,11126
CATEGORIA ECONÔMICA,194533,4,Receitas Correntes,186687
ORIGEM RECEITA,194533,14,Outras Receitas Correntes,70647
ESPÉCIE RECEITA,194533,44,Serviços Administrativos e Comerciais Gerais,54941
DETALHAMENTO,194533,525,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,30237
VALOR PREVISTO ATUALIZADO,194533,1835,000,192639
VALOR LANÇADO,194533,1003,000,193450
VALOR REALIZADO,194533,129122,000,2972


In [16]:
df_2017.shape

(190479, 16)

In [17]:
reporte_2017 =sl.reporte(df_2017)
reporte_2017

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [18]:
df_2017.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,190479,24,Ministério da Educação,70837
NOME ÓRGÃO,190479,268,Ministério da Economia - Unidades com vínculo ...,14158
NOME UNIDADE GESTORA,190479,318,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,11227
CATEGORIA ECONÔMICA,190479,5,Receitas Correntes,182668
ORIGEM RECEITA,190479,15,Outras Receitas Correntes,68818
ESPÉCIE RECEITA,190479,47,Serviços Administrativos e Comerciais Gerais,51633
DETALHAMENTO,190479,516,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,29841
VALOR PREVISTO ATUALIZADO,190479,1827,000,188589
VALOR LANÇADO,190479,1043,000,189434
VALOR REALIZADO,190479,128532,000,2800


In [19]:
df_2018.shape

(173944, 16)

In [20]:
reporte_2018 =sl.reporte(df_2018)
reporte_2018

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [21]:
df_2018.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,173944,22,Ministério da Educação,65876
NOME ÓRGÃO,173944,260,Ministério da Economia - Unidades com vínculo ...,22844
NOME UNIDADE GESTORA,173944,312,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,21206
CATEGORIA ECONÔMICA,173944,5,Receitas Correntes,165585
ORIGEM RECEITA,173944,15,Receita de Serviços,58581
ESPÉCIE RECEITA,173944,47,Serviços Administrativos e Comerciais Gerais,51444
DETALHAMENTO,173944,608,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,29257
VALOR PREVISTO ATUALIZADO,173944,1846,000,172042
VALOR LANÇADO,173944,828,000,173114
VALOR REALIZADO,173944,121803,000,2715


In [22]:
df_2019.shape

(176828, 16)

In [23]:
reporte_2019 =sl.reporte(df_2019)
reporte_2019

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [24]:
df_2019.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,176828,20,Ministério da Educação,67104
NOME ÓRGÃO,176828,249,Ministério da Economia - Unidades com vínculo ...,23514
NOME UNIDADE GESTORA,176828,269,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,22389
CATEGORIA ECONÔMICA,176828,5,Receitas Correntes,169210
ORIGEM RECEITA,176828,15,Receita de Serviços,59957
ESPÉCIE RECEITA,176828,46,Serviços Administrativos e Comerciais Gerais,52747
DETALHAMENTO,176828,636,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,29143
VALOR PREVISTO ATUALIZADO,176828,1801,000,174975
VALOR LANÇADO,176828,1105,000,175649
VALOR REALIZADO,176828,124002,000,3107


In [25]:
df_2020.shape

(142348, 16)

In [26]:
reporte_2020 = sl.reporte(df_2020)
reporte_2020

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [27]:
df_2020.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,142348,20,Ministério da Educação,40888
NOME ÓRGÃO,142348,254,Ministério da Economia - Unidades com vínculo ...,22686
NOME UNIDADE GESTORA,142348,270,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,21074
CATEGORIA ECONÔMICA,142348,5,Receitas Correntes,135172
ORIGEM RECEITA,142348,15,Outras Receitas Correntes,42127
ESPÉCIE RECEITA,142348,45,Serviços Administrativos e Comerciais Gerais,33271
DETALHAMENTO,142348,625,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,21029
VALOR PREVISTO ATUALIZADO,142348,1951,000,140352
VALOR LANÇADO,142348,1579,000,140661
VALOR REALIZADO,142348,106992,000,3837


In [28]:
df_2021.shape

(134593, 16)

In [29]:
reporte_2021 = sl.reporte(df_2021)
reporte_2021

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [30]:
df_2021.describe(include="O").T

Unnamed: 0,count,unique,top,freq
NOME ÓRGÃO SUPERIOR,134593,20,Ministério da Educação,39869
NOME ÓRGÃO,134593,256,Ministério da Economia - Unidades com vínculo ...,21403
NOME UNIDADE GESTORA,134593,268,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,20277
CATEGORIA ECONÔMICA,134593,5,Receitas Correntes,128090
ORIGEM RECEITA,134593,15,Receita de Serviços,39917
ESPÉCIE RECEITA,134593,42,Serviços Administrativos e Comerciais Gerais,34121
DETALHAMENTO,134593,600,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,19532
VALOR PREVISTO ATUALIZADO,134593,1803,000,132746
VALOR LANÇADO,134593,1191,000,133403
VALOR REALIZADO,134593,99376,000,3404


Los 3 primeros años (2013, 2014 y 2015) no tienen valores nulos, sin embargo, del 2016 en adelante encontramos valores nulos en la columna "DATA LANÇAMENTO", son pocos, entre el 0.04 y el 0.09 %.
Mientras que en los 3 primeros años esta fecha era la misma en todos los registros, a partir de 2016 hay diferentes valores de fecha por lo que se plantea el problema de cómo rellenar esos valores en el caso de que sea necesario. 

- Comprobamos que los tipos y nombres de las columnas son consistentes en todos los archivos
    

Para eso comparamos las columnas "index" y "tipo_dato" de los reportes que hemos generado. 

In [31]:
# Usamos una función que compara unas columnas de una lista de reportes para comprobar si son iguales. Devuelve true si son iguales y false si encuentra alguna diferencia
reportes = [reporte_2013, reporte_2014, reporte_2015, reporte_2016, reporte_2017, reporte_2018, reporte_2019, reporte_2020, reporte_2021]
columnas = ["index", "tipo_dato"]
sl.comparar_reportes(reportes, columnas)

True

- Unión de los archivos

La función de comparació nos ha dado como resultado True, lo que indicaría que en todos los dataframe las columnas se llaman igual y tienen el mismo tipo de datos, por lo que podemos unir todos los dataframe usando concat.

In [32]:
# Unimos todos los archivos usando concat y axis = 0 para que los una de forma vertical
datos_brasil = pd.concat([df_2013, df_2014, df_2015, df_2016, df_2017, df_2018, df_2019, df_2020, df_2021], axis =0)

## **Fase 2: Limpieza de Datos**

- Corrección de formatos

Debemos cambiar el tipo de dato de las columnas 'VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO' y 'PERCENTUAL REALIZADO' de object a float.  
Para ello, debemos empezar cambiando comas por puntos para que pueda leerse como número. Usamos una función que aplica str.replace a una lista de columnas

In [33]:
# Cambiamos comas por puntos en las columnas 'VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO' y 'PERCENTUAL REALIZADO'.
sl.reemplazar(datos_brasil, ['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO','PERCENTUAL REALIZADO'], ",", ".")

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.00,0.00,1297.13,0.00,31/12/2013,2013
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0.00,0.00,26666621.42,0.00,31/12/2013,2013
2,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",OUTRAS MULTAS E JUROS DE MORA,0.00,0.00,301251.13,0.00,31/12/2013,2013
3,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,0.00,0.00,1855.58,0.00,31/12/2013,2013
4,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",OUTRAS RESTITUICOES,0.00,0.00,52140.68,0.00,31/12/2013,2013
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
134588,20000,Presidência da República,24208,Instituto Nacional de Tecnologia da Informação,243001,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,16940891.00,0.00,0.00,0.00,23/04/2021,2021
134589,20000,Presidência da República,24208,Instituto Nacional de Tecnologia da Informação,243001,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",0.00,0.00,372.90,0.00,22/11/2021,2021
134590,20000,Presidência da República,24208,Instituto Nacional de Tecnologia da Informação,243001,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",200000.00,0.00,0.00,0.00,23/04/2021,2021
134591,20000,Presidência da República,24208,Instituto Nacional de Tecnologia da Informação,243001,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",0.00,0.00,1000000.00,0.00,10/05/2021,2021


In [38]:
# normalizamos valores en la columna "revenue" 
# Primero reemplazamos los ceros por NaN
datos_brasil[['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO','PERCENTUAL REALIZADO']] = datos_brasil[['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO','PERCENTUAL REALIZADO']].replace(0,np.nan)
# A continuación convertimos lo que quede a número, forzando a que en caso de error lo convierta en NaN
datos_brasil = sl.a_numero(datos_brasil, ['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO','PERCENTUAL REALIZADO'])
datos_brasil[['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO','PERCENTUAL REALIZADO']]  = datos_brasil[['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO','PERCENTUAL REALIZADO']] .fillna(0).astype(float)

In [39]:
sl.reporte(datos_brasil)

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,int64
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,int64
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,int64
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


In [36]:
# Cambiamos el tipo de dato de las columnas 'VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO' y 'PERCENTUAL REALIZADO' a float usando .astype
#datos_brasil[['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO','PERCENTUAL REALIZADO']] = datos_brasil[['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO','PERCENTUAL REALIZADO']].astype(float)
# Cambiamos el tipo de la columna DATA LANÇAMENTO a datetime
#datos_brasil["DATA LANÇAMENTO"] = pd.to_datetime(datos_brasil["DATA LANÇAMENTO"])
# Por último, como los códigos de las entidades no se usan en ninguna operación, los pasamos a string para que no generen ruido en los análisis estadísticos
#datos_brasil[["CÓDIGO ÓRGÃO SUPERIOR", "CÓDIGO ÓRGÃO", "CÓDIGO UNIDADE GESTORA"]] = datos_brasil[["CÓDIGO ÓRGÃO SUPERIOR", "CÓDIGO ÓRGÃO", "CÓDIGO UNIDADE GESTORA"]].astype(str)


In [37]:
# Vamos a eliminar espacios a principio y fin de las columnas tipo object y además, pondremos en formato título (primera letra de cada palabra en mayúscula) todas las de NOME...
# Eliminamos espacios
datos_brasil = sl.espacios(datos_brasil,['CÓDIGO ÓRGÃO SUPERIOR', 'NOME ÓRGÃO SUPERIOR', 'CÓDIGO ÓRGÃO',
       'NOME ÓRGÃO', 'CÓDIGO UNIDADE GESTORA', 'NOME UNIDADE GESTORA',
       'CATEGORIA ECONÔMICA', 'ORIGEM RECEITA', 'ESPÉCIE RECEITA',
       'DETALHAMENTO']) 
# Pasamos a formato título
datos_brasil = sl.titulo(datos_brasil,['NOME ÓRGÃO SUPERIOR', 'NOME ÓRGÃO', 'NOME UNIDADE GESTORA'])
datos_brasil.sample(3)

AttributeError: Can only use .str accessor with string values!

In [68]:
# Guardamos en formato pickle para mantener los tipos de dato
datos_brasil.to_pickle("datos/datos_brasil.pkl")

- Tratamiento de Valores Nulos

Comprobamos si hay valores duplicados

In [45]:
duplicados = datos_brasil[datos_brasil.duplicated()]
duplicados

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO


Obtenemos un reporte de los valores nulos

In [46]:
reporte_brasil = sl.reporte(datos_brasil)
reporte_brasil

Unnamed: 0,index,valores_nulos,porcentaje_nulos,tipo_dato
0,CÓDIGO ÓRGÃO SUPERIOR,0,0.0,object
1,NOME ÓRGÃO SUPERIOR,0,0.0,object
2,CÓDIGO ÓRGÃO,0,0.0,object
3,NOME ÓRGÃO,0,0.0,object
4,CÓDIGO UNIDADE GESTORA,0,0.0,object
5,NOME UNIDADE GESTORA,0,0.0,object
6,CATEGORIA ECONÔMICA,0,0.0,object
7,ORIGEM RECEITA,0,0.0,object
8,ESPÉCIE RECEITA,0,0.0,object
9,DETALHAMENTO,0,0.0,object


La cantidad de valores nulos (todos en la columna "DATA LANÇAMENTO") es mínima, un 0.06 %. Para decidir si los podemos eliminar, vamos a analizar los valores de ingresos.

In [47]:
# creamos un dataframe filtrando los valores nulos
valores_nulos = datos_brasil[datos_brasil["DATA LANÇAMENTO"].isnull()]
# usamos .describe para obtener el resumen estadístico
valores_nulos.describe().T

Unnamed: 0,count,mean,min,25%,50%,75%,max,std
VALOR PREVISTO ATUALIZADO,578.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
VALOR LANÇADO,578.0,4495813047.449048,6.0,572100.915,112386714.365,1499607661.085,257513407925.600006,16797766189.7325
VALOR REALIZADO,578.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
PERCENTUAL REALIZADO,578.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
DATA LANÇAMENTO,0.0,NaT,NaT,NaT,NaT,NaT,NaT,
ANO EXERCÍCIO,578.0,2018.652249,2016.0,2017.0,2019.0,2020.0,2021.0,1.719045


Nos interesa el VALOR REALIZADO, que es el monto realmente recaudado. Como en este resumen es todo cero, podemos suponer que, en las fechas nulas, no se recaudó el valor correspondiente.

Vamos a calcular qué porcentaje del total supondría el VALOR LANÇADO (importe registrado) 

In [48]:
porcentaje = round((((valores_nulos["VALOR LANÇADO"].sum())/(datos_brasil["VALOR LANÇADO"].sum()))*100), 2)
porcentaje

np.float64(48.29)

La suma de VALOR LANÇADO en las fechas nulas supondría un 48.29 % del total, por lo que los valores nulos se van a mantener.

- Detección y Corrección de Errores en Categorizaciones

In [49]:
datos_brasil.describe(include="O").T

Unnamed: 0,count,unique,top,freq
CÓDIGO ÓRGÃO SUPERIOR,1026299,25,26000,361891
NOME ÓRGÃO SUPERIOR,1026299,25,Ministério Da Educação,361891
CÓDIGO ÓRGÃO,1026299,291,25000,119811
NOME ÓRGÃO,1026299,287,Ministério Da Economia - Unidades Com Vínculo ...,119811
CÓDIGO UNIDADE GESTORA,1026299,364,170013,108481
NOME UNIDADE GESTORA,1026299,356,Setorial Orcamentaria E Financeira / Me,108481
CATEGORIA ECONÔMICA,1026299,5,Receitas Correntes,979596
ORIGEM RECEITA,1026299,15,Outras Receitas Correntes,322907
ESPÉCIE RECEITA,1026299,63,Serviços Administrativos e Comerciais Gerais,278157
DETALHAMENTO,1026299,1886,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,159039


Se puede ver que hay discrepancias entre el número de valores únicos de CÓDIGO ÓRGÃO (291) y  NOME ÓRGÃO (287) y CÓDIGO UNIDADE GESTORA (364) NOME UNIDADE GESTORA (356). Como en ambos casos hay más códigos que nombres y no hay valores nulos, esto puede deberse a que hay nombres que tienen más de un código asignado. Vamos a comprobar si hay nombres con más de un código

In [None]:
# Agrupamos por NOME ÓRGÃO y contamos los códigos únicos usando .nunique(), que nos devuelve el número de valores únicos.
conteo_codigos_organo = datos_brasil.groupby('NOME ÓRGÃO')['CÓDIGO ÓRGÃO'].nunique().reset_index() 
# Filtramos para que solo muestre las filas que tengan un número de valores únicos >1
conteo_codigos_organo[conteo_codigos_organo['CÓDIGO ÓRGÃO'] > 1]

Unnamed: 0,NOME ÓRGÃO,CÓDIGO ÓRGÃO
7,Agência Nacional De Transportes Aquaviários,2
121,Fundo Nacional Antidrogas,2
131,Fundo Nacional Do Idoso,2
133,Fundo Nacional Para A Criança E O Adolescente,2


Podemos ver que hay 4 órganos que tienen 2 códigos cada uno

In [None]:
# Ahora agrupamos por NOME UNIDADE GESTORA y contamos los códigos únicos usando .nunique(), que nos devuelve el número de valores únicos.
conteo_codigos_unidad = datos_brasil.groupby('NOME UNIDADE GESTORA')['CÓDIGO UNIDADE GESTORA'].nunique().reset_index() 
# Filtramos para que solo muestre las filas que tengan un número de valores únicos >1
conteo_codigos_unidad[conteo_codigos_unidad['CÓDIGO UNIDADE GESTORA'] > 1]

Unnamed: 0,NOME UNIDADE GESTORA,CÓDIGO UNIDADE GESTORA
8,Agencia Nacional De Transportes Aquaviarios,2
60,Coordenacao-Geral De Orcamento E Financas,2
63,Coordenacao-Geral De Recursos Logisticos,2
79,Diretoria De Financas-Sistema Para O Pais/Mm,2
153,Fundo Nacional Antidrogas,2
162,Fundo Nacional Do Idoso,2
164,Fundo Nacional Para A Crianca E O Adolescente,2
292,Setorial Prog.Orcamentaria E Financeira-Sfb,2


En este caso hay más nombres con 2 códigos.

Vamos a filtrar por uno de los órganos que tienen más de un código asignado para ver si puede ser un error.

In [75]:
datos_brasil[datos_brasil['NOME ÓRGÃO'].isin(["Fundo Nacional Do Idoso"])]

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
3784,57000,"Ministério Das Mulheres, Igualdade Racial, Da",64902,Fundo Nacional Do Idoso,207001,Fundo Nacional Do Idoso,Receitas Correntes,Transferências Correntes,Transferências dos Municípios e de suas Entid,Transferências dos Municípios e de suas Entid,3000000.0,0.0,5850000.00,195.0,2013-12-31,2013
3789,57000,"Ministério Das Mulheres, Igualdade Racial, Da",64902,Fundo Nacional Do Idoso,207001,Fundo Nacional Do Idoso,Receitas Correntes,Transferências Correntes,Transferências de Outras Instituições Pública,Transferências de Outras Instituições Pública,0.0,0.0,6350.00,0.0,2013-12-31,2013
3794,57000,"Ministério Das Mulheres, Igualdade Racial, Da",64902,Fundo Nacional Do Idoso,207001,Fundo Nacional Do Idoso,Receitas Correntes,Receita Patrimonial,Valores Mobiliários,REMUNERACAO DE DEPOSITOS BANCARIOS,0.0,0.0,128857.04,0.0,2013-12-31,2013
3811,57000,"Ministério Das Mulheres, Igualdade Racial, Da",64902,Fundo Nacional Do Idoso,207001,Fundo Nacional Do Idoso,Receitas Correntes,Transferências Correntes,Transferências de Outras Instituições Pública,Transferências de Outras Instituições Pública,1469.0,0.0,4000.00,272.0,2014-12-31,2014
3815,57000,"Ministério Das Mulheres, Igualdade Racial, Da",64902,Fundo Nacional Do Idoso,207001,Fundo Nacional Do Idoso,Receitas Correntes,Transferências Correntes,Transferências dos Municípios e de suas Entid,Transferências dos Municípios e de suas Entid,456960.0,0.0,9036635.04,1978.0,2014-12-31,2014
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
109560,81000,"Ministério Da Mulher, Família E Direitos Huma",30914,Fundo Nacional Do Idoso,307002,Fundo Nacional Do Idoso,Receitas Correntes,Receita Patrimonial,Valores Mobiliários,REMUNERACAO DE DEPOSITOS BANCARIOS-PRINCIPAL,0.0,0.0,9360.66,0.0,2021-02-09,2021
109561,81000,"Ministério Da Mulher, Família E Direitos Huma",30914,Fundo Nacional Do Idoso,307002,Fundo Nacional Do Idoso,Receitas Correntes,Receita Patrimonial,Valores Mobiliários,REMUNERACAO DE DEPOSITOS BANCARIOS-PRINCIPAL,0.0,0.0,13131.93,0.0,2021-09-17,2021
109562,81000,"Ministério Da Mulher, Família E Direitos Huma",30914,Fundo Nacional Do Idoso,307002,Fundo Nacional Do Idoso,Receitas Correntes,Transferências Correntes,Transferências de Pessoas Físicas,TRANSFERENCIAS DE PESSOAS FISICAS-PRINCIPAL,0.0,0.0,1621657.68,0.0,2021-08-03,2021
109563,81000,"Ministério Da Mulher, Família E Direitos Huma",30914,Fundo Nacional Do Idoso,307002,Fundo Nacional Do Idoso,Receitas Correntes,Transferências Correntes,Transferências de Pessoas Físicas,TRANSFERENCIAS DE PESSOAS FISICAS-PRINCIPAL,0.0,0.0,300.00,0.0,2021-03-29,2021


Hemos filtrado por "Fundo Nacional Do Idoso" y en el resultado podemos ver que tiene dos códigos, pero parece deberse a que depende de dos órganos superiores o que cada órgano superior tiene un órgano llamado así, se da el mismo caso con la unidad gestora:  
    1. 81000 - Ministério Da Mulher, Família E Direitos Huma... -- 30914 Fundo Nacional Do Idoso -- 307002 Fundo Nacional Do Idoso  
    2. 57000 - Ministério Das Mulheres, Igualdade Racial, Da	... -- 64902 Fundo Nacional Do Idoso -- 207001 Fundo Nacional Do Idoso  

Dado que no conocemos las interdependencias entre órganos superiores, órganos y unidades gestoras, no tenemos forma de saber si estos códigos son correctos o no, por lo que, en caso de ser necesario, se usará el nombre de la entidad correspondiente.

Comprobamos el formato de las categorías econónicas. Extraemos los valores únicos y, como solo hay 5, podemos comprobar visualmente si hay errores.

In [63]:
datos_brasil["CATEGORIA ECONÔMICA"].unique()

array(['Receitas Correntes', 'Receitas de Capital',
       'Receitas Correntes - intra-orçamentárias', 'Sem informação',
       'Receitas de Capital - intra-orçamentárias'], dtype=object)

Parece que no hay inconsistencias en la categoría económica.

## **Fase 3: Análisis Exploratorio de Datos (EDA)**

1. **Distribución de Ingresos por Categoría Económica:**

   - Analizar las categorías de ingresos más significativas y su participación en los ingresos totales.

   - Calcular la diferencia promedio entre ingresos previstos y realizados por cada categoría.

In [92]:
# Para analizar las categorías de ingresos agrupamos por CATEGORIA ECONÔMICA y sumamos el VALOR REALIZADO, ya que es el ingreso real. 
# Añadimos .reset_index(name = "ingreso realizado") para darle nombre a la columna y ordenamos por valores de forma descencente (ascending = False)
ingresos_categoria = datos_brasil.groupby("CATEGORIA ECONÔMICA")["VALOR REALIZADO"].sum().sort_values(ascending=False).reset_index(name = "ingreso realizado")
ingresos_categoria

Unnamed: 0,CATEGORIA ECONÔMICA,ingreso realizado
0,Receitas Correntes,12909340000000.0
1,Receitas de Capital,12407140000000.0
2,Receitas Correntes - intra-orçamentárias,292651800000.0
3,Receitas de Capital - intra-orçamentárias,28250840000.0
4,Sem informação,46.57


In [93]:
# Calculamos el porcentaje que supone cada categoría sobre los ingresos totales (suma de VALOR REALIZADO de todo el dataframe datos_brasil) y lo añadimos como columna nueva del dataframe ingresos_categoria
ingresos_categoria["porcentaje"] = round(((ingresos_categoria["ingreso realizado"]/datos_brasil["VALOR REALIZADO"].sum())*100),2)
ingresos_categoria

Unnamed: 0,CATEGORIA ECONÔMICA,ingreso realizado,porcentaje
0,Receitas Correntes,12909340000000.0,50.35
1,Receitas de Capital,12407140000000.0,48.39
2,Receitas Correntes - intra-orçamentárias,292651800000.0,1.14
3,Receitas de Capital - intra-orçamentárias,28250840000.0,0.11
4,Sem informação,46.57,0.0


Es evidente que las categorías "Receitas Correntes" y "Receitas de Capital" son las más significativas, ya que entre las dos suponen el 98.74 % de todos los ingresos, siendo "Receitas Correntes", con el 50.35% la que más participa, aunque la diferencia con "Receitas de Capital" es de apenas un 2%.

In [95]:
# Añadimos una nueva columna al df datos_brasil con el cálculo de la diferencia entre ingresos previstos y realizados por cada categoría.
# Usamos las columnas "VALOR PREVISTO ATUALIZADO" como ingreso previsto y "VALOR REALIZADO" para el ingreso previsto.
datos_brasil["diferencia_ingresos"] = datos_brasil["VALOR REALIZADO"] - datos_brasil["VALOR PREVISTO ATUALIZADO"]
# Añadimos una columna nueva a ingresos_categoría con la diferencia media por categoría
ingresos_categoria["diferencia_media"] = datos_brasil.groupby("CATEGORIA ECONÔMICA")["diferencia_ingresos"].mean()
ingresos_categoria

Unnamed: 0,CATEGORIA ECONÔMICA,ingreso realizado,porcentaje,diferencia_media
0,Receitas Correntes,12909340000000.0,50.35,
1,Receitas de Capital,12407140000000.0,48.39,
2,Receitas Correntes - intra-orçamentárias,292651800000.0,1.14,
3,Receitas de Capital - intra-orçamentárias,28250840000.0,0.11,
4,Sem informação,46.57,0.0,
