# Los Datos

Los conjuntos de datos que usaremos corresponden a la ejecución de ingresos públicos en Brasil durante los años 2013 al 2021. La **ejecución de ingresos públicos** se refiere al proceso mediante el cual un gobierno recauda y gestiona sus ingresos fiscales y no fiscales para financiar sus actividades y programas. En el contexto de Brasil, y en los datos que mencionas, la ejecución de ingresos públicos implica cómo se administraron los recursos que el gobierno planeaba recibir (ingresos previstos) y lo que efectivamente recaudó (ingresos realizados) durante un periodo específico, en este caso, desde 2013 hasta 2021. En Brasil, los ingresos públicos pueden venir de:

- **Impuestos:** Como el Imposto de Renda (IR) y el Imposto sobre Produtos Industrializados (IPI).

- **Contribuciones Sociales:** Como las contribuciones para la seguridad social (INSS).

- **Tasas y Tarifas:** Que pueden ser cobradas por servicios específicos.

- **Otros Ingresos:** Como multas, indemnizaciones, y la venta de activos.


Las columnas presentes en estos archivos son:

- `código órgão superior`: Código numérico que identifica la entidad gubernamental superior.

- `nome órgão superior`: Nombre de la entidad gubernamental superior.

- `código órgão`: Código numérico que identifica la entidad gubernamental específica.

- `nome órgão`: Nombre de la entidad gubernamental específica.

- `código unidade gestora`: Código numérico de la unidad gestora responsable.

- `nome unidade gestora`: Nombre de la unidad gestora.

- `categoria econômica`: Clasificación económica de los ingresos (por ejemplo, "Receitas Correntes").

- `origem receita`: Fuente específica del ingreso (por ejemplo, "Outras Receitas Correntes").

- `espécie receita`: Tipo de ingreso dentro de la fuente (por ejemplo, "Demais receitas correntes").

- `detalhamento`: Detalle adicional del tipo de ingreso (por ejemplo, "Receita de honorários de advogados").

- `valor previsto atualizado`: Monto actualizado del ingreso previsto (formato texto).

- `valor lançado`: Monto que fue registrado como lanzado (formato texto).

- `valor realizado`: Monto realmente recaudado (formato texto).

- `percentual realizado`: Porcentaje de ejecución respecto al valor previsto.

- `data lançamento`: Fecha en la que se registró la ejecución del ingreso.

- `ano exercício`: Año correspondiente a la ejecución de los ingresos.

In [1]:
import pandas as pd
import numpy as np

In [2]:
from src import soporte_limpieza as sl

In [3]:
pd.set_option("display.max_columns", None)

# 2013

In [184]:
df_2013 = pd.read_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2013.csv",index_col=0, sep=';', encoding='latin-1')

df_2013.head(1)


Unnamed: 0_level_0,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013


In [5]:
df_2013.columns

Index(['NOME ÓRGÃO SUPERIOR', 'CÓDIGO ÓRGÃO', 'NOME ÓRGÃO',
       'CÓDIGO UNIDADE GESTORA', 'NOME UNIDADE GESTORA', 'CATEGORIA ECONÔMICA',
       'ORIGEM RECEITA', 'ESPÉCIE RECEITA', 'DETALHAMENTO',
       'VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO', 'DATA LANÇAMENTO', 'ANO EXERCÍCIO'],
      dtype='object')

In [189]:
#Cambiamos el tipo de dato de valor previsto actualizado de objtect a float. Como algún dato está omo 0,00 y las comas las lee como string, cambiamos las , por .
df_2013["VALOR PREVISTO ATUALIZADO"] = df_2013["VALOR PREVISTO ATUALIZADO"].str.replace(',', '.')
df_2013["VALOR PREVISTO ATUALIZADO"] = df_2013["VALOR PREVISTO ATUALIZADO"].astype(float)


In [7]:
df_2013["VALOR LANÇADO"] = df_2013["VALOR LANÇADO"].str.replace(',', '.')
df_2013["VALOR LANÇADO"] = df_2013["VALOR LANÇADO"].astype(float)

In [8]:
df_2013["VALOR REALIZADO"] = df_2013["VALOR REALIZADO"].str.replace(',', '.')
df_2013["VALOR REALIZADO"] = df_2013["VALOR REALIZADO"].astype(float)

In [9]:
df_2013["PERCENTUAL REALIZADO"] = df_2013["PERCENTUAL REALIZADO"].str.replace(',', '.')
df_2013["PERCENTUAL REALIZADO"] = df_2013["PERCENTUAL REALIZADO"].astype(float)

In [10]:
df_2013["DATA LANÇAMENTO"] = pd.to_datetime(df_2013["DATA LANÇAMENTO"], format="%d/%m/%Y")

In [11]:
df_2013.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4498 entries, 63000 to 20000
Data columns (total 15 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   NOME ÓRGÃO SUPERIOR        4498 non-null   object        
 1   CÓDIGO ÓRGÃO               4498 non-null   int64         
 2   NOME ÓRGÃO                 4498 non-null   object        
 3   CÓDIGO UNIDADE GESTORA     4498 non-null   int64         
 4   NOME UNIDADE GESTORA       4498 non-null   object        
 5   CATEGORIA ECONÔMICA        4498 non-null   object        
 6   ORIGEM RECEITA             4498 non-null   object        
 7   ESPÉCIE RECEITA            4498 non-null   object        
 8   DETALHAMENTO               4498 non-null   object        
 9   VALOR PREVISTO ATUALIZADO  4498 non-null   float64       
 10  VALOR LANÇADO              4498 non-null   float64       
 11  VALOR REALIZADO            4498 non-null   float64       
 12  PERCEN

In [12]:
df_2013.sample(2)

Unnamed: 0_level_0,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
26000,Ministério da Educação,26239,Universidade Federal do Pará,153063,UNIVERSIDADE FEDERAL DO PARA,Receitas Correntes,Receita de Serviços,Receita de Serviços,SERVICOS ADMINISTRATIVOS,9959270.0,0.0,11436389.84,115.0,2013-12-31,2013
26000,Ministério da Educação,26258,Universidade Tecnológica Federal do Paraná,153019,UNIVERSIDADE TECNOLOGICA FEDERAL DO PARANA,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",INDENIZ. POR DANOS CAUSADOS AO PATR. PUBLICO,0.0,0.0,6414.7,0.0,2013-12-31,2013


In [13]:
traducciones = {
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ÓRGANO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ÓRGANO',
    'NOME ÓRGÃO': 'NOMBRE ÓRGANO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'TIPO INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR LANZADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA LANZAMIENTO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO'
}

df_2013 = df_2013.rename(columns=traducciones)

In [14]:
df_2013.head(1)

Unnamed: 0_level_0,NOMBRE ÓRGANO SUPERIOR,CÓDIGO ÓRGANO,NOMBRE ÓRGANO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,TIPO INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR LANZADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA LANZAMIENTO,AÑO EJERCICIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,2013-12-31,2013


### NULOS

In [16]:
sl.reporte(df_2013)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


**Manejo de nulos**

En el caso de la base de datos de 2013 no hay nulos que tratar.

In [161]:
df_2013.to_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2013_limpio.csv", index=False, encoding='latin-1')

In [19]:
df_2013.sample(1)

Unnamed: 0_level_0,NOMBRE ÓRGANO SUPERIOR,CÓDIGO ÓRGANO,NOMBRE ÓRGANO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,TIPO INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR LANZADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA LANZAMIENTO,AÑO EJERCICIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
25000,Ministério da Economia,37202,Instituto Nacional do Seguro Social,510001,"COORD.GERAL DE ORCAMENTO, FINANCAS E CONTAB.",Receitas Correntes,Receita Patrimonial,Valores Mobiliários,REMUNERACAO DE SALDOS NAO DESEMBOLSADOS,98028778.0,0.0,92567984.4,94.0,2013-12-31,2013


# 2014

In [20]:
df_2014 = pd.read_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2014.csv",index_col=0, sep=';', encoding='latin-1')

df_2014.head(1)

Unnamed: 0_level_0,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORÁRIOS DE ADVOGADOS,0,0,4669994808,0,31/12/2014,2014


In [21]:
df_2014["VALOR PREVISTO ATUALIZADO"] = df_2014["VALOR PREVISTO ATUALIZADO"].str.replace(',', '.')
df_2014["VALOR PREVISTO ATUALIZADO"] = df_2014["VALOR PREVISTO ATUALIZADO"].astype(float)

In [22]:
df_2014["VALOR LANÇADO"] = df_2014["VALOR LANÇADO"].str.replace(',', '.')
df_2014["VALOR LANÇADO"] = df_2014["VALOR LANÇADO"].astype(float)

In [23]:
df_2014["VALOR REALIZADO"] = df_2014["VALOR REALIZADO"].str.replace(',', '.')
df_2014["VALOR REALIZADO"] = df_2014["VALOR REALIZADO"].astype(float)

In [24]:
df_2014["PERCENTUAL REALIZADO"] = df_2014["PERCENTUAL REALIZADO"].str.replace(',', '.')
df_2014["PERCENTUAL REALIZADO"] = df_2014["PERCENTUAL REALIZADO"].astype(float)

In [25]:
df_2014["DATA LANÇAMENTO"] = pd.to_datetime(df_2014["DATA LANÇAMENTO"], format="%d/%m/%Y")

In [26]:
df_2014.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4553 entries, 63000 to 20000
Data columns (total 15 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   NOME ÓRGÃO SUPERIOR        4553 non-null   object        
 1   CÓDIGO ÓRGÃO               4553 non-null   int64         
 2   NOME ÓRGÃO                 4553 non-null   object        
 3   CÓDIGO UNIDADE GESTORA     4553 non-null   int64         
 4   NOME UNIDADE GESTORA       4553 non-null   object        
 5   CATEGORIA ECONÔMICA        4553 non-null   object        
 6   ORIGEM RECEITA             4553 non-null   object        
 7   ESPÉCIE RECEITA            4553 non-null   object        
 8   DETALHAMENTO               4553 non-null   object        
 9   VALOR PREVISTO ATUALIZADO  4553 non-null   float64       
 10  VALOR LANÇADO              4553 non-null   float64       
 11  VALOR REALIZADO            4553 non-null   float64       
 12  PERCEN

In [27]:
traducciones = {
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ÓRGANO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ÓRGANO',
    'NOME ÓRGÃO': 'NOMBRE ÓRGANO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'TIPO INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR LANZADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA LANZAMIENTO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO'
}

df_2014 = df_2014.rename(columns=traducciones)

In [28]:
df_2014.head(1)

Unnamed: 0_level_0,NOMBRE ÓRGANO SUPERIOR,CÓDIGO ÓRGANO,NOMBRE ÓRGANO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,TIPO INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR LANZADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA LANZAMIENTO,AÑO EJERCICIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORÁRIOS DE ADVOGADOS,0.0,0.0,46699948.08,0.0,2014-12-31,2014


### Nulos

In [105]:
sl.reporte(df_2014)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


**Manejo de nulos**

En el caso de la base de datos de 2014 no hay nulos que tratar.

In [162]:
df_2014.to_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2014_limpio.csv", index=False, encoding='latin-1')

In [30]:
df_2014.sample(1)

Unnamed: 0_level_0,NOMBRE ÓRGANO SUPERIOR,CÓDIGO ÓRGANO,NOMBRE ÓRGANO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,TIPO INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR LANZADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA LANZAMIENTO,AÑO EJERCICIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
52000,Ministério da Defesa,52000,Ministério da Defesa - Unidades com vínculo di...,110407,"DEPARTAMENTO DE PLANEJ, ORC E FINANCAS (MD)",Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RESTITUICOES DE CONVENIOS - PRIMARIAS,0.0,0.0,12624259.9,0.0,2014-12-31,2014


# 2015

In [31]:
df_2015 = pd.read_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2015.csv",index_col=0, sep=';', encoding='latin-1')

df_2015.head(1)

Unnamed: 0_level_0,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORARIOS DE ADVOGADOS,0,0,6382985340,0,31/12/2015,2015


In [32]:
df_2015["VALOR PREVISTO ATUALIZADO"] = df_2015["VALOR PREVISTO ATUALIZADO"].str.replace(',', '.')
df_2015["VALOR PREVISTO ATUALIZADO"] = df_2015["VALOR PREVISTO ATUALIZADO"].astype(float)

In [33]:
df_2015["VALOR LANÇADO"] = df_2015["VALOR LANÇADO"].str.replace(',', '.')
df_2015["VALOR LANÇADO"] = df_2015["VALOR LANÇADO"].astype(float)

In [34]:
df_2015["VALOR REALIZADO"] = df_2015["VALOR REALIZADO"].str.replace(',', '.')
df_2015["VALOR REALIZADO"] = df_2015["VALOR REALIZADO"].astype(float)

In [35]:
df_2015["PERCENTUAL REALIZADO"] = df_2015["PERCENTUAL REALIZADO"].str.replace(',', '.')
df_2015["PERCENTUAL REALIZADO"] = df_2015["PERCENTUAL REALIZADO"].astype(float)

In [36]:
df_2015["DATA LANÇAMENTO"] = pd.to_datetime(df_2015["DATA LANÇAMENTO"], format="%d/%m/%Y")

In [37]:
df_2015.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4523 entries, 63000 to 20000
Data columns (total 15 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   NOME ÓRGÃO SUPERIOR        4523 non-null   object        
 1   CÓDIGO ÓRGÃO               4523 non-null   int64         
 2   NOME ÓRGÃO                 4523 non-null   object        
 3   CÓDIGO UNIDADE GESTORA     4523 non-null   int64         
 4   NOME UNIDADE GESTORA       4523 non-null   object        
 5   CATEGORIA ECONÔMICA        4523 non-null   object        
 6   ORIGEM RECEITA             4523 non-null   object        
 7   ESPÉCIE RECEITA            4523 non-null   object        
 8   DETALHAMENTO               4523 non-null   object        
 9   VALOR PREVISTO ATUALIZADO  4523 non-null   float64       
 10  VALOR LANÇADO              4523 non-null   float64       
 11  VALOR REALIZADO            4523 non-null   float64       
 12  PERCEN

In [38]:
traducciones = {
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ÓRGANO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ÓRGANO',
    'NOME ÓRGÃO': 'NOMBRE ÓRGANO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'TIPO INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR LANZADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA LANZAMIENTO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO'
}

df_2015 = df_2015.rename(columns=traducciones)

In [106]:
sl.reporte(df_2015)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


**Manejo de nulos**

En el caso de la base de datos de 2015 no hay nulos que tratar.

In [163]:
df_2015.to_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2015_limpio.csv", index=False, encoding='latin-1')

In [40]:
df_2015.sample(1)

Unnamed: 0_level_0,NOMBRE ÓRGANO SUPERIOR,CÓDIGO ÓRGANO,NOMBRE ÓRGANO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,TIPO INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR LANZADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA LANZAMIENTO,AÑO EJERCICIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
26000,Ministério da Educação,26411,Instituto Federal do Sudeste de Minas Gerais,158123,INSTITUTO FED CIENCIA TECNOL SUDESTE MG,Receitas Correntes,Receita Industrial,Receitas da indústria de transformação,RECEITA DA INDUSTRIA DE PRODUTOS ALIMENTARES,531547.0,0.0,578830.77,109.0,2015-12-31,2015


# 2016

In [41]:
df_2016 = pd.read_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2016.csv",index_col=0, sep=';', encoding='latin-1')

df_2016.head(1)

Unnamed: 0_level_0,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,ENCARGOS LEGAIS PELA INSCR.EM DIV.ATIVA-PRINC,0,0,15494898,0,04/04/2016,2016


In [42]:
df_2016["VALOR PREVISTO ATUALIZADO"] = df_2016["VALOR PREVISTO ATUALIZADO"].str.replace(',', '.')
df_2016["VALOR PREVISTO ATUALIZADO"] = df_2016["VALOR PREVISTO ATUALIZADO"].astype(float)

In [43]:
df_2016["VALOR LANÇADO"] = df_2016["VALOR LANÇADO"].str.replace(',', '.')
df_2016["VALOR LANÇADO"] = df_2016["VALOR LANÇADO"].astype(float)

In [44]:
df_2016["VALOR REALIZADO"] = df_2016["VALOR REALIZADO"].str.replace(',', '.')
df_2016["VALOR REALIZADO"] = df_2016["VALOR REALIZADO"].astype(float)

In [45]:
df_2016["PERCENTUAL REALIZADO"] = df_2016["PERCENTUAL REALIZADO"].str.replace(',', '.')
df_2016["PERCENTUAL REALIZADO"] = df_2016["PERCENTUAL REALIZADO"].astype(float)

In [46]:
df_2016["DATA LANÇAMENTO"] = pd.to_datetime(df_2016["DATA LANÇAMENTO"], format="%d/%m/%Y")

In [47]:
df_2016.info()

<class 'pandas.core.frame.DataFrame'>
Index: 194533 entries, 63000 to 20000
Data columns (total 15 columns):
 #   Column                     Non-Null Count   Dtype         
---  ------                     --------------   -----         
 0   NOME ÓRGÃO SUPERIOR        194533 non-null  object        
 1   CÓDIGO ÓRGÃO               194533 non-null  int64         
 2   NOME ÓRGÃO                 194533 non-null  object        
 3   CÓDIGO UNIDADE GESTORA     194533 non-null  int64         
 4   NOME UNIDADE GESTORA       194533 non-null  object        
 5   CATEGORIA ECONÔMICA        194533 non-null  object        
 6   ORIGEM RECEITA             194533 non-null  object        
 7   ESPÉCIE RECEITA            194533 non-null  object        
 8   DETALHAMENTO               194533 non-null  object        
 9   VALOR PREVISTO ATUALIZADO  194533 non-null  float64       
 10  VALOR LANÇADO              194533 non-null  float64       
 11  VALOR REALIZADO            194533 non-null  float64   

In [48]:
traducciones = {
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ÓRGANO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ÓRGANO',
    'NOME ÓRGÃO': 'NOMBRE ÓRGANO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'TIPO INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR LANZADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA LANZAMIENTO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO'
}

df_2016 = df_2016.rename(columns=traducciones)

In [107]:
sl.reporte(df_2016)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


In [114]:
df_2016.shape

(194533, 15)

**Manejo de nulos**

En el caso de la base de datos de 2016 vemos que hay un total de 82 nulos en la columna "FECHA DE LANZAMIENTO". Al tener casi 200.000 datos y corresponde a un 0,04% respecto al total de los datos, es factible rellenar los datos nulos con la fecha media para poder cubrir las celdas que no tienen datos, ya que no afectará significativamente al análisis.

In [113]:
pd.DataFrame(df_2016["FECHA LANZAMIENTO"].describe()).T

Unnamed: 0,count,mean,min,25%,50%,75%,max
FECHA LANZAMIENTO,194451,2016-06-29 04:03:52.605643520,2016-01-01 00:00:00,2016-03-30 00:00:00,2016-06-29 00:00:00,2016-09-29 00:00:00,2016-12-31 00:00:00


In [115]:
df_2016["FECHA LANZAMIENTO"] = df_2016["FECHA LANZAMIENTO"].fillna(df_2016["FECHA LANZAMIENTO"].mean())


In [116]:
sl.reporte(df_2016)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


In [164]:
df_2016.to_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2016_limpio.csv", index=False, encoding='latin-1')

In [170]:
df_2016.sample(1)

Unnamed: 0_level_0,NOMBRE ÓRGANO SUPERIOR,CÓDIGO ÓRGANO,NOMBRE ÓRGANO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,TIPO INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR LANZADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA LANZAMIENTO,AÑO EJERCICIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
52000,Ministério da Defesa,52133,Fundo de Desenvolvimento do Ensino Profissiona...,873001,DIRETORIA DE FINANCAS-SISTEMA PARA O PAIS/MM,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,0.0,0.0,1724.0,0.0,2016-08-18,2016


# 2017

In [50]:
df_2017 = pd.read_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2017.csv",index_col=0, sep=';', encoding='latin-1')

df_2017.head(1)

Unnamed: 0_level_0,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-PRINCIPAL,0,0,19800,0,29/08/2017,2017


In [51]:
df_2017["VALOR PREVISTO ATUALIZADO"] = df_2017["VALOR PREVISTO ATUALIZADO"].str.replace(',', '.')
df_2017["VALOR PREVISTO ATUALIZADO"] = df_2017["VALOR PREVISTO ATUALIZADO"].astype(float)

In [52]:
df_2017["VALOR LANÇADO"] = df_2017["VALOR LANÇADO"].str.replace(',', '.')
df_2017["VALOR LANÇADO"] = df_2017["VALOR LANÇADO"].astype(float)

In [53]:
df_2017["VALOR REALIZADO"] = df_2017["VALOR REALIZADO"].str.replace(',', '.')
df_2017["VALOR REALIZADO"] = df_2017["VALOR REALIZADO"].astype(float)

In [54]:
df_2017["PERCENTUAL REALIZADO"] = df_2017["PERCENTUAL REALIZADO"].str.replace(',', '.')
df_2017["PERCENTUAL REALIZADO"] = df_2017["PERCENTUAL REALIZADO"].astype(float)

In [55]:
df_2017["DATA LANÇAMENTO"] = pd.to_datetime(df_2017["DATA LANÇAMENTO"], format="%d/%m/%Y")

In [56]:
df_2017.info()

<class 'pandas.core.frame.DataFrame'>
Index: 190479 entries, 63000 to 20000
Data columns (total 15 columns):
 #   Column                     Non-Null Count   Dtype         
---  ------                     --------------   -----         
 0   NOME ÓRGÃO SUPERIOR        190479 non-null  object        
 1   CÓDIGO ÓRGÃO               190479 non-null  int64         
 2   NOME ÓRGÃO                 190479 non-null  object        
 3   CÓDIGO UNIDADE GESTORA     190479 non-null  int64         
 4   NOME UNIDADE GESTORA       190479 non-null  object        
 5   CATEGORIA ECONÔMICA        190479 non-null  object        
 6   ORIGEM RECEITA             190479 non-null  object        
 7   ESPÉCIE RECEITA            190479 non-null  object        
 8   DETALHAMENTO               190479 non-null  object        
 9   VALOR PREVISTO ATUALIZADO  190479 non-null  float64       
 10  VALOR LANÇADO              190479 non-null  float64       
 11  VALOR REALIZADO            190479 non-null  float64   

In [57]:
traducciones = {
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ÓRGANO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ÓRGANO',
    'NOME ÓRGÃO': 'NOMBRE ÓRGANO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'TIPO INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR LANZADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA LANZAMIENTO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO'
}

df_2017 = df_2017.rename(columns=traducciones)

### Nulos

In [117]:
sl.reporte(df_2017)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


In [165]:
df_2017.shape

(190479, 15)

**Manejo de nulos**

En el caso de la base de datos de 2017 vemos que hay un total de 82 nulos en la columna "FECHA DE LANZAMIENTO". Al tener casi 200.000 datos y corresponder a un 0,05% respecto al total de los datos, es factible rellenar los datos nulos con la fecha media para poder cubrir las celdas que no tienen datos, ya que no afectará significativamente al análisis.

In [135]:
df_2017["FECHA LANZAMIENTO"] = df_2017["FECHA LANZAMIENTO"].fillna(df_2017["FECHA LANZAMIENTO"].mean())

In [136]:
sl.reporte(df_2017)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


In [166]:
df_2017.to_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2017_limpio.csv", index=False, encoding='latin-1')

In [171]:
df_2017.sample(2)

Unnamed: 0_level_0,NOMBRE ÓRGANO SUPERIOR,CÓDIGO ÓRGANO,NOMBRE ÓRGANO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,TIPO INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR LANZADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA LANZAMIENTO,AÑO EJERCICIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
26000,Ministério da Educação,26419,Instituto Federal do Rio Grande do Sul,158141,"INST.FED.DE EDUC.,CIENC.E TEC.DO RS",Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,0.0,0.0,852.0,0.0,2017-02-23,2017
26000,Ministério da Educação,26406,Instituto Federal do Espírito Santo,158151,"INST.FED.DE EDUC.,CIENC.E TEC.DO ESP.SANTO",Receitas Correntes,Receita Agropecuária,Receita Agropecuária,RECEITA AGROPECUÁRIA-PRINCIPAL,0.0,0.0,2649.32,0.0,2017-01-26,2017


# 2018

In [59]:
df_2018 = pd.read_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2018.csv",index_col=0, sep=';', encoding='latin-1')

df_2018.head(1)

Unnamed: 0_level_0,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receitas Correntes - a classificar,Receitas Correntes - a classificar,Receitas Correntes - a classificar,0,0,-169372,0,25/07/2018,2018


In [60]:
df_2018["VALOR PREVISTO ATUALIZADO"] = df_2018["VALOR PREVISTO ATUALIZADO"].str.replace(',', '.')
df_2018["VALOR PREVISTO ATUALIZADO"] = df_2018["VALOR PREVISTO ATUALIZADO"].astype(float)

In [61]:
df_2018["VALOR LANÇADO"] = df_2018["VALOR LANÇADO"].str.replace(',', '.')
df_2018["VALOR LANÇADO"] = df_2018["VALOR LANÇADO"].astype(float)

In [62]:
df_2018["VALOR REALIZADO"] = df_2018["VALOR REALIZADO"].str.replace(',', '.')
df_2018["VALOR REALIZADO"] = df_2018["VALOR REALIZADO"].astype(float)

In [63]:
df_2018["PERCENTUAL REALIZADO"] = df_2018["PERCENTUAL REALIZADO"].str.replace(',', '.')
df_2018["PERCENTUAL REALIZADO"] = df_2018["PERCENTUAL REALIZADO"].astype(float)

In [64]:
df_2018["DATA LANÇAMENTO"] = pd.to_datetime(df_2018["DATA LANÇAMENTO"], format="%d/%m/%Y")

In [65]:
df_2018.info()

<class 'pandas.core.frame.DataFrame'>
Index: 173944 entries, 63000 to 20000
Data columns (total 15 columns):
 #   Column                     Non-Null Count   Dtype         
---  ------                     --------------   -----         
 0   NOME ÓRGÃO SUPERIOR        173944 non-null  object        
 1   CÓDIGO ÓRGÃO               173944 non-null  int64         
 2   NOME ÓRGÃO                 173944 non-null  object        
 3   CÓDIGO UNIDADE GESTORA     173944 non-null  int64         
 4   NOME UNIDADE GESTORA       173944 non-null  object        
 5   CATEGORIA ECONÔMICA        173944 non-null  object        
 6   ORIGEM RECEITA             173944 non-null  object        
 7   ESPÉCIE RECEITA            173944 non-null  object        
 8   DETALHAMENTO               173944 non-null  object        
 9   VALOR PREVISTO ATUALIZADO  173944 non-null  float64       
 10  VALOR LANÇADO              173944 non-null  float64       
 11  VALOR REALIZADO            173944 non-null  float64   

In [66]:
traducciones = {
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ÓRGANO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ÓRGANO',
    'NOME ÓRGÃO': 'NOMBRE ÓRGANO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'TIPO INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR LANZADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA LANZAMIENTO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO'
}

df_2018 = df_2018.rename(columns=traducciones)

### Nulos

In [140]:
sl.reporte(df_2018)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


In [141]:
df_2018.shape

(173944, 15)

**Manejo de nulos**

En el caso de la base de datos de 2018 vemos que hay un total de 115 nulos en la columna "FECHA DE LANZAMIENTO". Al tener casi 175.000 datos y corresponder a un 0,07% respecto al total de los datos, es factible rellenar los datos nulos con la fecha media para poder cubrir las celdas que no tienen datos, ya que no afectará significativamente al análisis.

In [142]:
df_2018["FECHA LANZAMIENTO"] = df_2018["FECHA LANZAMIENTO"].fillna(df_2018["FECHA LANZAMIENTO"].mean())

In [143]:
sl.reporte(df_2018)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


In [167]:
df_2018.to_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2018_limpio.csv", index=False, encoding='latin-1')

In [172]:
df_2018.sample(2)

Unnamed: 0_level_0,NOMBRE ÓRGANO SUPERIOR,CÓDIGO ÓRGANO,NOMBRE ÓRGANO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,TIPO INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR LANZADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA LANZAMIENTO,AÑO EJERCICIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
26000,Ministério da Educação,26281,Fundação Universidade Federal de Sergipe,154050,FUNDACAO UNIVERSIDADE FEDERAL DE SERGIPE,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-MULTAS E JUROS,0.0,0.0,329.0,0.0,2018-10-01,2018
25000,Ministério da Economia,25000,Ministério da Economia - Unidades com vínculo ...,170013,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,Receitas Correntes,"Impostos, Taxas e Contribuições de Melhoria",Impostos,IPI-OUTROS PRODUTOS-JUROS DA DÍVIDA ATIVA,0.0,0.0,226150.89,0.0,2018-10-20,2018


# 2019

In [68]:
df_2019 = pd.read_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2019.csv",index_col=0, sep=';', encoding='latin-1')

df_2019.head(1)

Unnamed: 0_level_0,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0,0,-9500,0,12/06/2019,2019


In [69]:
df_2019["VALOR PREVISTO ATUALIZADO"] = df_2019["VALOR PREVISTO ATUALIZADO"].str.replace(',', '.')
df_2019["VALOR PREVISTO ATUALIZADO"] = df_2019["VALOR PREVISTO ATUALIZADO"].astype(float)

In [70]:
df_2019["VALOR LANÇADO"] = df_2019["VALOR LANÇADO"].str.replace(',', '.')
df_2019["VALOR LANÇADO"] = df_2019["VALOR LANÇADO"].astype(float)

In [71]:
df_2019["VALOR REALIZADO"] = df_2019["VALOR REALIZADO"].str.replace(',', '.')
df_2019["VALOR REALIZADO"] = df_2019["VALOR REALIZADO"].astype(float)

In [72]:
df_2019["PERCENTUAL REALIZADO"] = df_2019["PERCENTUAL REALIZADO"].str.replace(',', '.')
df_2019["PERCENTUAL REALIZADO"] = df_2019["PERCENTUAL REALIZADO"].astype(float)

In [73]:
df_2019["DATA LANÇAMENTO"] = pd.to_datetime(df_2019["DATA LANÇAMENTO"], format="%d/%m/%Y")

In [74]:
df_2019.info()

<class 'pandas.core.frame.DataFrame'>
Index: 176828 entries, 63000 to 20000
Data columns (total 15 columns):
 #   Column                     Non-Null Count   Dtype         
---  ------                     --------------   -----         
 0   NOME ÓRGÃO SUPERIOR        176828 non-null  object        
 1   CÓDIGO ÓRGÃO               176828 non-null  int64         
 2   NOME ÓRGÃO                 176828 non-null  object        
 3   CÓDIGO UNIDADE GESTORA     176828 non-null  int64         
 4   NOME UNIDADE GESTORA       176828 non-null  object        
 5   CATEGORIA ECONÔMICA        176828 non-null  object        
 6   ORIGEM RECEITA             176828 non-null  object        
 7   ESPÉCIE RECEITA            176828 non-null  object        
 8   DETALHAMENTO               176828 non-null  object        
 9   VALOR PREVISTO ATUALIZADO  176828 non-null  float64       
 10  VALOR LANÇADO              176828 non-null  float64       
 11  VALOR REALIZADO            176828 non-null  float64   

In [75]:
traducciones = {
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ÓRGANO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ÓRGANO',
    'NOME ÓRGÃO': 'NOMBRE ÓRGANO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'TIPO INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR LANZADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA LANZAMIENTO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO'
}

df_2019 = df_2019.rename(columns=traducciones)

### Nulos

In [145]:
sl.reporte(df_2019)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


In [168]:
df_2019.shape

(176828, 15)

**Manejo de nulos**

En el caso de la base de datos de 2019 vemos que hay un total de 86 nulos en la columna "FECHA DE LANZAMIENTO". Al tener casi 180.000 datos y corresponder a un 0,05% respecto al total de los datos, es factible rellenar los datos nulos con la fecha media para poder cubrir las celdas que no tienen datos, ya que no afectará significativamente al análisis.

In [146]:
df_2019["FECHA LANZAMIENTO"] = df_2019["FECHA LANZAMIENTO"].fillna(df_2019["FECHA LANZAMIENTO"].mean())

In [147]:
sl.reporte(df_2019)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


In [169]:
df_2019.to_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2019_limpio.csv", index=False, encoding='latin-1')

In [173]:
df_2019.sample()

Unnamed: 0_level_0,NOMBRE ÓRGANO SUPERIOR,CÓDIGO ÓRGANO,NOMBRE ÓRGANO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,TIPO INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR LANZADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA LANZAMIENTO,AÑO EJERCICIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
26000,Ministério da Educação,26236,Universidade Federal Fluminense,153056,UNIVERSIDADE FEDERAL FLUMINENSE,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0.0,0.0,109000.0,0.0,2019-01-28,2019


# 2020

In [77]:
df_2020 = pd.read_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2020.csv",index_col=0, sep=';', encoding='latin-1')

df_2020.head(1)

Unnamed: 0_level_0,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RESTITUIÇÃO DE CONVÊNIOS-PRIMÁRIAS-DÍV.ATIVA,0,0,551690,0,28/04/2020,2020


In [78]:
df_2020["VALOR PREVISTO ATUALIZADO"] = df_2020["VALOR PREVISTO ATUALIZADO"].str.replace(',', '.')
df_2020["VALOR PREVISTO ATUALIZADO"] = df_2020["VALOR PREVISTO ATUALIZADO"].astype(float)

In [79]:
df_2020["VALOR LANÇADO"] = df_2020["VALOR LANÇADO"].str.replace(',', '.')
df_2020["VALOR LANÇADO"] = df_2020["VALOR LANÇADO"].astype(float)

In [80]:
df_2020["VALOR REALIZADO"] = df_2020["VALOR REALIZADO"].str.replace(',', '.')
df_2020["VALOR REALIZADO"] = df_2020["VALOR REALIZADO"].astype(float)

In [81]:
df_2020["PERCENTUAL REALIZADO"] = df_2020["PERCENTUAL REALIZADO"].str.replace(',', '.')
df_2020["PERCENTUAL REALIZADO"] = df_2020["PERCENTUAL REALIZADO"].astype(float)

In [82]:
df_2020["DATA LANÇAMENTO"] = pd.to_datetime(df_2020["DATA LANÇAMENTO"], format="%d/%m/%Y")

In [83]:
df_2020.info()

<class 'pandas.core.frame.DataFrame'>
Index: 142348 entries, 63000 to 20000
Data columns (total 15 columns):
 #   Column                     Non-Null Count   Dtype         
---  ------                     --------------   -----         
 0   NOME ÓRGÃO SUPERIOR        142348 non-null  object        
 1   CÓDIGO ÓRGÃO               142348 non-null  int64         
 2   NOME ÓRGÃO                 142348 non-null  object        
 3   CÓDIGO UNIDADE GESTORA     142348 non-null  int64         
 4   NOME UNIDADE GESTORA       142348 non-null  object        
 5   CATEGORIA ECONÔMICA        142348 non-null  object        
 6   ORIGEM RECEITA             142348 non-null  object        
 7   ESPÉCIE RECEITA            142348 non-null  object        
 8   DETALHAMENTO               142348 non-null  object        
 9   VALOR PREVISTO ATUALIZADO  142348 non-null  float64       
 10  VALOR LANÇADO              142348 non-null  float64       
 11  VALOR REALIZADO            142348 non-null  float64   

In [84]:
traducciones = {
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ÓRGANO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ÓRGANO',
    'NOME ÓRGÃO': 'NOMBRE ÓRGANO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'TIPO INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR LANZADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA LANZAMIENTO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO'
}

df_2020 = df_2020.rename(columns=traducciones)

### Nulos

In [149]:
sl.reporte(df_2020)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


In [150]:
df_2020.shape

(142348, 15)

**Manejo de nulos**

En el caso de la base de datos de 2020 vemos que hay un total de 86 nulos en la columna "FECHA DE LANZAMIENTO". Al tener casi 150.000 datos y corresponder a un 0,06% respecto al total de los datos, es factible rellenar los datos nulos con la fecha media para poder cubrir las celdas que no tienen datos, ya que no afectará significativamente al análisis.

In [151]:
df_2020["FECHA LANZAMIENTO"] = df_2020["FECHA LANZAMIENTO"].fillna(df_2020["FECHA LANZAMIENTO"].mean())

In [152]:
sl.reporte(df_2020)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


In [153]:
df_2020.to_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2020_limpio.csv", index=False, encoding='latin-1')

In [174]:
df_2021.sample(2)

Unnamed: 0_level_0,NOMBRE ÓRGANO SUPERIOR,CÓDIGO ÓRGANO,NOMBRE ÓRGANO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,TIPO INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR LANZADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA LANZAMIENTO,AÑO EJERCICIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
25000,Ministério da Economia,28500,Fundo de Garantia para a Promoção da Competiti...,287001,FUNDO DE GAR.P/PROMOC.DA COMPETITIVIDADE±FGPC,Receitas Correntes,Receita Patrimonial,Valores Mobiliários,REMUNERACAO DE DEPOSITOS BANCARIOS-PRINCIPAL,0.0,0.0,101567.8,0.0,2021-08-19,2021
25000,Ministério da Economia,25000,Ministério da Economia - Unidades com vínculo ...,170013,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,VARIACAO CAMBIAL-PRINCIPAL,0.0,0.0,3797878000.0,0.0,2021-01-22,2021


# 2021

In [86]:
df_2021 = pd.read_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2021.csv",index_col=0, sep=';', encoding='latin-1')

df_2021.head(1)

Unnamed: 0_level_0,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,222403490400,0,0,0,23/04/2021,2021


In [87]:
df_2021["VALOR PREVISTO ATUALIZADO"] = df_2021["VALOR PREVISTO ATUALIZADO"].str.replace(',', '.')
df_2021["VALOR PREVISTO ATUALIZADO"] = df_2021["VALOR PREVISTO ATUALIZADO"].astype(float)

In [88]:
df_2021["VALOR LANÇADO"] = df_2021["VALOR LANÇADO"].str.replace(',', '.')
df_2021["VALOR LANÇADO"] = df_2021["VALOR LANÇADO"].astype(float)

In [89]:
df_2021["VALOR REALIZADO"] = df_2021["VALOR REALIZADO"].str.replace(',', '.')
df_2021["VALOR REALIZADO"] = df_2021["VALOR REALIZADO"].astype(float)

In [90]:
df_2021["PERCENTUAL REALIZADO"] = df_2021["PERCENTUAL REALIZADO"].str.replace(',', '.')
df_2021["PERCENTUAL REALIZADO"] = df_2021["PERCENTUAL REALIZADO"].astype(float)

In [91]:
df_2021["DATA LANÇAMENTO"] = pd.to_datetime(df_2021["DATA LANÇAMENTO"], format="%d/%m/%Y")

In [92]:
df_2021.info()

<class 'pandas.core.frame.DataFrame'>
Index: 134593 entries, 63000 to 20000
Data columns (total 15 columns):
 #   Column                     Non-Null Count   Dtype         
---  ------                     --------------   -----         
 0   NOME ÓRGÃO SUPERIOR        134593 non-null  object        
 1   CÓDIGO ÓRGÃO               134593 non-null  int64         
 2   NOME ÓRGÃO                 134593 non-null  object        
 3   CÓDIGO UNIDADE GESTORA     134593 non-null  int64         
 4   NOME UNIDADE GESTORA       134593 non-null  object        
 5   CATEGORIA ECONÔMICA        134593 non-null  object        
 6   ORIGEM RECEITA             134593 non-null  object        
 7   ESPÉCIE RECEITA            134593 non-null  object        
 8   DETALHAMENTO               134593 non-null  object        
 9   VALOR PREVISTO ATUALIZADO  134593 non-null  float64       
 10  VALOR LANÇADO              134593 non-null  float64       
 11  VALOR REALIZADO            134593 non-null  float64   

In [93]:
traducciones = {
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ÓRGANO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ÓRGANO',
    'NOME ÓRGÃO': 'NOMBRE ÓRGANO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'TIPO INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR LANZADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA LANZAMIENTO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO'
}

df_2021 = df_2021.rename(columns=traducciones)

### Nulos

In [154]:
sl.reporte(df_2021)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


In [155]:
df_2021.shape

(134593, 15)

**Manejo de nulos**

En el caso de la base de datos de 2021 vemos que hay un total de 123 nulos en la columna "FECHA DE LANZAMIENTO". Al tener casi 135.000 datos y corresponder a un 0,09% respecto al total de los datos, es factible rellenar los datos nulos con la fecha media para poder cubrir las celdas que no tienen datos, ya que no afectará significativamente al análisis.

In [156]:
df_2021["FECHA LANZAMIENTO"] = df_2021["FECHA LANZAMIENTO"].fillna(df_2021["FECHA LANZAMIENTO"].mean())

In [157]:
sl.reporte(df_2021)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_variables
NOMBRE ÓRGANO SUPERIOR,0,0.0,object
CÓDIGO ÓRGANO,0,0.0,int64
NOMBRE ÓRGANO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
TIPO INGRESO,0,0.0,object
DETALLE,0,0.0,object
VALOR PREVISTO ACTUALIZADO,0,0.0,float64


In [158]:
df_2021.to_csv("../11.Proyecto2_EDA-Ingresos-Publicos-Brasil/datos/datos-2021_limpio.csv", index=False, encoding='latin-1')

In [175]:
df_2021.sample(2)

Unnamed: 0_level_0,NOMBRE ÓRGANO SUPERIOR,CÓDIGO ÓRGANO,NOMBRE ÓRGANO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,TIPO INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR LANZADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA LANZAMIENTO,AÑO EJERCICIO
CÓDIGO ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
26000,Ministério da Educação,26262,Universidade Federal de São Paulo,153031,UNIFESP-UNIVERSIDADE FEDERAL DE SAO PAULO,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0.0,0.0,2033.22,0.0,2021-02-02,2021
25000,Ministério da Economia,30203,"Instituto Nacional de Metrologia, Qualidade e ...",183023,INSTITUTO NAC.DE METROLOG. QUALID. E TECNOLOG,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",MULTAS PREVISTAS EM LEGISL.ESPECIFICA-DIV.AT.,0.0,0.0,46170.86,0.0,2021-11-04,2021
