En este documento realizamos la carga de los datos y realizamos un análisis general de los distintos años. Revisaremos que todas las columnas contengan la información correcta, que los tipos de dato sean correctos, y realizaremos un tratamiento de los valores nulos y de los duplicados. Finalmente realizaremos la unión de todos los datos.

In [1]:
# Importamos las librerías a utilizar
import pandas as pd
import numpy as np
from src import funciones_soporte as fs

In [2]:
# Indicamos que queremos que nos enseñe por pantalla todas las columnas de los DataFrame que vamos a cargar
pd.set_option('display.max_columns', None)

# Análisis año a año del desarrollo económico de Brasil

## *Datos 2013*

In [3]:
# Nos ha surgido un problema a la hora de cargar los datos debido a que los datos no están en español, sino en portugués (son datos de Brasil).
# Para arreglar este problema aplicamos el encoding `latin-1`
datos_2013 = pd.read_csv("datos/datos-2013.csv", sep = ";", encoding = "latin-1")
datos_2013. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013


In [4]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2013 = datos_2013.copy()
copia_datos_2013.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013


Información general del DataFrame de 2013

In [5]:
# Realizamos una revisión de la información general del dataframe de los datos de 2013.
print(datos_2013.shape)
fs.info_df(datos_2013)

(4498, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,4498,0,0.0
NOME ÓRGÃO SUPERIOR,object,4498,0,0.0
CÓDIGO ÓRGÃO,int64,4498,0,0.0
NOME ÓRGÃO,object,4498,0,0.0
CÓDIGO UNIDADE GESTORA,int64,4498,0,0.0
NOME UNIDADE GESTORA,object,4498,0,0.0
CATEGORIA ECONÔMICA,object,4498,0,0.0
ORIGEM RECEITA,object,4498,0,0.0
ESPÉCIE RECEITA,object,4498,0,0.0
DETALHAMENTO,object,4498,0,0.0


In [6]:
# Nos encontramos con varias columnas que contienen datos númericos que tienen formato objeto. 

print(datos_2013["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2013["VALOR LANÇADO"].dtypes)
print(datos_2013["VALOR REALIZADO"].dtypes)
print(datos_2013["PERCENTUAL REALIZADO"].dtypes)

# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [7]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2013 = datos_2013.iloc[:,10: 14].columns
columnas_2013

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [8]:
# Aplicamos la función y revisamos que el cambio se ha realizado con éxito.
datos_2013 = fs.buscar_reemplazar(datos_2013, columnas_2013)
datos_2013.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,31/12/2013,2013


In [9]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2013["DATA LANÇAMENTO"].dtypes)
print(datos_2013["ANO EXERCÍCIO"].dtypes)

object
int64


In [10]:
datos_2013["DATA LANÇAMENTO"] = pd.to_datetime(datos_2013["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2013.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,2013-12-31,2013
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0.0,0.0,26666621.42,0.0,2013-12-31,2013


In [13]:
# Comprobamos que el cambio de tipo de dato se ha realizado correctamente.
datos_2013["DATA LANÇAMENTO"].dtypes

dtype('<M8[ns]')

In [14]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2013["DATA LANÇAMENTO"].info()

<class 'pandas.core.series.Series'>
RangeIndex: 4498 entries, 0 to 4497
Series name: DATA LANÇAMENTO
Non-Null Count  Dtype         
--------------  -----         
4498 non-null   datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 35.3 KB


Comprobamos que el cambio está bien realizado. En este caso nos aparece que el tipo de dato es `<M8[ns]`. Este tipo de dato se corresponde con datos de tipo fecha, solo que en vez de ser el tipo general, `datetime64[ns]`, nos está devolviendo un tipo de fecha específico. Esto no afecta en ningún momento a los datos ni al análisis.

In [15]:
# Volvemos a revisar la información general del dataframe tras haber realizado los cambios para ver que todo ha sido realizado de forma correcta.
fs.info_df(datos_2013)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,4498,0,0.0
NOME ÓRGÃO SUPERIOR,object,4498,0,0.0
CÓDIGO ÓRGÃO,int64,4498,0,0.0
NOME ÓRGÃO,object,4498,0,0.0
CÓDIGO UNIDADE GESTORA,int64,4498,0,0.0
NOME UNIDADE GESTORA,object,4498,0,0.0
CATEGORIA ECONÔMICA,object,4498,0,0.0
ORIGEM RECEITA,object,4498,0,0.0
ESPÉCIE RECEITA,object,4498,0,0.0
DETALHAMENTO,object,4498,0,0.0


In [16]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2013 = datos_2013.duplicated().sum()
numero_duplicados_df_2013

np.int64(0)

Información general sobre el dataframe de 2013:
- Todas las columnas contienen 4.498 entradas. 
- No existen entradas con valor nulo en ninguna de las columnas.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

## *Datos 2014*

In [17]:
# Importamos los datos del año 2014
datos_2014 = pd.read_csv("datos/datos-2014.csv", sep = ";", encoding = "latin-1")
datos_2014. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORÁRIOS DE ADVOGADOS,0,0,4669994808,0,31/12/2014,2014


In [18]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2014 = datos_2014.copy()
copia_datos_2014.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORÁRIOS DE ADVOGADOS,0,0,4669994808,0,31/12/2014,2014


Información general del DataFrame de 2014

In [19]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2014.shape)
fs.info_df(datos_2014)

(4553, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,4553,0,0.0
NOME ÓRGÃO SUPERIOR,object,4553,0,0.0
CÓDIGO ÓRGÃO,int64,4553,0,0.0
NOME ÓRGÃO,object,4553,0,0.0
CÓDIGO UNIDADE GESTORA,int64,4553,0,0.0
NOME UNIDADE GESTORA,object,4553,0,0.0
CATEGORIA ECONÔMICA,object,4553,0,0.0
ORIGEM RECEITA,object,4553,0,0.0
ESPÉCIE RECEITA,object,4553,0,0.0
DETALHAMENTO,object,4553,0,0.0


No hay valores nulos en el DataFrame de 2014

In [20]:
# Nos encontramos con varias columnas que contienen datos númericos que tienen formato objeto.
 
print(datos_2014["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2014["VALOR LANÇADO"].dtypes)
print(datos_2014["VALOR REALIZADO"].dtypes)
print(datos_2014["PERCENTUAL REALIZADO"].dtypes)

# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [21]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2014 = datos_2014.iloc[:,10: 14].columns
columnas_2014

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [22]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2014 = fs.buscar_reemplazar(datos_2014, columnas_2014)
datos_2014.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORÁRIOS DE ADVOGADOS,0.0,0.0,46699948.08,0.0,31/12/2014,2014


In [23]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2014["DATA LANÇAMENTO"].dtypes)
print(datos_2014["ANO EXERCÍCIO"].dtypes)

object
int64


In [24]:
datos_2014["DATA LANÇAMENTO"] = pd.to_datetime(datos_2014["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2014.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORÁRIOS DE ADVOGADOS,0.0,0.0,46699948.08,0.0,2014-12-31,2014
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",MULTAS E JUROS PREVISTOS EM CONTRATOS,0.0,0.0,15920.83,0.0,2014-12-31,2014


In [25]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2014["DATA LANÇAMENTO"].dtypes
# Como hemos comentado anteriormente el tipo <M8[ns] es correcto

dtype('<M8[ns]')

In [29]:
# Comprobamos que todos los cambios se han realizado correctamente
fs.info_df(datos_2014)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,4553,0,0.0
NOME ÓRGÃO SUPERIOR,object,4553,0,0.0
CÓDIGO ÓRGÃO,int64,4553,0,0.0
NOME ÓRGÃO,object,4553,0,0.0
CÓDIGO UNIDADE GESTORA,int64,4553,0,0.0
NOME UNIDADE GESTORA,object,4553,0,0.0
CATEGORIA ECONÔMICA,object,4553,0,0.0
ORIGEM RECEITA,object,4553,0,0.0
ESPÉCIE RECEITA,object,4553,0,0.0
DETALHAMENTO,object,4553,0,0.0


In [26]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2014 = datos_2014.duplicated().sum()
numero_duplicados_df_2014

np.int64(0)

Información general sobre el dataframe de 2014:
- Todas las columnas contienen 4.553 entradas. 
- No existen entradas con valor nulo en ninguna de las columnas.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

## *Datos 2015*

In [27]:
# Importamos los datos del año 2015
datos_2015 = pd.read_csv("datos/datos-2015.csv", sep = ";", encoding = "latin-1")
datos_2015. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORARIOS DE ADVOGADOS,0,0,6382985340,0,31/12/2015,2015


In [28]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2015 = datos_2015.copy()
copia_datos_2015.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORARIOS DE ADVOGADOS,0,0,6382985340,0,31/12/2015,2015


Información general del DataFrame de 2014

In [30]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2015.shape)
fs.info_df(datos_2015)

(4523, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,4523,0,0.0
NOME ÓRGÃO SUPERIOR,object,4523,0,0.0
CÓDIGO ÓRGÃO,int64,4523,0,0.0
NOME ÓRGÃO,object,4523,0,0.0
CÓDIGO UNIDADE GESTORA,int64,4523,0,0.0
NOME UNIDADE GESTORA,object,4523,0,0.0
CATEGORIA ECONÔMICA,object,4523,0,0.0
ORIGEM RECEITA,object,4523,0,0.0
ESPÉCIE RECEITA,object,4523,0,0.0
DETALHAMENTO,object,4523,0,0.0


In [31]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2015["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2015["VALOR LANÇADO"].dtypes)
print(datos_2015["VALOR REALIZADO"].dtypes)
print(datos_2015["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [32]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2015 = datos_2015.iloc[:,10: 14].columns
columnas_2015

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [33]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2015 = fs.buscar_reemplazar(datos_2015, columnas_2015)
datos_2015.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORARIOS DE ADVOGADOS,0.0,0.0,63829853.4,0.0,31/12/2015,2015


In [34]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2015["DATA LANÇAMENTO"].dtypes)
print(datos_2015["ANO EXERCÍCIO"].dtypes)

object
int64


In [35]:
datos_2015["DATA LANÇAMENTO"] = pd.to_datetime(datos_2015["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2015.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORARIOS DE ADVOGADOS,0.0,0.0,63829853.4,0.0,2015-12-31,2015


In [36]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2015["DATA LANÇAMENTO"].dtypes
# Como hemos comentado anteriormente el tipo <M8[ns] es correcto

dtype('<M8[ns]')

In [38]:
# Comprobamos que los cambios se han realizado correctamente
fs.info_df(datos_2015)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,4523,0,0.0
NOME ÓRGÃO SUPERIOR,object,4523,0,0.0
CÓDIGO ÓRGÃO,int64,4523,0,0.0
NOME ÓRGÃO,object,4523,0,0.0
CÓDIGO UNIDADE GESTORA,int64,4523,0,0.0
NOME UNIDADE GESTORA,object,4523,0,0.0
CATEGORIA ECONÔMICA,object,4523,0,0.0
ORIGEM RECEITA,object,4523,0,0.0
ESPÉCIE RECEITA,object,4523,0,0.0
DETALHAMENTO,object,4523,0,0.0


In [39]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2015 = datos_2015.duplicated().sum()
numero_duplicados_df_2015

np.int64(0)

Información general sobre el dataframe de 2015:
- Todas las columnas contienen 4.523 entradas. 
- No existen entradas con valor nulo en ninguna de las columnas.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

## *Datos 2016*

In [40]:
# Importamos los datos del año 2016
datos_2016 = pd.read_csv("datos/datos-2016.csv", sep = ";", encoding = "latin-1")
datos_2016. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,ENCARGOS LEGAIS PELA INSCR.EM DIV.ATIVA-PRINC,0,0,15494898,0,04/04/2016,2016


In [41]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2016 = datos_2016.copy()
copia_datos_2016.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,ENCARGOS LEGAIS PELA INSCR.EM DIV.ATIVA-PRINC,0,0,15494898,0,04/04/2016,2016


Información general sobre los datos de 2016.

In [42]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2016.shape)
fs.info_df(datos_2016)

(194533, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,194533,0,0.0
NOME ÓRGÃO SUPERIOR,object,194533,0,0.0
CÓDIGO ÓRGÃO,int64,194533,0,0.0
NOME ÓRGÃO,object,194533,0,0.0
CÓDIGO UNIDADE GESTORA,int64,194533,0,0.0
NOME UNIDADE GESTORA,object,194533,0,0.0
CATEGORIA ECONÔMICA,object,194533,0,0.0
ORIGEM RECEITA,object,194533,0,0.0
ESPÉCIE RECEITA,object,194533,0,0.0
DETALHAMENTO,object,194533,0,0.0


In [43]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2016["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2016["VALOR LANÇADO"].dtypes)
print(datos_2016["VALOR REALIZADO"].dtypes)
print(datos_2016["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [44]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2016 = datos_2016.iloc[:,10: 14].columns
columnas_2016

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [45]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2016 = fs.buscar_reemplazar(datos_2016, columnas_2016)
datos_2016.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,ENCARGOS LEGAIS PELA INSCR.EM DIV.ATIVA-PRINC,0.0,0.0,154948.98,0.0,04/04/2016,2016


In [46]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2016["DATA LANÇAMENTO"].dtypes)
print(datos_2016["ANO EXERCÍCIO"].dtypes)

object
int64


In [47]:
datos_2016["DATA LANÇAMENTO"] = pd.to_datetime(datos_2016["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2016.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,ENCARGOS LEGAIS PELA INSCR.EM DIV.ATIVA-PRINC,0.0,0.0,154948.98,0.0,2016-04-04,2016


In [48]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2016["DATA LANÇAMENTO"].dtypes
# Aunque nos devuelva en M8 está bien, pendiente explicación del M8.

dtype('<M8[ns]')

In [50]:
# Revisamos que los cambios se han realizado correctamente
fs.info_df(datos_2016)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,194533,0,0.0
NOME ÓRGÃO SUPERIOR,object,194533,0,0.0
CÓDIGO ÓRGÃO,int64,194533,0,0.0
NOME ÓRGÃO,object,194533,0,0.0
CÓDIGO UNIDADE GESTORA,int64,194533,0,0.0
NOME UNIDADE GESTORA,object,194533,0,0.0
CATEGORIA ECONÔMICA,object,194533,0,0.0
ORIGEM RECEITA,object,194533,0,0.0
ESPÉCIE RECEITA,object,194533,0,0.0
DETALHAMENTO,object,194533,0,0.0


In [49]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2016 = datos_2016.duplicated().sum()
numero_duplicados_df_2016

np.int64(0)

Información general sobre el dataframe de 2016:
- Todas las columnas contienen 194.533 entradas a excepción de la columna de fecha de registro de ejecución del ingreso (Data lançamento). 
- Encontramos la existencia de valores nulos (0,04%) en la columna de registro de ejecución del ingreso.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

A continuación vamos a realizar un análisis de los valores nulos encontrados en el dataframe para comprobar si se pueden rellenar con valores del dataframe, o si no hay forma de tratarlos.

In [51]:
# Vamos a comprobar cuales son los valores mínimos y máximos en la columna de fecha de registro de ejecución del ingreso. Buscamos que se 
# correspondan con el primer y el último día de un año natural.
print(datos_2016["DATA LANÇAMENTO"].min())
print(datos_2016["DATA LANÇAMENTO"].max())

2016-01-01 00:00:00
2016-12-31 00:00:00


In [52]:
# Vamos a comprobar si se pueden rellenar los valores nulos del dataset. Para ello, tras saber los valores mínimo y máximo de las fechas de resgitro,
# vamos a crear un rango de fechas entre ambas fechas. Se van a corresponder con todos los días del año natural. 
fecha_completa = pd.date_range(start=datos_2016["DATA LANÇAMENTO"].min(), end = datos_2016["DATA LANÇAMENTO"].max())
fecha_completa


DatetimeIndex(['2016-01-01', '2016-01-02', '2016-01-03', '2016-01-04',
               '2016-01-05', '2016-01-06', '2016-01-07', '2016-01-08',
               '2016-01-09', '2016-01-10',
               ...
               '2016-12-22', '2016-12-23', '2016-12-24', '2016-12-25',
               '2016-12-26', '2016-12-27', '2016-12-28', '2016-12-29',
               '2016-12-30', '2016-12-31'],
              dtype='datetime64[ns]', length=366, freq='D')

In [53]:
# Por otro lado queremos ver los valores únicos que nos encontramos en la columna de fecho de registro.
datos_2016["DATA LANÇAMENTO"].unique()

<DatetimeArray>
['2016-04-04 00:00:00', '2016-12-08 00:00:00', '2016-08-22 00:00:00',
 '2016-03-21 00:00:00', '2016-11-04 00:00:00', '2016-04-27 00:00:00',
 '2016-02-11 00:00:00', '2016-07-29 00:00:00', '2016-11-23 00:00:00',
 '2016-02-19 00:00:00',
 ...
 '2016-07-03 00:00:00', '2016-11-13 00:00:00', '2016-05-22 00:00:00',
 '2016-10-09 00:00:00', '2016-08-21 00:00:00', '2016-08-28 00:00:00',
 '2016-12-11 00:00:00', '2016-06-26 00:00:00', '2016-10-16 00:00:00',
 '2016-03-13 00:00:00']
Length: 361, dtype: datetime64[ns]

In [54]:
# A continuación revisamos si alguna de las fechas que hay en la columna no existe en el rango de fechas creado anteriormente. Para ello hacemos
# uso de la función difference, la cual nos devuelve un conjunto de datos con los elementos del conjunto original (fecha completa) que no están
# en el conjunto especificado.
fecha_completa.difference(datos_2016["DATA LANÇAMENTO"].unique())


DatetimeIndex(['2016-01-02', '2016-01-03', '2016-01-09', '2016-01-17',
               '2016-01-24', '2016-05-08'],
              dtype='datetime64[ns]', freq=None)

Podemos observar que las fechas se corresponden con los meses de enero y junio, es decir, en estas fechas no tenemos registros de ingresos. Esta casuística puede deberse a que estas fechas se corresponden con fechas de inicio o cierre del año contable, o fecha de transición entre trimestres por ejemplo. Asimismo hemos de tener en cuenta que en Brasil, en enero es verano, por lo que puede haber períodos de vacaciones, dando paso a retrasos administrativos.

In [55]:
# Una opción para rellenar estos valores de tipo fecha sería por importe numérico de las fechas de los mismos meses.

datos_2016.groupby(datos_2016["DATA LANÇAMENTO"].dt.month_name())['VALOR REALIZADO'].median().reset_index()

# Solo nos servirá el de valor realizado, ya que en el resto de columnas la mediana se encuentra en 0, lo cual no aprota ningún valor en este 
# punto del análisis.

Unnamed: 0,DATA LANÇAMENTO,VALOR REALIZADO
0,April,2048.11
1,August,2220.0
2,December,2139.85
3,February,1915.445
4,January,1345.2
5,July,2100.0
6,June,2000.0
7,March,1873.06
8,May,2082.5
9,November,2370.0


No encontramos un patrón en los ingresos percibimos mensualmente, por lo que no podremos rellenar los valores nulos con las fechas correspondientes. Trabajaremos con estos valores nulos haciendo mención a los mismos en el resto de documentos. 

## *Datos 2017*

In [56]:
# Importamos los datos del año 2017
datos_2017 = pd.read_csv("datos/datos-2017.csv", sep = ";", encoding = "latin-1")
datos_2017. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-PRINCIPAL,0,0,19800,0,29/08/2017,2017


In [58]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2017 = datos_2017.copy()
copia_datos_2017.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-PRINCIPAL,0,0,19800,0,29/08/2017,2017


In [57]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2017.shape)
fs.info_df(datos_2017)

(190479, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,190479,0,0.0
NOME ÓRGÃO SUPERIOR,object,190479,0,0.0
CÓDIGO ÓRGÃO,int64,190479,0,0.0
NOME ÓRGÃO,object,190479,0,0.0
CÓDIGO UNIDADE GESTORA,int64,190479,0,0.0
NOME UNIDADE GESTORA,object,190479,0,0.0
CATEGORIA ECONÔMICA,object,190479,0,0.0
ORIGEM RECEITA,object,190479,0,0.0
ESPÉCIE RECEITA,object,190479,0,0.0
DETALHAMENTO,object,190479,0,0.0


In [59]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2017["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2017["VALOR LANÇADO"].dtypes)
print(datos_2017["VALOR REALIZADO"].dtypes)
print(datos_2017["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [60]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2017 = datos_2017.iloc[:,10: 14].columns
columnas_2017

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [61]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2017 = fs.buscar_reemplazar(datos_2017, columnas_2017)
datos_2017.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-PRINCIPAL,0.0,0.0,198.0,0.0,29/08/2017,2017


In [62]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2017["DATA LANÇAMENTO"].dtypes)
print(datos_2017["ANO EXERCÍCIO"].dtypes)

object
int64


In [63]:
datos_2017["DATA LANÇAMENTO"] = pd.to_datetime(datos_2017["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2017.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-PRINCIPAL,0.0,0.0,198.0,0.0,2017-08-29,2017


In [64]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2017["DATA LANÇAMENTO"].dtypes
# Como hemos comentado anteriormente el tipo <M8[ns] es correcto.

dtype('<M8[ns]')

In [65]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2017 = datos_2017.duplicated().sum()
numero_duplicados_df_2017

np.int64(0)

In [66]:
# Comprobamos que todos los cambios se han realizado de manera correcta
fs.info_df(datos_2017)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,190479,0,0.0
NOME ÓRGÃO SUPERIOR,object,190479,0,0.0
CÓDIGO ÓRGÃO,int64,190479,0,0.0
NOME ÓRGÃO,object,190479,0,0.0
CÓDIGO UNIDADE GESTORA,int64,190479,0,0.0
NOME UNIDADE GESTORA,object,190479,0,0.0
CATEGORIA ECONÔMICA,object,190479,0,0.0
ORIGEM RECEITA,object,190479,0,0.0
ESPÉCIE RECEITA,object,190479,0,0.0
DETALHAMENTO,object,190479,0,0.0


Información general sobre el dataframe de 2017:
- Todas las columnas contienen 190.479 entradas a excepción de la columna de fecha de registro de ejecución del ingreso (Data lançamento). 
- Encontramos la existencia de valores nulos (0,05%) en la columna de registro de ejecución del ingreso.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

A continuación vamos a realizar un análisis de los valores nulos encontrados en el dataframe para comprobar si se pueden rellenar con valores del dataframe, o si no hay forma de tratarlos.

In [67]:
# Vamos a comprobar cuales son los valores mínimos y máximos en la columna de fecha de registro de ejecución del ingreso. Buscamos que se 
# correspondan con el primer y el último día de un año natural.
print(datos_2017["DATA LANÇAMENTO"].min())
print(datos_2017["DATA LANÇAMENTO"].max())

2017-01-01 00:00:00
2017-12-31 00:00:00


In [68]:
# Vamos a comprobar si se pueden rellenar los valores nulos del dataset. Para ello, tras saber los valores mínimo y máximo de las fechas de resgitro,
# vamos a crear un rango de fechas entre ambas fechas. Se van a corresponder con todos los días del año natural. 
fecha_completa_2017 = pd.date_range(start=datos_2017["DATA LANÇAMENTO"].min(), end = datos_2017["DATA LANÇAMENTO"].max())
fecha_completa_2017

DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
               '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08',
               '2017-01-09', '2017-01-10',
               ...
               '2017-12-22', '2017-12-23', '2017-12-24', '2017-12-25',
               '2017-12-26', '2017-12-27', '2017-12-28', '2017-12-29',
               '2017-12-30', '2017-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')

In [69]:
# Por otro lado queremos ver los valores únicos que nos encontramos en la columna de fecho de registro.
datos_2017["DATA LANÇAMENTO"].unique()

<DatetimeArray>
['2017-08-29 00:00:00', '2017-02-10 00:00:00', '2017-11-27 00:00:00',
 '2017-11-13 00:00:00', '2017-05-03 00:00:00', '2017-02-13 00:00:00',
 '2017-08-22 00:00:00', '2017-12-01 00:00:00', '2017-10-10 00:00:00',
 '2017-12-28 00:00:00',
 ...
 '2017-03-05 00:00:00', '2017-03-12 00:00:00', '2017-10-08 00:00:00',
 '2017-08-06 00:00:00', '2017-07-16 00:00:00', '2017-07-23 00:00:00',
 '2017-04-23 00:00:00', '2017-01-22 00:00:00', '2017-06-18 00:00:00',
 '2017-03-19 00:00:00']
Length: 366, dtype: datetime64[ns]

In [70]:
# A continuación revisamos si alguna de las fechas que hay en la columna no existe en el rango de fechas creado anteriormente. Para ello hacemos
# uso de la función difference, la cual nos devuelve un conjunto de datos con los elementos del conjunto original (fecha completa) que no están
# en el conjunto especificado.
fecha_completa_2017.difference(datos_2017["DATA LANÇAMENTO"].unique())

DatetimeIndex([], dtype='datetime64[ns]', freq='D')

En este caso observamos que ha habido registros en todas las fechas del año, por lo que no podremos buscar un patrón que nos ayude a rellenar los valores nulos. Trabajaremos con estos valores en el dataset haciendo mención a los mismos en el resto de documentos.


## *Datos 2018*

In [71]:
# Importamos los datos del año 2018
datos_2018 = pd.read_csv("datos/datos-2018.csv", sep = ";", encoding = "latin-1")
datos_2018. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receitas Correntes - a classificar,Receitas Correntes - a classificar,Receitas Correntes - a classificar,0,0,-169372,0,25/07/2018,2018


In [72]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2018 = datos_2018.copy()
copia_datos_2018.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receitas Correntes - a classificar,Receitas Correntes - a classificar,Receitas Correntes - a classificar,0,0,-169372,0,25/07/2018,2018


In [73]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2018.shape)
fs.info_df(datos_2018)

(173944, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,173944,0,0.0
NOME ÓRGÃO SUPERIOR,object,173944,0,0.0
CÓDIGO ÓRGÃO,int64,173944,0,0.0
NOME ÓRGÃO,object,173944,0,0.0
CÓDIGO UNIDADE GESTORA,int64,173944,0,0.0
NOME UNIDADE GESTORA,object,173944,0,0.0
CATEGORIA ECONÔMICA,object,173944,0,0.0
ORIGEM RECEITA,object,173944,0,0.0
ESPÉCIE RECEITA,object,173944,0,0.0
DETALHAMENTO,object,173944,0,0.0


In [74]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2018["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2018["VALOR LANÇADO"].dtypes)
print(datos_2018["VALOR REALIZADO"].dtypes)
print(datos_2018["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [75]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2018 = datos_2018.iloc[:,10: 14].columns
columnas_2018

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [76]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2018 = fs.buscar_reemplazar(datos_2018, columnas_2018)
datos_2018.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receitas Correntes - a classificar,Receitas Correntes - a classificar,Receitas Correntes - a classificar,0.0,0.0,-1693.72,0.0,25/07/2018,2018


In [77]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2018["DATA LANÇAMENTO"].dtypes)
print(datos_2018["ANO EXERCÍCIO"].dtypes)

object
int64


In [78]:
# Aplicamos el cambio a tipo fecha a la columna de registro de ejecución del ingreso 
datos_2018["DATA LANÇAMENTO"] = pd.to_datetime(datos_2018["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2018.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receitas Correntes - a classificar,Receitas Correntes - a classificar,Receitas Correntes - a classificar,0.0,0.0,-1693.72,0.0,2018-07-25,2018


In [79]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2018["DATA LANÇAMENTO"].dtypes
# Como hemos comentado anteriormente el tipo <M8[ns] es correcto.

dtype('<M8[ns]')

In [80]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2018 = datos_2018.duplicated().sum()
numero_duplicados_df_2018

np.int64(0)

In [81]:
# Comprobamos que todos los cambios se han realizado de manera correcta
fs.info_df(datos_2018)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,173944,0,0.0
NOME ÓRGÃO SUPERIOR,object,173944,0,0.0
CÓDIGO ÓRGÃO,int64,173944,0,0.0
NOME ÓRGÃO,object,173944,0,0.0
CÓDIGO UNIDADE GESTORA,int64,173944,0,0.0
NOME UNIDADE GESTORA,object,173944,0,0.0
CATEGORIA ECONÔMICA,object,173944,0,0.0
ORIGEM RECEITA,object,173944,0,0.0
ESPÉCIE RECEITA,object,173944,0,0.0
DETALHAMENTO,object,173944,0,0.0


Información general sobre el dataframe de 2018:
- Todas las columnas contienen 173.944 entradas a excepción de la columna de fecha de registro de ejecución del ingreso (Data lançamento). 
- Encontramos la existencia de valores nulos (0,07%) en la columna de registro de ejecución del ingreso.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

A continuación vamos a realizar un análisis de los valores nulos encontrados en el dataframe para comprobar si se pueden rellenar con valores del dataframe, o si no hay forma de tratarlos.

In [82]:
# Vamos a comprobar cuales son los valores mínimos y máximos en la columna de fecha de registro de ejecución del ingreso. Buscamos que se 
# correspondan con el primer y el último día de un año natural.
print(datos_2018["DATA LANÇAMENTO"].min())
print(datos_2018["DATA LANÇAMENTO"].max())

2018-01-01 00:00:00
2018-12-31 00:00:00


In [83]:
# Vamos a comprobar si se pueden rellenar los valores nulos del dataset. Para ello, tras saber los valores mínimo y máximo de las fechas de resgitro,
# vamos a crear un rango de fechas entre ambas fechas. Se van a corresponder con todos los días del año natural. 
fecha_completa_2018 = pd.date_range(start=datos_2018["DATA LANÇAMENTO"].min(), end = datos_2018["DATA LANÇAMENTO"].max())
fecha_completa_2018

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06', '2018-01-07', '2018-01-08',
               '2018-01-09', '2018-01-10',
               ...
               '2018-12-22', '2018-12-23', '2018-12-24', '2018-12-25',
               '2018-12-26', '2018-12-27', '2018-12-28', '2018-12-29',
               '2018-12-30', '2018-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')

In [84]:
# Por otro lado queremos ver los valores únicos que nos encontramos en la columna de fecho de registro.
datos_2018["DATA LANÇAMENTO"].unique()

<DatetimeArray>
['2018-07-25 00:00:00', '2018-08-02 00:00:00', '2018-02-27 00:00:00',
 '2018-02-26 00:00:00', '2018-03-05 00:00:00', '2018-07-26 00:00:00',
 '2018-03-01 00:00:00', '2018-10-29 00:00:00', '2018-07-05 00:00:00',
 '2018-10-30 00:00:00',
 ...
 '2018-10-28 00:00:00', '2018-06-03 00:00:00', '2018-08-05 00:00:00',
 '2018-01-13 00:00:00', '2018-05-13 00:00:00', '2018-03-18 00:00:00',
 '2018-02-18 00:00:00', '2018-04-22 00:00:00', '2018-11-04 00:00:00',
 '2018-12-16 00:00:00']
Length: 366, dtype: datetime64[ns]

In [85]:
# A continuación revisamos si alguna de las fechas que hay en la columna no existe en el rango de fechas creado anteriormente. Para ello hacemos
# uso de la función difference, la cual nos devuelve un conjunto de datos con los elementos del conjunto original (fecha completa) que no están
# en el conjunto especificado.
fecha_completa_2018.difference(datos_2018["DATA LANÇAMENTO"].unique())

DatetimeIndex([], dtype='datetime64[ns]', freq='D')

En este caso observamos que ha habido registros en todas las fechas del año, por lo que no podremos buscar un patrón que nos ayude a rellenar los valores nulos. Trabajaremos con estos valores en el dataset haciendo mención a los mismos en el resto de documentos.


## *Datos 2019*

In [86]:
# Importamos los datos del año 2019
datos_2019 = pd.read_csv("datos/datos-2019.csv", sep = ";", encoding = "latin-1")
datos_2019. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0,0,-9500,0,12/06/2019,2019


In [87]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2019 = datos_2019.copy()
copia_datos_2019.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0,0,-9500,0,12/06/2019,2019


In [88]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2019.shape)
fs.info_df(datos_2019)

(176828, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,176828,0,0.0
NOME ÓRGÃO SUPERIOR,object,176828,0,0.0
CÓDIGO ÓRGÃO,int64,176828,0,0.0
NOME ÓRGÃO,object,176828,0,0.0
CÓDIGO UNIDADE GESTORA,int64,176828,0,0.0
NOME UNIDADE GESTORA,object,176828,0,0.0
CATEGORIA ECONÔMICA,object,176828,0,0.0
ORIGEM RECEITA,object,176828,0,0.0
ESPÉCIE RECEITA,object,176828,0,0.0
DETALHAMENTO,object,176828,0,0.0


In [89]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2019["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2019["VALOR LANÇADO"].dtypes)
print(datos_2019["VALOR REALIZADO"].dtypes)
print(datos_2019["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [90]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2019 = datos_2019.iloc[:,10: 14].columns
columnas_2019

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [91]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2019 = fs.buscar_reemplazar(datos_2019, columnas_2019)
datos_2019.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0.0,0.0,-95.0,0.0,12/06/2019,2019


In [92]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2019["DATA LANÇAMENTO"].dtypes)
print(datos_2019["ANO EXERCÍCIO"].dtypes)

object
int64


In [93]:
# Aplicamos el cambio a tipo fecha a la columna de registro de ejecución del ingreso 
datos_2019["DATA LANÇAMENTO"] = pd.to_datetime(datos_2019["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2019.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0.0,0.0,-95.0,0.0,2019-06-12,2019


In [94]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2019["DATA LANÇAMENTO"].dtypes
# Aunque nos devuelva en M8 está bien, pendiente explicación del M8.

dtype('<M8[ns]')

In [95]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2019 = datos_2019.duplicated().sum()
numero_duplicados_df_2019

np.int64(0)

In [96]:
# Comprobamos que todos los cambios se han realizado de manera correcta
fs.info_df(datos_2019)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,176828,0,0.0
NOME ÓRGÃO SUPERIOR,object,176828,0,0.0
CÓDIGO ÓRGÃO,int64,176828,0,0.0
NOME ÓRGÃO,object,176828,0,0.0
CÓDIGO UNIDADE GESTORA,int64,176828,0,0.0
NOME UNIDADE GESTORA,object,176828,0,0.0
CATEGORIA ECONÔMICA,object,176828,0,0.0
ORIGEM RECEITA,object,176828,0,0.0
ESPÉCIE RECEITA,object,176828,0,0.0
DETALHAMENTO,object,176828,0,0.0


Información general sobre el dataframe de 2019:
- Todas las columnas contienen 176.828 entradas a excepción de la columna de fecha de registro de ejecución del ingreso (Data lançamento). 
- Encontramos la existencia de valores nulos (0,05%) en la columna de registro de ejecución del ingreso.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

A continuación vamos a realizar un análisis de los valores nulos encontrados en el dataframe para comprobar si se pueden rellenar con valores del dataframe, o si no hay forma de tratarlos.

In [97]:
# Vamos a comprobar cuales son los valores mínimos y máximos en la columna de fecha de registro de ejecución del ingreso. Buscamos que se 
# correspondan con el primer y el último día de un año natural.
print(datos_2019["DATA LANÇAMENTO"].min())
print(datos_2019["DATA LANÇAMENTO"].max())

2019-01-01 00:00:00
2019-12-31 00:00:00


In [98]:
# Vamos a comprobar si se pueden rellenar los valores nulos del dataset. Para ello, tras saber los valores mínimo y máximo de las fechas de resgitro,
# vamos a crear un rango de fechas entre ambas fechas. Se van a corresponder con todos los días del año natural. 
fecha_completa_2019 = pd.date_range(start=datos_2019["DATA LANÇAMENTO"].min(), end = datos_2019["DATA LANÇAMENTO"].max())
fecha_completa_2019

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
               '2019-01-09', '2019-01-10',
               ...
               '2019-12-22', '2019-12-23', '2019-12-24', '2019-12-25',
               '2019-12-26', '2019-12-27', '2019-12-28', '2019-12-29',
               '2019-12-30', '2019-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')

In [99]:
# Por otro lado queremos ver los valores únicos que nos encontramos en la columna de fecho de registro.
datos_2019["DATA LANÇAMENTO"].unique()

<DatetimeArray>
['2019-06-12 00:00:00', '2019-05-07 00:00:00', '2019-03-01 00:00:00',
 '2019-02-27 00:00:00', '2019-04-18 00:00:00', '2019-08-12 00:00:00',
 '2019-03-28 00:00:00', '2019-05-21 00:00:00', '2019-05-09 00:00:00',
 '2019-08-01 00:00:00',
 ...
 '2019-02-16 00:00:00', '2019-06-08 00:00:00', '2019-05-11 00:00:00',
 '2019-03-05 00:00:00', '2019-08-25 00:00:00', '2019-02-02 00:00:00',
 '2019-12-29 00:00:00', '2019-08-04 00:00:00', '2019-05-25 00:00:00',
 '2019-10-27 00:00:00']
Length: 366, dtype: datetime64[ns]

In [100]:
# A continuación revisamos si alguna de las fechas que hay en la columna no existe en el rango de fechas creado anteriormente. Para ello hacemos
# uso de la función difference, la cual nos devuelve un conjunto de datos con los elementos del conjunto original (fecha completa) que no están
# en el conjunto especificado.
fecha_completa_2019.difference(datos_2019["DATA LANÇAMENTO"].unique())

DatetimeIndex([], dtype='datetime64[ns]', freq='D')

En este caso observamos que ha habido registros en todas las fechas del año, por lo que no podremos buscar un patrón que nos ayude a rellenar los valores nulos. Trabajaremos con estos valores en el dataset haciendo mención a los mismos en el resto de documentos.


## *Datos 2020*

In [102]:
# Importamos los datos del año 2019
datos_2020 = pd.read_csv("datos/datos-2020.csv", sep = ";", encoding = "latin-1")
datos_2020. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RESTITUIÇÃO DE CONVÊNIOS-PRIMÁRIAS-DÍV.ATIVA,0,0,551690,0,28/04/2020,2020


In [103]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2020 = datos_2020.copy()
copia_datos_2020.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RESTITUIÇÃO DE CONVÊNIOS-PRIMÁRIAS-DÍV.ATIVA,0,0,551690,0,28/04/2020,2020


In [110]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2020.shape)
fs.info_df(datos_2020)

(142348, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,142348,0,0.0
NOME ÓRGÃO SUPERIOR,object,142348,0,0.0
CÓDIGO ÓRGÃO,int64,142348,0,0.0
NOME ÓRGÃO,object,142348,0,0.0
CÓDIGO UNIDADE GESTORA,int64,142348,0,0.0
NOME UNIDADE GESTORA,object,142348,0,0.0
CATEGORIA ECONÔMICA,object,142348,0,0.0
ORIGEM RECEITA,object,142348,0,0.0
ESPÉCIE RECEITA,object,142348,0,0.0
DETALHAMENTO,object,142348,0,0.0


In [111]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2020["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2020["VALOR LANÇADO"].dtypes)
print(datos_2020["VALOR REALIZADO"].dtypes)
print(datos_2020["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [112]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2020 = datos_2020.iloc[:,10: 14].columns
columnas_2020

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [113]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2020 = fs.buscar_reemplazar(datos_2020, columnas_2020)
datos_2020.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RESTITUIÇÃO DE CONVÊNIOS-PRIMÁRIAS-DÍV.ATIVA,0.0,0.0,5516.9,0.0,28/04/2020,2020


In [114]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2020["DATA LANÇAMENTO"].dtypes)
print(datos_2020["ANO EXERCÍCIO"].dtypes)

object
int64


In [115]:
# Aplicamos el cambio a tipo fecha a la columna de registro de ejecución del ingreso 
datos_2020["DATA LANÇAMENTO"] = pd.to_datetime(datos_2020["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2020.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RESTITUIÇÃO DE CONVÊNIOS-PRIMÁRIAS-DÍV.ATIVA,0.0,0.0,5516.9,0.0,2020-04-28,2020


In [117]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2020["DATA LANÇAMENTO"].dtypes
# El m8 está bien

dtype('<M8[ns]')

In [118]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2020 = datos_2020.duplicated().sum()
numero_duplicados_df_2020

np.int64(0)

In [119]:
# Comprobamos que todos los cambios se han realizado de manera correcta
fs.info_df(datos_2020)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,142348,0,0.0
NOME ÓRGÃO SUPERIOR,object,142348,0,0.0
CÓDIGO ÓRGÃO,int64,142348,0,0.0
NOME ÓRGÃO,object,142348,0,0.0
CÓDIGO UNIDADE GESTORA,int64,142348,0,0.0
NOME UNIDADE GESTORA,object,142348,0,0.0
CATEGORIA ECONÔMICA,object,142348,0,0.0
ORIGEM RECEITA,object,142348,0,0.0
ESPÉCIE RECEITA,object,142348,0,0.0
DETALHAMENTO,object,142348,0,0.0


Información general sobre el dataframe de 2020:
- Todas las columnas contienen 142.348 entradas a excepción de la columna de fecha de registro de ejecución del ingreso (Data lançamento). 
- Encontramos la existencia de valores nulos (0,06%) en la columna de registro de ejecución del ingreso.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

A continuación vamos a realizar un análisis de los valores nulos encontrados en el dataframe para comprobar si se pueden rellenar con valores del dataframe, o si no hay forma de tratarlos.

In [120]:
# Vamos a comprobar cuales son los valores mínimos y máximos en la columna de fecha de registro de ejecución del ingreso. Buscamos que se 
# correspondan con el primer y el último día de un año natural.
print(datos_2020["DATA LANÇAMENTO"].min())
print(datos_2020["DATA LANÇAMENTO"].max())
# Me falta el 31 de diciembre

2020-01-01 00:00:00
2020-12-30 00:00:00


In [121]:
# Vamos a comprobar si se pueden rellenar los valores nulos del dataset. Para ello, tras saber los valores mínimo y máximo de las fechas de resgitro,
# vamos a crear un rango de fechas entre ambas fechas. Se van a corresponder con todos los días del año natural. 
fecha_completa_2020 = pd.date_range(start=datos_2020["DATA LANÇAMENTO"].min(), end = '2020-12-31')
fecha_completa_2020

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10',
               ...
               '2020-12-22', '2020-12-23', '2020-12-24', '2020-12-25',
               '2020-12-26', '2020-12-27', '2020-12-28', '2020-12-29',
               '2020-12-30', '2020-12-31'],
              dtype='datetime64[ns]', length=366, freq='D')

In [122]:
# A continuación revisamos si alguna de las fechas que hay en la columna no existe en el rango de fechas creado anteriormente. Para ello hacemos
# uso de la función difference, la cual nos devuelve un conjunto de datos con los elementos del conjunto original (fecha completa) que no están
# en el conjunto especificado.
fecha_completa_2020.difference(datos_2020["DATA LANÇAMENTO"].unique())

DatetimeIndex(['2020-03-29', '2020-12-25', '2020-12-27', '2020-12-31'], dtype='datetime64[ns]', freq=None)

Podemos observar que las fechas se corresponden con los meses de marzo y diciembre, es decir, en estas fechas no tenemos registros de ingresos. Esta casuística puede deberse a que estas fechas se corresponden con fechas de inicio o cierre del año contable, o fecha de transición entre trimestres por ejemplo.

In [123]:
# Una opción para rellenar estos valores de tipo fecha sería por importe numérico de las fechas de los mismos meses.

datos_2020.groupby(datos_2020["DATA LANÇAMENTO"].dt.month_name())['VALOR REALIZADO'].median().reset_index()

# Solo nos servirá el de valor realizado, ya que en el resto de columnas la mediana se encuentra en 0, lo cual no aprota ningún valor en este 
# punto del análisis.

Unnamed: 0,DATA LANÇAMENTO,VALOR REALIZADO
0,April,4745.67
1,August,4811.945
2,December,4479.61
3,February,3300.0
4,January,2488.0
5,July,5244.73
6,June,4986.105
7,March,4065.0
8,May,4848.0
9,November,4816.295


No encontramos un patrón en los ingresos percibimos mensualmente, por lo que no podremos rellenar los valores nulos con las fechas correspondientes. Trabajaremos con estos valores nulos haciendo mención a los mismos en el resto de documentos. 

## *Datos 2021*

In [124]:
# Importamos los datos del año 2019
datos_2021 = pd.read_csv("datos/datos-2021.csv", sep = ";", encoding = "latin-1")
datos_2021. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,222403490400,0,0,0,23/04/2021,2021


In [125]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2021 = datos_2021.copy()
copia_datos_2021.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,222403490400,0,0,0,23/04/2021,2021


In [126]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2021.shape)
fs.info_df(datos_2021)

(134593, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,134593,0,0.0
NOME ÓRGÃO SUPERIOR,object,134593,0,0.0
CÓDIGO ÓRGÃO,int64,134593,0,0.0
NOME ÓRGÃO,object,134593,0,0.0
CÓDIGO UNIDADE GESTORA,int64,134593,0,0.0
NOME UNIDADE GESTORA,object,134593,0,0.0
CATEGORIA ECONÔMICA,object,134593,0,0.0
ORIGEM RECEITA,object,134593,0,0.0
ESPÉCIE RECEITA,object,134593,0,0.0
DETALHAMENTO,object,134593,0,0.0


In [127]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2021["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2021["VALOR LANÇADO"].dtypes)
print(datos_2021["VALOR REALIZADO"].dtypes)
print(datos_2021["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [128]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2021 = datos_2021.iloc[:,10: 14].columns
columnas_2021

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [129]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2021 = fs.buscar_reemplazar(datos_2021, columnas_2021)
datos_2021.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,2224035000.0,0.0,0.0,0.0,23/04/2021,2021


In [130]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2021["DATA LANÇAMENTO"].dtypes)
print(datos_2021["ANO EXERCÍCIO"].dtypes)

object
int64


In [131]:
# Aplicamos el cambio a tipo fecha a la columna de registro de ejecución del ingreso 
datos_2021["DATA LANÇAMENTO"] = pd.to_datetime(datos_2021["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2021.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,2224035000.0,0.0,0.0,0.0,2021-04-23,2021


In [133]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2021["DATA LANÇAMENTO"].dtypes


dtype('<M8[ns]')

In [134]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2021 = datos_2021.duplicated().sum()
numero_duplicados_df_2021

np.int64(0)

In [135]:
# Comprobamos que todos los cambios se han realizado de manera correcta
fs.info_df(datos_2021)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,134593,0,0.0
NOME ÓRGÃO SUPERIOR,object,134593,0,0.0
CÓDIGO ÓRGÃO,int64,134593,0,0.0
NOME ÓRGÃO,object,134593,0,0.0
CÓDIGO UNIDADE GESTORA,int64,134593,0,0.0
NOME UNIDADE GESTORA,object,134593,0,0.0
CATEGORIA ECONÔMICA,object,134593,0,0.0
ORIGEM RECEITA,object,134593,0,0.0
ESPÉCIE RECEITA,object,134593,0,0.0
DETALHAMENTO,object,134593,0,0.0


Información general sobre el dataframe de 2021:
- Todas las columnas contienen 134.593 entradas a excepción de la columna de fecha de registro de ejecución del ingreso (Data lançamento). 
- Encontramos la existencia de valores nulos (0,09%) en la columna de registro de ejecución del ingreso.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

A continuación vamos a realizar un análisis de los valores nulos encontrados en el dataframe para comprobar si se pueden rellenar con valores del dataframe, o si no hay forma de tratarlos.

In [136]:
# Vamos a comprobar cuales son los valores mínimos y máximos en la columna de fecha de registro de ejecución del ingreso. Buscamos que se 
# correspondan con el primer y el último día de un año natural.
print(datos_2021["DATA LANÇAMENTO"].min())
print(datos_2021["DATA LANÇAMENTO"].max())

2021-01-01 00:00:00
2021-12-03 00:00:00


In [137]:
# Vamos a comprobar si se pueden rellenar los valores nulos del dataset. Para ello, tras saber los valores mínimo y máximo de las fechas de resgitro,
# vamos a crear un rango de fechas entre ambas fechas. Se van a corresponder con todos los días del año natural. 
fecha_completa_2021 = pd.date_range(start=datos_2021["DATA LANÇAMENTO"].min(), end = '2021-12-31')
fecha_completa_2021

DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04',
               '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08',
               '2021-01-09', '2021-01-10',
               ...
               '2021-12-22', '2021-12-23', '2021-12-24', '2021-12-25',
               '2021-12-26', '2021-12-27', '2021-12-28', '2021-12-29',
               '2021-12-30', '2021-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')

In [138]:
# Por otro lado queremos ver los valores únicos que nos encontramos en la columna de fecho de registro.
datos_2021["DATA LANÇAMENTO"].unique()

<DatetimeArray>
['2021-04-23 00:00:00', '2021-04-16 00:00:00', '2021-01-26 00:00:00',
 '2021-03-16 00:00:00', '2021-09-27 00:00:00', '2021-11-17 00:00:00',
 '2021-08-03 00:00:00', '2021-02-04 00:00:00', '2021-02-05 00:00:00',
 '2021-05-19 00:00:00',
 ...
 '2021-02-07 00:00:00', '2021-02-06 00:00:00', '2021-01-16 00:00:00',
 '2021-01-03 00:00:00', '2021-01-17 00:00:00', '2021-10-09 00:00:00',
 '2021-02-14 00:00:00', '2021-01-09 00:00:00', '2021-01-23 00:00:00',
 '2021-01-24 00:00:00']
Length: 338, dtype: datetime64[ns]

In [139]:
# A continuación revisamos si alguna de las fechas que hay en la columna no existe en el rango de fechas creado anteriormente. Para ello hacemos
# uso de la función difference, la cual nos devuelve un conjunto de datos con los elementos del conjunto original (fecha completa) que no están
# en el conjunto especificado.
fecha_completa_2021.difference(datos_2021["DATA LANÇAMENTO"].unique())

DatetimeIndex(['2021-12-04', '2021-12-05', '2021-12-06', '2021-12-07',
               '2021-12-08', '2021-12-09', '2021-12-10', '2021-12-11',
               '2021-12-12', '2021-12-13', '2021-12-14', '2021-12-15',
               '2021-12-16', '2021-12-17', '2021-12-18', '2021-12-19',
               '2021-12-20', '2021-12-21', '2021-12-22', '2021-12-23',
               '2021-12-24', '2021-12-25', '2021-12-26', '2021-12-27',
               '2021-12-28', '2021-12-29', '2021-12-30', '2021-12-31'],
              dtype='datetime64[ns]', freq='D')

Podemos observar que las fechas se corresponden con el mes de diciembre, es decir, en estas fechas no tenemos registros de ingresos. Esta casuística puede deberse a que estas fechas se corresponden con fechas de inicio o cierre del año contable, o fecha de transición entre trimestres por ejemplo. Asimismo hemos de tener en cuenta que en Brasil, en enero es verano, por lo que puede haber períodos de vacaciones, dando paso a retrasos administrativos.

In [140]:
# Una opción para rellenar estos valores de tipo fecha sería por importe numérico de las fechas de los mismos meses.

datos_2021.groupby(datos_2021["DATA LANÇAMENTO"].dt.month_name())['VALOR REALIZADO'].median().reset_index()

# Solo nos servirá el de valor realizado, ya que en el resto de columnas la mediana se encuentra en 0, lo cual no aprota ningún valor en este 
# punto del análisis.

Unnamed: 0,DATA LANÇAMENTO,VALOR REALIZADO
0,April,2247.71
1,August,4546.62
2,December,2382.44
3,February,4866.885
4,January,4677.28
5,July,4872.0
6,June,4499.99
7,March,4510.0
8,May,4499.2
9,November,4851.44


No encontramos un patrón en los ingresos percibimos mensualmente, por lo que no podremos rellenar los valores nulos con las fechas correspondientes. Trabajaremos con estos valores nulos haciendo mención a los mismos en el resto de documentos. 

# Revisar si dejar estas conclusiones aquí y si poner más cosas
**Conclusiones generales**

- Hemos encontrado valores nulos a partir del año 2016, los cuales no hemos podido rellenar ya que no hay patrones.
- El número de registros presenta una tendencia ascendente según pasa el tiempo. Entendemos que el volumen de ingresos se ha ido incrementando con el tiempo. Revisaremos este punto de vista más tarde. Aún así hay años concretos en los que las entradas de información total son menores, analizaremos estos puntos más tarde en detalle.

Finalmente realizamos la unión de todos los dataframes. Para ello haremos uso de la concatenación, ya que nos encontramos ante datos de tipo temporal. Busacremos concatenarlos unos encima de otros, iniciando en 2013 y finalizando en 2021.

In [141]:
datos_brasil = pd.concat([datos_2013, datos_2014, datos_2015, datos_2016,datos_2017, datos_2018, datos_2019, datos_2020, datos_2021], axis = 0, ignore_index = True)
datos_brasil.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,2013-12-31,2013
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0.0,0.0,26666621.42,0.0,2013-12-31,2013


In [142]:
datos_brasil.tail(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
1026297,20000,Presidência da República,24208,Instituto Nacional de Tecnologia da Informação,243001,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",0.0,0.0,1000000.0,0.0,2021-05-10,2021
1026298,20000,Presidência da República,24208,Instituto Nacional de Tecnologia da Informação,243001,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",0.0,0.0,1000000.0,0.0,2021-03-23,2021


In [143]:
datos_brasil.sample(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
87584,26000,Ministério da Educação,26411,Instituto Federal do Sudeste de Minas Gerais,158123,INSTITUTO FED CIENCIA TECNOL SUDESTE MG,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0.0,0.0,12280.0,0.0,2016-05-17,2016
819070,26000,Ministério da Educação,26298,Fundo Nacional de Desenvolvimento da Educação,153173,FUNDO NACIONAL DE DESENVOLVIMENTO DA EDUCACAO,Receitas Correntes,Contribuições,Contribuições sociais,CONTRIB.SOCIAL SALÁRIO-EDUCAÇÃO-PARCEL-PRINC.,0.0,0.0,1774764.06,0.0,2020-04-30,2020


Comprobamos que la unión se ha realizado de forma correcta.

In [148]:
# Comprobamos que la suma de todos los datos de los diferentes dataframes se corresponde con el dato puesto en el shape del dataframe concatenado,
# así como el total de nulos.
print(datos_brasil.shape)
total_datos = datos_2013.shape[0] + datos_2014.shape[0] + datos_2015.shape[0] + datos_2016.shape[0] + datos_2017.shape[0] + datos_2018.shape[0] + datos_2019.shape[0] + datos_2020.shape[0] + datos_2021.shape[0] 
print(total_datos)
total_nulos = datos_2016.isnull().sum() + datos_2017.isnull().sum() + datos_2018.isnull().sum() + datos_2019.isnull().sum() + datos_2020.isnull().sum() + datos_2021.isnull().sum() 
print(total_nulos)

(1026299, 16)
1026299
CÓDIGO ÓRGÃO SUPERIOR          0
NOME ÓRGÃO SUPERIOR            0
CÓDIGO ÓRGÃO                   0
NOME ÓRGÃO                     0
CÓDIGO UNIDADE GESTORA         0
NOME UNIDADE GESTORA           0
CATEGORIA ECONÔMICA            0
ORIGEM RECEITA                 0
ESPÉCIE RECEITA                0
DETALHAMENTO                   0
VALOR PREVISTO ATUALIZADO      0
VALOR LANÇADO                  0
VALOR REALIZADO                0
PERCENTUAL REALIZADO           0
DATA LANÇAMENTO              578
ANO EXERCÍCIO                  0
dtype: int64


In [149]:
# Revisamos la inforamción del dataset final
fs.info_df(datos_brasil)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,1026299,0,0.0
NOME ÓRGÃO SUPERIOR,object,1026299,0,0.0
CÓDIGO ÓRGÃO,int64,1026299,0,0.0
NOME ÓRGÃO,object,1026299,0,0.0
CÓDIGO UNIDADE GESTORA,int64,1026299,0,0.0
NOME UNIDADE GESTORA,object,1026299,0,0.0
CATEGORIA ECONÔMICA,object,1026299,0,0.0
ORIGEM RECEITA,object,1026299,0,0.0
ESPÉCIE RECEITA,object,1026299,0,0.0
DETALHAMENTO,object,1026299,0,0.0


In [150]:
# Guardamos la unión en formato pkl para que se guarde toda la información correctamente
pd.to_pickle(datos_brasil, "datos/datos_brasil.pkl")

## Evaluación por columnas tras concatenación

En el dataset nos encontramos con datos que no se corresponden con valores con sentido en el contexto en el que nos encontramos. Por eso analizaremos estos puntos a continuación:
- Valores igual a cero en la previsión de ingresos.
- Valores negativos.
- Número de codigos de organización y de organización gestora mayor al número de nombres.

## *Previsión de ingresos*

En la previsión de los ingresos tenemos una serie de entradas que contienen valores igual a cero. Analizamos a continuación esta casuística año por año para comprobar si hay un patrón concreto en los datos.

### 2013

In [164]:
# Vamos a comprobar los valores diferentes de 0 en las previsiones.
previsiones_2013 = datos_brasil[(datos_brasil["VALOR PREVISTO ATUALIZADO"] != 0) & (datos_brasil["ANO EXERCÍCIO"] == 2013)]
previsiones_2013
# Vemos que todas las previsiones del año 2013 han sido realizadas el 31 de diciembre

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
14,37000,Controladoria-Geral da União,66000,Controladoria-Geral da União,110174,DIRETORIA DE GESTAO INTERNA/SE/CGU,Receitas Correntes,Receita de Serviços,Receita de Serviços,OUTROS SERVICOS FINANCEIROS,1800000.0,0.0,0.000000e+00,0.0,2013-12-31,2013
19,37000,Controladoria-Geral da União,66000,Controladoria-Geral da União,110174,DIRETORIA DE GESTAO INTERNA/SE/CGU,Receitas de Capital,Transferências de Capital,Transferências de Instituições Privadas,Transferências de Instituições Privadas,403603.0,0.0,0.000000e+00,0.0,2013-12-31,2013
20,22000,"Ministério da Agricultura, Pecuária e Abastec",22202,Empresa Brasileira de Pesquisa Agropecuária,135037,EMBRAPA-SETORIAL,Receitas de Capital,Alienação de Bens,Alienação de bens móveis,ALIENACAO DE VEICULOS,640279.0,0.0,9.859397e+05,154.0,2013-12-31,2013
21,22000,"Ministério da Agricultura, Pecuária e Abastec",22000,"Ministério da Agricultura, Pecuária e Abasteci...",130101,COORD.-GERAL DE ORCAMENTO E FINANCAS-MAPA,Receitas de Capital,Alienação de Bens,Alienação de bens móveis,ALIENACAO DE VEICULOS,358413.0,0.0,1.943075e+05,54.0,2013-12-31,2013
22,22000,"Ministério da Agricultura, Pecuária e Abastec",22211,Companhia Nacional de Abastecimento,135100,COMPANHIA NACIONAL DE ABASTECIMENTO,Receitas de Capital,Alienação de Bens,Alienação de bens móveis,ALIENACAO DE VEICULOS,111097.0,0.0,6.832399e+04,61.0,2013-12-31,2013
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4469,20000,Presidência da República,20101,Presidência da República,110005,SECRETARIA DE ADMINISTRACAO-SET.ORC.E FIN./PR,Receitas Correntes,Receita Patrimonial,Exploração de recursos naturais,PART.ESPEC.PROD.PETRO.OU GAS NAT.CONCES.2010,952586313.0,0.0,0.000000e+00,0.0,2013-12-31,2013
4470,20000,Presidência da República,20116,Fundo de Imprensa Nacional,110245,FUNDO DE IMPRENSA NACIONAL/EXEC.ORC.FINANC.,Receitas Correntes,Receita Industrial,Receitas da indústria de transformação,RECEITA DA INDUSTRIA EDITORIAL E GRAFICA,62713552.0,0.0,7.150874e+07,114.0,2013-12-31,2013
4491,20000,Presidência da República,20101,Presidência da República,110005,SECRETARIA DE ADMINISTRACAO-SET.ORC.E FIN./PR,Receitas Correntes,Receita Patrimonial,Exploração de recursos naturais,ROYAL.EXCED.PROD.PETR.GAS.NAT.PLATA-CONC.2010,488386078.0,0.0,0.000000e+00,0.0,2013-12-31,2013
4496,20000,Presidência da República,20116,Fundo de Imprensa Nacional,110245,FUNDO DE IMPRENSA NACIONAL/EXEC.ORC.FINANC.,Receitas Correntes - intra-orçamentárias,Receita Industrial,Receitas da indústria de transformação,RECEITA DA INDUSTRIA EDITORIAL E GRAFICA,120839273.0,0.0,1.612860e+08,133.0,2013-12-31,2013


In [165]:
# Observamos que estos valores parecen ser todos de diciembre.
previsiones_2013["DATA LANÇAMENTO"].unique()

<DatetimeArray>
['2013-12-31 00:00:00']
Length: 1, dtype: datetime64[ns]

In [166]:
# Comprobamos los valores iguales a cero en las previsiones
previsiones_2013_0 = datos_brasil[(datos_brasil["VALOR PREVISTO ATUALIZADO"] == 0) & (datos_brasil["ANO EXERCÍCIO"] == 2013)]
previsiones_2013_0["DATA LANÇAMENTO"].unique()

<DatetimeArray>
['2013-12-31 00:00:00']
Length: 1, dtype: datetime64[ns]

In [168]:
print(previsiones_2013_0["DATA LANÇAMENTO"].unique())

<DatetimeArray>
['2013-12-31 00:00:00']
Length: 1, dtype: datetime64[ns]


En 2013 todas las previsiones han sido realizadas en diciembre.

Estos valores no nulos se van a corresponder con el acumulado anual, es decir, para "x" categoría encontraremos previsiones nulas y no nulas. Las previsiones no nulas son la previsión realizada para esa categoría concreta, realizada de forma anual, por lo que en el resto de categorías ese valor previsto no se indica en la entrada. Aún así, es importante que puede haber categorías en las que se realice una previsión de 0.

## *Valores negativos*

### Previsiones negativas

Las previsiones de ingresos negativas se han realizado únicamente en el año 2017. Estas previsiones se corresponden principalmente con ingresos corrientes, en concreto con ingresos provenientes de servicios, ingresos patrimoniales y amortizaciones de empréstitos.

Los ingresos negativos provenientes de ingresos de capital tienen su origen en las amortizaciones de empréstios. En este caso, estas amprtizaciones se están dotando como un menor ingreso, se esá devolviendo el principal del préstamo concedido. Estos empréstitos posiblemente provenían de préstamos internacionales concedidos a Brasil a causa de su crisis entre 2015/2016 (confirmar esta ultima información). Esta forma de registrar los ingresos tiene como objetivo reducir la carga de la deuda pública (revisar)

El resto de ingresos negativos (forman parte de los ingresos corrientes) provienen por una parte de los ingresos por servicios, más concretamente de servicios y actividades financieras. En concreto son devoluciones del principal de préstamos, y concesiones de avales, por lo que la lógica aplicada será similar a la explicada anteriormente. 

Por otro lado tenemos los ingresos provenientes de valores mobiliarios, es decir los ingresos provenientes de títulos financieros, como acciones y obligaciones. En este caso provienen de ingresos por acciones y remuneraciones provenientes del principal de depósitos bancarios.

pendiente explicar en todos bien porqué los valores son negativos

In [171]:
previsiones_negativas= datos_brasil[datos_brasil["VALOR PREVISTO ATUALIZADO"] < 0]
previsiones_negativas

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
213293,22000,"Ministério da Agricultura, Pecuária e Abastec",20129,Secretaria Especial de Agricultura Familiar e ...,110690,SEC.ESPEC.DE AGRIC.FAMIL.E DO DESENV.AGRARIO,Receitas Correntes,Receita de Serviços,Serviços e Atividades Financeiras,"RETORNO DE OP.,JUR.E ENC.FINANCEIROS-PRINC.",-19264302.0,0.0,0.0,0.0,2017-03-29,2017
213299,22000,"Ministério da Agricultura, Pecuária e Abastec",20129,Secretaria Especial de Agricultura Familiar e ...,110690,SEC.ESPEC.DE AGRIC.FAMIL.E DO DESENV.AGRARIO,Receitas de Capital,Amortizações de Empréstimos,Amortizações de Empréstimos,AMORTIZACAO DE FINANCIAMENTOS-PRINCIPAL,-39057100.0,0.0,0.0,0.0,2017-03-29,2017
213417,22000,"Ministério da Agricultura, Pecuária e Abastec",20129,Secretaria Especial de Agricultura Familiar e ...,110690,SEC.ESPEC.DE AGRIC.FAMIL.E DO DESENV.AGRARIO,Receitas Correntes,Receita Patrimonial,Valores Mobiliários,REMUNERACAO DE DEPOSITOS BANCARIOS-PRINCIPAL,-49471218.0,0.0,0.0,0.0,2017-03-29,2017
258641,25000,Ministério da Economia,25000,Ministério da Economia - Unidades com vínculo ...,170013,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,Receitas Correntes,Receita Patrimonial,Valores Mobiliários,JUROS DE TITULOS DE RENDA-PRINCIPAL,-17492297.0,0.0,0.0,0.0,2017-01-23,2017
258877,25000,Ministério da Economia,25000,Ministério da Economia - Unidades com vínculo ...,170013,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,Receitas Correntes,Receita de Serviços,Serviços e Atividades Financeiras,"CONCESSAO DE AVAIS,GARANTIAS E SEGUROS-PRINC.",-162479446.0,0.0,0.0,0.0,2017-01-23,2017
263269,25000,Ministério da Economia,25000,Ministério da Economia - Unidades com vínculo ...,170013,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,Receitas Correntes,Receita Patrimonial,Valores Mobiliários,REMUNERACAO DE DEPOSITOS BANCARIOS-PRINCIPAL,-214773743.0,0.0,0.0,0.0,2017-01-23,2017


### Ingresos registrados negativos

Los ingresos negativos registrados se han dado entre 2016 y 2021. En los años anteriores no encontramos registros de valores negativos.
Estos registros forman parte de los ingresos corrientes, y los ingresos de capital, así como de las entradas sin información. Explicamos la proveniencia de los mismos a continuación:

-  Ingresos corrientes: dentro de estos ingresos nos encontramos que los ingresos provienen de impuestos, tarifas y aportaciones de mejoras, contribuciones, ingresos patrimoniales y otros ingresos patrimoniales.
- Ingresos de capital: estos ingresos provienen de operaciones de crédito de mercado interno.Dentro de esta categoría se encuentran los préstamos obligaotrios, que son impuestos, los cuales tienen un destino específico. Sirven para atender a gastos extradordinarios derivados de necesidades públicas, entre otros.
- Ingresos sin información: Estos ingresos se corresponden  a la procuraduría general del tesoro nacional. Pendiente entender que hace este departamento.

In [197]:
# Vamos a ir aplicando filtros al dataframe que contiene los valores negativos
registros_negativas= datos_brasil[datos_brasil["VALOR LANÇADO"] < 0]
registros_negativas

# A continuación se encuentran los filtros utilizados para llegar a las conclusiones explicadas anteriormente. En caso de querer comprobar su funcionamiento
# es necesario descomentarlos.

# registros_negativas["CATEGORIA ECONÔMICA"].unique()
# registros_negativas["ANO EXERCÍCIO"].unique()
# registros_negativas[registros_negativas["CATEGORIA ECONÔMICA"] == "Receitas Correntes"]["ORIGEM RECEITA"].unique()
# registros_negativas[registros_negativas["CATEGORIA ECONÔMICA"] == "Receitas de Capital"]["ORIGEM RECEITA"].unique()
# registros_negativas[registros_negativas["ORIGEM RECEITA"] == "Operações de Crédito"]["ESPÉCIE RECEITA"].unique()
# registros_negativas[registros_negativas["ESPÉCIE RECEITA"] == "Operações de crédito - mercado interno"]["DETALHAMENTO"].unique()
# registros_negativas[registros_negativas["ESPÉCIE RECEITA"] == "Sem informação"]
 

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
50643,25000,Ministério da Economia,25000,Ministério da Economia - Unidades com vínculo ...,170010,SECRETARIA DA RECEITA FEDERAL DO BRASIL-RFB,Receitas Correntes,"Impostos, Taxas e Contribuições de Melhoria",Impostos,IRPJ-LIQUIDA DE INCENTIVOS-MULTAS E JUROS,0.0,-3.054139e+09,0.0,0.0,2016-04-29,2016
50647,25000,Ministério da Economia,25000,Ministério da Economia - Unidades com vínculo ...,170010,SECRETARIA DA RECEITA FEDERAL DO BRASIL-RFB,Receitas Correntes,"Impostos, Taxas e Contribuições de Melhoria",Impostos,IRPJ-LIQUIDA DE INCENTIVOS-MULTAS E JUROS,0.0,-1.975057e+08,0.0,0.0,2016-03-17,2016
50800,25000,Ministério da Economia,25000,Ministério da Economia - Unidades com vínculo ...,170010,SECRETARIA DA RECEITA FEDERAL DO BRASIL-RFB,Receitas Correntes,"Impostos, Taxas e Contribuições de Melhoria",Impostos,IRPJ-LIQUIDA DE INCENTIVOS-MULTAS E JUROS,0.0,-2.697528e+09,0.0,0.0,2016-12-07,2016
50804,25000,Ministério da Economia,25000,Ministério da Economia - Unidades com vínculo ...,170010,SECRETARIA DA RECEITA FEDERAL DO BRASIL-RFB,Receitas Correntes,"Impostos, Taxas e Contribuições de Melhoria",Impostos,IRPJ-LIQUIDA DE INCENTIVOS-MULTAS E JUROS,0.0,-4.388450e+07,0.0,0.0,2016-06-14,2016
50805,25000,Ministério da Economia,25000,Ministério da Economia - Unidades com vínculo ...,170010,SECRETARIA DA RECEITA FEDERAL DO BRASIL-RFB,Receitas Correntes,"Impostos, Taxas e Contribuições de Melhoria",Impostos,IRPJ-LIQUIDA DE INCENTIVOS-MULTAS E JUROS,0.0,-2.386120e+08,0.0,0.0,2016-09-30,2016
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
949202,25000,Ministério da Economia,25000,Ministério da Economia - Unidades com vínculo ...,170010,SECRETARIA DA RECEITA FEDERAL DO BRASIL-RFB,Receitas Correntes,"Impostos, Taxas e Contribuições de Melhoria",Impostos,IMPOSTO SOBRE A EXPORTACAO-PRINCIPAL,0.0,-3.148315e+06,0.0,0.0,2021-09-21,2021
949416,25000,Ministério da Economia,25000,Ministério da Economia - Unidades com vínculo ...,170010,SECRETARIA DA RECEITA FEDERAL DO BRASIL-RFB,Receitas Correntes,"Impostos, Taxas e Contribuições de Melhoria",Impostos,ITR-MUNICIPIOS CONVENIADOS-MULTAS E JUROS,0.0,-1.297134e+08,0.0,0.0,2021-05-18,2021
949428,25000,Ministério da Economia,25000,Ministério da Economia - Unidades com vínculo ...,170010,SECRETARIA DA RECEITA FEDERAL DO BRASIL-RFB,Receitas Correntes,"Impostos, Taxas e Contribuições de Melhoria",Impostos,ITR-MUNICIPIOS CONVENIADOS-MULTAS E JUROS,0.0,-1.299363e+08,0.0,0.0,2021-03-19,2021
1025474,54000,Ministério do Turismo,20203,Agência Nacional do Cinema,203003,AGENCIA NACIONAL DO CINEMA,Receitas Correntes,Contribuições,Contribuições econômicas,CONDECINE-PRINCIPAL,0.0,-9.852936e+04,0.0,0.0,2021-11-05,2021


### Ingresos recaudados negativos

Los ingresos negativos recaudados se han dado entre en todos los años analizados (2013 - 2021). Estos registros forman parte de los ingresos corrientes y de capital, e ingresos corrientes y de capital intrapresupuestarios. Explicamos la proveniencia de los mismos a continuación:

- Ingresos corrientes: estos ingresos provienen de ingresos de servicios, ingresos patrimoniales, contribuciones, transferencias correintes, ingresos industriales, ingresos agropecuarios, impuestos, tasas y contribuciones de mejoría otros ingresos corrientes. 
- Ingresos de capital: estos ingresos provienen de alinaciones de bienes, transferencias de capital, opraciones de crédito, amortizaciones de empréstitos y otros ingresos de capital.
- Ingresos corrientes intrapresupuestarios: estos ingresos provienen de ingresos de servicios, ingresos patrimoniales, ingresos industriales, impuestos, tasas y contribuciones de mejoría, otros ingresos corrientes y contribuciones.
- Ingresos de capital intrapresupuestarios: estos ingresos provienen de la alienación de bienes móviles (rpoveniencia de varios sitios) e inmóviles (estos últimos provienen de bienes inmóviles, de multas y juros).


In [208]:
recaudaciones_negativas= datos_brasil[datos_brasil["VALOR REALIZADO"] < 0]
recaudaciones_negativas

# A continuación se encuentran los filtros utilizados para llegar a las conclusiones explicadas anteriormente. En caso de querer comprobar su funcionamiento
# es necesario descomentarlos.

# rcaudaciones_negativas["CATEGORIA ECONÔMICA"].unique()
# recaudaciones_negativas["ANO EXERCÍCIO"].unique()
# recaudaciones_negativas[recaudaciones_negativas["CATEGORIA ECONÔMICA"] == "Receitas Correntes"]["ORIGEM RECEITA"].unique()
# recaudaciones_negativas[recaudaciones_negativas["CATEGORIA ECONÔMICA"] == "Receitas de Capital"]["ORIGEM RECEITA"].unique()
# recaudaciones_negativas[recaudaciones_negativas["CATEGORIA ECONÔMICA"] == "Receitas Correntes - intra-orçamentárias"]["ORIGEM RECEITA"].unique()
# recaudaciones_negativas[recaudaciones_negativas["CATEGORIA ECONÔMICA"] == "Receitas de Capital - intra-orçamentárias"]["ORIGEM RECEITA"].unique()
# recaudaciones_negativas[recaudaciones_negativas["ORIGEM RECEITA"] == "Alienação de Bens"]["ESPÉCIE RECEITA"].unique()
# recaudaciones_negativas[recaudaciones_negativas["ESPÉCIE RECEITA"] == "Alienação de bens imóveis"]["DETALHAMENTO"].unique()

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
53,22000,"Ministério da Agricultura, Pecuária e Abastec",22211,Companhia Nacional de Abastecimento,135100,COMPANHIA NACIONAL DE ABASTECIMENTO,Receitas de Capital,Alienação de Bens,Alienação de bens móveis,ALIENACAO DE TITULOS MOBILIARIOS,0.0,0.0,-35.20,0.0,2013-12-31,2013
78,22000,"Ministério da Agricultura, Pecuária e Abastec",22211,Companhia Nacional de Abastecimento,135100,COMPANHIA NACIONAL DE ABASTECIMENTO,Receitas de Capital,Alienação de Bens,Alienação de bens móveis,ALIENACAO DE OUTROS BENS MOVEIS,1031.0,0.0,-1224.80,-119.0,2013-12-31,2013
81,22000,"Ministério da Agricultura, Pecuária e Abastec",22000,"Ministério da Agricultura, Pecuária e Abasteci...",130101,COORD.-GERAL DE ORCAMENTO E FINANCAS-MAPA,Receitas de Capital,Alienação de Bens,Alienação de bens móveis,ALIENACAO DE OUTROS BENS MOVEIS,359956.0,0.0,-35007.50,-10.0,2013-12-31,2013
135,22000,"Ministério da Agricultura, Pecuária e Abastec",22202,Empresa Brasileira de Pesquisa Agropecuária,135037,EMBRAPA-SETORIAL,Receitas Correntes,Receita de Serviços,Receita de Serviços,OUTROS SERVICOS COMERCIAIS,0.0,0.0,-37.90,0.0,2013-12-31,2013
543,52000,Ministério da Defesa,52121,Comando do Exército,160075,D CONT - SETORIAL FINANCEIRA,Receitas Correntes,Receita Patrimonial,Demais receitas patrimoniais,Demais receitas patrimoniais,0.0,0.0,-91.00,0.0,2013-12-31,2013
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1025368,54000,Ministério do Turismo,20404,Fundação Biblioteca Nacional,344042,FUNDACAO BIBLIOTECA NACIONAL,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,0.0,0.0,-40.00,0.0,2021-11-11,2021
1025515,54000,Ministério do Turismo,20203,Agência Nacional do Cinema,203003,AGENCIA NACIONAL DO CINEMA,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",MULTAS PREVISTAS EM LEGISL.ESPECIFICA-DIV.AT.,0.0,0.0,-794.60,0.0,2021-04-01,2021
1025519,54000,Ministério do Turismo,20203,Agência Nacional do Cinema,203003,AGENCIA NACIONAL DO CINEMA,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",MULTAS PREVISTAS EM LEGISL.ESPECIFICA-DIV.AT.,0.0,0.0,-18841.35,0.0,2021-07-01,2021
1025561,54000,Ministério do Turismo,20203,Agência Nacional do Cinema,203003,AGENCIA NACIONAL DO CINEMA,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",MULTAS PREVISTAS EM LEGISL.ESPECIFICA-PRINC.,0.0,0.0,-683.54,0.0,2021-09-01,2021


## *Códigos y organizaciones*