En este documento realizamos la carga de los datos y realizamos un análisis general de los distintos años. Revisaremos que todas las columnas contengan los datos correctos, que los tipos de dato sean correctos, realizaremos un tratamiento de los valores nulos y de los duplicados. Finalmente realizaremos la unión de todos los datos.

In [1]:
# Importamos las librerías a utilizar
import pandas as pd
import numpy as np
from src import funciones_soporte as fs

In [2]:
# Indicamos que queremos que nos enseñe por pantalla todas las columnas de los DataFrame que vamos a cargar
pd.set_option('display.max_columns', None)

# Análisis año a año del desarrollo económico de Brasil

**Datos 2013**

In [3]:
# Nos ha surgido un problema a la hora de cargar los datos debido a que los datos no están en español, sino en portugués (son datos de Brasil).
# Para arreglar este problema aplicamos el encoding `latin-1`
datos_2013 = pd.read_csv("datos/datos-2013.csv", sep = ";", encoding = "latin-1")
datos_2013. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013


In [4]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2013 = datos_2013.copy()
copia_datos_2013.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013


Información general del DataFrame de 2013

In [5]:
# Realizamos una revisión de la información general del dataframe de los datos de 2013.
print(datos_2013.shape)
fs.info_df(datos_2013)

(4498, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,4498,0,0.0
NOME ÓRGÃO SUPERIOR,object,4498,0,0.0
CÓDIGO ÓRGÃO,int64,4498,0,0.0
NOME ÓRGÃO,object,4498,0,0.0
CÓDIGO UNIDADE GESTORA,int64,4498,0,0.0
NOME UNIDADE GESTORA,object,4498,0,0.0
CATEGORIA ECONÔMICA,object,4498,0,0.0
ORIGEM RECEITA,object,4498,0,0.0
ESPÉCIE RECEITA,object,4498,0,0.0
DETALHAMENTO,object,4498,0,0.0


In [6]:
# Nos encontramos con varias columnas que contienen datos númericos que tienen formato objeto. 

print(datos_2013["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2013["VALOR LANÇADO"].dtypes)
print(datos_2013["VALOR REALIZADO"].dtypes)
print(datos_2013["PERCENTUAL REALIZADO"].dtypes)

# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [7]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2013 = datos_2013.iloc[:,10: 14].columns
columnas_2013

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [8]:
# Para poder realizar el cambio de estas columnas del tipo de dato, anteriormente necesitaremos cambiar las comas por puntos, ya que python
# no reconoce las comas en los números, solo los puntos. Para ello aplicaremos un replace sobre cada uno de los elementos de las columnas, 
# y pediremos que nos modifique las comas por puntos.
def buscar_reemplazar(dataframe, columnas):

    """
    Función que cambia los datos numéricos de una columna de un dataframe, que están en tipo string, y contienen comas. 

    Args:
        dataframe (DataFrame): Dataframe que contiene las columnas a modificar
        columnas (lista de columnas del DataFrame): lista de columnas del DataFrame, de las cuales se quiere realizar el cambio de datos.

    Returns:
        DataFrame: dataframe con las columnas indicadas con los datos numéricos cambiados a tipo float.
    """
    for columna in columnas:
    
        dataframe[columna] = dataframe[columna].str.replace(",", ".").astype(float)

    return dataframe

In [9]:
# Aplicamos la función y revisamos que el cambio se ha realizado con éxito.
datos_2013 = buscar_reemplazar(datos_2013, columnas_2013)
datos_2013.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,31/12/2013,2013


In [10]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2013["DATA LANÇAMENTO"].dtypes)
print(datos_2013["ANO EXERCÍCIO"].dtypes)

object
int64


In [11]:
datos_2013["DATA LANÇAMENTO"] = pd.to_datetime(datos_2013["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2013.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,2013-12-31,2013
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0.0,0.0,26666621.42,0.0,2013-12-31,2013


In [12]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2013["DATA LANÇAMENTO"].info()

<class 'pandas.core.series.Series'>
RangeIndex: 4498 entries, 0 to 4497
Series name: DATA LANÇAMENTO
Non-Null Count  Dtype         
--------------  -----         
4498 non-null   datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 35.3 KB


In [14]:
# Volvemos a revisar la información general del dataframe tras haber realizado los cambios para ver que todo ha sido realizado de forma correcta.
fs.info_df(datos_2013)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,4498,0,0.0
NOME ÓRGÃO SUPERIOR,object,4498,0,0.0
CÓDIGO ÓRGÃO,int64,4498,0,0.0
NOME ÓRGÃO,object,4498,0,0.0
CÓDIGO UNIDADE GESTORA,int64,4498,0,0.0
NOME UNIDADE GESTORA,object,4498,0,0.0
CATEGORIA ECONÔMICA,object,4498,0,0.0
ORIGEM RECEITA,object,4498,0,0.0
ESPÉCIE RECEITA,object,4498,0,0.0
DETALHAMENTO,object,4498,0,0.0


In [15]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2013 = datos_2013.duplicated().sum()
numero_duplicados_df_2013

np.int64(0)

Información general sobre el dataframe de 2013:
- Todas las columnas contienen 4.498 entradas. 
- No existen entradas con valor nulo en ninguna de las columnas.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

**Datos 2014**

In [16]:
# Importamos los datos del año 2014
datos_2014 = pd.read_csv("datos/datos-2014.csv", sep = ";", encoding = "latin-1")
datos_2014. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORÁRIOS DE ADVOGADOS,0,0,4669994808,0,31/12/2014,2014


In [17]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2014 = datos_2014.copy()
copia_datos_2014.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORÁRIOS DE ADVOGADOS,0,0,4669994808,0,31/12/2014,2014


Información general del DataFrame de 2014

In [19]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2014.shape)
fs.info_df(datos_2014)

(4553, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,4553,0,0.0
NOME ÓRGÃO SUPERIOR,object,4553,0,0.0
CÓDIGO ÓRGÃO,int64,4553,0,0.0
NOME ÓRGÃO,object,4553,0,0.0
CÓDIGO UNIDADE GESTORA,int64,4553,0,0.0
NOME UNIDADE GESTORA,object,4553,0,0.0
CATEGORIA ECONÔMICA,object,4553,0,0.0
ORIGEM RECEITA,object,4553,0,0.0
ESPÉCIE RECEITA,object,4553,0,0.0
DETALHAMENTO,object,4553,0,0.0


No hay valores nulos en el DataFrame de 2014

In [20]:
# Nos encontramos con varias columnas que contienen datos númericos que tienen formato objeto.
 
print(datos_2014["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2014["VALOR LANÇADO"].dtypes)
print(datos_2014["VALOR REALIZADO"].dtypes)
print(datos_2014["PERCENTUAL REALIZADO"].dtypes)

# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [21]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2014 = datos_2014.iloc[:,10: 14].columns
columnas_2014

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [22]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2014 = buscar_reemplazar(datos_2014, columnas_2014)
datos_2014.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORÁRIOS DE ADVOGADOS,0.0,0.0,46699948.08,0.0,31/12/2014,2014


In [23]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2014["DATA LANÇAMENTO"].dtypes)
print(datos_2014["ANO EXERCÍCIO"].dtypes)

object
int64


In [24]:
datos_2014["DATA LANÇAMENTO"] = pd.to_datetime(datos_2014["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2014.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORÁRIOS DE ADVOGADOS,0.0,0.0,46699948.08,0.0,2014-12-31,2014
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",MULTAS E JUROS PREVISTOS EM CONTRATOS,0.0,0.0,15920.83,0.0,2014-12-31,2014


In [25]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2014["DATA LANÇAMENTO"].dtypes
# Aunque nos devuelva en M8 está bien, pendiente explicación del M8. 

dtype('<M8[ns]')

In [26]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2014 = datos_2014.duplicated().sum()
numero_duplicados_df_2014

np.int64(0)

Información general sobre el dataframe de 2014:
- Todas las columnas contienen 4.553 entradas. 
- No existen entradas con valor nulo en ninguna de las columnas.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

**Datos 2015**

In [27]:
# Importamos los datos del año 2015
datos_2015 = pd.read_csv("datos/datos-2015.csv", sep = ";", encoding = "latin-1")
datos_2015. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORARIOS DE ADVOGADOS,0,0,6382985340,0,31/12/2015,2015


In [28]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2015 = datos_2015.copy()
copia_datos_2015.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORARIOS DE ADVOGADOS,0,0,6382985340,0,31/12/2015,2015


Información general del DataFrame de 2014

In [29]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2015.shape)
fs.info_df(datos_2015)

(4523, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,4523,0,0.0
NOME ÓRGÃO SUPERIOR,object,4523,0,0.0
CÓDIGO ÓRGÃO,int64,4523,0,0.0
NOME ÓRGÃO,object,4523,0,0.0
CÓDIGO UNIDADE GESTORA,int64,4523,0,0.0
NOME UNIDADE GESTORA,object,4523,0,0.0
CATEGORIA ECONÔMICA,object,4523,0,0.0
ORIGEM RECEITA,object,4523,0,0.0
ESPÉCIE RECEITA,object,4523,0,0.0
DETALHAMENTO,object,4523,0,0.0


In [30]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2015["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2015["VALOR LANÇADO"].dtypes)
print(datos_2015["VALOR REALIZADO"].dtypes)
print(datos_2015["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [31]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2015 = datos_2015.iloc[:,10: 14].columns
columnas_2015

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [32]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2015 = buscar_reemplazar(datos_2015, columnas_2015)
datos_2015.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORARIOS DE ADVOGADOS,0.0,0.0,63829853.4,0.0,31/12/2015,2015


In [33]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2015["DATA LANÇAMENTO"].dtypes)
print(datos_2015["ANO EXERCÍCIO"].dtypes)

object
int64


In [34]:
datos_2015["DATA LANÇAMENTO"] = pd.to_datetime(datos_2015["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2015.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORARIOS DE ADVOGADOS,0.0,0.0,63829853.4,0.0,2015-12-31,2015


In [35]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2015["DATA LANÇAMENTO"].dtypes
# Aunque nos devuelva en M8 está bien, pendiente explicación del M8.

dtype('<M8[ns]')

In [36]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2015 = datos_2015.duplicated().sum()
numero_duplicados_df_2015

np.int64(0)

Información general sobre el dataframe de 2015:
- Todas las columnas contienen 4.523 entradas. 
- No existen entradas con valor nulo en ninguna de las columnas.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

**Datos 2016**

In [37]:
# Importamos los datos del año 2016
datos_2016 = pd.read_csv("datos/datos-2016.csv", sep = ";", encoding = "latin-1")
datos_2016. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,ENCARGOS LEGAIS PELA INSCR.EM DIV.ATIVA-PRINC,0,0,15494898,0,04/04/2016,2016


In [38]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2016 = datos_2016.copy()
copia_datos_2016.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,ENCARGOS LEGAIS PELA INSCR.EM DIV.ATIVA-PRINC,0,0,15494898,0,04/04/2016,2016


Información general sobre los datos de 2016.

In [40]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2016.shape)
fs.info_df(datos_2016)

(194533, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,194533,0,0.0
NOME ÓRGÃO SUPERIOR,object,194533,0,0.0
CÓDIGO ÓRGÃO,int64,194533,0,0.0
NOME ÓRGÃO,object,194533,0,0.0
CÓDIGO UNIDADE GESTORA,int64,194533,0,0.0
NOME UNIDADE GESTORA,object,194533,0,0.0
CATEGORIA ECONÔMICA,object,194533,0,0.0
ORIGEM RECEITA,object,194533,0,0.0
ESPÉCIE RECEITA,object,194533,0,0.0
DETALHAMENTO,object,194533,0,0.0


Hay valores nulos en la columna de `DATA LANÇAMENTO`, la de la fecha en la que se registró el ingreso.

In [41]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2016["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2016["VALOR LANÇADO"].dtypes)
print(datos_2016["VALOR REALIZADO"].dtypes)
print(datos_2016["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [42]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2016 = datos_2016.iloc[:,10: 14].columns
columnas_2016

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [43]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2016 = buscar_reemplazar(datos_2016, columnas_2016)
datos_2016.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,ENCARGOS LEGAIS PELA INSCR.EM DIV.ATIVA-PRINC,0.0,0.0,154948.98,0.0,04/04/2016,2016


In [44]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2016["DATA LANÇAMENTO"].dtypes)
print(datos_2016["ANO EXERCÍCIO"].dtypes)

object
int64


In [45]:
datos_2016["DATA LANÇAMENTO"] = pd.to_datetime(datos_2016["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2016.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,ENCARGOS LEGAIS PELA INSCR.EM DIV.ATIVA-PRINC,0.0,0.0,154948.98,0.0,2016-04-04,2016


In [46]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2016["DATA LANÇAMENTO"].dtypes
# Aunque nos devuelva en M8 está bien, pendiente explicación del M8.

dtype('<M8[ns]')

In [47]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2016 = datos_2016.duplicated().sum()
numero_duplicados_df_2016

np.int64(0)

In [49]:
# Comprobamos que todos los cambios se han realizado de manera correcta
fs.info_df(datos_2016)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,194533,0,0.0
NOME ÓRGÃO SUPERIOR,object,194533,0,0.0
CÓDIGO ÓRGÃO,int64,194533,0,0.0
NOME ÓRGÃO,object,194533,0,0.0
CÓDIGO UNIDADE GESTORA,int64,194533,0,0.0
NOME UNIDADE GESTORA,object,194533,0,0.0
CATEGORIA ECONÔMICA,object,194533,0,0.0
ORIGEM RECEITA,object,194533,0,0.0
ESPÉCIE RECEITA,object,194533,0,0.0
DETALHAMENTO,object,194533,0,0.0


Información general sobre el dataframe de 2016:
- Todas las columnas contienen 194.533 entradas a excepción de la columna de fecha de registro de ejecución del ingreso (Data lançamento). 
- Encontramos la existencia de valores nulos (0,04%) en la columna de registro de ejecución del ingreso.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

A continuación vamos a realizar un análisis de los valores nulos encontrados en el dataframe para comprobar si se pueden rellenar con valores del dataframe, o si no hay forma de tratarlos.

In [50]:
# Vamos a comprobar cuales son los valores mínimos y máximos en la columna de fecha de registro de ejecución del ingreso. Buscamos que se 
# correspondan con el primer y el último día de un año natural.
print(datos_2016["DATA LANÇAMENTO"].min())
print(datos_2016["DATA LANÇAMENTO"].max())

2016-01-01 00:00:00
2016-12-31 00:00:00


In [51]:
# Vamos a comprobar si se pueden rellenar los valores nulos del dataset. Para ello, tras saber los valores mínimo y máximo de las fechas de resgitro,
# vamos a crear un rango de fechas entre ambas fechas. Se van a corresponder con todos los días del año natural. 
fecha_completa = pd.date_range(start=datos_2016["DATA LANÇAMENTO"].min(), end = datos_2016["DATA LANÇAMENTO"].max())
fecha_completa


DatetimeIndex(['2016-01-01', '2016-01-02', '2016-01-03', '2016-01-04',
               '2016-01-05', '2016-01-06', '2016-01-07', '2016-01-08',
               '2016-01-09', '2016-01-10',
               ...
               '2016-12-22', '2016-12-23', '2016-12-24', '2016-12-25',
               '2016-12-26', '2016-12-27', '2016-12-28', '2016-12-29',
               '2016-12-30', '2016-12-31'],
              dtype='datetime64[ns]', length=366, freq='D')

In [52]:
# Por otro lado queremos ver los valores únicos que nos encontramos en la columna de fecho de registro.
datos_2016["DATA LANÇAMENTO"].unique()

<DatetimeArray>
['2016-04-04 00:00:00', '2016-12-08 00:00:00', '2016-08-22 00:00:00',
 '2016-03-21 00:00:00', '2016-11-04 00:00:00', '2016-04-27 00:00:00',
 '2016-02-11 00:00:00', '2016-07-29 00:00:00', '2016-11-23 00:00:00',
 '2016-02-19 00:00:00',
 ...
 '2016-07-03 00:00:00', '2016-11-13 00:00:00', '2016-05-22 00:00:00',
 '2016-10-09 00:00:00', '2016-08-21 00:00:00', '2016-08-28 00:00:00',
 '2016-12-11 00:00:00', '2016-06-26 00:00:00', '2016-10-16 00:00:00',
 '2016-03-13 00:00:00']
Length: 361, dtype: datetime64[ns]

In [53]:
# A continuación revisamos si alguna de las fechas que hay en la columna no existe en el rango de fechas creado anteriormente. Para ello hacemos
# uso de la función difference, la cual nos devuelve un conjunto de datos con los elementos del conjunto original (fecha completa) que no están
# en el conjunto especificado.
fecha_completa.difference(datos_2016["DATA LANÇAMENTO"].unique())


DatetimeIndex(['2016-01-02', '2016-01-03', '2016-01-09', '2016-01-17',
               '2016-01-24', '2016-05-08'],
              dtype='datetime64[ns]', freq=None)

Podemos observar que las fechas se corresponden con los meses de enero y junio, es decir, en estas fechas no tenemos registros de ingresos. Esta casuística puede deberse a que estas fechas se corresponden con fechas de inicio o cierre del año contable, o fecha de transición entre trimestres por ejemplo. Asimismo hemos de tener en cuenta que en Brasil, en enero es verano, por lo que puede haber períodos de vacaciones, dando paso a retrasos administrativos.

In [54]:
# Una opción para rellenar estos valores de tipo fecha sería por importe numérico de las fechas de los mismos meses.

datos_2016.groupby(datos_2016["DATA LANÇAMENTO"].dt.month_name())['VALOR REALIZADO'].median().reset_index()

# Solo nos servirá el de valor realizado, ya que en el resto de columnas la mediana se encuentra en 0, lo cual no aprota ningún valor en este 
# punto del análisis.

Unnamed: 0,DATA LANÇAMENTO,VALOR REALIZADO
0,April,2048.11
1,August,2220.0
2,December,2139.85
3,February,1915.445
4,January,1345.2
5,July,2100.0
6,June,2000.0
7,March,1873.06
8,May,2082.5
9,November,2370.0


No encontramos un patrón en los ingresos percibimos mensualmente, por lo que no podremos rellenar los valores nulos con las fechas correspondientes. Trabajaremos con estos valores nulos haciendo mención a los mismos en el resto de documentos. 

**Datos 2017**

In [55]:
# Importamos los datos del año 2017
datos_2017 = pd.read_csv("datos/datos-2017.csv", sep = ";", encoding = "latin-1")
datos_2017. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-PRINCIPAL,0,0,19800,0,29/08/2017,2017


In [56]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2017 = datos_2017.copy()
copia_datos_2017.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-PRINCIPAL,0,0,19800,0,29/08/2017,2017


In [57]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2017.shape)
fs.info_df(datos_2017)

(190479, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,190479,0,0.0
NOME ÓRGÃO SUPERIOR,object,190479,0,0.0
CÓDIGO ÓRGÃO,int64,190479,0,0.0
NOME ÓRGÃO,object,190479,0,0.0
CÓDIGO UNIDADE GESTORA,int64,190479,0,0.0
NOME UNIDADE GESTORA,object,190479,0,0.0
CATEGORIA ECONÔMICA,object,190479,0,0.0
ORIGEM RECEITA,object,190479,0,0.0
ESPÉCIE RECEITA,object,190479,0,0.0
DETALHAMENTO,object,190479,0,0.0


In [58]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2017["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2017["VALOR LANÇADO"].dtypes)
print(datos_2017["VALOR REALIZADO"].dtypes)
print(datos_2017["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [59]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2017 = datos_2017.iloc[:,10: 14].columns
columnas_2017

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [60]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2017 = buscar_reemplazar(datos_2017, columnas_2017)
datos_2017.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-PRINCIPAL,0.0,0.0,198.0,0.0,29/08/2017,2017


In [61]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2017["DATA LANÇAMENTO"].dtypes)
print(datos_2017["ANO EXERCÍCIO"].dtypes)

object
int64


In [62]:
datos_2017["DATA LANÇAMENTO"] = pd.to_datetime(datos_2017["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2017.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-PRINCIPAL,0.0,0.0,198.0,0.0,2017-08-29,2017


In [63]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2017["DATA LANÇAMENTO"].dtypes
# Aunque nos devuelva en M8 está bien, pendiente explicación del M8.

dtype('<M8[ns]')

In [64]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2017 = datos_2017.duplicated().sum()
numero_duplicados_df_2017

np.int64(0)

In [65]:
# Comprobamos que todos los cambios se han realizado de manera correcta
fs.info_df(datos_2017)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,190479,0,0.0
NOME ÓRGÃO SUPERIOR,object,190479,0,0.0
CÓDIGO ÓRGÃO,int64,190479,0,0.0
NOME ÓRGÃO,object,190479,0,0.0
CÓDIGO UNIDADE GESTORA,int64,190479,0,0.0
NOME UNIDADE GESTORA,object,190479,0,0.0
CATEGORIA ECONÔMICA,object,190479,0,0.0
ORIGEM RECEITA,object,190479,0,0.0
ESPÉCIE RECEITA,object,190479,0,0.0
DETALHAMENTO,object,190479,0,0.0


Información general sobre el dataframe de 2017:
- Todas las columnas contienen 190.479 entradas a excepción de la columna de fecha de registro de ejecución del ingreso (Data lançamento). 
- Encontramos la existencia de valores nulos (0,05%) en la columna de registro de ejecución del ingreso.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

A continuación vamos a realizar un análisis de los valores nulos encontrados en el dataframe para comprobar si se pueden rellenar con valores del dataframe, o si no hay forma de tratarlos.

In [66]:
# Vamos a comprobar cuales son los valores mínimos y máximos en la columna de fecha de registro de ejecución del ingreso. Buscamos que se 
# correspondan con el primer y el último día de un año natural.
print(datos_2017["DATA LANÇAMENTO"].min())
print(datos_2017["DATA LANÇAMENTO"].max())

2017-01-01 00:00:00
2017-12-31 00:00:00


In [67]:
# Vamos a comprobar si se pueden rellenar los valores nulos del dataset. Para ello, tras saber los valores mínimo y máximo de las fechas de resgitro,
# vamos a crear un rango de fechas entre ambas fechas. Se van a corresponder con todos los días del año natural. 
fecha_completa_2017 = pd.date_range(start=datos_2017["DATA LANÇAMENTO"].min(), end = datos_2017["DATA LANÇAMENTO"].max())
fecha_completa_2017

DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
               '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08',
               '2017-01-09', '2017-01-10',
               ...
               '2017-12-22', '2017-12-23', '2017-12-24', '2017-12-25',
               '2017-12-26', '2017-12-27', '2017-12-28', '2017-12-29',
               '2017-12-30', '2017-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')

In [68]:
# Por otro lado queremos ver los valores únicos que nos encontramos en la columna de fecho de registro.
datos_2017["DATA LANÇAMENTO"].unique()

<DatetimeArray>
['2017-08-29 00:00:00', '2017-02-10 00:00:00', '2017-11-27 00:00:00',
 '2017-11-13 00:00:00', '2017-05-03 00:00:00', '2017-02-13 00:00:00',
 '2017-08-22 00:00:00', '2017-12-01 00:00:00', '2017-10-10 00:00:00',
 '2017-12-28 00:00:00',
 ...
 '2017-03-05 00:00:00', '2017-03-12 00:00:00', '2017-10-08 00:00:00',
 '2017-08-06 00:00:00', '2017-07-16 00:00:00', '2017-07-23 00:00:00',
 '2017-04-23 00:00:00', '2017-01-22 00:00:00', '2017-06-18 00:00:00',
 '2017-03-19 00:00:00']
Length: 366, dtype: datetime64[ns]

In [69]:
# A continuación revisamos si alguna de las fechas que hay en la columna no existe en el rango de fechas creado anteriormente. Para ello hacemos
# uso de la función difference, la cual nos devuelve un conjunto de datos con los elementos del conjunto original (fecha completa) que no están
# en el conjunto especificado.
fecha_completa_2017.difference(datos_2017["DATA LANÇAMENTO"].unique())

DatetimeIndex([], dtype='datetime64[ns]', freq='D')

En este caso observamos que ha habido registros en todas las fechas del año, por lo que no podremos buscar un patrón que nos ayude a rellenar los valores nulos. Trabajaremos con estos valores en el dataset haciendo mención a los mismos en el resto de documentos.


**Datos 2018**

In [71]:
# Importamos los datos del año 2018
datos_2018 = pd.read_csv("datos/datos-2018.csv", sep = ";", encoding = "latin-1")
datos_2018. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receitas Correntes - a classificar,Receitas Correntes - a classificar,Receitas Correntes - a classificar,0,0,-169372,0,25/07/2018,2018


In [72]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2018 = datos_2018.copy()
copia_datos_2018.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receitas Correntes - a classificar,Receitas Correntes - a classificar,Receitas Correntes - a classificar,0,0,-169372,0,25/07/2018,2018


In [73]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2018.shape)
fs.info_df(datos_2018)

(173944, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,173944,0,0.0
NOME ÓRGÃO SUPERIOR,object,173944,0,0.0
CÓDIGO ÓRGÃO,int64,173944,0,0.0
NOME ÓRGÃO,object,173944,0,0.0
CÓDIGO UNIDADE GESTORA,int64,173944,0,0.0
NOME UNIDADE GESTORA,object,173944,0,0.0
CATEGORIA ECONÔMICA,object,173944,0,0.0
ORIGEM RECEITA,object,173944,0,0.0
ESPÉCIE RECEITA,object,173944,0,0.0
DETALHAMENTO,object,173944,0,0.0


In [74]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2018["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2018["VALOR LANÇADO"].dtypes)
print(datos_2018["VALOR REALIZADO"].dtypes)
print(datos_2018["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [75]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2018 = datos_2018.iloc[:,10: 14].columns
columnas_2018

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [76]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2018 = buscar_reemplazar(datos_2018, columnas_2018)
datos_2018.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receitas Correntes - a classificar,Receitas Correntes - a classificar,Receitas Correntes - a classificar,0.0,0.0,-1693.72,0.0,25/07/2018,2018


In [77]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2018["DATA LANÇAMENTO"].dtypes)
print(datos_2018["ANO EXERCÍCIO"].dtypes)

object
int64


In [78]:
# Aplicamos el cambio a tipo fecha a la columna de registro de ejecución del ingreso 
datos_2018["DATA LANÇAMENTO"] = pd.to_datetime(datos_2018["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2018.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receitas Correntes - a classificar,Receitas Correntes - a classificar,Receitas Correntes - a classificar,0.0,0.0,-1693.72,0.0,2018-07-25,2018


In [79]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2018["DATA LANÇAMENTO"].dtypes
# Aunque nos devuelva en M8 está bien, pendiente explicación del M8.

dtype('<M8[ns]')

In [80]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2018 = datos_2018.duplicated().sum()
numero_duplicados_df_2018

np.int64(0)

In [82]:
# Comprobamos que todos los cambios se han realizado de manera correcta
fs.info_df(datos_2018)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,173944,0,0.0
NOME ÓRGÃO SUPERIOR,object,173944,0,0.0
CÓDIGO ÓRGÃO,int64,173944,0,0.0
NOME ÓRGÃO,object,173944,0,0.0
CÓDIGO UNIDADE GESTORA,int64,173944,0,0.0
NOME UNIDADE GESTORA,object,173944,0,0.0
CATEGORIA ECONÔMICA,object,173944,0,0.0
ORIGEM RECEITA,object,173944,0,0.0
ESPÉCIE RECEITA,object,173944,0,0.0
DETALHAMENTO,object,173944,0,0.0


Información general sobre el dataframe de 2018:
- Todas las columnas contienen 173.944 entradas a excepción de la columna de fecha de registro de ejecución del ingreso (Data lançamento). 
- Encontramos la existencia de valores nulos (0,07%) en la columna de registro de ejecución del ingreso.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

A continuación vamos a realizar un análisis de los valores nulos encontrados en el dataframe para comprobar si se pueden rellenar con valores del dataframe, o si no hay forma de tratarlos.

In [83]:
# Vamos a comprobar cuales son los valores mínimos y máximos en la columna de fecha de registro de ejecución del ingreso. Buscamos que se 
# correspondan con el primer y el último día de un año natural.
print(datos_2018["DATA LANÇAMENTO"].min())
print(datos_2018["DATA LANÇAMENTO"].max())

2018-01-01 00:00:00
2018-12-31 00:00:00


In [84]:
# Vamos a comprobar si se pueden rellenar los valores nulos del dataset. Para ello, tras saber los valores mínimo y máximo de las fechas de resgitro,
# vamos a crear un rango de fechas entre ambas fechas. Se van a corresponder con todos los días del año natural. 
fecha_completa_2018 = pd.date_range(start=datos_2018["DATA LANÇAMENTO"].min(), end = datos_2018["DATA LANÇAMENTO"].max())
fecha_completa_2018

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06', '2018-01-07', '2018-01-08',
               '2018-01-09', '2018-01-10',
               ...
               '2018-12-22', '2018-12-23', '2018-12-24', '2018-12-25',
               '2018-12-26', '2018-12-27', '2018-12-28', '2018-12-29',
               '2018-12-30', '2018-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')

In [85]:
# Por otro lado queremos ver los valores únicos que nos encontramos en la columna de fecho de registro.
datos_2018["DATA LANÇAMENTO"].unique()

<DatetimeArray>
['2018-07-25 00:00:00', '2018-08-02 00:00:00', '2018-02-27 00:00:00',
 '2018-02-26 00:00:00', '2018-03-05 00:00:00', '2018-07-26 00:00:00',
 '2018-03-01 00:00:00', '2018-10-29 00:00:00', '2018-07-05 00:00:00',
 '2018-10-30 00:00:00',
 ...
 '2018-10-28 00:00:00', '2018-06-03 00:00:00', '2018-08-05 00:00:00',
 '2018-01-13 00:00:00', '2018-05-13 00:00:00', '2018-03-18 00:00:00',
 '2018-02-18 00:00:00', '2018-04-22 00:00:00', '2018-11-04 00:00:00',
 '2018-12-16 00:00:00']
Length: 366, dtype: datetime64[ns]

In [86]:
# A continuación revisamos si alguna de las fechas que hay en la columna no existe en el rango de fechas creado anteriormente. Para ello hacemos
# uso de la función difference, la cual nos devuelve un conjunto de datos con los elementos del conjunto original (fecha completa) que no están
# en el conjunto especificado.
fecha_completa_2018.difference(datos_2018["DATA LANÇAMENTO"].unique())

DatetimeIndex([], dtype='datetime64[ns]', freq='D')

En este caso observamos que ha habido registros en todas las fechas del año, por lo que no podremos buscar un patrón que nos ayude a rellenar los valores nulos. Trabajaremos con estos valores en el dataset haciendo mención a los mismos en el resto de documentos.


**Datos 2019**

In [87]:
# Importamos los datos del año 2019
datos_2019 = pd.read_csv("datos/datos-2019.csv", sep = ";", encoding = "latin-1")
datos_2019. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0,0,-9500,0,12/06/2019,2019


In [88]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2019 = datos_2019.copy()
copia_datos_2019.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0,0,-9500,0,12/06/2019,2019


In [89]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2019.shape)
fs.info_df(datos_2019)

(176828, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,176828,0,0.0
NOME ÓRGÃO SUPERIOR,object,176828,0,0.0
CÓDIGO ÓRGÃO,int64,176828,0,0.0
NOME ÓRGÃO,object,176828,0,0.0
CÓDIGO UNIDADE GESTORA,int64,176828,0,0.0
NOME UNIDADE GESTORA,object,176828,0,0.0
CATEGORIA ECONÔMICA,object,176828,0,0.0
ORIGEM RECEITA,object,176828,0,0.0
ESPÉCIE RECEITA,object,176828,0,0.0
DETALHAMENTO,object,176828,0,0.0


In [90]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2019["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2019["VALOR LANÇADO"].dtypes)
print(datos_2019["VALOR REALIZADO"].dtypes)
print(datos_2019["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [91]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2019 = datos_2019.iloc[:,10: 14].columns
columnas_2019

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [92]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2019 = buscar_reemplazar(datos_2019, columnas_2019)
datos_2019.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0.0,0.0,-95.0,0.0,12/06/2019,2019


In [93]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2019["DATA LANÇAMENTO"].dtypes)
print(datos_2019["ANO EXERCÍCIO"].dtypes)

object
int64


In [94]:
# Aplicamos el cambio a tipo fecha a la columna de registro de ejecución del ingreso 
datos_2019["DATA LANÇAMENTO"] = pd.to_datetime(datos_2019["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2019.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0.0,0.0,-95.0,0.0,2019-06-12,2019


In [95]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2019["DATA LANÇAMENTO"].dtypes
# Aunque nos devuelva en M8 está bien, pendiente explicación del M8.

dtype('<M8[ns]')

In [96]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2019 = datos_2019.duplicated().sum()
numero_duplicados_df_2019

np.int64(0)

In [98]:
# Comprobamos que todos los cambios se han realizado de manera correcta
fs.info_df(datos_2019)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,176828,0,0.0
NOME ÓRGÃO SUPERIOR,object,176828,0,0.0
CÓDIGO ÓRGÃO,int64,176828,0,0.0
NOME ÓRGÃO,object,176828,0,0.0
CÓDIGO UNIDADE GESTORA,int64,176828,0,0.0
NOME UNIDADE GESTORA,object,176828,0,0.0
CATEGORIA ECONÔMICA,object,176828,0,0.0
ORIGEM RECEITA,object,176828,0,0.0
ESPÉCIE RECEITA,object,176828,0,0.0
DETALHAMENTO,object,176828,0,0.0


Información general sobre el dataframe de 2019:
- Todas las columnas contienen 176.828 entradas a excepción de la columna de fecha de registro de ejecución del ingreso (Data lançamento). 
- Encontramos la existencia de valores nulos (0,05%) en la columna de registro de ejecución del ingreso.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

A continuación vamos a realizar un análisis de los valores nulos encontrados en el dataframe para comprobar si se pueden rellenar con valores del dataframe, o si no hay forma de tratarlos.

In [99]:
# Vamos a comprobar cuales son los valores mínimos y máximos en la columna de fecha de registro de ejecución del ingreso. Buscamos que se 
# correspondan con el primer y el último día de un año natural.
print(datos_2019["DATA LANÇAMENTO"].min())
print(datos_2019["DATA LANÇAMENTO"].max())

2019-01-01 00:00:00
2019-12-31 00:00:00


In [100]:
# Vamos a comprobar si se pueden rellenar los valores nulos del dataset. Para ello, tras saber los valores mínimo y máximo de las fechas de resgitro,
# vamos a crear un rango de fechas entre ambas fechas. Se van a corresponder con todos los días del año natural. 
fecha_completa_2019 = pd.date_range(start=datos_2019["DATA LANÇAMENTO"].min(), end = datos_2019["DATA LANÇAMENTO"].max())
fecha_completa_2019

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
               '2019-01-09', '2019-01-10',
               ...
               '2019-12-22', '2019-12-23', '2019-12-24', '2019-12-25',
               '2019-12-26', '2019-12-27', '2019-12-28', '2019-12-29',
               '2019-12-30', '2019-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')

In [101]:
# Por otro lado queremos ver los valores únicos que nos encontramos en la columna de fecho de registro.
datos_2019["DATA LANÇAMENTO"].unique()

<DatetimeArray>
['2019-06-12 00:00:00', '2019-05-07 00:00:00', '2019-03-01 00:00:00',
 '2019-02-27 00:00:00', '2019-04-18 00:00:00', '2019-08-12 00:00:00',
 '2019-03-28 00:00:00', '2019-05-21 00:00:00', '2019-05-09 00:00:00',
 '2019-08-01 00:00:00',
 ...
 '2019-02-16 00:00:00', '2019-06-08 00:00:00', '2019-05-11 00:00:00',
 '2019-03-05 00:00:00', '2019-08-25 00:00:00', '2019-02-02 00:00:00',
 '2019-12-29 00:00:00', '2019-08-04 00:00:00', '2019-05-25 00:00:00',
 '2019-10-27 00:00:00']
Length: 366, dtype: datetime64[ns]

In [102]:
# A continuación revisamos si alguna de las fechas que hay en la columna no existe en el rango de fechas creado anteriormente. Para ello hacemos
# uso de la función difference, la cual nos devuelve un conjunto de datos con los elementos del conjunto original (fecha completa) que no están
# en el conjunto especificado.
fecha_completa_2019.difference(datos_2019["DATA LANÇAMENTO"].unique())

DatetimeIndex([], dtype='datetime64[ns]', freq='D')

En este caso observamos que ha habido registros en todas las fechas del año, por lo que no podremos buscar un patrón que nos ayude a rellenar los valores nulos. Trabajaremos con estos valores en el dataset haciendo mención a los mismos en el resto de documentos.


**Datos 2020**

In [103]:
# Importamos los datos del año 2019
datos_2020 = pd.read_csv("datos/datos-2020.csv", sep = ";", encoding = "latin-1")
datos_2020. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RESTITUIÇÃO DE CONVÊNIOS-PRIMÁRIAS-DÍV.ATIVA,0,0,551690,0,28/04/2020,2020


In [104]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2020 = datos_2020.copy()
copia_datos_2020.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RESTITUIÇÃO DE CONVÊNIOS-PRIMÁRIAS-DÍV.ATIVA,0,0,551690,0,28/04/2020,2020


In [106]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2020.shape)
fs.info_df(datos_2020)

(142348, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,142348,0,0.0
NOME ÓRGÃO SUPERIOR,object,142348,0,0.0
CÓDIGO ÓRGÃO,int64,142348,0,0.0
NOME ÓRGÃO,object,142348,0,0.0
CÓDIGO UNIDADE GESTORA,int64,142348,0,0.0
NOME UNIDADE GESTORA,object,142348,0,0.0
CATEGORIA ECONÔMICA,object,142348,0,0.0
ORIGEM RECEITA,object,142348,0,0.0
ESPÉCIE RECEITA,object,142348,0,0.0
DETALHAMENTO,object,142348,0,0.0


In [107]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2020["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2020["VALOR LANÇADO"].dtypes)
print(datos_2020["VALOR REALIZADO"].dtypes)
print(datos_2020["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [108]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2020 = datos_2020.iloc[:,10: 14].columns
columnas_2020

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [109]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2020 = buscar_reemplazar(datos_2020, columnas_2020)
datos_2020.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RESTITUIÇÃO DE CONVÊNIOS-PRIMÁRIAS-DÍV.ATIVA,0.0,0.0,5516.9,0.0,28/04/2020,2020


In [110]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2020["DATA LANÇAMENTO"].dtypes)
print(datos_2020["ANO EXERCÍCIO"].dtypes)

object
int64


In [111]:
# Aplicamos el cambio a tipo fecha a la columna de registro de ejecución del ingreso 
datos_2020["DATA LANÇAMENTO"] = pd.to_datetime(datos_2020["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2020.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RESTITUIÇÃO DE CONVÊNIOS-PRIMÁRIAS-DÍV.ATIVA,0.0,0.0,5516.9,0.0,2020-04-28,2020


In [112]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2020["DATA LANÇAMENTO"].dtypes
# Aunque nos devuelva en M8 está bien, pendiente explicación del M8.

dtype('<M8[ns]')

In [113]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2020 = datos_2020.duplicated().sum()
numero_duplicados_df_2020

np.int64(0)

In [114]:
# Comprobamos que todos los cambios se han realizado de manera correcta
fs.info_df(datos_2020)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,142348,0,0.0
NOME ÓRGÃO SUPERIOR,object,142348,0,0.0
CÓDIGO ÓRGÃO,int64,142348,0,0.0
NOME ÓRGÃO,object,142348,0,0.0
CÓDIGO UNIDADE GESTORA,int64,142348,0,0.0
NOME UNIDADE GESTORA,object,142348,0,0.0
CATEGORIA ECONÔMICA,object,142348,0,0.0
ORIGEM RECEITA,object,142348,0,0.0
ESPÉCIE RECEITA,object,142348,0,0.0
DETALHAMENTO,object,142348,0,0.0


Información general sobre el dataframe de 2020:
- Todas las columnas contienen 142.348 entradas a excepción de la columna de fecha de registro de ejecución del ingreso (Data lançamento). 
- Encontramos la existencia de valores nulos (0,06%) en la columna de registro de ejecución del ingreso.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

A continuación vamos a realizar un análisis de los valores nulos encontrados en el dataframe para comprobar si se pueden rellenar con valores del dataframe, o si no hay forma de tratarlos.

In [115]:
# Vamos a comprobar cuales son los valores mínimos y máximos en la columna de fecha de registro de ejecución del ingreso. Buscamos que se 
# correspondan con el primer y el último día de un año natural.
print(datos_2020["DATA LANÇAMENTO"].min())
print(datos_2020["DATA LANÇAMENTO"].max())
# Me falta el 31 de diciembre

2020-01-01 00:00:00
2020-12-30 00:00:00


In [116]:
# Vamos a comprobar si se pueden rellenar los valores nulos del dataset. Para ello, tras saber los valores mínimo y máximo de las fechas de resgitro,
# vamos a crear un rango de fechas entre ambas fechas. Se van a corresponder con todos los días del año natural. 
fecha_completa_2020 = pd.date_range(start=datos_2020["DATA LANÇAMENTO"].min(), end = '2020-12-31')
fecha_completa_2020

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10',
               ...
               '2020-12-22', '2020-12-23', '2020-12-24', '2020-12-25',
               '2020-12-26', '2020-12-27', '2020-12-28', '2020-12-29',
               '2020-12-30', '2020-12-31'],
              dtype='datetime64[ns]', length=366, freq='D')

In [117]:
# A continuación revisamos si alguna de las fechas que hay en la columna no existe en el rango de fechas creado anteriormente. Para ello hacemos
# uso de la función difference, la cual nos devuelve un conjunto de datos con los elementos del conjunto original (fecha completa) que no están
# en el conjunto especificado.
fecha_completa_2020.difference(datos_2020["DATA LANÇAMENTO"].unique())

DatetimeIndex(['2020-03-29', '2020-12-25', '2020-12-27', '2020-12-31'], dtype='datetime64[ns]', freq=None)

Podemos observar que las fechas se corresponden con los meses de marzo y diciembre, es decir, en estas fechas no tenemos registros de ingresos. Esta casuística puede deberse a que estas fechas se corresponden con fechas de inicio o cierre del año contable, o fecha de transición entre trimestres por ejemplo.

In [118]:
# Una opción para rellenar estos valores de tipo fecha sería por importe numérico de las fechas de los mismos meses.

datos_2020.groupby(datos_2020["DATA LANÇAMENTO"].dt.month_name())['VALOR REALIZADO'].median().reset_index()

# Solo nos servirá el de valor realizado, ya que en el resto de columnas la mediana se encuentra en 0, lo cual no aprota ningún valor en este 
# punto del análisis.

Unnamed: 0,DATA LANÇAMENTO,VALOR REALIZADO
0,April,4745.67
1,August,4811.945
2,December,4479.61
3,February,3300.0
4,January,2488.0
5,July,5244.73
6,June,4986.105
7,March,4065.0
8,May,4848.0
9,November,4816.295


No encontramos un patrón en los ingresos percibimos mensualmente, por lo que no podremos rellenar los valores nulos con las fechas correspondientes. Trabajaremos con estos valores nulos haciendo mención a los mismos en el resto de documentos. 

**Datos 2021**

In [119]:
# Importamos los datos del año 2019
datos_2021 = pd.read_csv("datos/datos-2021.csv", sep = ";", encoding = "latin-1")
datos_2021. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,222403490400,0,0,0,23/04/2021,2021


In [120]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2021 = datos_2021.copy()
copia_datos_2021.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,222403490400,0,0,0,23/04/2021,2021


In [121]:
# Realizamos una revisión de la información general del dataframe de los datos de 2014.
print(datos_2021.shape)
fs.info_df(datos_2021)

(134593, 16)


Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,134593,0,0.0
NOME ÓRGÃO SUPERIOR,object,134593,0,0.0
CÓDIGO ÓRGÃO,int64,134593,0,0.0
NOME ÓRGÃO,object,134593,0,0.0
CÓDIGO UNIDADE GESTORA,int64,134593,0,0.0
NOME UNIDADE GESTORA,object,134593,0,0.0
CATEGORIA ECONÔMICA,object,134593,0,0.0
ORIGEM RECEITA,object,134593,0,0.0
ESPÉCIE RECEITA,object,134593,0,0.0
DETALHAMENTO,object,134593,0,0.0


In [122]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2021["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2021["VALOR LANÇADO"].dtypes)
print(datos_2021["VALOR REALIZADO"].dtypes)
print(datos_2021["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [123]:
# Como queremos modificar las columnas anteriores, nos creamos una lista que contenga las mismas. Para ello hacemos uso de iloc. 
columnas_2021 = datos_2021.iloc[:,10: 14].columns
columnas_2021

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [124]:
# Aplicamos la función de cambio de tipo de datos y revisamos que el cambio se ha realizado con éxito.
datos_2021 = buscar_reemplazar(datos_2021, columnas_2021)
datos_2021.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,2224035000.0,0.0,0.0,0.0,23/04/2021,2021


In [125]:
# En las siguientes columnas tenemos información de tipo fecha pero las tenemos en tipo objeto o entero. Vamos a realizar el tipo de cambio de dato
# de la columna que tenemos en tipo objeto, ya que la de tipo entero no merece la pena realizar el cambio.
print(datos_2021["DATA LANÇAMENTO"].dtypes)
print(datos_2021["ANO EXERCÍCIO"].dtypes)

object
int64


In [126]:
# Aplicamos el cambio a tipo fecha a la columna de registro de ejecución del ingreso 
datos_2021["DATA LANÇAMENTO"] = pd.to_datetime(datos_2021["DATA LANÇAMENTO"], format="%d/%m/%Y")
datos_2021.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,2224035000.0,0.0,0.0,0.0,2021-04-23,2021


In [127]:
# Comprobamos que el cambio de tipo de dato se ha realizado de forma correcta.
datos_2021["DATA LANÇAMENTO"].dtypes
# Aunque nos devuelva en M8 está bien, pendiente explicación del M8.

dtype('<M8[ns]')

In [128]:
# Revisamos si existen valores duplicados en el dataframe
numero_duplicados_df_2021 = datos_2021.duplicated().sum()
numero_duplicados_df_2021

np.int64(0)

In [129]:
# Comprobamos que todos los cambios se han realizado de manera correcta
fs.info_df(datos_2021)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,134593,0,0.0
NOME ÓRGÃO SUPERIOR,object,134593,0,0.0
CÓDIGO ÓRGÃO,int64,134593,0,0.0
NOME ÓRGÃO,object,134593,0,0.0
CÓDIGO UNIDADE GESTORA,int64,134593,0,0.0
NOME UNIDADE GESTORA,object,134593,0,0.0
CATEGORIA ECONÔMICA,object,134593,0,0.0
ORIGEM RECEITA,object,134593,0,0.0
ESPÉCIE RECEITA,object,134593,0,0.0
DETALHAMENTO,object,134593,0,0.0


Información general sobre el dataframe de 2021:
- Todas las columnas contienen 134.593 entradas a excepción de la columna de fecha de registro de ejecución del ingreso (Data lançamento). 
- Encontramos la existencia de valores nulos (0,09%) en la columna de registro de ejecución del ingreso.
- No existen valores duplicados en el dataframe.
- Nos encontramos con los siguientes tipos de datos: object, float, int, datetime. 

A continuación vamos a realizar un análisis de los valores nulos encontrados en el dataframe para comprobar si se pueden rellenar con valores del dataframe, o si no hay forma de tratarlos.

In [130]:
# Vamos a comprobar cuales son los valores mínimos y máximos en la columna de fecha de registro de ejecución del ingreso. Buscamos que se 
# correspondan con el primer y el último día de un año natural.
print(datos_2021["DATA LANÇAMENTO"].min())
print(datos_2021["DATA LANÇAMENTO"].max())

2021-01-01 00:00:00
2021-12-03 00:00:00


In [131]:
# Vamos a comprobar si se pueden rellenar los valores nulos del dataset. Para ello, tras saber los valores mínimo y máximo de las fechas de resgitro,
# vamos a crear un rango de fechas entre ambas fechas. Se van a corresponder con todos los días del año natural. 
fecha_completa_2021 = pd.date_range(start=datos_2021["DATA LANÇAMENTO"].min(), end = '2021-12-31')
fecha_completa_2021

DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04',
               '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08',
               '2021-01-09', '2021-01-10',
               ...
               '2021-12-22', '2021-12-23', '2021-12-24', '2021-12-25',
               '2021-12-26', '2021-12-27', '2021-12-28', '2021-12-29',
               '2021-12-30', '2021-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')

In [132]:
# Por otro lado queremos ver los valores únicos que nos encontramos en la columna de fecho de registro.
datos_2021["DATA LANÇAMENTO"].unique()

<DatetimeArray>
['2021-04-23 00:00:00', '2021-04-16 00:00:00', '2021-01-26 00:00:00',
 '2021-03-16 00:00:00', '2021-09-27 00:00:00', '2021-11-17 00:00:00',
 '2021-08-03 00:00:00', '2021-02-04 00:00:00', '2021-02-05 00:00:00',
 '2021-05-19 00:00:00',
 ...
 '2021-02-07 00:00:00', '2021-02-06 00:00:00', '2021-01-16 00:00:00',
 '2021-01-03 00:00:00', '2021-01-17 00:00:00', '2021-10-09 00:00:00',
 '2021-02-14 00:00:00', '2021-01-09 00:00:00', '2021-01-23 00:00:00',
 '2021-01-24 00:00:00']
Length: 338, dtype: datetime64[ns]

In [133]:
# A continuación revisamos si alguna de las fechas que hay en la columna no existe en el rango de fechas creado anteriormente. Para ello hacemos
# uso de la función difference, la cual nos devuelve un conjunto de datos con los elementos del conjunto original (fecha completa) que no están
# en el conjunto especificado.
fecha_completa_2021.difference(datos_2021["DATA LANÇAMENTO"].unique())

DatetimeIndex(['2021-12-04', '2021-12-05', '2021-12-06', '2021-12-07',
               '2021-12-08', '2021-12-09', '2021-12-10', '2021-12-11',
               '2021-12-12', '2021-12-13', '2021-12-14', '2021-12-15',
               '2021-12-16', '2021-12-17', '2021-12-18', '2021-12-19',
               '2021-12-20', '2021-12-21', '2021-12-22', '2021-12-23',
               '2021-12-24', '2021-12-25', '2021-12-26', '2021-12-27',
               '2021-12-28', '2021-12-29', '2021-12-30', '2021-12-31'],
              dtype='datetime64[ns]', freq='D')

Podemos observar que las fechas se corresponden con el mes de diciembre, es decir, en estas fechas no tenemos registros de ingresos. Esta casuística puede deberse a que estas fechas se corresponden con fechas de inicio o cierre del año contable, o fecha de transición entre trimestres por ejemplo. Asimismo hemos de tener en cuenta que en Brasil, en enero es verano, por lo que puede haber períodos de vacaciones, dando paso a retrasos administrativos.

In [134]:
# Una opción para rellenar estos valores de tipo fecha sería por importe numérico de las fechas de los mismos meses.

datos_2021.groupby(datos_2021["DATA LANÇAMENTO"].dt.month_name())['VALOR REALIZADO'].median().reset_index()

# Solo nos servirá el de valor realizado, ya que en el resto de columnas la mediana se encuentra en 0, lo cual no aprota ningún valor en este 
# punto del análisis.

Unnamed: 0,DATA LANÇAMENTO,VALOR REALIZADO
0,April,2247.71
1,August,4546.62
2,December,2382.44
3,February,4866.885
4,January,4677.28
5,July,4872.0
6,June,4499.99
7,March,4510.0
8,May,4499.2
9,November,4851.44


No encontramos un patrón en los ingresos percibimos mensualmente, por lo que no podremos rellenar los valores nulos con las fechas correspondientes. Trabajaremos con estos valores nulos haciendo mención a los mismos en el resto de documentos. 

# Revisar si dejar estas conclusiones aquí y si poner más cosas
**Conclusiones generales**

- Hemos encontrado valores nulos a partir del año 2016, los cuales no hemos podido rellenar ya que no hay patrones.
- El número de registros presenta una tendencia ascendente según pasa el tiempo. Entendemos que el volumen de ingresos se ha ido incrementando con el tiempo. Revisaremos este punto de vista más tarde. Aún así hay años concretos en los que las entradas de información total son menores, analizaremos estos puntos más tarde en detalle.

Finalmente realizamos la unión de todos los dataframes. Para ello haremos uso de la concatenación, ya que nos encontramos ante datos de tipo temporal. Busacremos concatenarlos unos encima de otros, iniciando en 2013 y finalizando en 2021.

In [135]:
datos_brasil = pd.concat([datos_2013, datos_2014, datos_2015, datos_2016,datos_2017, datos_2018, datos_2019, datos_2020, datos_2021], axis = 0, ignore_index = True)
datos_brasil.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,2013-12-31,2013
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0.0,0.0,26666621.42,0.0,2013-12-31,2013


In [136]:
datos_brasil.tail(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
1026297,20000,Presidência da República,24208,Instituto Nacional de Tecnologia da Informação,243001,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",0.0,0.0,1000000.0,0.0,2021-05-10,2021
1026298,20000,Presidência da República,24208,Instituto Nacional de Tecnologia da Informação,243001,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",0.0,0.0,1000000.0,0.0,2021-03-23,2021


In [137]:
datos_brasil.sample(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
281980,26000,Ministério da Educação,26241,Universidade Federal do Paraná,153079,UNIVERSIDADE FEDERAL DO PARANA,Receitas Correntes,Receita de Serviços,Outros serviços,OUTROS SERVICOS-PRINCIPAL,0.0,0.0,50.0,0.0,2017-10-31,2017
185368,32000,Ministério de Minas e Energia,32205,"Agência Nacional do Petróleo, Gás Natural e Bi...",323030,AG. NAC.DO PETROLEO GAS NAT.E BIOCOM,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",MULTAS PREVISTAS EM LEGISL.ESPECIFICA-PRINC.,0.0,0.0,363259.75,0.0,2016-10-28,2016


Comprobamos que la unión se ha realizado de forma correcta.

In [138]:
datos_brasil.shape

(1026299, 16)

In [139]:
total_datos = datos_2013.shape[0] + datos_2014.shape[0] + datos_2015.shape[0] + datos_2016.shape[0] + datos_2017.shape[0] + datos_2018.shape[0] + datos_2019.shape[0] + datos_2020.shape[0] + datos_2021.shape[0] 
total_datos

1026299

In [140]:
total_nulos = datos_2016.isnull().sum() + datos_2017.isnull().sum() + datos_2018.isnull().sum() + datos_2019.isnull().sum() + datos_2020.isnull().sum() + datos_2021.isnull().sum() 
total_nulos

CÓDIGO ÓRGÃO SUPERIOR          0
NOME ÓRGÃO SUPERIOR            0
CÓDIGO ÓRGÃO                   0
NOME ÓRGÃO                     0
CÓDIGO UNIDADE GESTORA         0
NOME UNIDADE GESTORA           0
CATEGORIA ECONÔMICA            0
ORIGEM RECEITA                 0
ESPÉCIE RECEITA                0
DETALHAMENTO                   0
VALOR PREVISTO ATUALIZADO      0
VALOR LANÇADO                  0
VALOR REALIZADO                0
PERCENTUAL REALIZADO           0
DATA LANÇAMENTO              578
ANO EXERCÍCIO                  0
dtype: int64

In [141]:
# Revisamos la inforamción del dataset final
fs.info_df(datos_brasil)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,1026299,0,0.0
NOME ÓRGÃO SUPERIOR,object,1026299,0,0.0
CÓDIGO ÓRGÃO,int64,1026299,0,0.0
NOME ÓRGÃO,object,1026299,0,0.0
CÓDIGO UNIDADE GESTORA,int64,1026299,0,0.0
NOME UNIDADE GESTORA,object,1026299,0,0.0
CATEGORIA ECONÔMICA,object,1026299,0,0.0
ORIGEM RECEITA,object,1026299,0,0.0
ESPÉCIE RECEITA,object,1026299,0,0.0
DETALHAMENTO,object,1026299,0,0.0


In [142]:
# Guardamos la unión en formato pkl para que se guarde toda la información correctamente
pd.to_pickle(datos_brasil, "datos/datos_brasil.pkl")

## Evaluación por columnas tras concatenación

valores igual a cero en las previsiones de ingreso, datos códigos organizacion, valores negativos.

In [143]:
datos_brasil.columns

Index(['CÓDIGO ÓRGÃO SUPERIOR', 'NOME ÓRGÃO SUPERIOR', 'CÓDIGO ÓRGÃO',
       'NOME ÓRGÃO', 'CÓDIGO UNIDADE GESTORA', 'NOME UNIDADE GESTORA',
       'CATEGORIA ECONÔMICA', 'ORIGEM RECEITA', 'ESPÉCIE RECEITA',
       'DETALHAMENTO', 'VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO',
       'VALOR REALIZADO', 'PERCENTUAL REALIZADO', 'DATA LANÇAMENTO',
       'ANO EXERCÍCIO'],
      dtype='object')

En la previsión de los ingresos tenemos una serie de entradas que contienen valores igual a cero. Analizamos a continuación esta casuística.

In [144]:
# Vamos a comprobar porque tenemos previsiones de ingresos igual a 0
previsiones_2013 = datos_brasil[(datos_brasil["VALOR PREVISTO ATUALIZADO"] != 0) & (datos_brasil["ANO EXERCÍCIO"] == 2013)]
previsiones_2013["DATA LANÇAMENTO"].value_counts()
# Vemos que todas las previsiones del año 2013 han sido realizadas el 31 de diciembre

DATA LANÇAMENTO
2013-12-31    2873
Name: count, dtype: int64

In [145]:
previsiones_2013_0 = datos_brasil[(datos_brasil["VALOR PREVISTO ATUALIZADO"] == 0) & (datos_brasil["ANO EXERCÍCIO"] == 2013)]
previsiones_2013_0["DATA LANÇAMENTO"].value_counts()

DATA LANÇAMENTO
2013-12-31    1625
Name: count, dtype: int64

In [146]:
print(previsiones_2013["DATA LANÇAMENTO"].value_counts() + previsiones_2013_0["DATA LANÇAMENTO"].value_counts())
coso_2013 = datos_brasil[datos_brasil["ANO EXERCÍCIO"] == 2013]
coso_2013["DATA LANÇAMENTO"].value_counts()

DATA LANÇAMENTO
2013-12-31    4498
Name: count, dtype: int64


DATA LANÇAMENTO
2013-12-31    4498
Name: count, dtype: int64

In [147]:
ingresos_categoria_ec = datos_brasil.groupby("CATEGORIA ECONÔMICA")[["VALOR PREVISTO ATUALIZADO", "VALOR LANÇADO","VALOR REALIZADO", "PERCENTUAL REALIZADO"]].sum().round(2)
ingresos_categoria_ec["porcentaje recaudado"] = round((ingresos_categoria_ec["VALOR PREVISTO ATUALIZADO"]/ingresos_categoria_ec["VALOR REALIZADO"])* 100, 2)
ingresos_categoria_ec

Unnamed: 0_level_0,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,porcentaje recaudado
CATEGORIA ECONÔMICA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Receitas Correntes,13549530000000.0,5377871000000.0,12909340000000.0,81021558.0,104.96
Receitas Correntes - intra-orçamentárias,291485000000.0,0.0,292651800000.0,183736.0,99.6
Receitas de Capital,14485750000000.0,3813949.0,12407140000000.0,1220691.0,116.75
Receitas de Capital - intra-orçamentárias,10808410000.0,0.0,28250840000.0,0.0,38.26
Sem informação,0.0,2812348000.0,46.57,0.0,0.0


In [148]:
previsiones_2013 = datos_brasil[(datos_brasil["VALOR REALIZADO"] < 0) & (datos_brasil["ANO EXERCÍCIO"] == 2013)]
previsiones_2013.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
53,22000,"Ministério da Agricultura, Pecuária e Abastec",22211,Companhia Nacional de Abastecimento,135100,COMPANHIA NACIONAL DE ABASTECIMENTO,Receitas de Capital,Alienação de Bens,Alienação de bens móveis,ALIENACAO DE TITULOS MOBILIARIOS,0.0,0.0,-35.2,0.0,2013-12-31,2013
