En este docuemnto realizamos la carga de los datos y realizamos un análisis general de los distintos años. Revisaremos que todas las columnas contengan los datos correctos, que los tipos de dato sean correctos, realizaremos un tratamiento de los valores nulos y de los duplicados.

In [2]:
# Importamos las librerías a utilizar
import pandas as pd
import numpy as np

In [3]:
# Indicamos que queremos que nos enseñe por pantalla todas las columnas de los DataFrame que vamos a cargar
pd.set_option('display.max_columns', None)

Ponemos las funciones que usaremos en el análisis

In [4]:
def info_df(df):
    """
    Función que devuelve información general sobre el DatFrame que le pasemos.


    Args:
        df (DataFrame): DataFrame con información que queramos revisar

    Returns:
        DataFrame: DataFrame con información general sobre las columnas del DataFrame que se le ha pasado a la función: tipo de datos, número de
        registros, número de valores nulos, porcentaje de los valores nulos sobre el total
    """
    info_df = pd.DataFrame()
    info_df["Tipo_dato"] = df.dtypes
    info_df["numero_registros"] = [df[elemento].value_counts().sum() for elemento in df]
    info_df["Numero_nulos"] = round(df.isnull().sum())
    info_df["%_nulos"] = round((df.isnull().sum()/df.shape[0])*100, 2)

    return info_df

# Análisis año a año del desarrollo económico de Brasil

**Datos 2013**

In [5]:
# Nos ha surgido un problema a la hora de cargar los datos debido a que los datos no están en español, sino en portugués (son datos de Brasil). 
datos_2013 = pd.read_csv("datos/datos-2013.csv", sep = ";", encoding = "latin-1")
datos_2013. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013


In [25]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2013 = datos_2013.copy()
copia_datos_2013.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013


Información general del DataFrame de 2013

In [40]:
info_df(datos_2013)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,4498,0,0.0
NOME ÓRGÃO SUPERIOR,object,4498,0,0.0
CÓDIGO ÓRGÃO,int64,4498,0,0.0
NOME ÓRGÃO,object,4498,0,0.0
CÓDIGO UNIDADE GESTORA,int64,4498,0,0.0
NOME UNIDADE GESTORA,object,4498,0,0.0
CATEGORIA ECONÔMICA,object,4498,0,0.0
ORIGEM RECEITA,object,4498,0,0.0
ESPÉCIE RECEITA,object,4498,0,0.0
DETALHAMENTO,object,4498,0,0.0


In [6]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2013["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2013["VALOR LANÇADO"].dtypes)
print(datos_2013["VALOR REALIZADO"].dtypes)
print(datos_2013["PERCENTUAL REALIZADO"].dtypes)

# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


In [8]:
# Para poder realizar el cambio de estas columnas del tipo de dato, anteriormente necesitaremos cambiar las comas por puntos, ya que python
# no reconoce las comas en los números, solo los puntos. Para ello aplicaremos un replace sobre cada uno de los elementos de las columnas, 
# y pediremos que nos modifique las comas por puntos.
def buscar_reemplazar(dataframe, columnas):
        """
        Función que cambia los valores de una columna de un DataFrame con valores númericos en tipo string, a números de tipo float, habiendo
        modificado las comas por puntos antes.

        Args:
            df (columna de un DataFrame, Serie): columna de un DataFrame con números en tipo string y con comas en vez de puntos.

        Returns:
            Columna de un DataFrame: columna del DataFrame con los números en tipo float.
        """
        for columna in columnas:
            print(columna)
                
            dataframe[columna] = dataframe[columna].str.replace(",", ".").astype(float)
        return dataframe

In [9]:
datos_2013.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013


In [10]:
columnas_2013 = datos_2013.iloc[:,10: 14].columns
columnas_2013

Index(['VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO', 'VALOR REALIZADO',
       'PERCENTUAL REALIZADO'],
      dtype='object')

In [11]:
datos_2013 = buscar_reemplazar(datos_2013, columnas_2013)
datos_2013.head(2)

VALOR PREVISTO ATUALIZADO
VALOR LANÇADO
VALOR REALIZADO
PERCENTUAL REALIZADO


Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,31/12/2013,2013
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0.0,0.0,26666621.42,0.0,31/12/2013,2013


In [117]:
# En estas columnas tenemos información de tipo fecha pero las tenemos en tipo objeto. Vamos a realizar el tipo de cambio de dato.
print(datos_2013["PERCENTUAL REALIZADO"].dtypes)
print(datos_2013["DATA LANÇAMENTO"].dtypes)

object
object


In [None]:
# Cambiamos los tipos de datos a fecha 

No tenemos valores nulos en ninguna de las columnas del DataFrame de 2013.

In [45]:
numero_duplicados_df_2013 = datos_2013.duplicated().sum()
numero_duplicados_df_2013

np.int64(0)

**Datos 2014**

In [24]:
# Importamos los datos del año 2014
datos_2014 = pd.read_csv("datos/datos-2014.csv", sep = ";", encoding = "latin-1")
datos_2014. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORÁRIOS DE ADVOGADOS,0,0,4669994808,0,31/12/2014,2014


In [23]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2014 = datos_2014.copy()
copia_datos_2014.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORÁRIOS DE ADVOGADOS,0,0,4669994808,0,31/12/2014,2014


Información general del DataFrame de 2014

In [41]:
info_df(datos_2014)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,4553,0,0.0
NOME ÓRGÃO SUPERIOR,object,4553,0,0.0
CÓDIGO ÓRGÃO,int64,4553,0,0.0
NOME ÓRGÃO,object,4553,0,0.0
CÓDIGO UNIDADE GESTORA,int64,4553,0,0.0
NOME UNIDADE GESTORA,object,4553,0,0.0
CATEGORIA ECONÔMICA,object,4553,0,0.0
ORIGEM RECEITA,object,4553,0,0.0
ESPÉCIE RECEITA,object,4553,0,0.0
DETALHAMENTO,object,4553,0,0.0


In [121]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2014["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2014["VALOR LANÇADO"].dtypes)
print(datos_2014["VALOR REALIZADO"].dtypes)
print(datos_2013["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


No hay valores nulos en el DataFrame de 2014

In [46]:
numero_duplicados_df_2014 = datos_2014.duplicated().sum()
numero_duplicados_df_2014

np.int64(0)

**Datos 2015**

In [22]:
# Importamos los datos del año 2015
datos_2015 = pd.read_csv("datos/datos-2015.csv", sep = ";", encoding = "latin-1")
datos_2015. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORARIOS DE ADVOGADOS,0,0,6382985340,0,31/12/2015,2015


In [21]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2015 = datos_2015.copy()
copia_datos_2015.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORARIOS DE ADVOGADOS,0,0,6382985340,0,31/12/2015,2015


Información general del DataFrame de 2014

In [47]:
info_df(datos_2015)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,4523,0,0.0
NOME ÓRGÃO SUPERIOR,object,4523,0,0.0
CÓDIGO ÓRGÃO,int64,4523,0,0.0
NOME ÓRGÃO,object,4523,0,0.0
CÓDIGO UNIDADE GESTORA,int64,4523,0,0.0
NOME UNIDADE GESTORA,object,4523,0,0.0
CATEGORIA ECONÔMICA,object,4523,0,0.0
ORIGEM RECEITA,object,4523,0,0.0
ESPÉCIE RECEITA,object,4523,0,0.0
DETALHAMENTO,object,4523,0,0.0


In [122]:
# Los datos de la columna del monto previsto actualizado contiene números que tienen formato objeto, cuando son datos numéricos. 
print(datos_2014["VALOR PREVISTO ATUALIZADO"].dtypes)
print(datos_2014["VALOR LANÇADO"].dtypes)
print(datos_2014["VALOR REALIZADO"].dtypes)
print(datos_2013["PERCENTUAL REALIZADO"].dtypes)
# Para poder trabajar con estas columnas vamos a necesitar cambiar el tipo de dato de las mismas.

object
object
object
object


No hay valores nulos en el DataFrame de datos de 2015.

In [48]:
numero_duplicados_df_2015 = datos_2015.duplicated().sum()
numero_duplicados_df_2015

np.int64(0)

**Datos 2016**

In [27]:
# Importamos los datos del año 2016
datos_2016 = pd.read_csv("datos/datos-2016.csv", sep = ";", encoding = "latin-1")
datos_2016. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,ENCARGOS LEGAIS PELA INSCR.EM DIV.ATIVA-PRINC,0,0,15494898,0,04/04/2016,2016


In [28]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2016 = datos_2016.copy()
copia_datos_2016.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,ENCARGOS LEGAIS PELA INSCR.EM DIV.ATIVA-PRINC,0,0,15494898,0,04/04/2016,2016


Información general sobre los datos de 2016.

In [49]:
info_df(datos_2016)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,194533,0,0.0
NOME ÓRGÃO SUPERIOR,object,194533,0,0.0
CÓDIGO ÓRGÃO,int64,194533,0,0.0
NOME ÓRGÃO,object,194533,0,0.0
CÓDIGO UNIDADE GESTORA,int64,194533,0,0.0
NOME UNIDADE GESTORA,object,194533,0,0.0
CATEGORIA ECONÔMICA,object,194533,0,0.0
ORIGEM RECEITA,object,194533,0,0.0
ESPÉCIE RECEITA,object,194533,0,0.0
DETALHAMENTO,object,194533,0,0.0


Hay valores nulos en la columna de `DATA LANÇAMENTO`, la de la fecha en la que se registró el ingreso.

In [50]:
numero_duplicados_df_2016 = datos_2016.duplicated().sum()
numero_duplicados_df_2016

np.int64(0)

**Datos 2017**

In [29]:
# Importamos los datos del año 2017
datos_2017 = pd.read_csv("datos/datos-2017.csv", sep = ";", encoding = "latin-1")
datos_2017. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-PRINCIPAL,0,0,19800,0,29/08/2017,2017


In [30]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2017 = datos_2017.copy()
copia_datos_2017.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-PRINCIPAL,0,0,19800,0,29/08/2017,2017


In [52]:
info_df(datos_2017)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,190479,0,0.0
NOME ÓRGÃO SUPERIOR,object,190479,0,0.0
CÓDIGO ÓRGÃO,int64,190479,0,0.0
NOME ÓRGÃO,object,190479,0,0.0
CÓDIGO UNIDADE GESTORA,int64,190479,0,0.0
NOME UNIDADE GESTORA,object,190479,0,0.0
CATEGORIA ECONÔMICA,object,190479,0,0.0
ORIGEM RECEITA,object,190479,0,0.0
ESPÉCIE RECEITA,object,190479,0,0.0
DETALHAMENTO,object,190479,0,0.0


Hay 86 valores nulos en la columna de `DATA LANÇAMENTO`, la de la fecha en la que se registró el ingreso.

In [51]:
numero_duplicados_df_2017 = datos_2017.duplicated().sum()
numero_duplicados_df_2017

np.int64(0)

**Datos 2018**

In [31]:
# Importamos los datos del año 2018
datos_2018 = pd.read_csv("datos/datos-2018.csv", sep = ";", encoding = "latin-1")
datos_2018. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receitas Correntes - a classificar,Receitas Correntes - a classificar,Receitas Correntes - a classificar,0,0,-169372,0,25/07/2018,2018


In [32]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2018 = datos_2018.copy()
copia_datos_2018.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receitas Correntes - a classificar,Receitas Correntes - a classificar,Receitas Correntes - a classificar,0,0,-169372,0,25/07/2018,2018


In [54]:
info_df(datos_2018)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,173944,0,0.0
NOME ÓRGÃO SUPERIOR,object,173944,0,0.0
CÓDIGO ÓRGÃO,int64,173944,0,0.0
NOME ÓRGÃO,object,173944,0,0.0
CÓDIGO UNIDADE GESTORA,int64,173944,0,0.0
NOME UNIDADE GESTORA,object,173944,0,0.0
CATEGORIA ECONÔMICA,object,173944,0,0.0
ORIGEM RECEITA,object,173944,0,0.0
ESPÉCIE RECEITA,object,173944,0,0.0
DETALHAMENTO,object,173944,0,0.0


Hay 115 valores nulos en la columna de `DATA LANÇAMENTO`, la de la fecha en la que se registró el ingreso.

In [53]:
numero_duplicados_df_2018 = datos_2018.duplicated().sum()
numero_duplicados_df_2018

np.int64(0)

**Datos 2019**

In [33]:
# Importamos los datos del año 2019
datos_2019 = pd.read_csv("datos/datos-2019.csv", sep = ";", encoding = "latin-1")
datos_2019. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0,0,-9500,0,12/06/2019,2019


In [34]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2019 = datos_2019.copy()
copia_datos_2019.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0,0,-9500,0,12/06/2019,2019


In [55]:
info_df(datos_2019)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,176828,0,0.0
NOME ÓRGÃO SUPERIOR,object,176828,0,0.0
CÓDIGO ÓRGÃO,int64,176828,0,0.0
NOME ÓRGÃO,object,176828,0,0.0
CÓDIGO UNIDADE GESTORA,int64,176828,0,0.0
NOME UNIDADE GESTORA,object,176828,0,0.0
CATEGORIA ECONÔMICA,object,176828,0,0.0
ORIGEM RECEITA,object,176828,0,0.0
ESPÉCIE RECEITA,object,176828,0,0.0
DETALHAMENTO,object,176828,0,0.0


Hay 86 valores nulos en la columna de `DATA LANÇAMENTO`, la de la fecha en la que se registró el ingreso.

In [56]:
numero_duplicados_df_2019 = datos_2019.duplicated().sum()
numero_duplicados_df_2019

np.int64(0)

**Datos 2020**

In [35]:
# Importamos los datos del año 2019
datos_2020 = pd.read_csv("datos/datos-2020.csv", sep = ";", encoding = "latin-1")
datos_2020. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RESTITUIÇÃO DE CONVÊNIOS-PRIMÁRIAS-DÍV.ATIVA,0,0,551690,0,28/04/2020,2020


In [36]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2020 = datos_2020.copy()
copia_datos_2020.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RESTITUIÇÃO DE CONVÊNIOS-PRIMÁRIAS-DÍV.ATIVA,0,0,551690,0,28/04/2020,2020


In [57]:
info_df(datos_2020)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,142348,0,0.0
NOME ÓRGÃO SUPERIOR,object,142348,0,0.0
CÓDIGO ÓRGÃO,int64,142348,0,0.0
NOME ÓRGÃO,object,142348,0,0.0
CÓDIGO UNIDADE GESTORA,int64,142348,0,0.0
NOME UNIDADE GESTORA,object,142348,0,0.0
CATEGORIA ECONÔMICA,object,142348,0,0.0
ORIGEM RECEITA,object,142348,0,0.0
ESPÉCIE RECEITA,object,142348,0,0.0
DETALHAMENTO,object,142348,0,0.0


Hay 86 valores nulos en la columna de `DATA LANÇAMENTO`, la de la fecha en la que se registró el ingreso.

In [58]:
numero_duplicados_df_2020 = datos_2020.duplicated().sum()
numero_duplicados_df_2020

np.int64(0)

**Datos 2021**

In [37]:
# Importamos los datos del año 2019
datos_2021 = pd.read_csv("datos/datos-2021.csv", sep = ";", encoding = "latin-1")
datos_2021. head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,222403490400,0,0,0,23/04/2021,2021


In [38]:
# Nos creamos una copia del DataFrame por si acaso
copia_datos_2021 = datos_2021.copy()
copia_datos_2021.head(1)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,222403490400,0,0,0,23/04/2021,2021


In [60]:
info_df(datos_2021)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
CÓDIGO ÓRGÃO SUPERIOR,int64,134593,0,0.0
NOME ÓRGÃO SUPERIOR,object,134593,0,0.0
CÓDIGO ÓRGÃO,int64,134593,0,0.0
NOME ÓRGÃO,object,134593,0,0.0
CÓDIGO UNIDADE GESTORA,int64,134593,0,0.0
NOME UNIDADE GESTORA,object,134593,0,0.0
CATEGORIA ECONÔMICA,object,134593,0,0.0
ORIGEM RECEITA,object,134593,0,0.0
ESPÉCIE RECEITA,object,134593,0,0.0
DETALHAMENTO,object,134593,0,0.0


Hay 123 valores nulos en la columna de `DATA LANÇAMENTO`, la de la fecha en la que se registró el ingreso.

In [59]:
numero_duplicados_df_2021 = datos_2021.duplicated().sum()
numero_duplicados_df_2021

np.int64(0)