## Notebook 1: Exploración

En este notebook realizaremos las siguientes operaciones:
1. Entender la estructura de los datos: revisar filas, columnas y tipos de datos con los que contamos, repartidos en 9 CSVs.
2. Relaciones entre datos: identificar relaciones entre los CSVs y entre las columnas de cada uno.
3. Unión de los datos: con una visión clara de los datos, nos quedaremos con un único CSV, que será sometido al proceso de limpieza en el segundo cuaderno: Limpieza.

In [1]:
import pandas as pd
import sys
sys.path.append("../")
from src import soporte_limpieza as sl
from src import soporte_variables as sv

pd.set_option('display.max_columns', None) #Fuerza al notebook a mostrar todas las columnas.

In [2]:
# Creo una lista con las rutas de los 9 CSVs que vamos a importar

rutas = []
años = [2013,2014,2015,2016,2017,2018,2019,2020,2021]

for año in años:
    rutas.append(f"../datos/datos-{año}.csv")

print(rutas)


['../datos/datos-2013.csv', '../datos/datos-2014.csv', '../datos/datos-2015.csv', '../datos/datos-2016.csv', '../datos/datos-2017.csv', '../datos/datos-2018.csv', '../datos/datos-2019.csv', '../datos/datos-2020.csv', '../datos/datos-2021.csv']


In [3]:
# Y una segunda lista donde se cargan los CSVs como dataframes.
# Con el parámetro "pase_dates", aplicado a una columna, conseguimos transformar el tipo actual de la columna (objeto) a un formato reconocible como tipo fecha (datetime64) por pandas.

dataframes = []

for ruta in rutas:
    df = pd.read_csv(ruta, delimiter= ";", parse_dates=["DATA LANÇAMENTO"])
    dataframes.append(df)

  df = pd.read_csv(ruta, delimiter= ";", parse_dates=["DATA LANÇAMENTO"])
  df = pd.read_csv(ruta, delimiter= ";", parse_dates=["DATA LANÇAMENTO"])
  df = pd.read_csv(ruta, delimiter= ";", parse_dates=["DATA LANÇAMENTO"])
  df = pd.read_csv(ruta, delimiter= ";", parse_dates=["DATA LANÇAMENTO"])
  df = pd.read_csv(ruta, delimiter= ";", parse_dates=["DATA LANÇAMENTO"])
  df = pd.read_csv(ruta, delimiter= ";", parse_dates=["DATA LANÇAMENTO"])
  df = pd.read_csv(ruta, delimiter= ";", parse_dates=["DATA LANÇAMENTO"])


In [4]:
# Compruebo que se hayan cargado correctamente en índices del 0 al 8 de la lista

dataframes[0].head(1) #Índice 0

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,2013-12-31,


In [5]:
# Reviso que todos contengan las misma cantidad de columnas

for i in range(len(dataframes)):
    print(dataframes[i].shape[1])

# Todos continen 16 columnas

16
16
16
16
16
16
16
16
16


In [6]:
# Reviso si las columnas de los distintos DFs contienen valores del mismo tipo

for i in range(len(dataframes)):
    print(dataframes[i]["VALOR REALIZADO"].unique())

['1297,13' '26666621,42' '301251,13' ... '61593,03' '161286016,04'
 '1100465,84']
[nan '15920,83' '2195899,92' ... '1619,15' '10,89' '2909,36']
['63829853,40' '4486964,41' '13060401,15' ... '101500,00' '2316,63'
 '103,96']
['154948,98' '80,84' '4996,11' ... '11527,00' '39661,00' '5412,24']
['198,00' '2093,50' '9329,40' ... '1564,91' '439,20' '45,31']
['-1693,72' nan '-258,00' ... '731628,99' '293763,94' '520500,25']
['-95,00' '-380,00' '380,00' ... '407646,19' '3799,52' '30003,16']
['5516,90' '2946,81' '1541,53' ... '333223,75' '72656,62' '400211,28']
['0,00' '160,25' '511,43' ... '552070,08' '242149,55' '2353,18']


In [7]:
# Nos interesa ahora traducir el nommbre de las columnas a español, para que sean más fáciles de interpretar.

# Para el cambio, usaremos un diccionario que, por orden, he almacenado en otro archivo de soporte (src/soporte_variables.py).

sv.cambio_nombre_columnas

{'CÓDIGO ÓRGÃO SUPERIOR': 'codigo_organo_superior',
 'NOME ÓRGÃO SUPERIOR': 'nombre_organo_superior',
 'CÓDIGO ÓRGÃO': 'codigo_organo',
 'NOME ÓRGÃO': 'nombre_organo',
 'CÓDIGO UNIDADE GESTORA': 'codigo_unidad_gestora',
 'NOME UNIDADE GESTORA': 'nombre_unidad_gestora',
 'CATEGORIA ECONÔMICA': 'categoria_economica',
 'ORIGEM RECEITA': 'origen_ingreso',
 'ESPÉCIE RECEITA': 'tipo_ingreso',
 'DETALHAMENTO': 'detalle',
 'VALOR PREVISTO ATUALIZADO': 'valor_previsto_actualizado',
 'VALOR LANÇADO': 'valor_registrado',
 'VALOR REALIZADO': 'valor_ejecutado',
 'PERCENTUAL REALIZADO': 'porcentaje_ejecutado',
 'DATA LANÇAMENTO': 'fecha_registro',
 'ANO EXERCÍCIO': 'ano_ejercicio'}

In [8]:
# Utilizo una función para cambiar el nombre de las columnas en todos los DFs

for df in dataframes:
    sl.nombrecolumnas(df,sv.cambio_nombre_columnas)

In [9]:
# Compruebo que los cambios se han ejecutado en todos los DFs

for df in dataframes:
    print(df.columns)

Index(['codigo_organo_superior', 'nombre_organo_superior', 'codigo_organo',
       'nombre_organo', 'codigo_unidad_gestora', 'nombre_unidad_gestora',
       'categoria_economica', 'origen_ingreso', 'tipo_ingreso', 'detalle',
       'valor_previsto_actualizado', 'valor_registrado', 'valor_ejecutado',
       'porcentaje_ejecutado', 'fecha_registro', 'ano_ejercicio'],
      dtype='object')
Index(['codigo_organo_superior', 'nombre_organo_superior', 'codigo_organo',
       'nombre_organo', 'codigo_unidad_gestora', 'nombre_unidad_gestora',
       'categoria_economica', 'origen_ingreso', 'tipo_ingreso', 'detalle',
       'valor_previsto_actualizado', 'valor_registrado', 'valor_ejecutado',
       'porcentaje_ejecutado', 'fecha_registro', 'ano_ejercicio'],
      dtype='object')
Index(['codigo_organo_superior', 'nombre_organo_superior', 'codigo_organo',
       'nombre_organo', 'codigo_unidad_gestora', 'nombre_unidad_gestora',
       'categoria_economica', 'origen_ingreso', 'tipo_ingreso', 'detal

In [10]:
# Compruebo que los DFs contienen los mismo tipo de datos en sus columnas

for df in dataframes:
    print(df.dtypes)

codigo_organo_superior               float64
nombre_organo_superior                object
codigo_organo                        float64
nombre_organo                         object
codigo_unidad_gestora                float64
nombre_unidad_gestora                 object
categoria_economica                   object
origen_ingreso                        object
tipo_ingreso                          object
detalle                               object
valor_previsto_actualizado            object
valor_registrado                      object
valor_ejecutado                       object
porcentaje_ejecutado                  object
fecha_registro                datetime64[ns]
ano_ejercicio                        float64
dtype: object
codigo_organo_superior               float64
nombre_organo_superior                object
codigo_organo                        float64
nombre_organo                         object
codigo_unidad_gestora                float64
nombre_unidad_gestora                 obj

In [11]:
# Antes de unir los DFs, me interesa comprobar que la información de cada DF se corresponde con un sólo año, para mantener la integridad de los datos.

for df in dataframes:
    print(df["ano_ejercicio"].unique())

# Puede verse que corresponden, pero hay valores nulos.

[  nan 2013.]
[2014.   nan]
[2015.   nan]
[2016.   nan]
[2017.   nan]
[  nan 2018.]
[2019.   nan]
[2020.   nan]
[2021.   nan]


In [12]:
# Reviso cantidad de nulos en las fechas de cada DF

for df in dataframes:
    print(df[df["ano_ejercicio"].isna()].shape[0])


#con .isna() y .shape[0] cuento la cantidad de filas con valores NaN

1124
1138
1131
48633
47620
43486
44207
35587
33648


In [13]:
# Utilizo una función en el soporte para dar formato y rellenar los nulos en las columnas "ano_ejercicio" de los DFs.

sl.rellenar_anos(dataframes,años)

In [14]:
# Compruebo que ya no tengo nulos en la columna de año de ejercicio

for df in dataframes:
    print(df["ano_ejercicio"].unique())

[2013]
[2014]
[2015]
[2016]
[2017]
[2018]
[2019]
[2020]
[2021]


In [15]:
# Ahora se pueden unir los dataframes. Dado que, todos contienen la misma información, la operación es, apilarlos uno encima de otro, utilizando la función concat. #Reiniciamos índices para no tener valores repetidos.

df_completo = pd.concat(dataframes)
df_completo.reset_index()

# Imprimimos una muestra.
df_completo.head(5)

Unnamed: 0,codigo_organo_superior,nombre_organo_superior,codigo_organo,nombre_organo,codigo_unidad_gestora,nombre_unidad_gestora,categoria_economica,origen_ingreso,tipo_ingreso,detalle,valor_previsto_actualizado,valor_registrado,valor_ejecutado,porcentaje_ejecutado,fecha_registro,ano_ejercicio
0,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,2013-12-31 00:00:00,2013
1,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0,0,2666662142,0,2013-12-31 00:00:00,2013
2,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",OUTRAS MULTAS E JUROS DE MORA,0,0,30125113,0,2013-12-31 00:00:00,2013
3,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,0,0,185558,0,2013-12-31 00:00:00,2013
4,63000.0,Advocacia-Geral da União,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",OUTRAS RESTITUICOES,0,0,5214068,0,2013-12-31 00:00:00,2013


In [16]:
# Y comprobamos el nuevo tamaño.
df_completo.shape

(1026299, 16)

In [17]:
# Puede verse que se mantienen las 16 columnas y en total más de 1 millón de registros correspondientes a los 9 años.

# Procedemos a almacenar en un nuevo archivo CSV.

df_completo.to_csv("../datos/brasil_completo.csv", index=False) 

In [18]:
# Con este nuevo csv se realizará la limpieza de los datos en el notebook "Limpieza".

### Resumen

En este notebook hemos:
1. Comprobado que los 9 dataframes contenían las mismas 16 columnas.

2. Analizado el contenido de los dataframes corresponde a la recaudación del gobierno brasileño, por lo que asumimos que, se encuentran en la moneda local (reales). Muestran los siguientes valores:
    - Valor previsto actualizado: corresponde al dinero que el gobierno espera recaudar.
    - Valor registrado: corresponde al dinero que se registró en la contabilidad.
    - Valor ejecutado: corresponde al dinero que realmente se recaudó.
    
    Estos montantes corresponden a:
    - un órgano superior,
    - un órgano y,
    - una unidad gestora.
    
    Por otra parte, los ingresos se clasifican de la siguiente manera:
    - categoría económica,
    - origen del ingreso,
    - tipo de ingreso y,
    - detalle.
    
    Tenemos información también sobre la fecha en que se registraron los ingresos.

3. Unido los DFs entre sí con el método concat, que los apila uno por encima del otro.

4. Modificado el nombre de las columnas para que sean más legibles y estén en castellano. Se han sustituido los espacios por "_" y el nombre completo se encuentra en minúscula, de modo que haya menor margen de error al llamar a una columna de ahora en adelante.

5. Rellenado la columna "ano_ejercicio" con los años correspondientes. 

6. Exportado un nuevo dataframe para ejecutar la limpieza de los datos.