## Notebook 2: Limpieza
En este notebook realizaremos las siguientes operaciones:
1. Buscar duplicados y quitar columnas innecesarias para el análisis.
2. Analizar recuentos de valores y valores únicos en columnas categóricas.
3. Rellenar valores nulos (NaNs).
4. Corregir tipos de datos: objects, floats, ints.
5. Tratar formatos de fecha.

In [196]:
import pandas as pd
import numpy as np
import sys
sys.path.append("../")
from src import soporte_limpieza as sl
from src import soporte_variables as sv

pd.set_option('display.max_columns', None) 

In [197]:
# Importo un único dataframe que se ha unido en el notebook "Exploración", que contiene la información de los 9 años de análisis.

df = pd.read_csv("../datos/brasil_completo.csv", parse_dates= ["fecha_registro"])

In [198]:
df.columns

Index(['codigo_organo_superior', 'nombre_organo_superior', 'codigo_organo',
       'nombre_organo', 'codigo_unidad_gestora', 'nombre_unidad_gestora',
       'categoria_economica', 'origen_ingreso', 'tipo_ingreso', 'detalle',
       'valor_previsto_actualizado', 'valor_registrado', 'valor_ejecutado',
       'porcentaje_ejecutado', 'fecha_registro', 'ano_ejercicio'],
      dtype='object')

In [199]:
df.columns

Index(['codigo_organo_superior', 'nombre_organo_superior', 'codigo_organo',
       'nombre_organo', 'codigo_unidad_gestora', 'nombre_unidad_gestora',
       'categoria_economica', 'origen_ingreso', 'tipo_ingreso', 'detalle',
       'valor_previsto_actualizado', 'valor_registrado', 'valor_ejecutado',
       'porcentaje_ejecutado', 'fecha_registro', 'ano_ejercicio'],
      dtype='object')

In [200]:
# Como se puede observar en este print, tenemos un total de 705455 registros nulos en todo el DF. El primer paso será reducirlos, tratándolos de forma particular según su tipo.

df.isna().sum()

codigo_organo_superior         30359
nombre_organo_superior        359206
codigo_organo                  25117
nombre_organo                  34887
codigo_unidad_gestora          33581
nombre_unidad_gestora          19481
categoria_economica            18978
origen_ingreso                 38418
tipo_ingreso                   31927
detalle                        29337
valor_previsto_actualizado     51315
valor_registrado               26419
valor_ejecutado                39465
porcentaje_ejecutado           24134
fecha_registro                 23831
ano_ejercicio                      0
dtype: int64

In [201]:
df.head(1)


Unnamed: 0,codigo_organo_superior,nombre_organo_superior,codigo_organo,nombre_organo,codigo_unidad_gestora,nombre_unidad_gestora,categoria_economica,origen_ingreso,tipo_ingreso,detalle,valor_previsto_actualizado,valor_registrado,valor_ejecutado,porcentaje_ejecutado,fecha_registro,ano_ejercicio
0,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,2013-12-31 00:00:00,2013


In [202]:
# Compruebo integridad del DF. Se mantiene el concatenado realizado en el notebook de Exploración.
df.shape

(1026299, 16)

In [203]:
# Empezaremos por cambiar el formato de las columnas que deberían ser numéricas, pero que actualmente son objetos:
# valor_previsto_actualizado
# valor_registrado
# valor_ejecutado
# porcentaje_ejecutado

# Por otro lado, aunque hayamos utilizado el parámetro parse_dates para importar el DF, en ocasiones podría no transformar la fecha, así que aplicaremos una función a la columna "fecha_registro" para corregirlo.

df.dtypes

codigo_organo_superior        float64
nombre_organo_superior         object
codigo_organo                 float64
nombre_organo                  object
codigo_unidad_gestora         float64
nombre_unidad_gestora          object
categoria_economica            object
origen_ingreso                 object
tipo_ingreso                   object
detalle                        object
valor_previsto_actualizado     object
valor_registrado               object
valor_ejecutado                object
porcentaje_ejecutado           object
fecha_registro                 object
ano_ejercicio                   int64
dtype: object

In [204]:
# Con describe, podemos confirmar que los valores monetarios, que deberían ser numéricos, no se corresponden con ese tipo de dato.

df.describe()

Unnamed: 0,codigo_organo_superior,codigo_organo,codigo_unidad_gestora,ano_ejercicio
count,995940.0,1001182.0,992718.0,1026299.0
mean,32053.240155,31438.03,231293.25571,2018.226
std,10614.740359,10385.98,144174.177831,1.737966
min,20000.0,20101.0,110005.0,2013.0
25%,25000.0,25201.0,154003.0,2017.0
50%,26000.0,26298.0,170013.0,2018.0
75%,39000.0,36000.0,250088.0,2020.0
max,81000.0,91214.0,913001.0,2021.0


In [205]:
# Utilizaremos en este notebook las funciones en el archivo de sorporte ubicado en ""../src/soporte_limpieza.py"

sl.valores_numeros(df, "valor_previsto_actualizado")
sl.valores_numeros(df, "valor_registrado")
sl.valores_numeros(df, "valor_ejecutado")
sl.valores_numeros(df, "porcentaje_ejecutado")

sl.conversion_fecha(df, "fecha_registro")

# Y comprobamos que se han ejecutado correctamente.
df.dtypes

codigo_organo_superior               float64
nombre_organo_superior                object
codigo_organo                        float64
nombre_organo                         object
codigo_unidad_gestora                float64
nombre_unidad_gestora                 object
categoria_economica                   object
origen_ingreso                        object
tipo_ingreso                          object
detalle                               object
valor_previsto_actualizado           float64
valor_registrado                     float64
valor_ejecutado                      float64
porcentaje_ejecutado                 float64
fecha_registro                datetime64[ns]
ano_ejercicio                          int64
dtype: object

In [206]:
# Analizando el DF, hay columnas que guardan relación entre sí, pero que, en algunos casos, tienen datos nulos en una u otra. Ocurre en los casos de:

# codigo_organo_superior y nombre_organo_superior
# codigo_organo y nombre_organo
# codigo_unidad_gestora y nombre_unidad gestora

df.head(1)

Unnamed: 0,codigo_organo_superior,nombre_organo_superior,codigo_organo,nombre_organo,codigo_unidad_gestora,nombre_unidad_gestora,categoria_economica,origen_ingreso,tipo_ingreso,detalle,valor_previsto_actualizado,valor_registrado,valor_ejecutado,porcentaje_ejecutado,fecha_registro,ano_ejercicio
0,63000.0,,63000.0,Advocacia-Geral da União - Unidades com víncul...,110060.0,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,2013-12-31,2013


In [207]:
# Podemos utilizar funciones para eliminar todos estos valores nulos.
# Hemos relacionado el nombre de cada entidad con su código creando diccionarios en el notebook "Diccionarios", y los resultados están almacenados en "../src/support_variables".

# Los parámetros que recibe la función rellenar_codigos_nombres función son 4:
# (dataframe, columna codigo, columna nombre, diccionario).DS_Store

# Con esta función, rellenaremos la columna código con los nombres, dado que son más fáciles de interpretar para el análisis. El último paso que ejecuta es eliminar las columnas de nombres, por cuanto serían redudantes.

sl.rellenar_codigos_nombres(df,"codigo_organo_superior","nombre_organo_superior",sv.dicc_organo_superior)
sl.rellenar_codigos_nombres(df,"codigo_organo","nombre_organo",sv.dicc_organo)
sl.rellenar_codigos_nombres(df,"codigo_unidad_gestora","nombre_unidad_gestora",sv.dicc_unidad_gestora)

Unnamed: 0,codigo_organo_superior,codigo_organo,codigo_unidad_gestora,categoria_economica,origen_ingreso,tipo_ingreso,detalle,valor_previsto_actualizado,valor_registrado,valor_ejecutado,porcentaje_ejecutado,fecha_registro,ano_ejercicio
0,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,2013-12-31,2013
1,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0.0,0.0,26666621.42,0.0,2013-12-31,2013
2,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",OUTRAS MULTAS E JUROS DE MORA,0.0,0.0,301251.13,0.0,2013-12-31,2013
3,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,0.0,0.0,1855.58,0.0,2013-12-31,2013
4,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",OUTRAS RESTITUICOES,0.0,0.0,52140.68,0.0,2013-12-31,2013
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1026294,Presidência da República,Instituto Nacional de Tecnologia da Informação,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,16940891.0,0.0,0.00,0.0,2021-04-23,2021
1026295,Presidência da República,Instituto Nacional de Tecnologia da Informação,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",0.0,0.0,,0.0,2021-11-22,2021
1026296,Presidência da República,Instituto Nacional de Tecnologia da Informação,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",200000.0,0.0,0.00,0.0,2021-04-23,2021
1026297,Presidência da República,Instituto Nacional de Tecnologia da Informação,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",0.0,0.0,1000000.00,,2021-05-10,2021


In [208]:
# Ahora que tenemos las columnas de código de entidades completas, las podemos renombrar para que sean fieles a su contenido.

df.rename(columns={"codigo_organo_superior":"organo_superior"}, inplace=True)
df.rename(columns={"codigo_organo":"organo"}, inplace=True)
df.rename(columns={"codigo_unidad_gestora":"unidad_gestora"}, inplace=True)

# Comprobamos los cambios, nos hemos quedado con un DF mucho más legible y completo.
df.head(1)

Unnamed: 0,organo_superior,organo,unidad_gestora,categoria_economica,origen_ingreso,tipo_ingreso,detalle,valor_previsto_actualizado,valor_registrado,valor_ejecutado,porcentaje_ejecutado,fecha_registro,ano_ejercicio
0,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,2013-12-31,2013


In [209]:
# Compruebo nuevamente que se mantenga la integridad del DF. El número de columnas se ha reducido en 3 dado que se han eliminado las columnas de código, pero las filas se mantienen.

df.shape

(1026299, 13)

In [210]:
# Limpiaremos ahora las columnas categoria_economica, origen_ingreso y tipo_ingreso.

df["categoria_economica"].unique()

array(['Receitas Correntes', 'Receitas de Capital', nan,
       'Receitas Correntes - intra-orçamentárias', 'Sem informação',
       'Receitas de Capital - intra-orçamentárias'], dtype=object)

In [211]:
df["origen_ingreso"].unique()

array(['Outras Receitas Correntes', 'Receita de Serviços',
       'Transferências de Capital', 'Alienação de Bens',
       'Receita Agropecuária', 'Transferências Correntes',
       'Receita Patrimonial', 'Operações de Crédito',
       'Impostos, Taxas e Contribuições de Melhoria', nan,
       'Amortizações de Empréstimos', 'Contribuições',
       'Receita Industrial', 'Outras Receitas de Capital',
       'Receitas Correntes - a classificar', 'Sem informação'],
      dtype=object)

In [212]:
df["tipo_ingreso"].unique()

array(['Bens, Direitos e Valores Incorporados ao Patr',
       'Indenizações, restituições e ressarcimentos',
       'Multas administrativas, contratuais e judicia',
       'Demais receitas correntes', 'Receita de Serviços',
       'Transferências de Instituições Privadas',
       'Alienação de bens móveis',
       'Receita da produção animal e derivados',
       'Transferências dos Municípios e de suas Entid',
       'Alienação de bens imóveis', 'Transferências de Pessoas Físicas',
       'Valores Mobiliários',
       'Exploração do patrimônio imobiliário do Estad',
       'Operações de crédito - mercado interno', 'Taxas', nan,
       'Delegação de Serviços Públicos Mediante Conce',
       'Outras receitas agropecuárias', 'Amortizações de Empréstimos',
       'Contribuições econômicas', 'Transferências de Convênios',
       'Indenizações e restituições',
       'Receitas da indústria de transformação', 'Contribuições sociais',
       'Receita dívida ativa alienação de estoques de',
  

In [213]:
# Llamos a función para sustituir nulos con "Desconocido":

sl.nulos_categoricos(df,"categoria_economica")
sl.nulos_categoricos(df,"origen_ingreso")
sl.nulos_categoricos(df,"tipo_ingreso")

# Y para el resto de datos, usaremos un diccionario para traducir los datos y unificar transformar las entradas "Sem informaćão" a "Desconocido", como los nulos.

sl.traducir_dicc(df,"categoria_economica",sv.dicc_cat_economica)
sl.traducir_dicc(df,"origen_ingreso",sv.dicc_tipo_ingreso)
sl.traducir_dicc(df,"tipo_ingreso",sv.dicc_tipo_ingreso)


Unnamed: 0,organo_superior,organo,unidad_gestora,categoria_economica,origen_ingreso,tipo_ingreso,detalle,valor_previsto_actualizado,valor_registrado,valor_ejecutado,porcentaje_ejecutado,fecha_registro,ano_ejercicio
0,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Bienes, Derechos y Valores Incorporados al Pat...",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,2013-12-31,2013
1,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Indemnizaciones, devoluciones y reembolsos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0.0,0.0,26666621.42,0.0,2013-12-31,2013
2,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Multas administrativas, contractuales y judici...",OUTRAS MULTAS E JUROS DE MORA,0.0,0.0,301251.13,0.0,2013-12-31,2013
3,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Bienes, Derechos y Valores Incorporados al Pat...",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,0.0,0.0,1855.58,0.0,2013-12-31,2013
4,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Indemnizaciones, devoluciones y reembolsos",OUTRAS RESTITUICOES,0.0,0.0,52140.68,0.0,2013-12-31,2013
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1026294,Presidência da República,Instituto Nacional de Tecnologia da Informação,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Ingresos de Capital,Operações de Crédito,Operaciones de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,16940891.0,0.0,0.00,0.0,2021-04-23,2021
1026295,Presidência da República,Instituto Nacional de Tecnologia da Informação,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Ingresos Corrientes,Ingresos por Servicios,Servicios Administrativos y Comerciales Generales,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",0.0,0.0,,0.0,2021-11-22,2021
1026296,Presidência da República,Instituto Nacional de Tecnologia da Informação,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Ingresos Corrientes,Ingresos por Servicios,Servicios Administrativos y Comerciales Generales,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",200000.0,0.0,0.00,0.0,2021-04-23,2021
1026297,Presidência da República,Instituto Nacional de Tecnologia da Informação,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Ingresos Corrientes,Ingresos por Servicios,Servicios Administrativos y Comerciales Generales,"SERV.DE REGIST.,CERTIF.E FISCALIZ.-PRINCIPAL",0.0,0.0,1000000.00,,2021-05-10,2021


In [214]:
# Comprobamos que:
# 1. no tenemos nulos que,
# 2. para todos los datos desconocidos, ahora tenemos una única etiqueta y,
# 3. los valores del diccionario se han sustituido para mostrar las categorías en español.

df["categoria_economica"].unique()

array(['Ingresos Corrientes', 'Ingresos de Capital', 'Desconocido',
       'Ingresos Corrientes - intra-presupuestarios',
       'Ingresos de Capital - intra-presupuestarios'], dtype=object)

In [215]:
# Corresponde ahora decidir cómo tratar los valores nulos en las columnas numéricas. En el caso del porcentaje_ejecutado, sabemos que es el producto de la divisón entre el valor_ejecutado/valor_previsto_actualizado, con lo cual, una vez limpias las otras columnas, podemos recalcularlo y reducir al mínimo el número de filas perdidas.

In [216]:
df.sample(5)[["valor_previsto_actualizado","valor_registrado","valor_ejecutado","porcentaje_ejecutado"]]

Unnamed: 0,valor_previsto_actualizado,valor_registrado,valor_ejecutado,porcentaje_ejecutado
256741,0.0,0.0,75000.0,0.0
656819,0.0,0.0,8489.12,0.0
260577,0.0,0.0,3687.63,0.0
290258,0.0,0.0,3899.31,0.0
926713,0.0,0.0,624.6,0.0


In [217]:
df[["valor_previsto_actualizado","valor_registrado","valor_ejecutado","porcentaje_ejecutado"]].isna().sum()

valor_previsto_actualizado    51315
valor_registrado              26419
valor_ejecutado               39465
porcentaje_ejecutado          24134
dtype: int64

In [218]:
# En total, tenemos en las columnas valor_previsto_actualizado, valor_registrado y valor_ejecutado un total de 117199 nulos, que se corresponde con un 11% de las filas totales. Dado que, no nos aportan valor, procederemos a eliminarlos para el análisis.

# Rellenarlos con 0 no sería correcto porque, distorsionaría los valores estadísticos. Además, no tenemos certeza sobre si, esa infomación simplemente no ha sido incluida en los CSV entregados por el gobierno de Brasil.

# Otra opción para rellenar numérico nulos es utilizar el -999, pero acabaríamos muchos valores atípicos y distorsionados.

In [219]:
df.shape

(1026299, 13)

In [220]:
# Procedemos a eliminar los nulos del resto de columnas numéricas.
df.dropna(subset=["valor_previsto_actualizado"], inplace=True)
df.dropna(subset=["valor_registrado"], inplace=True)
df.dropna(subset=["valor_ejecutado"], inplace=True)


In [221]:
df.shape

(913459, 13)

In [222]:
# Recalculamos la columna porcentaje_ejecutado para asegurarnos de que tenemos los valores deseados.
df["porcentaje_ejecutado"] = df["valor_ejecutado"] / df["valor_previsto_actualizado"] * 100
df["porcentaje_ejecutado"] = df["porcentaje_ejecutado"].replace({np.inf: 0})

In [223]:
# Comprobamos que hemos eliminado los nulos de las columnas numéricas
df.dropna(subset=["porcentaje_ejecutado"], inplace=True)
df[["valor_previsto_actualizado","valor_registrado","valor_ejecutado","porcentaje_ejecutado"]].isna().sum()

valor_previsto_actualizado    0
valor_registrado              0
valor_ejecutado               0
porcentaje_ejecutado          0
dtype: int64

In [224]:
df.head(5)

Unnamed: 0,organo_superior,organo,unidad_gestora,categoria_economica,origen_ingreso,tipo_ingreso,detalle,valor_previsto_actualizado,valor_registrado,valor_ejecutado,porcentaje_ejecutado,fecha_registro,ano_ejercicio
0,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Bienes, Derechos y Valores Incorporados al Pat...",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,2013-12-31,2013
1,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Indemnizaciones, devoluciones y reembolsos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0.0,0.0,26666621.42,0.0,2013-12-31,2013
2,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Multas administrativas, contractuales y judici...",OUTRAS MULTAS E JUROS DE MORA,0.0,0.0,301251.13,0.0,2013-12-31,2013
3,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Bienes, Derechos y Valores Incorporados al Pat...",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,0.0,0.0,1855.58,0.0,2013-12-31,2013
4,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Indemnizaciones, devoluciones y reembolsos",OUTRAS RESTITUICOES,0.0,0.0,52140.68,0.0,2013-12-31,2013


In [225]:
# Eliminaremos la columna detalle, por cuanto contiene información demasiado específica, que no será de utilidad para el análisis.

df = df.drop(columns=["detalle"])

In [226]:
df.isna().sum()

# En este print, vemos que hemos reducido drásticamente la cantidad de registros nulos, estando la mayoría en la columna fecha, que podríamos eliminar, dado que no es de mayor interés para nuestro análisis, pudiendo utilizar el "ano_ejercicio" como serie temporal. 
# Podríamos rellenarla sólamente con años, pero no añadiría valor al análisis.

organo_superior                 9294
organo                           797
unidad_gestora                   551
categoria_economica                0
origen_ingreso                     0
tipo_ingreso                       0
valor_previsto_actualizado         0
valor_registrado                   0
valor_ejecutado                    0
porcentaje_ejecutado               0
fecha_registro                343436
ano_ejercicio                      0
dtype: int64

In [227]:
# Procedemos a eliminar la columna fecha.
df = df.drop(columns=["fecha_registro"])

In [228]:
# Hemos pasado de tener más de 700 mil registros nulos en nuestro DF a poco menos de 11 mil, en total 10642.
df.isna().sum()

organo_superior               9294
organo                         797
unidad_gestora                 551
categoria_economica              0
origen_ingreso                   0
tipo_ingreso                     0
valor_previsto_actualizado       0
valor_registrado                 0
valor_ejecutado                  0
porcentaje_ejecutado             0
ano_ejercicio                    0
dtype: int64

In [229]:
# Rellenamos nulos en las 3 primeras columnas con "Desconocido", con ayuda de una función.

sl.nulos_categoricos(df, "organo_superior")
sl.nulos_categoricos(df, "organo")
sl.nulos_categoricos(df, "unidad_gestora")

Unnamed: 0,organo_superior,organo,unidad_gestora,categoria_economica,origen_ingreso,tipo_ingreso,valor_previsto_actualizado,valor_registrado,valor_ejecutado,porcentaje_ejecutado,ano_ejercicio
0,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Bienes, Derechos y Valores Incorporados al Pat...",0.0,0.0,1297.13,0.0,2013
1,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Indemnizaciones, devoluciones y reembolsos",0.0,0.0,26666621.42,0.0,2013
2,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Multas administrativas, contractuales y judici...",0.0,0.0,301251.13,0.0,2013
3,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Bienes, Derechos y Valores Incorporados al Pat...",0.0,0.0,1855.58,0.0,2013
4,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Indemnizaciones, devoluciones y reembolsos",0.0,0.0,52140.68,0.0,2013
...,...,...,...,...,...,...,...,...,...,...,...
1026293,Presidência da República,Gabinete da Vice-Presidência da República,GABINETE DA VICE-PRESIDENCIA DA REPUBLICA,Ingresos de Capital,Operações de Crédito,Operaciones de crédito - mercado interno,10247198.0,0.0,0.00,0.0,2021
1026294,Presidência da República,Instituto Nacional de Tecnologia da Informação,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Ingresos de Capital,Operações de Crédito,Operaciones de crédito - mercado interno,16940891.0,0.0,0.00,0.0,2021
1026296,Presidência da República,Instituto Nacional de Tecnologia da Informação,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Ingresos Corrientes,Ingresos por Servicios,Servicios Administrativos y Comerciales Generales,200000.0,0.0,0.00,0.0,2021
1026297,Presidência da República,Instituto Nacional de Tecnologia da Informação,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Ingresos Corrientes,Ingresos por Servicios,Servicios Administrativos y Comerciales Generales,0.0,0.0,1000000.00,0.0,2021


In [230]:
# Nos hemos quedado en cero nulos.
df.isna().sum()

organo_superior               0
organo                        0
unidad_gestora                0
categoria_economica           0
origen_ingreso                0
tipo_ingreso                  0
valor_previsto_actualizado    0
valor_registrado              0
valor_ejecutado               0
porcentaje_ejecutado          0
ano_ejercicio                 0
dtype: int64

In [231]:
# Buscamos duplicados
df.duplicated().value_counts()

False    819626
True      84097
Name: count, dtype: int64

In [232]:
# Eliminmos los índices duplicados.
df.reset_index()

Unnamed: 0,index,organo_superior,organo,unidad_gestora,categoria_economica,origen_ingreso,tipo_ingreso,valor_previsto_actualizado,valor_registrado,valor_ejecutado,porcentaje_ejecutado,ano_ejercicio
0,0,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Bienes, Derechos y Valores Incorporados al Pat...",0.0,0.0,1297.13,0.0,2013
1,1,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Indemnizaciones, devoluciones y reembolsos",0.0,0.0,26666621.42,0.0,2013
2,2,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Multas administrativas, contractuales y judici...",0.0,0.0,301251.13,0.0,2013
3,3,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Bienes, Derechos y Valores Incorporados al Pat...",0.0,0.0,1855.58,0.0,2013
4,4,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Indemnizaciones, devoluciones y reembolsos",0.0,0.0,52140.68,0.0,2013
...,...,...,...,...,...,...,...,...,...,...,...,...
903718,1026293,Presidência da República,Gabinete da Vice-Presidência da República,GABINETE DA VICE-PRESIDENCIA DA REPUBLICA,Ingresos de Capital,Operações de Crédito,Operaciones de crédito - mercado interno,10247198.0,0.0,0.00,0.0,2021
903719,1026294,Presidência da República,Instituto Nacional de Tecnologia da Informação,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Ingresos de Capital,Operações de Crédito,Operaciones de crédito - mercado interno,16940891.0,0.0,0.00,0.0,2021
903720,1026296,Presidência da República,Instituto Nacional de Tecnologia da Informação,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Ingresos Corrientes,Ingresos por Servicios,Servicios Administrativos y Comerciales Generales,200000.0,0.0,0.00,0.0,2021
903721,1026297,Presidência da República,Instituto Nacional de Tecnologia da Informação,INSTITUTO NAC.DE TECNOLOGIA DA INFORMACAO ITI,Ingresos Corrientes,Ingresos por Servicios,Servicios Administrativos y Comerciales Generales,0.0,0.0,1000000.00,0.0,2021


In [233]:
df.head(1)

Unnamed: 0,organo_superior,organo,unidad_gestora,categoria_economica,origen_ingreso,tipo_ingreso,valor_previsto_actualizado,valor_registrado,valor_ejecutado,porcentaje_ejecutado,ano_ejercicio
0,Advocacia-Geral da União,Advocacia-Geral da União - Unidades com víncul...,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Ingresos Corrientes,Outras Receitas Correntes,"Bienes, Derechos y Valores Incorporados al Pat...",0.0,0.0,1297.13,0.0,2013


In [234]:
# Eliminaremos la nueva columa index, surgida del reset.
# df = df.drop(columns=["index"])

In [235]:
# Hacemos una comprobación final de los datos limpios de nuestro DF. Hemos perdido dos columna al eliminar "detalle" y "fecha_registro". Todo correcto.
df.shape

(903723, 11)

In [236]:
# Procedemos a almacenar en un nuevo archivo CSV, que servirá para el análisis y visualización.

df.to_csv("../datos/brasil_limpio.csv", index=False)

### Resumen:

En este notebook hemos:
1. Cambiado el tipo de dato de las columnas numéricas, de object a float.

2. Cambiado el formato de la fecha para que sea tratable por pandas con el método pd.todatetime.

3. Relacionando los códigos y los nombres de los órganos, completado la columna de códigos con los nombres para evitar nulos. Hemos reemplazado los códigos porque, para el análisis, es más sencillo trabajar con el nombre del ente y no un código poco interpretable.

4. Eliminado entonces la duplicidad en la columna "nombre" de los entes. Reducimos nuestro DF en 3 columnas, haciendolo más manejable.

5. Elimanado la columna detalle, por cuanto aporta información demasiado específica para nuestro análisis, así como fecha de registro, por contener demasiados nulos y ser innecesaria, pudiendo usar como serie temporal el año. En total, nos hemos quedado con 11 columnas.

6. Reemplazado los valores nulos y las etiquetas "sem informação" en las columnas categoria_economica, origen_ingreso y tipo_ingreso, quedándonos sin valores nulos.

7. Eliminado las filas con valores nulos en las columnas valor_actualizado, valor_registrado, valor_ejecutado y porcentaje_ejecutado. En términos porcentuales es una reducción del 9% de nuestro dataframe.

8. En total, reducido a cero los valores nulos del dataframe, sacrificando únicamente un 9% del total de filas.

9. Eliminado los índices duplicados.

10. Exportado un nuevo dataframe para realizar el análisis y visualización.
