<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

## Fase 1: Unión de Conjuntos de Datos

1. **Lectura y Exploración Inicial:**

   - Cargar los diferentes archivos CSV en dataframes individuales.

   - Explorar la estructura de cada archivo para asegurarse de que las columnas sean consistentes y tengan un formato homogéneo.

2. **Estandarización y Limpieza:**

   - Estandarizar nombres de columnas si es necesario.

   - Asegurar que los tipos de datos (fechas, valores monetarios) sean consistentes en todos los archivos.

   - Tratar los valores nulos y eliminar filas o columnas irrelevantes.

3. **Unión de los Dataframes:**

   - Unir los dataframes de todos los archivos para crear un solo dataframe consolidado.

   - Verificar la existencia de duplicados y corregir cualquier inconsistencia en los datos.

In [86]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Para gestión de fechas
# -----------------------------------------------------------------------
from datetime import datetime

# Funciones src
from src import soporte_limpieza as sl

In [87]:
# 1. Lectura y exploración inicial
df_datos_2013 = pd.read_csv("datos/datos-2013.csv", sep= ";", encoding= "latin-1")
df_datos_2014 = pd.read_csv("datos/datos-2014.csv", sep= ";", encoding= "latin-1")
df_datos_2015 = pd.read_csv("datos/datos-2015.csv", sep= ";", encoding= "latin-1")
df_datos_2016 = pd.read_csv("datos/datos-2016.csv", sep= ";", encoding= "latin-1")
df_datos_2017 = pd.read_csv("datos/datos-2017.csv", sep= ";", encoding= "latin-1")
df_datos_2018 = pd.read_csv("datos/datos-2018.csv", sep= ";", encoding= "latin-1")
df_datos_2019 = pd.read_csv("datos/datos-2019.csv", sep= ";", encoding= "latin-1")
df_datos_2020 = pd.read_csv("datos/datos-2020.csv", sep= ";", encoding= "latin-1")
df_datos_2021 = pd.read_csv("datos/datos-2021.csv", sep= ";", encoding= "latin-1")

In [88]:
# 1. Lectura y exploración inicial
df_datos_2013.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0,0,2666662142,0,31/12/2013,2013


In [89]:
# 1. Lectura y exploración inicial
df_datos_2013.columns

Index(['CÓDIGO ÓRGÃO SUPERIOR', 'NOME ÓRGÃO SUPERIOR', 'CÓDIGO ÓRGÃO',
       'NOME ÓRGÃO', 'CÓDIGO UNIDADE GESTORA', 'NOME UNIDADE GESTORA',
       'CATEGORIA ECONÔMICA', 'ORIGEM RECEITA', 'ESPÉCIE RECEITA',
       'DETALHAMENTO', 'VALOR PREVISTO ATUALIZADO', 'VALOR LANÇADO',
       'VALOR REALIZADO', 'PERCENTUAL REALIZADO', 'DATA LANÇAMENTO',
       'ANO EXERCÍCIO'],
      dtype='object')

Voy a traducir las columnas que están en portugués al español para poder entenderlas mejor.

In [90]:
# 1. Lectura y exploración inicial
# Diccionario para traducir los nombres de las columnas
column_translation = {
    'CÓDIGO ÓRGÃO SUPERIOR': 'CÓDIGO ORGANISMO SUPERIOR',
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ORGANISMO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ORGANISMO',
    'NOME ÓRGÃO': 'NOMBRE ORGANISMO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'ESPECIE INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR REGISTRADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA REGISTRO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO',
}

# Renombrar las columnas
df_datos_2013.rename(columns=column_translation, inplace=True)

# Mostrar las nuevas columnas para verificar
df_datos_2013.columns.tolist()

['CÓDIGO ORGANISMO SUPERIOR',
 'NOMBRE ORGANISMO SUPERIOR',
 'CÓDIGO ORGANISMO',
 'NOMBRE ORGANISMO',
 'CÓDIGO UNIDAD GESTORA',
 'NOMBRE UNIDAD GESTORA',
 'CATEGORÍA ECONÓMICA',
 'ORIGEN INGRESO',
 'ESPECIE INGRESO',
 'DETALLE',
 'VALOR PREVISTO ACTUALIZADO',
 'VALOR REGISTRADO',
 'VALOR REALIZADO',
 'PORCENTAJE REALIZADO',
 'FECHA REGISTRO',
 'AÑO EJERCICIO']

In [91]:
# 1. Lectura y exploración inicial
df_datos_2013.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4498 entries, 0 to 4497
Data columns (total 16 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   CÓDIGO ORGANISMO SUPERIOR   4498 non-null   int64 
 1   NOMBRE ORGANISMO SUPERIOR   4498 non-null   object
 2   CÓDIGO ORGANISMO            4498 non-null   int64 
 3   NOMBRE ORGANISMO            4498 non-null   object
 4   CÓDIGO UNIDAD GESTORA       4498 non-null   int64 
 5   NOMBRE UNIDAD GESTORA       4498 non-null   object
 6   CATEGORÍA ECONÓMICA         4498 non-null   object
 7   ORIGEN INGRESO              4498 non-null   object
 8   ESPECIE INGRESO             4498 non-null   object
 9   DETALLE                     4498 non-null   object
 10  VALOR PREVISTO ACTUALIZADO  4498 non-null   object
 11  VALOR REGISTRADO            4498 non-null   object
 12  VALOR REALIZADO             4498 non-null   object
 13  PORCENTAJE REALIZADO        4498 non-null   obje

In [92]:
# 1. Lectura y exploración inicial
df_datos_2013.duplicated().sum()

np.int64(0)

In [93]:
# 1. Lectura y exploración inicial
df_datos_2013.head(2)

Unnamed: 0,CÓDIGO ORGANISMO SUPERIOR,NOMBRE ORGANISMO SUPERIOR,CÓDIGO ORGANISMO,NOMBRE ORGANISMO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,ESPECIE INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR REGISTRADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA REGISTRO,AÑO EJERCICIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0,0,2666662142,0,31/12/2013,2013


En este DataFrame hay 16 columnas que contienen tipos de datos integer y object. No hay valores nulos ni duplicados

In [94]:
# 1. Lectura y exploración inicial
# Análisis de columnas y consistencia
# Análisis estadístico
 
df_datos_2013.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
CÓDIGO ORGANISMO SUPERIOR,4498.0,31729.657626,10691.972258,20000.0,25000.0,26000.0,36000.0,81000.0
CÓDIGO ORGANISMO,4498.0,31447.970431,10798.289531,20101.0,25916.0,26292.0,35000.0,91214.0
CÓDIGO UNIDAD GESTORA,4498.0,233059.79791,141561.057724,110005.0,153173.0,160075.0,254420.0,913001.0
AÑO EJERCICIO,4498.0,2013.0,0.0,2013.0,2013.0,2013.0,2013.0,2013.0


No aporta nada este análisis.

In [95]:
# 1. Lectura y exploración inicial
# Análisis de columnas y consistencia
# Análisis descriptivo
 
df_datos_2013.describe(include = "object").T

Unnamed: 0,count,unique,top,freq
NOMBRE ORGANISMO SUPERIOR,4498,25,Ministério da Educação,1833
NOMBRE ORGANISMO,4498,266,Ministério da Economia - Unidades com vínculo ...,494
NOMBRE UNIDAD GESTORA,4498,279,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,415
CATEGORÍA ECONÓMICA,4498,5,Receitas Correntes,4001
ORIGEN INGRESO,4498,15,Outras Receitas Correntes,1982
ESPECIE INGRESO,4498,44,Receita de Serviços,978
DETALLE,4498,704,RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,214
VALOR PREVISTO ACTUALIZADO,4498,2788,000,1625
VALOR REGISTRADO,4498,52,000,4447
VALOR REALIZADO,4498,3738,000,704


En este DataFrame se puede ver que no hay valores nulos. Luego, "unique" nos indica la cantidad de valores únicos, en la cual destaca la columna VALOR REALIZADO (que son los ingresos realizados). La "freq" nos indica el valor más común en cada columna, en este caso destaca la columna "FECHA REGISTRO".

In [96]:
# 1. Lectura y exploración inicial
# Análisis de columnas y consistencia
# Análisis descriptivo

df_datos_2013["NOMBRE ORGANISMO SUPERIOR"].unique()

array(['Advocacia-Geral da União', 'Controladoria-Geral da União',
       'Ministério da Agricultura, Pecuária e Abastec',
       'Ministério da Cidadania',
       'Ministério da Ciência, Tecnologia, Inovações ',
       'Ministério da Defesa', 'Ministério da Economia',
       'Ministério da Educação', 'Ministério da Infraestrutura',
       'Ministério da Justiça e Segurança Pública',
       'Ministério da Mulher, Família e Direitos Huma',
       'Ministério da Pesca e Aquicultura',
       'Ministério da Previdência Social', 'Ministério da Saúde',
       'Ministério das Comunicações',
       'Ministério das Mulheres, Igualdade Racial, da',
       'Ministério das Relações Exteriores',
       'Ministério de Minas e Energia',
       'Ministério do Desenvolvimento Agrário',
       'Ministério do Desenvolvimento Regional', 'Ministério do Esporte',
       'Ministério do Meio Ambiente', 'Ministério do Trabalho e Emprego',
       'Ministério do Turismo', 'Presidência da República'], dtype=objec

In [97]:
# 1. Lectura y exploración inicial
# Análisis de columnas y consistencia
# Análisis descriptivo

df_datos_2013["NOMBRE ORGANISMO"].unique()

array(['Advocacia-Geral da União - Unidades com vínculo direto',
       'Controladoria-Geral da União',
       'Empresa Brasileira de Pesquisa Agropecuária',
       'Ministério da Agricultura, Pecuária e Abastecimento - Unidades com vínculo direto',
       'Companhia Nacional de Abastecimento',
       'Serviço Florestal Brasileiro',
       'Instituto Nacional de Colonização e Reforma Agrária',
       'Fundo de Defesa da Economia Cafeeira',
       'Fundo de Terras e da Reforma Agrária',
       'Ministério da Cidadania - Unidades com vínculo direto',
       'Fundo Nacional de Assistência Social',
       'Ministério da Ciência, Tecnologia, Inovações e Comunicações - Unidades com vínculo direto',
       'Conselho Nacional de Desenvolvimento Científico e Tecnológico',
       'Comissão Nacional de Energia Nuclear',
       'Fundo Nacional de Desenvolvimento Científico e Tecnológico',
       'Financiadora de Estudos e Projetos',
       'Centro Nacional de Tecnologia Eletrônica Avançada S.A.',


La columna "NOMBRE ORGANISMO SUPERIOR" tiene un nivel de detalle más amplio, y luego en la columna "NOMBRE ORGANISMO" se especifica el organismo público. 

In [98]:
# 1. Lectura y exploración inicial
# Análisis de columnas y consistencia
# Análisis descriptivo

df_datos_2013["NOMBRE UNIDAD GESTORA"].unique()

array(['COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU',
       'DIRETORIA DE GESTAO INTERNA/SE/CGU', 'EMBRAPA-SETORIAL',
       'COORD.-GERAL DE ORCAMENTO E FINANCAS-MAPA',
       'COMPANHIA NACIONAL DE ABASTECIMENTO',
       'SETORIAL PROG.ORCAMENTARIA E FINANCEIRA-SFB',
       'DPTO. DE ADMINISTRACAO FINANCEIRA-DAF - INCRA',
       'FUNDO DE DEFESA DA ECON.CAFEEIRA/FUNCAFE/SPA',
       'CREDITO FUNDIARIO',
       'COORD.GERAL DE PLAN. ORC. FIN. E CONTAB./MINC',
       'DEPARTAMENTO DE GESTAO INTERNA',
       'SETORIAL DE ORCAMENTO E FINANCAS/MC',
       'FUNDO NACIONAL DE ASSISTENCIA SOCIAL',
       'COORDENACAO-GERAL DE ORCAMENTO E FINANCAS',
       'CNPQ - ADMINISTRACAO CENTRAL', 'CNEN-ORCAMENTO E FINANCAS',
       'FUNDO NAC.DE DESENV. CIENT. E TECNOLOGICO',
       'FINANCIADORA DE ESTUDOS E PROJETOS',
       'CENTRO NACIONAL DE TECNOLOGIA ELETRONICA AVAN',
       'CNPQ - DIFERENCIA CAMBIAL', 'AGENCIA ESPACIAL BRASILEIRA/AEB',
       'EMPRESA BRASILEIRA DE CORREIOS E TELEGRAFOS',


En esta columna se detalla la unidad gestora de cada organismo público.

In [99]:
# 1. Lectura y exploración inicial
# Análisis de columnas y consistencia
# Análisis descriptivo

df_datos_2013["CATEGORÍA ECONÓMICA"].unique()

array(['Receitas Correntes', 'Receitas de Capital',
       'Receitas Correntes - intra-orçamentárias', 'Sem informação',
       'Receitas de Capital - intra-orçamentárias'], dtype=object)

In [100]:
# 1. Lectura y exploración inicial
# Análisis de columnas y consistencia
# Análisis descriptivo

df_datos_2013["ORIGEN INGRESO"].unique()

array(['Outras Receitas Correntes', 'Receita de Serviços',
       'Transferências de Capital', 'Alienação de Bens',
       'Receita Agropecuária', 'Transferências Correntes',
       'Receita Patrimonial', 'Operações de Crédito',
       'Impostos, Taxas e Contribuições de Melhoria',
       'Amortizações de Empréstimos', 'Contribuições',
       'Receita Industrial', 'Outras Receitas de Capital',
       'Receitas Correntes - a classificar', 'Sem informação'],
      dtype=object)

In [101]:
# 1. Lectura y exploración inicial
# Análisis de columnas y consistencia
# Análisis descriptivo

df_datos_2013["ESPECIE INGRESO"].unique()

array(['Bens, Direitos e Valores Incorporados ao Patr',
       'Indenizações, restituições e ressarcimentos',
       'Multas administrativas, contratuais e judicia',
       'Demais receitas correntes', 'Receita de Serviços',
       'Transferências de Instituições Privadas',
       'Alienação de bens móveis',
       'Receita da produção animal e derivados',
       'Transferências dos Municípios e de suas Entid',
       'Alienação de bens imóveis', 'Transferências de Pessoas Físicas',
       'Valores Mobiliários',
       'Exploração do patrimônio imobiliário do Estad',
       'Operações de crédito - mercado interno', 'Taxas',
       'Delegação de Serviços Públicos Mediante Conce',
       'Outras receitas agropecuárias', 'Amortizações de Empréstimos',
       'Contribuições econômicas', 'Transferências de Convênios',
       'Indenizações e restituições',
       'Receitas da indústria de transformação', 'Contribuições sociais',
       'Receita dívida ativa alienação de estoques de',
       

In [102]:
# 1. Lectura y exploración inicial
# Análisis de columnas y consistencia
# Análisis descriptivo

df_datos_2013["DETALLE"].unique()

array(['REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC',
       'RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES',
       'OUTRAS MULTAS E JUROS DE MORA',
       'REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA', 'OUTRAS RESTITUICOES',
       'OUTRAS RECEITAS', 'MULTAS E JUROS PREVISTOS EM CONTRATOS',
       'OUTRAS INDENIZACOES', 'OUTRAS MULTAS',
       'RECEITA DE ÔNUS DE SUCUMBÊNCIA',
       'RECEITA DE HONORÁRIOS DE ADVOGADOS',
       'OUTROS SERVICOS FINANCEIROS', 'SERVICOS ADMINISTRATIVOS',
       'RESTITUICOES DE CONVENIOS',
       'Transferências de Instituições Privadas', 'ALIENACAO DE VEICULOS',
       'Receita da produção animal e derivados',
       'Transferências dos Municípios e de suas Entid',
       'VARIACAO CAMBIAL', 'RESTITUICOES DE BENEFICIOS NAO DESEMBOLSADOS',
       'ALIENACAO IMOV.RURAIS P/ COLON. E REF.AGRARIA',
       'SERVICOS DE TRANSFERENCIA DE TECNOLOGIA',
       'TRANSF.DE CONV.DOS ESTADOS,DF E S/ENTIDADES',
       'SERVICOS DE REGISTRO DO COMERCIO',
       'MULTAS

La columna "CATEGORÍA ECONÓMICA" es redundante porque esta info viene con mayor detalle en la columna "ORIGEN INGRESO"

In [103]:
# Análisis de columnas y consistencia
# Análisis descriptivo

# Usamos el '.value_counts()' 
df_datos_2013["NOMBRE ORGANISMO SUPERIOR"].value_counts()

NOMBRE ORGANISMO SUPERIOR
Ministério da Educação                           1833
Ministério da Economia                            873
Ministério do Desenvolvimento Regional            276
Ministério da Defesa                              228
Ministério da Agricultura, Pecuária e Abastec     167
Ministério do Turismo                             133
Ministério da Justiça e Segurança Pública         129
Ministério da Infraestrutura                      129
Ministério da Ciência, Tecnologia, Inovações      128
Ministério de Minas e Energia                     123
Ministério da Saúde                               110
Ministério das Comunicações                       101
Ministério do Meio Ambiente                        81
Ministério da Cidadania                            47
Presidência da República                           36
Ministério das Relações Exteriores                 17
Ministério do Trabalho e Emprego                   16
Ministério do Desenvolvimento Agrário              15
Mi

El organismo superior que más valores únicos contiene es "Ministério da Educacao". 

In [104]:
# Análisis de columnas y consistencia
# Análisis descriptivo

# Usamos el '.value_counts()' 
df_datos_2013["NOMBRE ORGANISMO"].value_counts()

NOMBRE ORGANISMO
Ministério da Economia - Unidades com vínculo direto    494
Instituto Nacional do Seguro Social                     109
Ministério da Educação - Unidades com vínculo direto     80
Empresa Brasileira de Pesquisa Agropecuária              52
Fundo Nacional de Cultura                                48
                                                       ... 
Companhia Docas do Rio Grande do Norte                    1
Empresa Brasileira de Correios e Telégrafos               1
Secretaria da Micro e Pequena Empresa                     1
Gabinete da Vice-Presidência da República                 1
Secretaria de Assuntos Estratégicos                       1
Name: count, Length: 266, dtype: int64

In [105]:
# Análisis de columnas y consistencia
# Análisis descriptivo

# Usamos el '.value_counts()' 
df_datos_2013["NOMBRE UNIDAD GESTORA"].value_counts()

NOMBRE UNIDAD GESTORA
SETORIAL ORCAMENTARIA E FINANCEIRA / ME          415
COORD.GERAL DE ORCAMENTO, FINANCAS E CONTAB.     109
SUBSECRETARIA DE PLANEJ. E ORCAMENTO SPO(MEC)     80
EMBRAPA-SETORIAL                                  52
COORD.GERAL DE PLAN. ORC. FIN. E CONTAB/FNC       48
                                                ... 
CNPQ - DIFERENCIA CAMBIAL                          1
SETORIAL ORCAMENTARIA E FINANCEIRA DO FNMC         1
SECRETARIA DA MICRO E PEQUENA EMPRESA              1
GABINETE DA VICE-PRESIDENCIA DA REPUBLICA          1
SECRETARIA DE ASSUNTOS ESTRATEGICOS-SAE/PR         1
Name: count, Length: 279, dtype: int64

La unidad gestora que más valores únicos contiene es "SETORIAL ORCAMENGTARIA E FINANCIERA / ME".

In [106]:
# Análisis de columnas y consistencia
# Análisis descriptivo

# Usamos el '.value_counts()' 
df_datos_2013["ORIGEN INGRESO"].value_counts()

ORIGEN INGRESO
Outras Receitas Correntes                      1982
Receita de Serviços                             978
Receita Patrimonial                             621
Alienação de Bens                               184
Impostos, Taxas e Contribuições de Melhoria     176
Contribuições                                   176
Transferências Correntes                        126
Receita Agropecuária                            105
Receita Industrial                               61
Amortizações de Empréstimos                      24
Transferências de Capital                        22
Operações de Crédito                             20
Receitas Correntes - a classificar               12
Outras Receitas de Capital                       10
Sem informação                                    1
Name: count, dtype: int64

El tipo de origen de ingreso que más valores únicos contiene es "Outras Receitas Correntes".

In [107]:
# Análisis de columnas y consistencia
# Análisis descriptivo

# Usamos el '.value_counts()' 
df_datos_2013["ESPECIE INGRESO"].value_counts()

ESPECIE INGRESO
Receita de Serviços                              978
Multas administrativas, contratuais e judicia    911
Indenizações, restituições e ressarcimentos      654
Exploração do patrimônio imobiliário do Estad    302
Demais receitas correntes                        229
Bens, Direitos e Valores Incorporados ao Patr    163
Valores Mobiliários                              160
Alienação de bens móveis                         156
Impostos                                         124
Contribuições sociais                            115
Transferências de Convênios                       85
Exploração de recursos naturais                   66
Receitas da indústria de transformação            61
Contribuições econômicas                          61
Delegação de Serviços Públicos Mediante Conce     60
Taxas                                             52
Receita da produção vegetal                       49
Receita da produção animal e derivados            48
Alienação de bens imóveis     

In [108]:
# Análisis de columnas y consistencia
# Análisis descriptivo

# Usamos el '.value_counts()' 
df_datos_2013["DETALLE"].value_counts()

DETALLE
RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES     214
SERVICOS ADMINISTRATIVOS                         195
OUTRAS RESTITUICOES                              173
OUTRAS RECEITAS                                  162
ALUGUEIS                                         147
                                                ... 
REC.DIV.ATIV.SERVIC.INSP.FISC.ATIV.MINERAL         1
REC.DIV.ATIV.-MULTA PREV. LEG. LUB. E COMBUST      1
ALIEN. BENS IMOVEIS DE DOM DA UNIAO-DOM PLENO      1
Receitas decorrentes de aportes periódicos pa      1
MULTAS POR INFRACOES A LEG. CINEMATOGRAFICA        1
Name: count, Length: 704, dtype: int64

In [109]:
# 1. Lectura y exploración inicial
df_datos_2014.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORÁRIOS DE ADVOGADOS,0,0,4669994808,0,31/12/2014,2014
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",MULTAS E JUROS PREVISTOS EM CONTRATOS,0,0,1592083,0,31/12/2014,2014


In [110]:
# 1. Lectura y exploración inicial
# Diccionario para traducir los nombres de las columnas
column_translation = {
    'CÓDIGO ÓRGÃO SUPERIOR': 'CÓDIGO ORGANISMO SUPERIOR',
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ORGANISMO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ORGANISMO',
    'NOME ÓRGÃO': 'NOMBRE ORGANISMO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'ESPECIE INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR REGISTRADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA REGISTRO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO',
}

# Renombrar las columnas
df_datos_2014.rename(columns=column_translation, inplace=True)

# Mostrar las nuevas columnas para verificar
df_datos_2014.columns.tolist()

['CÓDIGO ORGANISMO SUPERIOR',
 'NOMBRE ORGANISMO SUPERIOR',
 'CÓDIGO ORGANISMO',
 'NOMBRE ORGANISMO',
 'CÓDIGO UNIDAD GESTORA',
 'NOMBRE UNIDAD GESTORA',
 'CATEGORÍA ECONÓMICA',
 'ORIGEN INGRESO',
 'ESPECIE INGRESO',
 'DETALLE',
 'VALOR PREVISTO ACTUALIZADO',
 'VALOR REGISTRADO',
 'VALOR REALIZADO',
 'PORCENTAJE REALIZADO',
 'FECHA REGISTRO',
 'AÑO EJERCICIO']

In [111]:
# 1. Lectura y exploración inicial
df_datos_2014.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4553 entries, 0 to 4552
Data columns (total 16 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   CÓDIGO ORGANISMO SUPERIOR   4553 non-null   int64 
 1   NOMBRE ORGANISMO SUPERIOR   4553 non-null   object
 2   CÓDIGO ORGANISMO            4553 non-null   int64 
 3   NOMBRE ORGANISMO            4553 non-null   object
 4   CÓDIGO UNIDAD GESTORA       4553 non-null   int64 
 5   NOMBRE UNIDAD GESTORA       4553 non-null   object
 6   CATEGORÍA ECONÓMICA         4553 non-null   object
 7   ORIGEN INGRESO              4553 non-null   object
 8   ESPECIE INGRESO             4553 non-null   object
 9   DETALLE                     4553 non-null   object
 10  VALOR PREVISTO ACTUALIZADO  4553 non-null   object
 11  VALOR REGISTRADO            4553 non-null   object
 12  VALOR REALIZADO             4553 non-null   object
 13  PORCENTAJE REALIZADO        4553 non-null   obje

In [112]:
# 1. Lectura y exploración inicial
df_datos_2014.duplicated().sum()

np.int64(0)

In [113]:
# 1. Lectura y exploración inicial
df_datos_2015.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,RECEITA DE HONORARIOS DE ADVOGADOS,0,0,6382985340,0,31/12/2015,2015
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receita de Serviços,Receita de Serviços,TAR.INSCR.CONCURSOS E PROCESSOS SELETIVOS,63600000,0,448696441,70500,31/12/2015,2015


In [114]:
# 1. Lectura y exploración inicial
# Diccionario para traducir los nombres de las columnas
column_translation = {
    'CÓDIGO ÓRGÃO SUPERIOR': 'CÓDIGO ORGANISMO SUPERIOR',
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ORGANISMO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ORGANISMO',
    'NOME ÓRGÃO': 'NOMBRE ORGANISMO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'ESPECIE INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR REGISTRADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA REGISTRO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO',
}

# Renombrar las columnas
df_datos_2015.rename(columns=column_translation, inplace=True)

# Mostrar las nuevas columnas para verificar
df_datos_2015.columns.tolist()

['CÓDIGO ORGANISMO SUPERIOR',
 'NOMBRE ORGANISMO SUPERIOR',
 'CÓDIGO ORGANISMO',
 'NOMBRE ORGANISMO',
 'CÓDIGO UNIDAD GESTORA',
 'NOMBRE UNIDAD GESTORA',
 'CATEGORÍA ECONÓMICA',
 'ORIGEN INGRESO',
 'ESPECIE INGRESO',
 'DETALLE',
 'VALOR PREVISTO ACTUALIZADO',
 'VALOR REGISTRADO',
 'VALOR REALIZADO',
 'PORCENTAJE REALIZADO',
 'FECHA REGISTRO',
 'AÑO EJERCICIO']

In [115]:
# 1. Lectura y exploración inicial
df_datos_2015.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4523 entries, 0 to 4522
Data columns (total 16 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   CÓDIGO ORGANISMO SUPERIOR   4523 non-null   int64 
 1   NOMBRE ORGANISMO SUPERIOR   4523 non-null   object
 2   CÓDIGO ORGANISMO            4523 non-null   int64 
 3   NOMBRE ORGANISMO            4523 non-null   object
 4   CÓDIGO UNIDAD GESTORA       4523 non-null   int64 
 5   NOMBRE UNIDAD GESTORA       4523 non-null   object
 6   CATEGORÍA ECONÓMICA         4523 non-null   object
 7   ORIGEN INGRESO              4523 non-null   object
 8   ESPECIE INGRESO             4523 non-null   object
 9   DETALLE                     4523 non-null   object
 10  VALOR PREVISTO ACTUALIZADO  4523 non-null   object
 11  VALOR REGISTRADO            4523 non-null   object
 12  VALOR REALIZADO             4523 non-null   object
 13  PORCENTAJE REALIZADO        4523 non-null   obje

In [116]:
# 1. Lectura y exploración inicial
df_datos_2015.duplicated().sum()

np.int64(0)

In [117]:
# 1. Lectura y exploración inicial
df_datos_2016.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,ENCARGOS LEGAIS PELA INSCR.EM DIV.ATIVA-PRINC,0,0,15494898,0,04/04/2016,2016
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,ONUS DE SUCUMBENCIA-MULTAS E JUROS,0,0,8084,0,08/12/2016,2016


In [118]:
# 1. Lectura y exploración inicial
# Diccionario para traducir los nombres de las columnas
column_translation = {
    'CÓDIGO ÓRGÃO SUPERIOR': 'CÓDIGO ORGANISMO SUPERIOR',
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ORGANISMO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ORGANISMO',
    'NOME ÓRGÃO': 'NOMBRE ORGANISMO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'ESPECIE INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR REGISTRADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA REGISTRO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO',
}

# Renombrar las columnas
df_datos_2016.rename(columns=column_translation, inplace=True)

# Mostrar las nuevas columnas para verificar
df_datos_2016.columns.tolist()

['CÓDIGO ORGANISMO SUPERIOR',
 'NOMBRE ORGANISMO SUPERIOR',
 'CÓDIGO ORGANISMO',
 'NOMBRE ORGANISMO',
 'CÓDIGO UNIDAD GESTORA',
 'NOMBRE UNIDAD GESTORA',
 'CATEGORÍA ECONÓMICA',
 'ORIGEN INGRESO',
 'ESPECIE INGRESO',
 'DETALLE',
 'VALOR PREVISTO ACTUALIZADO',
 'VALOR REGISTRADO',
 'VALOR REALIZADO',
 'PORCENTAJE REALIZADO',
 'FECHA REGISTRO',
 'AÑO EJERCICIO']

In [119]:
# 1. Lectura y exploración inicial
df_datos_2016.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 194533 entries, 0 to 194532
Data columns (total 16 columns):
 #   Column                      Non-Null Count   Dtype 
---  ------                      --------------   ----- 
 0   CÓDIGO ORGANISMO SUPERIOR   194533 non-null  int64 
 1   NOMBRE ORGANISMO SUPERIOR   194533 non-null  object
 2   CÓDIGO ORGANISMO            194533 non-null  int64 
 3   NOMBRE ORGANISMO            194533 non-null  object
 4   CÓDIGO UNIDAD GESTORA       194533 non-null  int64 
 5   NOMBRE UNIDAD GESTORA       194533 non-null  object
 6   CATEGORÍA ECONÓMICA         194533 non-null  object
 7   ORIGEN INGRESO              194533 non-null  object
 8   ESPECIE INGRESO             194533 non-null  object
 9   DETALLE                     194533 non-null  object
 10  VALOR PREVISTO ACTUALIZADO  194533 non-null  object
 11  VALOR REGISTRADO            194533 non-null  object
 12  VALOR REALIZADO             194533 non-null  object
 13  PORCENTAJE REALIZADO        1

Tenemos valores nulos en la columna "FECHA REGISTRO"

In [120]:
# 1. Lectura y exploración inicial
df_datos_2016.duplicated().sum()

np.int64(0)

In [121]:
# 1. Lectura y exploración inicial
df_datos_2017.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-PRINCIPAL,0,0,19800,0,29/08/2017,2017
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-PRINCIPAL,0,0,209350,0,10/02/2017,2017


In [122]:
# 1. Lectura y exploración inicial
# Diccionario para traducir los nombres de las columnas
column_translation = {
    'CÓDIGO ÓRGÃO SUPERIOR': 'CÓDIGO ORGANISMO SUPERIOR',
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ORGANISMO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ORGANISMO',
    'NOME ÓRGÃO': 'NOMBRE ORGANISMO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'ESPECIE INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR REGISTRADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA REGISTRO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO',
}

# Renombrar las columnas
df_datos_2017.rename(columns=column_translation, inplace=True)

# Mostrar las nuevas columnas para verificar
df_datos_2017.columns.tolist()

['CÓDIGO ORGANISMO SUPERIOR',
 'NOMBRE ORGANISMO SUPERIOR',
 'CÓDIGO ORGANISMO',
 'NOMBRE ORGANISMO',
 'CÓDIGO UNIDAD GESTORA',
 'NOMBRE UNIDAD GESTORA',
 'CATEGORÍA ECONÓMICA',
 'ORIGEN INGRESO',
 'ESPECIE INGRESO',
 'DETALLE',
 'VALOR PREVISTO ACTUALIZADO',
 'VALOR REGISTRADO',
 'VALOR REALIZADO',
 'PORCENTAJE REALIZADO',
 'FECHA REGISTRO',
 'AÑO EJERCICIO']

In [123]:
# 1. Lectura y exploración inicial
df_datos_2017.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 190479 entries, 0 to 190478
Data columns (total 16 columns):
 #   Column                      Non-Null Count   Dtype 
---  ------                      --------------   ----- 
 0   CÓDIGO ORGANISMO SUPERIOR   190479 non-null  int64 
 1   NOMBRE ORGANISMO SUPERIOR   190479 non-null  object
 2   CÓDIGO ORGANISMO            190479 non-null  int64 
 3   NOMBRE ORGANISMO            190479 non-null  object
 4   CÓDIGO UNIDAD GESTORA       190479 non-null  int64 
 5   NOMBRE UNIDAD GESTORA       190479 non-null  object
 6   CATEGORÍA ECONÓMICA         190479 non-null  object
 7   ORIGEN INGRESO              190479 non-null  object
 8   ESPECIE INGRESO             190479 non-null  object
 9   DETALLE                     190479 non-null  object
 10  VALOR PREVISTO ACTUALIZADO  190479 non-null  object
 11  VALOR REGISTRADO            190479 non-null  object
 12  VALOR REALIZADO             190479 non-null  object
 13  PORCENTAJE REALIZADO        1

In [124]:
# 1. Lectura y exploración inicial
df_datos_2017.duplicated().sum()

np.int64(0)

Tenemos valores nulos en la columna "FECHA REGISTRO"·

In [125]:
# 1. Lectura y exploración inicial
df_datos_2018.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receitas Correntes - a classificar,Receitas Correntes - a classificar,Receitas Correntes - a classificar,0,0,-169372,0,25/07/2018,2018
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Transferências Correntes,Transferências dos Estados e do Distrito Fede,"TRANSF.DOS ESTADOS,DF E SUAS ENTIDADES-PRINC.",0,0,261250,0,02/08/2018,2018


In [126]:
# 1. Lectura y exploración inicial
# Diccionario para traducir los nombres de las columnas
column_translation = {
    'CÓDIGO ÓRGÃO SUPERIOR': 'CÓDIGO ORGANISMO SUPERIOR',
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ORGANISMO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ORGANISMO',
    'NOME ÓRGÃO': 'NOMBRE ORGANISMO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'ESPECIE INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR REGISTRADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA REGISTRO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO',
}

# Renombrar las columnas
df_datos_2018.rename(columns=column_translation, inplace=True)

# Mostrar las nuevas columnas para verificar
df_datos_2018.columns.tolist()

['CÓDIGO ORGANISMO SUPERIOR',
 'NOMBRE ORGANISMO SUPERIOR',
 'CÓDIGO ORGANISMO',
 'NOMBRE ORGANISMO',
 'CÓDIGO UNIDAD GESTORA',
 'NOMBRE UNIDAD GESTORA',
 'CATEGORÍA ECONÓMICA',
 'ORIGEN INGRESO',
 'ESPECIE INGRESO',
 'DETALLE',
 'VALOR PREVISTO ACTUALIZADO',
 'VALOR REGISTRADO',
 'VALOR REALIZADO',
 'PORCENTAJE REALIZADO',
 'FECHA REGISTRO',
 'AÑO EJERCICIO']

In [127]:
# 1. Lectura y exploración inicial
df_datos_2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 173944 entries, 0 to 173943
Data columns (total 16 columns):
 #   Column                      Non-Null Count   Dtype 
---  ------                      --------------   ----- 
 0   CÓDIGO ORGANISMO SUPERIOR   173944 non-null  int64 
 1   NOMBRE ORGANISMO SUPERIOR   173944 non-null  object
 2   CÓDIGO ORGANISMO            173944 non-null  int64 
 3   NOMBRE ORGANISMO            173944 non-null  object
 4   CÓDIGO UNIDAD GESTORA       173944 non-null  int64 
 5   NOMBRE UNIDAD GESTORA       173944 non-null  object
 6   CATEGORÍA ECONÓMICA         173944 non-null  object
 7   ORIGEN INGRESO              173944 non-null  object
 8   ESPECIE INGRESO             173944 non-null  object
 9   DETALLE                     173944 non-null  object
 10  VALOR PREVISTO ACTUALIZADO  173944 non-null  object
 11  VALOR REGISTRADO            173944 non-null  object
 12  VALOR REALIZADO             173944 non-null  object
 13  PORCENTAJE REALIZADO        1

Tenemos valores nulos en la columna "FECHA REGISTRO"

In [128]:
# 1. Lectura y exploración inicial
df_datos_2018.duplicated().sum()

np.int64(0)

In [129]:
# 1. Lectura y exploración inicial
df_datos_2019.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0,0,-9500,0,12/06/2019,2019
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,INSCR.EM CONCURSOS E PROC.SELETIVOS-PRINCIPAL,0,0,-38000,0,07/05/2019,2019


In [130]:
# 1. Lectura y exploración inicial
# Diccionario para traducir los nombres de las columnas
column_translation = {
    'CÓDIGO ÓRGÃO SUPERIOR': 'CÓDIGO ORGANISMO SUPERIOR',
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ORGANISMO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ORGANISMO',
    'NOME ÓRGÃO': 'NOMBRE ORGANISMO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'ESPECIE INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR REGISTRADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA REGISTRO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO',
}

# Renombrar las columnas
df_datos_2019.rename(columns=column_translation, inplace=True)

# Mostrar las nuevas columnas para verificar
df_datos_2019.columns.tolist()

['CÓDIGO ORGANISMO SUPERIOR',
 'NOMBRE ORGANISMO SUPERIOR',
 'CÓDIGO ORGANISMO',
 'NOMBRE ORGANISMO',
 'CÓDIGO UNIDAD GESTORA',
 'NOMBRE UNIDAD GESTORA',
 'CATEGORÍA ECONÓMICA',
 'ORIGEN INGRESO',
 'ESPECIE INGRESO',
 'DETALLE',
 'VALOR PREVISTO ACTUALIZADO',
 'VALOR REGISTRADO',
 'VALOR REALIZADO',
 'PORCENTAJE REALIZADO',
 'FECHA REGISTRO',
 'AÑO EJERCICIO']

In [131]:
# 1. Lectura y exploración inicial
df_datos_2019.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 176828 entries, 0 to 176827
Data columns (total 16 columns):
 #   Column                      Non-Null Count   Dtype 
---  ------                      --------------   ----- 
 0   CÓDIGO ORGANISMO SUPERIOR   176828 non-null  int64 
 1   NOMBRE ORGANISMO SUPERIOR   176828 non-null  object
 2   CÓDIGO ORGANISMO            176828 non-null  int64 
 3   NOMBRE ORGANISMO            176828 non-null  object
 4   CÓDIGO UNIDAD GESTORA       176828 non-null  int64 
 5   NOMBRE UNIDAD GESTORA       176828 non-null  object
 6   CATEGORÍA ECONÓMICA         176828 non-null  object
 7   ORIGEN INGRESO              176828 non-null  object
 8   ESPECIE INGRESO             176828 non-null  object
 9   DETALLE                     176828 non-null  object
 10  VALOR PREVISTO ACTUALIZADO  176828 non-null  object
 11  VALOR REGISTRADO            176828 non-null  object
 12  VALOR REALIZADO             176828 non-null  object
 13  PORCENTAJE REALIZADO        1

Hay valores nulos en la columna "FECHA REGISTRO"

In [132]:
# 1. Lectura y exploración inicial
df_datos_2019.duplicated().sum()

np.int64(0)

In [133]:
# 1. Lectura y exploración inicial
df_datos_2020.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RESTITUIÇÃO DE CONVÊNIOS-PRIMÁRIAS-DÍV.ATIVA,0,0,551690,0,28/04/2020,2020
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RESTITUIÇÃO DE CONVÊNIOS-PRIMÁRIAS-DÍV.ATIVA,0,0,294681,0,15/04/2020,2020


In [134]:
# 1. Lectura y exploración inicial
# Diccionario para traducir los nombres de las columnas
column_translation = {
    'CÓDIGO ÓRGÃO SUPERIOR': 'CÓDIGO ORGANISMO SUPERIOR',
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ORGANISMO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ORGANISMO',
    'NOME ÓRGÃO': 'NOMBRE ORGANISMO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'ESPECIE INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR REGISTRADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA REGISTRO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO',
}

# Renombrar las columnas
df_datos_2020.rename(columns=column_translation, inplace=True)

# Mostrar las nuevas columnas para verificar
df_datos_2020.columns.tolist()

['CÓDIGO ORGANISMO SUPERIOR',
 'NOMBRE ORGANISMO SUPERIOR',
 'CÓDIGO ORGANISMO',
 'NOMBRE ORGANISMO',
 'CÓDIGO UNIDAD GESTORA',
 'NOMBRE UNIDAD GESTORA',
 'CATEGORÍA ECONÓMICA',
 'ORIGEN INGRESO',
 'ESPECIE INGRESO',
 'DETALLE',
 'VALOR PREVISTO ACTUALIZADO',
 'VALOR REGISTRADO',
 'VALOR REALIZADO',
 'PORCENTAJE REALIZADO',
 'FECHA REGISTRO',
 'AÑO EJERCICIO']

In [135]:
# 1. Lectura y exploración inicial
df_datos_2020.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 142348 entries, 0 to 142347
Data columns (total 16 columns):
 #   Column                      Non-Null Count   Dtype 
---  ------                      --------------   ----- 
 0   CÓDIGO ORGANISMO SUPERIOR   142348 non-null  int64 
 1   NOMBRE ORGANISMO SUPERIOR   142348 non-null  object
 2   CÓDIGO ORGANISMO            142348 non-null  int64 
 3   NOMBRE ORGANISMO            142348 non-null  object
 4   CÓDIGO UNIDAD GESTORA       142348 non-null  int64 
 5   NOMBRE UNIDAD GESTORA       142348 non-null  object
 6   CATEGORÍA ECONÓMICA         142348 non-null  object
 7   ORIGEN INGRESO              142348 non-null  object
 8   ESPECIE INGRESO             142348 non-null  object
 9   DETALLE                     142348 non-null  object
 10  VALOR PREVISTO ACTUALIZADO  142348 non-null  object
 11  VALOR REGISTRADO            142348 non-null  object
 12  VALOR REALIZADO             142348 non-null  object
 13  PORCENTAJE REALIZADO        1

Hay valores nulos en la columna "FECHA REGISTRO"

In [136]:
# 1. Lectura y exploración inicial
df_datos_2020.duplicated().sum()

np.int64(0)

In [137]:
# 1. Lectura y exploración inicial
df_datos_2021.head(2)

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas de Capital,Operações de Crédito,Operações de crédito - mercado interno,TITULOS DE RESPONS.TES.NAC.-MERC.INT.-PRINC.,222403490400,0,0,0,23/04/2021,2021
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Receitas Correntes - a classificar,Receitas Correntes - a classificar,Receitas Correntes - a classificar,0,0,0,0,16/04/2021,2021


In [138]:
# 1. Lectura y exploración inicial
# Diccionario para traducir los nombres de las columnas
column_translation = {
    'CÓDIGO ÓRGÃO SUPERIOR': 'CÓDIGO ORGANISMO SUPERIOR',
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ORGANISMO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ORGANISMO',
    'NOME ÓRGÃO': 'NOMBRE ORGANISMO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'ESPECIE INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR REGISTRADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA REGISTRO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO',
}

# Renombrar las columnas
df_datos_2021.rename(columns=column_translation, inplace=True)

# Mostrar las nuevas columnas para verificar
df_datos_2021.columns.tolist()

['CÓDIGO ORGANISMO SUPERIOR',
 'NOMBRE ORGANISMO SUPERIOR',
 'CÓDIGO ORGANISMO',
 'NOMBRE ORGANISMO',
 'CÓDIGO UNIDAD GESTORA',
 'NOMBRE UNIDAD GESTORA',
 'CATEGORÍA ECONÓMICA',
 'ORIGEN INGRESO',
 'ESPECIE INGRESO',
 'DETALLE',
 'VALOR PREVISTO ACTUALIZADO',
 'VALOR REGISTRADO',
 'VALOR REALIZADO',
 'PORCENTAJE REALIZADO',
 'FECHA REGISTRO',
 'AÑO EJERCICIO']

In [139]:
# 1. Lectura y exploración inicial
df_datos_2021.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 134593 entries, 0 to 134592
Data columns (total 16 columns):
 #   Column                      Non-Null Count   Dtype 
---  ------                      --------------   ----- 
 0   CÓDIGO ORGANISMO SUPERIOR   134593 non-null  int64 
 1   NOMBRE ORGANISMO SUPERIOR   134593 non-null  object
 2   CÓDIGO ORGANISMO            134593 non-null  int64 
 3   NOMBRE ORGANISMO            134593 non-null  object
 4   CÓDIGO UNIDAD GESTORA       134593 non-null  int64 
 5   NOMBRE UNIDAD GESTORA       134593 non-null  object
 6   CATEGORÍA ECONÓMICA         134593 non-null  object
 7   ORIGEN INGRESO              134593 non-null  object
 8   ESPECIE INGRESO             134593 non-null  object
 9   DETALLE                     134593 non-null  object
 10  VALOR PREVISTO ACTUALIZADO  134593 non-null  object
 11  VALOR REGISTRADO            134593 non-null  object
 12  VALOR REALIZADO             134593 non-null  object
 13  PORCENTAJE REALIZADO        1

Hay valores nulos en la columna "FECHA REGISTRO"

In [140]:
# 1. Lectura y exploración inicial
df_datos_2021.duplicated().sum()

np.int64(0)

A partir del año 2016 hasta el año 2021, hay duplicados en la columna "FECHA REGISTRO". Cuando se haga la unión de los DataFrames, se pocederá a evaluar el tratamiento de los nulos. 

In [141]:
# 3. Unión de los DataFrames
df_datos_brasil = pd.concat([df_datos_2013, df_datos_2014, df_datos_2015, df_datos_2016, df_datos_2017, df_datos_2018, df_datos_2019, df_datos_2020, df_datos_2021], axis=0, ignore_index = True)
df_datos_brasil.head()

Unnamed: 0,CÓDIGO ORGANISMO SUPERIOR,NOMBRE ORGANISMO SUPERIOR,CÓDIGO ORGANISMO,NOMBRE ORGANISMO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,ESPECIE INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR REGISTRADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA REGISTRO,AÑO EJERCICIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0,0,2666662142,0,31/12/2013,2013
2,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",OUTRAS MULTAS E JUROS DE MORA,0,0,30125113,0,31/12/2013,2013
3,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,0,0,185558,0,31/12/2013,2013
4,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",OUTRAS RESTITUICOES,0,0,5214068,0,31/12/2013,2013


He utilzado el método concat() porque todos los DataFrames tienen las mismas columnas y el mismo formato de columna asociado. Con este método se han combinado las filas de los DataFrames. 

In [142]:
df_datos_brasil.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1026299 entries, 0 to 1026298
Data columns (total 16 columns):
 #   Column                      Non-Null Count    Dtype 
---  ------                      --------------    ----- 
 0   CÓDIGO ORGANISMO SUPERIOR   1026299 non-null  int64 
 1   NOMBRE ORGANISMO SUPERIOR   1026299 non-null  object
 2   CÓDIGO ORGANISMO            1026299 non-null  int64 
 3   NOMBRE ORGANISMO            1026299 non-null  object
 4   CÓDIGO UNIDAD GESTORA       1026299 non-null  int64 
 5   NOMBRE UNIDAD GESTORA       1026299 non-null  object
 6   CATEGORÍA ECONÓMICA         1026299 non-null  object
 7   ORIGEN INGRESO              1026299 non-null  object
 8   ESPECIE INGRESO             1026299 non-null  object
 9   DETALLE                     1026299 non-null  object
 10  VALOR PREVISTO ACTUALIZADO  1026299 non-null  object
 11  VALOR REGISTRADO            1026299 non-null  object
 12  VALOR REALIZADO             1026299 non-null  object
 13  PORCENTAJE R

In [143]:
# Guardar Dataframe
df_datos_brasil.to_csv("datos/datos_brasil.csv")

In [144]:
# 3. Unión de los DataFrames
df_datos_brasil.duplicated().sum()

np.int64(0)

No hay valores duplicados en la unión de este nuevo DataFrame

## Fase 2: Limpieza de Datos

1. **Tratamiento de Valores Nulos:**

   - Identificar y manejar los valores nulos: decidir si se deben rellenar, eliminar o imputar según el contexto.

2. **Corrección de Formatos:**

   - Convertir valores monetarios a formato numérico, eliminando símbolos y asegurando que todas las cifras sean comparables.

   - Asegurarse de que las fechas estén en un formato uniforme y puedan ser fácilmente manipuladas para análisis temporal.

3. **Detección y Corrección de Errores en Categorizaciones:**

   - Revisar posibles inconsistencias en las categorías económicas (errores tipográficos, variaciones en los nombres) y unificarlas.

In [145]:
# 1. Tratamiento de valores nulos

df_datos_brasil.isnull().sum()

CÓDIGO ORGANISMO SUPERIOR       0
NOMBRE ORGANISMO SUPERIOR       0
CÓDIGO ORGANISMO                0
NOMBRE ORGANISMO                0
CÓDIGO UNIDAD GESTORA           0
NOMBRE UNIDAD GESTORA           0
CATEGORÍA ECONÓMICA             0
ORIGEN INGRESO                  0
ESPECIE INGRESO                 0
DETALLE                         0
VALOR PREVISTO ACTUALIZADO      0
VALOR REGISTRADO                0
VALOR REALIZADO                 0
PORCENTAJE REALIZADO            0
FECHA REGISTRO                578
AÑO EJERCICIO                   0
dtype: int64

Hay 578 valores nulos en la columna "FECHA REGISTRO"

In [146]:
# 1. Tratamiento de valores nulos
def reporte_nulos(df_datos_brasil):
    """
    Genera un reporte sobre los valores nulos de un DataFrame.

    Esta función analiza el DataFrame proporcionado y devuelve un nuevo DataFrame 
    con información detallada sobre la cantidad de valores nulos, el porcentaje 
    de valores nulos respecto al total de filas y el tipo de dato de cada columna.

    Parámetros:
    -----------
    df_datos_brasil : pd.DataFrame
        DataFrame que se desea analizar en busca de valores nulos.

    Retorna:
    --------
    pd.DataFrame
        Un DataFrame con las siguientes columnas:
        - "número_nulos": número de valores nulos en cada columna.
        - "porcentaje_nulos": porcentaje de valores nulos respecto al total de filas.
        - "tipo_variables": tipo de dato (dtype) de cada columna.

    """
    df_reporte = pd.DataFrame()
    df_reporte["número_nulos"] = df_datos_brasil.isnull().sum()
    df_reporte["porcentaje_nulos"] = round((df_datos_brasil.isnull().sum() / len(df_datos_brasil)) * 100, 2)
    df_reporte["tipo_variables"] = df_datos_brasil.dtypes
    return df_reporte

In [147]:
# Llamar a la función
reporte = reporte_nulos(df_datos_brasil)
reporte

Unnamed: 0,número_nulos,porcentaje_nulos,tipo_variables
CÓDIGO ORGANISMO SUPERIOR,0,0.0,int64
NOMBRE ORGANISMO SUPERIOR,0,0.0,object
CÓDIGO ORGANISMO,0,0.0,int64
NOMBRE ORGANISMO,0,0.0,object
CÓDIGO UNIDAD GESTORA,0,0.0,int64
NOMBRE UNIDAD GESTORA,0,0.0,object
CATEGORÍA ECONÓMICA,0,0.0,object
ORIGEN INGRESO,0,0.0,object
ESPECIE INGRESO,0,0.0,object
DETALLE,0,0.0,object


En la columna "FECHA REGISTRO", el porcentaje de nulos representa el 6%. Este porcentaje es relativamente pequeño, por lo que la manera más eficiente de gestionar estos nulos es eliminándolos, ya que no va a representar una distorsión en el análisis. 

In [148]:
# 1. Tratamiento de valores nulos
 

# Eliminar filas con valores nulos en la columna "FECHA REGISTRO"
df_datos_brasil = df_datos_brasil.dropna(subset=["FECHA REGISTRO"])

In [149]:
# 1. Tratamiento de valores nulos

df_datos_brasil.isnull().sum()

CÓDIGO ORGANISMO SUPERIOR     0
NOMBRE ORGANISMO SUPERIOR     0
CÓDIGO ORGANISMO              0
NOMBRE ORGANISMO              0
CÓDIGO UNIDAD GESTORA         0
NOMBRE UNIDAD GESTORA         0
CATEGORÍA ECONÓMICA           0
ORIGEN INGRESO                0
ESPECIE INGRESO               0
DETALLE                       0
VALOR PREVISTO ACTUALIZADO    0
VALOR REGISTRADO              0
VALOR REALIZADO               0
PORCENTAJE REALIZADO          0
FECHA REGISTRO                0
AÑO EJERCICIO                 0
dtype: int64

Nos aseguramos que no hay valores nulos en ninguna de las columnas.

In [150]:
# 2. Correción de formatos
 
df_datos_brasil.dtypes

CÓDIGO ORGANISMO SUPERIOR      int64
NOMBRE ORGANISMO SUPERIOR     object
CÓDIGO ORGANISMO               int64
NOMBRE ORGANISMO              object
CÓDIGO UNIDAD GESTORA          int64
NOMBRE UNIDAD GESTORA         object
CATEGORÍA ECONÓMICA           object
ORIGEN INGRESO                object
ESPECIE INGRESO               object
DETALLE                       object
VALOR PREVISTO ACTUALIZADO    object
VALOR REGISTRADO              object
VALOR REALIZADO               object
PORCENTAJE REALIZADO          object
FECHA REGISTRO                object
AÑO EJERCICIO                  int64
dtype: object

In [151]:
# 2. Correción de formatos

df_datos_brasil.head(2)

Unnamed: 0,CÓDIGO ORGANISMO SUPERIOR,NOMBRE ORGANISMO SUPERIOR,CÓDIGO ORGANISMO,NOMBRE ORGANISMO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,ESPECIE INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR REGISTRADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA REGISTRO,AÑO EJERCICIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0,0,2666662142,0,31/12/2013,2013


In [152]:
# 2. Correción de formatos
 
# Reemplazar las comas por puntos en la columna "VALOR PREVISTO ATUALIZADO"
df_datos_brasil["VALOR PREVISTO ACTUALIZADO"] = df_datos_brasil["VALOR PREVISTO ACTUALIZADO"].str.replace(',', '.')

# Convertir la columna a tipo float
df_datos_brasil["VALOR PREVISTO ACTUALIZADO"] = df_datos_brasil["VALOR PREVISTO ACTUALIZADO"].astype(float)

# Verificar los cambios en los primeros valores
df_datos_brasil["VALOR PREVISTO ACTUALIZADO"].head()

0    0.0
1    0.0
2    0.0
3    0.0
4    0.0
Name: VALOR PREVISTO ACTUALIZADO, dtype: float64

In [153]:
# 2. Correción de formatos
 
# Reemplazar las comas por puntos en la columna "VALOR PREVISTO ATUALIZADO"
df_datos_brasil["VALOR REGISTRADO"] = df_datos_brasil["VALOR REGISTRADO"].str.replace(',', '.')

# Convertir la columna a tipo float
df_datos_brasil["VALOR REGISTRADO"] = df_datos_brasil["VALOR REGISTRADO"].astype(float)

# Verificar los cambios en los primeros valores
df_datos_brasil["VALOR REGISTRADO"].head()

0    0.0
1    0.0
2    0.0
3    0.0
4    0.0
Name: VALOR REGISTRADO, dtype: float64

In [154]:
# 2. Correción de formatos
 
# Reemplazar las comas por puntos en la columna "VALOR PREVISTO ATUALIZADO"
df_datos_brasil["VALOR REALIZADO"] = df_datos_brasil["VALOR REALIZADO"].str.replace(',', '.')

# Convertir la columna a tipo float
df_datos_brasil["VALOR REALIZADO"] = df_datos_brasil["VALOR REALIZADO"].astype(float)

# Verificar los cambios en los primeros valores
df_datos_brasil["VALOR REALIZADO"].head()

0        1297.13
1    26666621.42
2      301251.13
3        1855.58
4       52140.68
Name: VALOR REALIZADO, dtype: float64

In [155]:
# 2. Correción de formatos
 
# Reemplazar las comas por puntos en la columna "VALOR PREVISTO ATUALIZADO"
df_datos_brasil["PORCENTAJE REALIZADO"] = df_datos_brasil["PORCENTAJE REALIZADO"].str.replace(',', '.')

# Convertir la columna a tipo float
df_datos_brasil["PORCENTAJE REALIZADO"] = df_datos_brasil["PORCENTAJE REALIZADO"].astype(float)

# Verificar los cambios en los primeros valores
df_datos_brasil["PORCENTAJE REALIZADO"].head()

0    0.0
1    0.0
2    0.0
3    0.0
4    0.0
Name: PORCENTAJE REALIZADO, dtype: float64

In [156]:
# 2. Correción de formatos
 
df_datos_brasil["FECHA REGISTRO"] = pd.to_datetime(df_datos_brasil["FECHA REGISTRO"], format="mixed")

In [157]:
# 2. Correción de formatos
df_datos_brasil.dtypes

CÓDIGO ORGANISMO SUPERIOR              int64
NOMBRE ORGANISMO SUPERIOR             object
CÓDIGO ORGANISMO                       int64
NOMBRE ORGANISMO                      object
CÓDIGO UNIDAD GESTORA                  int64
NOMBRE UNIDAD GESTORA                 object
CATEGORÍA ECONÓMICA                   object
ORIGEN INGRESO                        object
ESPECIE INGRESO                       object
DETALLE                               object
VALOR PREVISTO ACTUALIZADO           float64
VALOR REGISTRADO                     float64
VALOR REALIZADO                      float64
PORCENTAJE REALIZADO                 float64
FECHA REGISTRO                datetime64[ns]
AÑO EJERCICIO                          int64
dtype: object

En primer lugar, he convertido las columnas "VALOR PREVISTO ACTUALIZADO", "VALOR REGISTRADO", "VALOR REALIZADO" y "PORCENTAJE REALIZADO" a formato float porque se trata de valores monetarios. Luego, he convertido la columna "FECHA REGISTRO" a formato datetime porque es más sencillo de entender a la hora de realizar un análisis temporal. 

In [158]:
# 2. Correción de formatos
 
df_datos_brasil["CÓDIGO ORGANISMO SUPERIOR"] = df_datos_brasil["CÓDIGO ORGANISMO SUPERIOR"].astype("object")
df_datos_brasil["CÓDIGO ORGANISMO"] = df_datos_brasil["CÓDIGO ORGANISMO"].astype("object")
df_datos_brasil["CÓDIGO UNIDAD GESTORA"] = df_datos_brasil["CÓDIGO UNIDAD GESTORA"].astype("object")

In [159]:
# 2 . Correción de formatos
 
df_datos_brasil.dtypes

CÓDIGO ORGANISMO SUPERIOR             object
NOMBRE ORGANISMO SUPERIOR             object
CÓDIGO ORGANISMO                      object
NOMBRE ORGANISMO                      object
CÓDIGO UNIDAD GESTORA                 object
NOMBRE UNIDAD GESTORA                 object
CATEGORÍA ECONÓMICA                   object
ORIGEN INGRESO                        object
ESPECIE INGRESO                       object
DETALLE                               object
VALOR PREVISTO ACTUALIZADO           float64
VALOR REGISTRADO                     float64
VALOR REALIZADO                      float64
PORCENTAJE REALIZADO                 float64
FECHA REGISTRO                datetime64[ns]
AÑO EJERCICIO                          int64
dtype: object

En segundo lugar, he convertido las columnas "CÓDIGO ORGANISMO SUPERIOR", "CÓDIGO ORGANISMO" y "CÓDIGO UNIDAD GESTORA" a tipo de dato object porque para el análisis estadístico estas columnas no tienen ningún sentido que estén en formato integer, ya que no aportan ningún valor al análisis.

In [160]:
# 2. Correción de formatos
 
df_datos_brasil.head()

Unnamed: 0,CÓDIGO ORGANISMO SUPERIOR,NOMBRE ORGANISMO SUPERIOR,CÓDIGO ORGANISMO,NOMBRE ORGANISMO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,ESPECIE INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR REGISTRADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA REGISTRO,AÑO EJERCICIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,2013-12-31,2013
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0.0,0.0,26666621.42,0.0,2013-12-31,2013
2,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",OUTRAS MULTAS E JUROS DE MORA,0.0,0.0,301251.13,0.0,2013-12-31,2013
3,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,0.0,0.0,1855.58,0.0,2013-12-31,2013
4,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",OUTRAS RESTITUICOES,0.0,0.0,52140.68,0.0,2013-12-31,2013


In [161]:
# 2. Correción de formatos
# Análisis descriptivo

df_datos_brasil.describe(include = "object").T

Unnamed: 0,count,unique,top,freq
CÓDIGO ORGANISMO SUPERIOR,1025721,25,26000,361867
NOMBRE ORGANISMO SUPERIOR,1025721,25,Ministério da Educação,361867
CÓDIGO ORGANISMO,1025721,291,25000,119345
NOMBRE ORGANISMO,1025721,287,Ministério da Economia - Unidades com vínculo ...,119345
CÓDIGO UNIDAD GESTORA,1025721,364,170013,108481
NOMBRE UNIDAD GESTORA,1025721,356,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,108481
CATEGORÍA ECONÓMICA,1025721,5,Receitas Correntes,979101
ORIGEN INGRESO,1025721,15,Outras Receitas Correntes,322884
ESPECIE INGRESO,1025721,63,Serviços Administrativos e Comerciais Gerais,278157
DETALLE,1025721,1886,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,159039


En las columnas CÓDIGO ORGANISMO Y NOMBRE ORGANISMO hay más códigos que nombres, por lo que habrá que tratar esos datos para ver si se pueden rellenar.

In [162]:
# Crear un diccionario único de mapeo
mapeo_unico = df_datos_brasil.groupby("NOMBRE ORGANISMO")["CÓDIGO ORGANISMO"].unique().to_dict()

# Inspeccionar el mapeo para identificar conflictos
for nombre, codigos in mapeo_unico.items():
    if len(codigos) > 1:
        print(f"{nombre}: {codigos}")

Agência Nacional de Transportes Aquaviários: [68201 39251]
Fundo Nacional Antidrogas: [30912 20117]
Fundo Nacional do Idoso: [64902 30914]
Fundo Nacional para a Criança e o Adolescente: [64901 30913]


Ahora, hacemos lo mismo con las columnas CÓDIGO UNIDAD GESTORA Y NOMBRE UNIDAD GESTORA

In [163]:
# Crear un diccionario único de mapeo
mapeo_unico_2 = df_datos_brasil.groupby("NOMBRE UNIDAD GESTORA")["CÓDIGO UNIDAD GESTORA"].unique().to_dict()

# Inspeccionar el mapeo para identificar conflictos
for nombre, codigos in mapeo_unico_2.items():
    if len(codigos) > 1:
        print(f"{nombre}: {codigos}")

AGENCIA NACIONAL DE TRANSPORTES AQUAVIARIOS: [682010 393002]
COORDENACAO-GERAL DE ORCAMENTO E FINANCAS: [240102 410002]
COORDENACAO-GERAL DE RECURSOS LOGISTICOS: [410003 240101]
DIRETORIA DE FINANCAS-SISTEMA PARA O PAIS/MM: [673001 873001]
FUNDO NACIONAL ANTIDROGAS: [200246 110246]
FUNDO NACIONAL DO IDOSO: [207001 307002]
FUNDO NACIONAL PARA A CRIANCA E O ADOLESCENTE: [110244 307001]
SETORIAL PROG.ORCAMENTARIA E FINANCEIRA-SFB: [440088 130214]


En todos estos organismos o unidades gestoras, no podemos saber qué código es el correcto ya que pueden pertenecer a dos organismos superiores distintos. Por tanto, se deja tal cual estos códigos porque no van a influir a la hora de analizar los datos. 

In [164]:
# Detección y correción de Errores en Categorizaciones

df_datos_brasil["CATEGORÍA ECONÓMICA"].unique()

array(['Receitas Correntes', 'Receitas de Capital',
       'Receitas Correntes - intra-orçamentárias', 'Sem informação',
       'Receitas de Capital - intra-orçamentárias'], dtype=object)

No hay errores tipográficos en las categorías económicas.

## Fase 3: Análisis Exploratorio de Datos (EDA)

1. **Distribución de Ingresos por Categoría Económica:**

   - Analizar las categorías de ingresos más significativas y su participación en los ingresos totales.

   - Calcular la diferencia promedio entre ingresos previstos y realizados por cada categoría.

2. **Análisis Temporal:**

   - Evaluar las tendencias a lo largo del tiempo, por ejemplo, cómo cambian los ingresos realizados de un mes a otro o de un año a otro.

3. **Identificación de Discrepancias:**

   - Investigar las categorías con mayor diferencia entre lo previsto y lo realizado, identificando patrones en la subejecución o sobre ejecución.

In [165]:
# 1. Distribución de Ingresos por Categoría económica
 
df_datos_brasil.dtypes

CÓDIGO ORGANISMO SUPERIOR             object
NOMBRE ORGANISMO SUPERIOR             object
CÓDIGO ORGANISMO                      object
NOMBRE ORGANISMO                      object
CÓDIGO UNIDAD GESTORA                 object
NOMBRE UNIDAD GESTORA                 object
CATEGORÍA ECONÓMICA                   object
ORIGEN INGRESO                        object
ESPECIE INGRESO                       object
DETALLE                               object
VALOR PREVISTO ACTUALIZADO           float64
VALOR REGISTRADO                     float64
VALOR REALIZADO                      float64
PORCENTAJE REALIZADO                 float64
FECHA REGISTRO                datetime64[ns]
AÑO EJERCICIO                          int64
dtype: object

In [166]:
# 1. Distribución de Ingresos por Categoría económica
 
# Función para calcular la distribución de ingresos por categoría económica
def calcular_distribucion_categorias(dataframe, columna):
    """
    Calcula la distribución de una columna categórica, incluyendo frecuencias y porcentajes.

    Args:
        dataframe (pd.DataFrame): El DataFrame que contiene los datos.
        columna (str): Nombre de la columna categórica.

    Returns:
        pd.DataFrame: DataFrame con las categorías, su frecuencia y porcentaje.
    """
    # Calcular la frecuencia de cada categoría
    distribucion = dataframe[columna].value_counts()
    
    # Calcular el porcentaje de cada categoría
    total = distribucion.sum()
    porcentaje = round((distribucion / total) * 100, 2)
    
    # Crear un DataFrame con los resultados
    resultado = pd.DataFrame({
        "CATEGORÍA ECONÓMICA": distribucion.index,
        "Frecuencia": distribucion.values,
        "Porcentaje (%)": porcentaje.values
    }).reset_index(drop=True)
    
    return resultado

# Aplicar la función al DataFrame
resultado_distribucion = calcular_distribucion_categorias(df_datos_brasil, "CATEGORÍA ECONÓMICA")

# Mostrar el resultado
resultado_distribucion

Unnamed: 0,CATEGORÍA ECONÓMICA,Frecuencia,Porcentaje (%)
0,Receitas Correntes,979101,95.45
1,Receitas de Capital,30073,2.93
2,Receitas Correntes - intra-orçamentárias,16235,1.58
3,Sem informação,217,0.02
4,Receitas de Capital - intra-orçamentárias,95,0.01


En este DataFrame se puede ver que la categoría económica más significativa es "Receitas Correntes", que representa el 95,45% de la participación en los ingresos totales.

In [167]:
df_datos_brasil.head(2)

Unnamed: 0,CÓDIGO ORGANISMO SUPERIOR,NOMBRE ORGANISMO SUPERIOR,CÓDIGO ORGANISMO,NOMBRE ORGANISMO,CÓDIGO UNIDAD GESTORA,NOMBRE UNIDAD GESTORA,CATEGORÍA ECONÓMICA,ORIGEN INGRESO,ESPECIE INGRESO,DETALLE,VALOR PREVISTO ACTUALIZADO,VALOR REGISTRADO,VALOR REALIZADO,PORCENTAJE REALIZADO,FECHA REGISTRO,AÑO EJERCICIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0.0,0.0,1297.13,0.0,2013-12-31,2013
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0.0,0.0,26666621.42,0.0,2013-12-31,2013


In [168]:
# Función ajustada para evitar la advertencia de pandas
def calcular_diferencia_promedio(dataframe, columna_categoria, columna_previsto, columna_realizado):
    """
    Calcula la diferencia promedio entre ingresos previstos y realizados por cada categoría,
    manejando valores no numéricos o vacíos, y evitando advertencias de pandas.

    Args:
        dataframe (pd.DataFrame): El DataFrame que contiene los datos.
        columna_categoria (str): Nombre de la columna categórica.
        columna_previsto (str): Nombre de la columna con los valores previstos.
        columna_realizado (str): Nombre de la columna con los valores realizados.

    Returns:
        pd.DataFrame: DataFrame con las categorías y sus diferencias promedio.
    """

    # Calcular la diferencia promedio por categoría
    diferencias = dataframe.groupby(columna_categoria)[[columna_previsto, columna_realizado]].apply(
        lambda x: (x[columna_previsto] - x[columna_realizado]).mean()
    ).reset_index(name='Diferencia Promedio')

    return diferencias

# Aplicar la función ajustada
diferencias_promedio = calcular_diferencia_promedio(
    df_datos_brasil, 
    'CATEGORÍA ECONÓMICA', 
    'VALOR PREVISTO ACTUALIZADO', 
    'VALOR REALIZADO'
)

# Mostrar el resultado
diferencias_promedio

Unnamed: 0,CATEGORÍA ECONÓMICA,Diferencia Promedio
0,Receitas Correntes,653848.6
1,Receitas Correntes - intra-orçamentárias,-71867.25
2,Receitas de Capital,69119040.0
3,Receitas de Capital - intra-orçamentárias,-183604500.0
4,Sem informação,-0.2146083
