In [3]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) 
# para poder visualizar todas las columnas de los DataFrames


# Ignorar warnings
# ==============================================================================
import warnings
warnings.filterwarnings("ignore")


# Para gestión de fechas
# -----------------------------------------------------------------------
from datetime import datetime


# Para guardar DataFrames en Excel
# -----------------------------------------------------------------------
from pandas import ExcelWriter


# Para generar todas las posibles combinaciones
# -----------------------------------------------------------------------
import itertools


# Importar nuestras funciones
# -----------------------------------------------------------------------
from src import soporte_eda as se


In [4]:
# Lista de archivos a cargar
file_paths = [
    "datos/datos-2013.csv",
    "datos/datos-2014.csv",
    "datos/datos-2015.csv",
    "datos/datos-2016.csv",
    "datos/datos-2017.csv",
    "datos/datos-2018.csv",
    "datos/datos-2019.csv",
    "datos/datos-2020.csv",
    "datos/datos-2021.csv"
]

# Diccionario de traducciones de columnas
traducciones = {
    'NOME ÓRGÃO SUPERIOR': 'NOMBRE ÓRGANO SUPERIOR',
    'CÓDIGO ÓRGÃO': 'CÓDIGO ÓRGANO',
    'NOME ÓRGÃO': 'NOMBRE ÓRGANO',
    'CÓDIGO UNIDADE GESTORA': 'CÓDIGO UNIDAD GESTORA',
    'NOME UNIDADE GESTORA': 'NOMBRE UNIDAD GESTORA',
    'CATEGORIA ECONÔMICA': 'CATEGORÍA ECONÓMICA',
    'ORIGEM RECEITA': 'ORIGEN INGRESO',
    'ESPÉCIE RECEITA': 'TIPO INGRESO',
    'DETALHAMENTO': 'DETALLE',
    'VALOR PREVISTO ATUALIZADO': 'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANÇADO': 'VALOR LANZADO',
    'VALOR REALIZADO': 'VALOR REALIZADO',
    'PERCENTUAL REALIZADO': 'PORCENTAJE REALIZADO',
    'DATA LANÇAMENTO': 'FECHA LANZAMIENTO',
    'ANO EXERCÍCIO': 'AÑO EJERCICIO'
}

In [5]:

df_2013 = pd.read_csv("datos/datos-2013.csv", sep=";", encoding="latin-1")
df_2013.head()

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013
1,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",RECUPERACAO DE DESPESAS DE EXERC. ANTERIORES,0,0,2666662142,0,31/12/2013,2013
2,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Multas administrativas, contratuais e judicia",OUTRAS MULTAS E JUROS DE MORA,0,0,30125113,0,31/12/2013,2013
3,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIV.ATIVA POR INFRAÇÃO ADMINISTRATIVA,0,0,185558,0,31/12/2013,2013
4,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Indenizações, restituições e ressarcimentos",OUTRAS RESTITUICOES,0,0,5214068,0,31/12/2013,2013


In [6]:
# Cargar y procesar los archivos de datos
dataframes = []
for file_path in file_paths:
        # Cargar archivo
        df = pd.read_csv(file_path, sep=';', encoding='latin1')
        # Traducir columnas
        df = se.traducir_columnas(df, traducciones)
        # Agregar DataFrame a la lista
        dataframes.append(df)

# Concatenar todos los DataFrames
df_consolidado = pd.concat(dataframes, ignore_index=True)


In [7]:
# Generar reporte inicial de valores nulos
print("\nReporte de valores nulos:")
print(se.generar_reporte_nulos(df_consolidado))


Reporte de valores nulos:
                            Numero_nulos  Porcentaje_nulos Tipo_dato
CÓDIGO ÓRGÃO SUPERIOR                  0              0.00     int64
NOMBRE ÓRGANO SUPERIOR                 0              0.00    object
CÓDIGO ÓRGANO                          0              0.00     int64
NOMBRE ÓRGANO                          0              0.00    object
CÓDIGO UNIDAD GESTORA                  0              0.00     int64
NOMBRE UNIDAD GESTORA                  0              0.00    object
CATEGORÍA ECONÓMICA                    0              0.00    object
ORIGEN INGRESO                         0              0.00    object
TIPO INGRESO                           0              0.00    object
DETALLE                                0              0.00    object
VALOR PREVISTO ACTUALIZADO             0              0.00    object
VALOR LANZADO                          0              0.00    object
VALOR REALIZADO                        0              0.00    object
PORCENT

In [8]:
# Convertir columnas monetarias a numéricas
columnas_monetarias = [
    'VALOR PREVISTO ACTUALIZADO',
    'VALOR LANZADO',
    'VALOR REALIZADO'
]
df_consolidado = se.convertir_valores_monetarios(df_consolidado, columnas_monetarias)

In [9]:
# Verificar el DataFrame consolidado
print("\nInformación del DataFrame consolidado:")
print(df_consolidado.info())
print(df_consolidado.head())


Información del DataFrame consolidado:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1026299 entries, 0 to 1026298
Data columns (total 16 columns):
 #   Column                      Non-Null Count    Dtype  
---  ------                      --------------    -----  
 0   CÓDIGO ÓRGÃO SUPERIOR       1026299 non-null  int64  
 1   NOMBRE ÓRGANO SUPERIOR      1026299 non-null  object 
 2   CÓDIGO ÓRGANO               1026299 non-null  int64  
 3   NOMBRE ÓRGANO               1026299 non-null  object 
 4   CÓDIGO UNIDAD GESTORA       1026299 non-null  int64  
 5   NOMBRE UNIDAD GESTORA       1026299 non-null  object 
 6   CATEGORÍA ECONÓMICA         1026299 non-null  object 
 7   ORIGEN INGRESO              1026299 non-null  object 
 8   TIPO INGRESO                1026299 non-null  object 
 9   DETALLE                     1026299 non-null  object 
 10  VALOR PREVISTO ACTUALIZADO  1026299 non-null  float64
 11  VALOR LANZADO               1026299 non-null  float64
 12  VALOR REALIZADO 

In [10]:
df_consolidado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1026299 entries, 0 to 1026298
Data columns (total 16 columns):
 #   Column                      Non-Null Count    Dtype  
---  ------                      --------------    -----  
 0   CÓDIGO ÓRGÃO SUPERIOR       1026299 non-null  int64  
 1   NOMBRE ÓRGANO SUPERIOR      1026299 non-null  object 
 2   CÓDIGO ÓRGANO               1026299 non-null  int64  
 3   NOMBRE ÓRGANO               1026299 non-null  object 
 4   CÓDIGO UNIDAD GESTORA       1026299 non-null  int64  
 5   NOMBRE UNIDAD GESTORA       1026299 non-null  object 
 6   CATEGORÍA ECONÓMICA         1026299 non-null  object 
 7   ORIGEN INGRESO              1026299 non-null  object 
 8   TIPO INGRESO                1026299 non-null  object 
 9   DETALLE                     1026299 non-null  object 
 10  VALOR PREVISTO ACTUALIZADO  1026299 non-null  float64
 11  VALOR LANZADO               1026299 non-null  float64
 12  VALOR REALIZADO             1026299 non-null  float64
 1

In [12]:
# Guardar DataFrame consolidado en un archivo CSV
df_consolidado.to_csv("datos_consolidados.csv", index=False, sep=';', encoding='utf-8')
print("Archivo guardado")

Archivo guardado
