# Importamos librerias

In [20]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

## Importamos todos los CSV y los nombramos con su respectivo año

In [21]:
df_13 = pd.read_csv("../datos/raw_data/datos-2013.csv", sep=';', encoding='latin-1')
df_14 = pd.read_csv("../datos/raw_data/datos-2014.csv", sep=';', encoding='latin-1')
df_15 = pd.read_csv("../datos/raw_data/datos-2015.csv", sep=';', encoding='latin-1')
df_16 = pd.read_csv("../datos/raw_data/datos-2016.csv", sep=';', encoding='latin-1')
df_17 = pd.read_csv("../datos/raw_data/datos-2017.csv", sep=';', encoding='latin-1')
df_18 = pd.read_csv("../datos/raw_data/datos-2018.csv", sep=';', encoding='latin-1')
df_19 = pd.read_csv("../datos/raw_data/datos-2019.csv", sep=';', encoding='latin-1')
df_20 = pd.read_csv("../datos/raw_data/datos-2020.csv", sep=';', encoding='latin-1')
df_21 = pd.read_csv("../datos/raw_data/datos-2021.csv", sep=';', encoding='latin-1')
diccionario = pd.read_csv("../datos/raw_data/diccionario_datos.csv", sep=';', encoding='latin-1')

## Concatenamos todos los Dataframes

In [22]:
df = pd.concat([df_13, df_14, df_15,df_16, df_17, df_18, df_19, df_20, df_21], axis=0, ignore_index = True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1026299 entries, 0 to 1026298
Data columns (total 16 columns):
 #   Column                     Non-Null Count    Dtype 
---  ------                     --------------    ----- 
 0   CÓDIGO ÓRGÃO SUPERIOR      1026299 non-null  int64 
 1   NOME ÓRGÃO SUPERIOR        1026299 non-null  object
 2   CÓDIGO ÓRGÃO               1026299 non-null  int64 
 3   NOME ÓRGÃO                 1026299 non-null  object
 4   CÓDIGO UNIDADE GESTORA     1026299 non-null  int64 
 5   NOME UNIDADE GESTORA       1026299 non-null  object
 6   CATEGORIA ECONÔMICA        1026299 non-null  object
 7   ORIGEM RECEITA             1026299 non-null  object
 8   ESPÉCIE RECEITA            1026299 non-null  object
 9   DETALHAMENTO               1026299 non-null  object
 10  VALOR PREVISTO ATUALIZADO  1026299 non-null  object
 11  VALOR LANÇADO              1026299 non-null  object
 12  VALOR REALIZADO            1026299 non-null  object
 13  PERCENTUAL REALIZADO       

## Renombramos columnas para reducir barrera de lenguaje

In [23]:
df.rename(columns={
    "CÓDIGO ÓRGÃO SUPERIOR": "COD_organo_superior",
    "NOME ÓRGÃO SUPERIOR": "NOM_organo_superior",
    "CÓDIGO ÓRGÃO": "COD_organo",
    "NOME ÓRGÃO": "NOM_organo",
    "CÓDIGO UNIDADE GESTORA": "COD_unidad_gestora",
    "NOME UNIDADE GESTORA": "NOM_unidad_gestora",
    "CATEGORIA ECONÔMICA": "categoria_economica",
    "ORIGEM RECEITA": "origen_ingreso",
    "ESPÉCIE RECEITA": "especie_ingreso",
    "DETALHAMENTO": "detalle_adicional ",
    "VALOR PREVISTO ATUALIZADO": "valor_previsto_actualizado",
    "VALOR LANÇADO": "valor_lanzado",
    "VALOR REALIZADO": "valor_recaudado",
    "PERCENTUAL REALIZADO": "porcentaje_ejecutado",
    "DATA LANÇAMENTO": "fecha_ejecucion",
    "ANO EXERCÍCIO": "anio_ejecucion"
}, inplace=True)

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1026299 entries, 0 to 1026298
Data columns (total 16 columns):
 #   Column                      Non-Null Count    Dtype 
---  ------                      --------------    ----- 
 0   COD_organo_superior         1026299 non-null  int64 
 1   NOM_organo_superior         1026299 non-null  object
 2   COD_organo                  1026299 non-null  int64 
 3   NOM_organo                  1026299 non-null  object
 4   COD_unidad_gestora          1026299 non-null  int64 
 5   NOM_unidad_gestora          1026299 non-null  object
 6   categoria_economica         1026299 non-null  object
 7   origen_ingreso              1026299 non-null  object
 8   especie_ingreso             1026299 non-null  object
 9   detalle_adicional           1026299 non-null  object
 10  valor_previsto_actualizado  1026299 non-null  object
 11  valor_lanzado               1026299 non-null  object
 12  valor_recaudado             1026299 non-null  object
 13  porcentaje_e

## Pasamos todos los valores que tenemos como objeto a formato numero

In [25]:
df["valor_previsto_actualizado"] = df["valor_previsto_actualizado"].str.replace(",", ".").astype(float)

In [26]:
df["valor_lanzado"] = df["valor_lanzado"].str.replace(",", ".").astype(float)

In [27]:
df["valor_recaudado"] = df["valor_recaudado"].str.replace(",", ".").astype(float)

In [28]:
df["porcentaje_ejecutado"] = df["porcentaje_ejecutado"].str.replace(",", ".").astype(float)

## Chequeamos los valores nulos por columnas

In [29]:
print("Null values per column:")
display(df.isna().sum())

Null values per column:


COD_organo_superior             0
NOM_organo_superior             0
COD_organo                      0
NOM_organo                      0
COD_unidad_gestora              0
NOM_unidad_gestora              0
categoria_economica             0
origen_ingreso                  0
especie_ingreso                 0
detalle_adicional               0
valor_previsto_actualizado      0
valor_lanzado                   0
valor_recaudado                 0
porcentaje_ejecutado            0
fecha_ejecucion               578
anio_ejecucion                  0
dtype: int64

#### Solamente tenemos nulos en la columna de fecha de ejecucion. Lo que se puede hacer es reemplazarlos con el año que tenemos en la columna de al lado y ponerle 01-01-año

In [30]:
# Reemplaza los nulos y convierte a fecha
df["fecha_ejecucion"] = df["fecha_ejecucion"].fillna(
    "01-01-" + df["anio_ejecucion"].astype(str) # Supone que el formato es DD-MM-YYYY
)


In [31]:
#Comprobamos que hayan desaparecido los nulos
print("Null values per column:")
display(df.isna().sum())

Null values per column:


COD_organo_superior           0
NOM_organo_superior           0
COD_organo                    0
NOM_organo                    0
COD_unidad_gestora            0
NOM_unidad_gestora            0
categoria_economica           0
origen_ingreso                0
especie_ingreso               0
detalle_adicional             0
valor_previsto_actualizado    0
valor_lanzado                 0
valor_recaudado               0
porcentaje_ejecutado          0
fecha_ejecucion               0
anio_ejecucion                0
dtype: int64

In [32]:
# Convertimos la columna a formato datetime
df["fecha_ejecucion"] = pd.to_datetime(df["fecha_ejecucion"], errors="coerce")

  df["fecha_ejecucion"] = pd.to_datetime(df["fecha_ejecucion"], errors="coerce")


In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1026299 entries, 0 to 1026298
Data columns (total 16 columns):
 #   Column                      Non-Null Count    Dtype         
---  ------                      --------------    -----         
 0   COD_organo_superior         1026299 non-null  int64         
 1   NOM_organo_superior         1026299 non-null  object        
 2   COD_organo                  1026299 non-null  int64         
 3   NOM_organo                  1026299 non-null  object        
 4   COD_unidad_gestora          1026299 non-null  int64         
 5   NOM_unidad_gestora          1026299 non-null  object        
 6   categoria_economica         1026299 non-null  object        
 7   origen_ingreso              1026299 non-null  object        
 8   especie_ingreso             1026299 non-null  object        
 9   detalle_adicional           1026299 non-null  object        
 10  valor_previsto_actualizado  1026299 non-null  float64       
 11  valor_lanzado           

## Tratamiento de duplicados

In [34]:
duplicados = df[df.duplicated()]
duplicados

Unnamed: 0,COD_organo_superior,NOM_organo_superior,COD_organo,NOM_organo,COD_unidad_gestora,NOM_unidad_gestora,categoria_economica,origen_ingreso,especie_ingreso,detalle_adicional,valor_previsto_actualizado,valor_lanzado,valor_recaudado,porcentaje_ejecutado,fecha_ejecucion,anio_ejecucion


### No se encontraron valores duplicados en nuestro dataframe

# Finalizada la limpieza de datos, exportamos el df limpio

In [35]:
df.to_pickle("../datos/output_data/df_limpio.pkl")