# A lo largo del ejercicio, usaré el siguiente [enunciado](../enunciado.md) como guíon


# Fase 1: Unión de Conjuntos de Datos
Importamos las librerías necesarias y configuración inicial

In [1]:
import pandas as pd
import numpy as np

# Importamos el archivo de funciones auxiliares
import sys 
sys.path.append("..")
from src import funcionesAuxiliares as aux

# Nos permite visualizar todas las columnas de los DataFrames
pd.set_option('display.max_columns', None)

## Importamos los datos

In [2]:
# Creamos un dataframe por cada año
df_2013 = pd.read_csv('../datos/datos-2013.csv', encoding='latin1', sep=';')
df_2014 = pd.read_csv('../datos/datos-2014.csv', encoding='latin1', sep=';')
df_2015 = pd.read_csv('../datos/datos-2015.csv', encoding='latin1', sep=';')
df_2016 = pd.read_csv('../datos/datos-2016.csv', encoding='latin1', sep=';')
df_2017 = pd.read_csv('../datos/datos-2017.csv', encoding='latin1', sep=';')
df_2018 = pd.read_csv('../datos/datos-2018.csv', encoding='latin1', sep=';')
df_2019 = pd.read_csv('../datos/datos-2019.csv', encoding='latin1', sep=';')
df_2020 = pd.read_csv('../datos/datos-2020.csv', encoding='latin1', sep=';')
df_2021 = pd.read_csv('../datos/datos-2021.csv', encoding='latin1', sep=';')


## 1.1 Lectura y Exploración Inicial:
Usando el primer año como referencia, podemos ver cómo está compuesto por:
- 16 filas
- De estas 16 filas, 4 son de tipo Int y el resto de tipo object o String

In [3]:
df_2013.columns.tolist()
df_2013.dtypes
df_2013.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4498 entries, 0 to 4497
Data columns (total 16 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   CÓDIGO ÓRGÃO SUPERIOR      4498 non-null   int64 
 1   NOME ÓRGÃO SUPERIOR        4498 non-null   object
 2   CÓDIGO ÓRGÃO               4498 non-null   int64 
 3   NOME ÓRGÃO                 4498 non-null   object
 4   CÓDIGO UNIDADE GESTORA     4498 non-null   int64 
 5   NOME UNIDADE GESTORA       4498 non-null   object
 6   CATEGORIA ECONÔMICA        4498 non-null   object
 7   ORIGEM RECEITA             4498 non-null   object
 8   ESPÉCIE RECEITA            4498 non-null   object
 9   DETALHAMENTO               4498 non-null   object
 10  VALOR PREVISTO ATUALIZADO  4498 non-null   object
 11  VALOR LANÇADO              4498 non-null   object
 12  VALOR REALIZADO            4498 non-null   object
 13  PERCENTUAL REALIZADO       4498 non-null   object
 14  DATA LAN

## Uniformidad en columnas y tipos de datos
Antes de unir los df, quiero asegurarme que haya consistencia en las columnas y los tipos de datos.
Para ello usaré la siguiente función, que compara las columnas y los tipos de datos de los df, comparándolo con el primero que usaremos como referencia. 

In [4]:
dfs = [df_2013, df_2014, df_2015, df_2016, df_2017, df_2018, df_2019, df_2020, df_2021]
print(aux.check_dataframes_consistency(dfs))

True


✅ Podemos confirmar por tanto, que todos los df, cuentan con las mismas columnas y los mismos tipos de datos

## 1.2 Estandarización y Limpieza

Estandarizar nombres de columnas si es necesario (En este caso lo haremos ya que los nombres están en Brasileño)

Asegurar que los tipos de datos (fechas, valores monetarios) sean consistentes en todos los archivos (Esto lo podemos dar ya por satisfecho, aunque habrá que hacer cambios en los tipos de datos de algunas columnas)

Tratar los valores nulos y eliminar filas o columnas irrelevantes.

### Concateamos los df, unificándolos en uno solo
Pasando a contar con 1.026.299 registros

In [5]:
df = pd.concat([df_2013,
                df_2014,
                df_2015,
                df_2016,
                df_2017,
                df_2018,
                df_2019,
                df_2020,
                df_2021
                ], axis=0, ignore_index = True)
df.info()
df.head(1)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1026299 entries, 0 to 1026298
Data columns (total 16 columns):
 #   Column                     Non-Null Count    Dtype 
---  ------                     --------------    ----- 
 0   CÓDIGO ÓRGÃO SUPERIOR      1026299 non-null  int64 
 1   NOME ÓRGÃO SUPERIOR        1026299 non-null  object
 2   CÓDIGO ÓRGÃO               1026299 non-null  int64 
 3   NOME ÓRGÃO                 1026299 non-null  object
 4   CÓDIGO UNIDADE GESTORA     1026299 non-null  int64 
 5   NOME UNIDADE GESTORA       1026299 non-null  object
 6   CATEGORIA ECONÔMICA        1026299 non-null  object
 7   ORIGEM RECEITA             1026299 non-null  object
 8   ESPÉCIE RECEITA            1026299 non-null  object
 9   DETALHAMENTO               1026299 non-null  object
 10  VALOR PREVISTO ATUALIZADO  1026299 non-null  object
 11  VALOR LANÇADO              1026299 non-null  object
 12  VALOR REALIZADO            1026299 non-null  object
 13  PERCENTUAL REALIZADO       

Unnamed: 0,CÓDIGO ÓRGÃO SUPERIOR,NOME ÓRGÃO SUPERIOR,CÓDIGO ÓRGÃO,NOME ÓRGÃO,CÓDIGO UNIDADE GESTORA,NOME UNIDADE GESTORA,CATEGORIA ECONÔMICA,ORIGEM RECEITA,ESPÉCIE RECEITA,DETALHAMENTO,VALOR PREVISTO ATUALIZADO,VALOR LANÇADO,VALOR REALIZADO,PERCENTUAL REALIZADO,DATA LANÇAMENTO,ANO EXERCÍCIO
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013


### Primero cambiaré el nombre de las columnas para mejorar la legibilidad

In [6]:
df.rename(columns={
    "CÓDIGO ÓRGÃO SUPERIOR": "codigo_org_sup",
    "NOME ÓRGÃO SUPERIOR": "nombre_org_sup",
    "CÓDIGO ÓRGÃO": "codigo_org",
    "NOME ÓRGÃO": "nombre_org",
    "CÓDIGO UNIDADE GESTORA": "codigo_unidad_gestora",
    "NOME UNIDADE GESTORA": "nombre_unidad_gestora",
    "CATEGORIA ECONÔMICA": "categoria_economica",
    "ORIGEM RECEITA": "origen_ingreso",
    "ESPÉCIE RECEITA": "especie_ingreso",
    "DETALHAMENTO": "detalle_ingreso",
    "VALOR PREVISTO ATUALIZADO": "valor_previsto_actualizado",
    "VALOR LANÇADO": "valor_lanzado",
    "VALOR REALIZADO": "valor_recaudado",
    "PERCENTUAL REALIZADO": "porcentaje_recaudado",
    "DATA LANÇAMENTO": "fecha_ingreso",
    "ANO EXERCÍCIO": "fecha_anual"
}, inplace=True)

###  ✅ Estandarizar nombres de columnas

### Ahora cambiaremos los tipos de datos de las columnas para que sean más fáciles de trabajar con ellos

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1026299 entries, 0 to 1026298
Data columns (total 16 columns):
 #   Column                      Non-Null Count    Dtype 
---  ------                      --------------    ----- 
 0   codigo_org_sup              1026299 non-null  int64 
 1   nombre_org_sup              1026299 non-null  object
 2   codigo_org                  1026299 non-null  int64 
 3   nombre_org                  1026299 non-null  object
 4   codigo_unidad_gestora       1026299 non-null  int64 
 5   nombre_unidad_gestora       1026299 non-null  object
 6   categoria_economica         1026299 non-null  object
 7   origen_ingreso              1026299 non-null  object
 8   especie_ingreso             1026299 non-null  object
 9   detalle_ingreso             1026299 non-null  object
 10  valor_previsto_actualizado  1026299 non-null  object
 11  valor_lanzado               1026299 non-null  object
 12  valor_recaudado             1026299 non-null  object
 13  porcentaje_r

### Ahora estandarizamos los tipos de datos
Cómo podemos ver, contamos con 4 columnas de tipo Int y 12 de tipo String
</br>
Cambiaremos las columnas de valor a tipo float, la fecha completa a tipo fecha y el año a tipo entero

In [8]:
df.head(1)

Unnamed: 0,codigo_org_sup,nombre_org_sup,codigo_org,nombre_org,codigo_unidad_gestora,nombre_unidad_gestora,categoria_economica,origen_ingreso,especie_ingreso,detalle_ingreso,valor_previsto_actualizado,valor_lanzado,valor_recaudado,porcentaje_recaudado,fecha_ingreso,fecha_anual
0,63000,Advocacia-Geral da União,63000,Advocacia-Geral da União - Unidades com víncul...,110060,COORD. GERAL DE ORC. FIN. E ANAL. CONT. - AGU,Receitas Correntes,Outras Receitas Correntes,"Bens, Direitos e Valores Incorporados ao Patr",REC.DIVIDA ATIVA NAO TRIBUTARIA DE OUTRAS REC,0,0,129713,0,31/12/2013,2013


In [9]:
df["valor_previsto_actualizado"] = df["valor_previsto_actualizado"].str.replace(",", ".").astype(float)
df["valor_lanzado"] = df["valor_lanzado"].str.replace(",", ".").astype(float)
df["valor_recaudado"] = df["valor_recaudado"].str.replace(",", ".").astype(float)
df["porcentaje_recaudado"] = df["porcentaje_recaudado"].str.replace(",", ".").astype(float)

In [10]:
df["fecha_ingreso"] = pd.to_datetime(df["fecha_ingreso"], errors="coerce", format="%d/%m/%Y", dayfirst=True)

In [11]:
df["fecha_anual"] = df["fecha_anual"].astype(int)

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1026299 entries, 0 to 1026298
Data columns (total 16 columns):
 #   Column                      Non-Null Count    Dtype         
---  ------                      --------------    -----         
 0   codigo_org_sup              1026299 non-null  int64         
 1   nombre_org_sup              1026299 non-null  object        
 2   codigo_org                  1026299 non-null  int64         
 3   nombre_org                  1026299 non-null  object        
 4   codigo_unidad_gestora       1026299 non-null  int64         
 5   nombre_unidad_gestora       1026299 non-null  object        
 6   categoria_economica         1026299 non-null  object        
 7   origen_ingreso              1026299 non-null  object        
 8   especie_ingreso             1026299 non-null  object        
 9   detalle_ingreso             1026299 non-null  object        
 10  valor_previsto_actualizado  1026299 non-null  float64       
 11  valor_lanzado           

###  ✅ Consistencia en tipos de datos

###  Por último en esta sección trataremos los valores nulos

In [19]:
print(df.isnull().sum())

print((df["fecha_ingreso"].isnull().sum() / len(df)) * 100)


codigo_org_sup                  0
nombre_org_sup                  0
codigo_org                      0
nombre_org                      0
codigo_unidad_gestora           0
nombre_unidad_gestora           0
categoria_economica             0
origen_ingreso                  0
especie_ingreso                 0
detalle_ingreso                 0
valor_previsto_actualizado      0
valor_lanzado                   0
valor_recaudado                 0
porcentaje_recaudado            0
fecha_ingreso                 578
fecha_anual                     0
dtype: int64
0.05631887003689958


###  Podemos ver que únicamente la columna "fecha_ingreso" tiene valores nulos, que corresponden con el 0,056% de los registros totales, en total 578
### Al tratarse de un porcentaje tan bajo, procederé a eliminarlos, haciendo primero una copia del df original

In [20]:
df_original = df.copy()
df = df.dropna(subset=['fecha_ingreso'])

In [22]:
# Comprobando que no contamos con ningún valor nulo 
print(df.isnull().sum())

codigo_org_sup                0
nombre_org_sup                0
codigo_org                    0
nombre_org                    0
codigo_unidad_gestora         0
nombre_unidad_gestora         0
categoria_economica           0
origen_ingreso                0
especie_ingreso               0
detalle_ingreso               0
valor_previsto_actualizado    0
valor_lanzado                 0
valor_recaudado               0
porcentaje_recaudado          0
fecha_ingreso                 0
fecha_anual                   0
dtype: int64


### También comprobaremos que no hay valores duplicados, como podemos ver no es el caso

In [26]:
df.duplicated().sum()

np.int64(0)

### Siendo éste el resultado final de la limpieza del dataset

In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1025721 entries, 0 to 1026298
Data columns (total 16 columns):
 #   Column                      Non-Null Count    Dtype         
---  ------                      --------------    -----         
 0   codigo_org_sup              1025721 non-null  int64         
 1   nombre_org_sup              1025721 non-null  object        
 2   codigo_org                  1025721 non-null  int64         
 3   nombre_org                  1025721 non-null  object        
 4   codigo_unidad_gestora       1025721 non-null  int64         
 5   nombre_unidad_gestora       1025721 non-null  object        
 6   categoria_economica         1025721 non-null  object        
 7   origen_ingreso              1025721 non-null  object        
 8   especie_ingreso             1025721 non-null  object        
 9   detalle_ingreso             1025721 non-null  object        
 10  valor_previsto_actualizado  1025721 non-null  float64       
 11  valor_lanzado               1

### Ahora lo exportaremos para poder continuar con el ejercicio

In [29]:
df.to_csv('../datos/datos_limpios.csv', index=False)