## 1. Cargar los datos

#### 1.1. Importar librerias y módulos

In [1]:
import pandas as pd
import numpy as np
from glob import glob
import os
import funciones as fun
import variables_nombres as vn
from warnings import simplefilter

In [2]:
simplefilter( action = "ignore", 
              category = pd.errors.PerformanceWarning )
# print( dir( fun ) )
# pd.set_option( 'display.max_rows', 10 )
# pd.set_option( 'display.max_columns', 10 )

#### 1.2. Importar bases 

Se importan las cuatro bases de manera conjunta, y se agrupan en la lista "bases". Para accerder a cada una de las bases se llama a la lista de bases + su respectivo índice. Ejemplo: bases[0]

In [3]:
pwd

'C:\\Users\\dell\\Documents\\GitHub\\Corruption_Paper\\code\\data\\preprocess_data'

In [4]:
path = r'..\..\..\input\built_data\*.dta'

In [5]:
%%time

dfs = fun.importar_bases( path )
for i, df in enumerate( dfs ):
    print( i )

0
1
2
3
Wall time: 1h 9min 15s


In [6]:
# Filtrar los años

for i, df in enumerate( dfs ):
    dfs[ i ] = dfs[ i ][ dfs[ i ][ 'year' ] >= 2016 ]

In [7]:
# Test filtered years
dfs[ 1 ][ 'year' ].value_counts( normalize = True )

2019.0    0.266605
2020.0    0.199257
2018.0    0.195541
2016.0    0.194612
2017.0    0.143985
Name: year, dtype: float64

#### 1.3. Última limpieza a las bases

Últimas modificaciones a las bases de datos

In [8]:
%%time

for i, df in enumerate( dfs ):
    data_cols = [ col for col in dfs[ i ].columns if col not in vn.no_predictoras_variables and col not in vn.string_variables ]
    encode_variables = { "sexo":{ "Mujer":1, "Hombre":2 }}
    dfs[ i ] = dfs[ i ][ data_cols ]
    dfs[ i ] = dfs[ i ].replace( encode_variables )
    dfs[ i ] = dfs[ i ].astype( str ).replace( '', np.nan, regex = True )
    dfs[ i ] = dfs[ i ].astype( str ).replace( '\.+$', np.nan, regex = True ).astype( float )

Wall time: 8min 4s


#### 1.6. Asignar nombres a las bases

In [9]:
dfs[ 0 ].name = 'base0'
dfs[ 1 ].name = 'base1'
dfs[ 2 ].name = 'base2'
dfs[ 3 ].name = 'base3'

#### 1.7. Determinar el número de variables por cada fuente

In [10]:
fun.contar_variables( dfs )

base0: Variables de Renamu: 730; Variables de SIAF: 17532; variables políticas 4
base1: Variables de Renamu: 730; Variables de SIAF: 17532; variables políticas 4
base2: Variables de Renamu: 730; Variables de SIAF: 17532; variables políticas 4
base3: Variables de Renamu: 730; Variables de SIAF: 17532; variables políticas 4


#### 1.8. Determinar las dimensiones de cada base

In [11]:
fun.determinar_dimensiones( dfs )

base0 (1397, 18279)
base1 (2153, 18279)
base2 (2694, 18279)
base3 (5122, 18282)


## 2. Preprocesamiento

### 2.1 Imputación con 0

Se imputa los valores perdidos de las variables de SIAF con 0. No se generan variables dummy de control.

In [12]:
for i, df in enumerate( dfs ):
    dfs[ i ] = fun.imputar_i( dfs[ i ], vn.siaf_variables, 0, dummy = False )

Generar tablas descriptivas de los cuatro casos

In [13]:
# export_path = r'..\..\extra\descriptive_tables'
# file_name = "tabla_descriptiva_filtrada_ac"

In [14]:
# fun.generar_tablas_descriptivas( dfs, file_name, export_path ) 

Se verifica que las variables pertenecientes a SIAF no tengan valores perdidos

In [15]:
df0_siaf = fun.listar_variables( dfs[ 0 ], df = "siaf" )
df1_siaf = fun.listar_variables( dfs[ 1 ], df = "siaf" )
df2_siaf = fun.listar_variables( dfs[ 2 ], df = "siaf" )
df3_siaf = fun.listar_variables( dfs[ 3 ], df = "siaf" )

print( dfs[ 0 ][ df0_siaf ].isnull().sum().sum(),
       dfs[ 1 ][ df1_siaf ].isnull().sum().sum(),
       dfs[ 2 ][ df2_siaf ].isnull().sum().sum(),
       dfs[ 3 ][ df3_siaf ].isnull().sum().sum(), sep = "\n" )

0
0
0
0


Se verifica que las variables políticas no tengan valores perdidos

In [16]:
df0_pol = fun.listar_variables( dfs[ 0 ], df = "politica" )
df1_pol = fun.listar_variables( dfs[ 1 ], df = "politica" )
df2_pol = fun.listar_variables( dfs[ 2 ], df = "politica" )
df3_pol = fun.listar_variables( dfs[ 3 ], df = "politica" )

print( dfs[ 0 ][ df0_pol ].isnull().sum().sum(),
       dfs[ 1 ][ df1_pol ].isnull().sum().sum(),
       dfs[ 2 ][ df1_pol ].isnull().sum().sum(),
       dfs[ 3 ][ df1_pol ].isnull().sum().sum(), sep = "\n" )

56
60
84
108


### 2.2 Filtrar por valores perdidos

Se descartan las variables con un porcentaje de valores perdidos mayor o igual al umbral 0.1

In [17]:
for i, df in enumerate( dfs ):
    dfs[ i ] = fun.filtro_missings( df, 0.1 )

Se verifica el numero de variables por fuente de cada base luego del paso 2.2.

In [18]:
dfs[ 0 ].name = 'base0'
dfs[ 1 ].name = 'base1'
dfs[ 2 ].name = 'base2'
dfs[ 3 ].name = 'base3'

In [19]:
fun.contar_variables( dfs )

base0: Variables de Renamu: 250; Variables de SIAF: 17532; variables políticas 4
base1: Variables de Renamu: 234; Variables de SIAF: 17532; variables políticas 4
base2: Variables de Renamu: 260; Variables de SIAF: 17532; variables políticas 4
base3: Variables de Renamu: 270; Variables de SIAF: 17532; variables políticas 4


Se verifica la dimensionalidad de las bases de datos

In [20]:
fun.determinar_dimensiones( dfs )

base0 (1397, 17792)
base1 (2153, 17776)
base2 (2694, 17802)
base3 (5122, 17812)


### 2.3. Imputación con media y con moda

Se imputa las variables pertenecientes a Renamu. Las variables numéricas se imputan con media, y las variables categóricas con moda.

In [21]:
for i, df in enumerate( dfs ):
    dfs[ i ] = fun.imputar_ii( dfs[ i ], vn.renamu_numvars, num = True, dummy = False )
    dfs[ i ] = fun.imputar_ii( dfs[ i ], vn.renamu_catvars, num = False, dummy = False )

In [22]:
dfs[ 3 ].isnull().sum().sum()

130

Se verifica que las variables pertenecientes a Renamu ya no tengan valores perdidos

In [23]:
df0_renamu = fun.listar_variables( dfs[ 0 ], df = "renamu" )
df1_renamu = fun.listar_variables( dfs[ 1 ], df = "renamu" )
df2_renamu = fun.listar_variables( dfs[ 2 ], df = "renamu" )
df3_renamu = fun.listar_variables( dfs[ 3 ], df = "renamu" )

print( dfs[ 0 ][ df0_renamu ].isnull().sum().sum(),
       dfs[ 1 ][ df1_renamu ].isnull().sum().sum(),
       dfs[ 2 ][ df2_renamu ].isnull().sum().sum(),
       dfs[ 3 ][ df3_renamu ].isnull().sum().sum(), sep = "\n" )

0
0
0
0


### 2.4. Filtro por variabilidad

Se genera una lista de variables que no deben ser modificadas o filtradas

In [24]:
vars_no_mod      = [ 'ubigeo', 'year' ]
vars_no_mod_full = vn.dependientes_variables + vars_no_mod

Se descartan aquellas variables constantes, es decir, con una variabilidad de 0

In [25]:
for i, df in enumerate( dfs ):
    dfs[ i ] = fun.filtro_variabilidad( dfs[ i ], 0, vars_no_mod_full )

Se verifica la dimensionalidad de las bases de datos

In [26]:
dfs[ 0 ].name = 'base0'
dfs[ 1 ].name = 'base1'
dfs[ 2 ].name = 'base2'
dfs[ 3 ].name = 'base3'

In [27]:
fun.determinar_dimensiones( dfs )

base0 (1397, 14542)
base1 (2153, 14526)
base2 (2694, 14834)
base3 (5122, 14844)


### 2.5. Eliminar filas de aquellas columnas con valores perdidos

Se verifica la dimensionalidad de las bases de datos

In [28]:
dfs[ 0 ].name = 'base0'
dfs[ 1 ].name = 'base1'
dfs[ 2 ].name = 'base2'
dfs[ 3 ].name = 'base3'

fun.determinar_dimensiones( dfs )

base0 (1397, 14542)
base1 (2153, 14526)
base2 (2694, 14834)
base3 (5122, 14844)


Se verifica la lista de variables con valores perdidos

In [29]:
missing_vars_0 = [ var for var in dfs[ 0 ].columns if dfs[ 0 ][ var ].isnull().any() ]
missing_vars_1 = [ var for var in dfs[ 1 ].columns if dfs[ 1 ][ var ].isnull().any() ]
missing_vars_2 = [ var for var in dfs[ 2 ].columns if dfs[ 2 ][ var ].isnull().any() ]
missing_vars_3 = [ var for var in dfs[ 3 ].columns if dfs[ 3 ][ var ].isnull().any() ]

print( missing_vars_0,
       missing_vars_1,
       missing_vars_2,
       missing_vars_3, sep = "\n" )

['sharevotprim', 'margvictory', 'Qpolitical', 'vototal']
['sharevotprim', 'margvictory', 'Qpolitical', 'vototal', 'monto_corrup1', 'monto_corrup2']
['sharevotprim', 'margvictory', 'Qpolitical', 'vototal']
['sharevotprim', 'margvictory', 'Qpolitical', 'vototal', 'monto_corrup1', 'monto_corrup2']


Se verifica el numero de valores perdidos por base

In [30]:
print( dfs[ 0 ].isnull().sum().sum(),
       dfs[ 1 ].isnull().sum().sum(),
       dfs[ 2 ].isnull().sum().sum(),
       dfs[ 3 ].isnull().sum().sum(), sep = "\n" )

56
68
84
130


Se eliminan las columnas con valores perdidos

In [35]:
for i, df in enumerate( dfs ):
    dfs[ i ] = fun.drop_missing_rows( dfs[ i ], missing_vars_1 )

Se verifica la dimensionalidad de las bases de datos

In [36]:
dfs[ 0 ].name = 'base0'
dfs[ 1 ].name = 'base1'
dfs[ 2 ].name = 'base2'
dfs[ 3 ].name = 'base3'

fun.determinar_dimensiones( dfs )

base0 (1383, 14542)
base1 (2134, 14526)
base2 (2673, 14834)
base3 (5084, 14844)


In [37]:
print( dfs[ 0 ].isnull().sum().sum(),
       dfs[ 1 ].isnull().sum().sum(),
       dfs[ 2 ].isnull().sum().sum(),
       dfs[ 3 ].isnull().sum().sum(), sep = "\n" )

0
0
0
0


### 2.6. Imputar outliers

Se imputa los valores del percentil 1% superior con los valores del percentil 99% para cada una de las variables de SIAF

In [39]:
for i, df in enumerate( dfs ):
    dfs[ i ] = fun.imputar_outliers( dfs[ i ], vn.siaf_variables, 0.01 )

### 2.7. Transformaciones logarítmicas

Se identifica las variables negativas de SIAF y se les divide entre un millón. 

In [40]:
for i, df in enumerate( dfs ):
    dfs[ i ] = fun.dividir_variables_negativas( dfs[ i ], 1_000_000, vars_no_mod_full )

Se crea una nueva lista de variables que no serán modificadas, que incluye a "year", "ubigeo" y las variables dependientes categóricas

In [41]:
num_predictores = vn.siaf_variables + vn.dependientes_numericas
vars_no_mod_2   = vars_no_mod + vn.dependientes_categoricas

Se realiza una transformación logarítmica a todas las variables pertenecientes a SIAF que no son negativas.

In [42]:
for i, df in enumerate( dfs ):
    dfs[ i ] = fun.transformacion_log( dfs[ i ], num_predictores, vars_no_mod_2 )

  result = getattr(ufunc, method)(*inputs, **kwargs)


### 2.7. Exportar las bases de datos

In [43]:
dfs[ 0 ].to_csv( r'..\..\..\input\preprocessed_data\base0.csv', index = False )
dfs[ 1 ].to_csv( r'..\..\..\input\preprocessed_data\base1.csv', index = False )
dfs[ 2 ].to_csv( r'..\..\..\input\preprocessed_data\base2.csv', index = False )
dfs[ 3 ].to_csv( r'..\..\..\input\preprocessed_data\base3.csv', index = False )