## 1. Cargar los datos

#### 1.1. Importar librerias y módulos

In [1]:
import pandas as pd
import numpy as np
from glob import glob
import os
from warnings import simplefilter
from importlib.machinery import SourceFileLoader

In [2]:
simplefilter( action = 'ignore', category = pd.errors.PerformanceWarning )
# print( dir( fun ) )
# pd.set_option( 'display.max_rows', 10 )
# pd.set_option( 'display.max_columns', 10 )

In [22]:
fun = SourceFileLoader( 'funciones', r'..\..\code\modules\funciones.py' ).load_module()
vn  = SourceFileLoader( 'variables_nombres', r'..\..\code\modules\variables_nombres.py' ).load_module()

#### 1.2. Importar bases 

Se importan las cuatro bases de manera conjunta, y se agrupan en la lista "bases". Para accerder a cada una de las bases se llama a la lista de bases + su respectivo índice. Ejemplo: bases[0]

In [4]:
pwd

'C:\\Users\\dell\\Documents\\GitHub\\Corruption_Paper\\code\\prediction'

In [7]:
path = r'..\..\input\prediction_data\base0\built_data_by_year\*.dta'

In [8]:
%%time

dfs = fun.importar_bases( path )
for i, df in enumerate( dfs ):
    print( i )

0
1
2
3
4
5
6
7
8
9
10
11
12
13
CPU times: total: 5min 14s
Wall time: 5min 18s


#### 1.3. Última limpieza a las bases

Últimas modificaciones a las bases de datos

In [9]:
%%time
plus_vars = [ 'ubigeo', 'year' ]

for i, df in enumerate( dfs ):
    data_cols = [ col for col in dfs[ i ].columns if col not in vn.no_predictoras_variables and col not in vn.string_variables ]
    encode_variables = { "sexo": { "Mujer" : 1, "Hombre" : 2 } }
    dfs[ i ] = dfs[ i ][ data_cols ]
    dfs[ i ] = dfs[ i ].replace( encode_variables )
    dfs[ i ] = dfs[ i ].astype( str ).replace( '', np.nan, regex = True )
    dfs[ i ] = dfs[ i ].astype( str ).replace( '\.+$', np.nan, regex = True )
    dfs[ i ] = dfs[ i ].apply( lambda col: col.astype( float ) if col.name not in plus_vars else col )

CPU times: total: 21min 18s
Wall time: 21min 42s


In [10]:
dfs[ 0 ][ 'ubigeo' ]

0       010101
1       010102
2       010103
3       010104
4       010105
         ...  
1825    250204
1826    250301
1827    250302
1828    250303
1829    250401
Name: ubigeo, Length: 1830, dtype: object

In [18]:
for i in range( 14 ):
    
    if i <= 2:
        dfs[ i ].name = f'base0_200{ 7 + i }'   
    else: 
        dfs[ i ].name = f'base0_20{ 7 + i }'

## 2. Preprocesamiento

### 2.1 Imputación con 0

Se imputa los valores perdidos de las variables de SIAF con 0. No se generan variables dummy de control.

In [20]:
for i, df in enumerate( dfs ):
    dfs[ i ] = fun.imputar_i( dfs[ i ], vn.siaf_variables, 0, dummy = False )

Se verifica que las variables pertenecientes a SIAF no tengan valores perdidos

In [24]:
df0_siaf = fun.listar_variables( dfs[ 0 ], df = "siaf" )
df1_siaf = fun.listar_variables( dfs[ 1 ], df = "siaf" )
df2_siaf = fun.listar_variables( dfs[ 2 ], df = "siaf" )
df3_siaf = fun.listar_variables( dfs[ 3 ], df = "siaf" )
df4_siaf = fun.listar_variables( dfs[ 4 ], df = "siaf" )

print( dfs[ 0 ][ df0_siaf ].isnull().sum().sum(),
       dfs[ 1 ][ df1_siaf ].isnull().sum().sum(),
       dfs[ 2 ][ df1_siaf ].isnull().sum().sum(),
       dfs[ 3 ][ df1_siaf ].isnull().sum().sum(),
       dfs[ 4 ][ df1_siaf ].isnull().sum().sum(), sep = "\n" )

NameError: name 'vn' is not defined

In [23]:
dfs_siaf = []

for df in dfs:
    
    df_siaf = fun.listar_variables( df, df = "siaf" )
    dfs_siaf.append( df_siaf )

for i, df_siaf in enumerate( dfs_siaf ):
    
    print( dfs[ i ][ df_siaf ].isnull().sum().sum() )

NameError: name 'vn' is not defined

### 2.2 Mantener solo las variables del conjunto de entrenamiento

Se mantienen solo las variables del conjunto de entrenamiento con el que fueron entrenados los modelos

In [25]:
for i in range( 14 ):
    
    if i <= 2:
        dfs[ i ].name = f'base0_200{ 7 + i }'   
    else: 
        dfs[ i ].name = f'base0_20{ 7 + i }'

In [26]:
fun.determinar_dimensiones( dfs )

base0_2007 (1830, 18292)
base0_2008 (1830, 18292)
base0_2009 (1834, 18292)
base0_2010 (1834, 18292)
base0_2011 (1837, 18292)
base0_2012 (1838, 18292)
base0_2013 (1838, 18292)
base0_2014 (1847, 18292)
base0_2015 (1855, 18292)
base0_2016 (1874, 18292)
base0_2017 (1876, 18292)
base0_2018 (1874, 18292)
base0_2019 (1874, 18292)
base0_2020 (1874, 18292)


In [27]:
path      = r'..\..\code\prediction\colnames_b0_ci_siaf.xlsx'
plus_vars = [ 'ubigeo', 'year' ]

for i, df in enumerate( dfs ):
    dfs[ i ] = fun.filtro_vars( df, path, plus_vars )

In [28]:
for i in range( 14 ):
    
    if i <= 2:
        dfs[ i ].name = f'base0_200{ 7 + i }'   
    else: 
        dfs[ i ].name = f'base0_20{ 7 + i }'

In [29]:
fun.determinar_dimensiones( dfs )

base0_2007 (1830, 14734)
base0_2008 (1830, 14734)
base0_2009 (1834, 14734)
base0_2010 (1834, 14734)
base0_2011 (1837, 14734)
base0_2012 (1838, 14734)
base0_2013 (1838, 14734)
base0_2014 (1847, 14734)
base0_2015 (1855, 14734)
base0_2016 (1874, 14734)
base0_2017 (1876, 14734)
base0_2018 (1874, 14734)
base0_2019 (1874, 14734)
base0_2020 (1874, 14734)


In [30]:
dfs[ 0 ][ 'year' ]

0       2007.0
1       2007.0
2       2007.0
3       2007.0
4       2007.0
         ...  
1825    2007.0
1826    2007.0
1827    2007.0
1828    2007.0
1829    2007.0
Name: year, Length: 1830, dtype: object

### 2.3. Imputación con media y con moda

Se imputa las variables pertenecientes a Renamu. Las variables numéricas se imputan con media, y las variables categóricas con moda.

In [31]:
for i, df in enumerate( dfs ):
    dfs[ i ] = fun.imputar_ii( dfs[ i ], vn.renamu_numvars, num = True, dummy = False )
    dfs[ i ] = fun.imputar_ii( dfs[ i ], vn.renamu_catvars, num = False, dummy = False )

Se verifica que las variables pertenecientes a Renamu ya no tengan valores perdidos

In [32]:
# df0_renamu = fun.listar_variables( dfs[ 0 ], df = "renamu" )
# df1_renamu = fun.listar_variables( dfs[ 1 ], df = "renamu" )
# df2_renamu = fun.listar_variables( dfs[ 2 ], df = "renamu" )
# df3_renamu = fun.listar_variables( dfs[ 3 ], df = "renamu" )
# df4_renamu = fun.listar_variables( dfs[ 4 ], df = "renamu" )

# print( dfs[ 0 ][ df0_renamu ].isnull().sum().sum(),
#        dfs[ 1 ][ df1_renamu ].isnull().sum().sum(),
#        dfs[ 2 ][ df1_renamu ].isnull().sum().sum(),
#        dfs[ 3 ][ df1_renamu ].isnull().sum().sum(),
#        dfs[ 4 ][ df1_renamu ].isnull().sum().sum(), sep = "\n" )

In [33]:
dfs[ 0 ].isnull().sum().sum()

0

### 2.5. Eliminar filas de aquellas columnas con valores perdidos

Se verifica la dimensionalidad de las bases de datos

In [34]:
for i in range( 14 ):
    
    if i <= 2:
        dfs[ i ].name = f'base0_200{ 7 + i }'   
    else: 
        dfs[ i ].name = f'base0_20{ 7 + i }'

fun.determinar_dimensiones( dfs )

base0_2007 (1830, 14734)
base0_2008 (1830, 14734)
base0_2009 (1834, 14734)
base0_2010 (1834, 14734)
base0_2011 (1837, 14734)
base0_2012 (1838, 14734)
base0_2013 (1838, 14734)
base0_2014 (1847, 14734)
base0_2015 (1855, 14734)
base0_2016 (1874, 14734)
base0_2017 (1876, 14734)
base0_2018 (1874, 14734)
base0_2019 (1874, 14734)
base0_2020 (1874, 14734)


Se verifica la lista de variables con valores perdidos

In [22]:
# missing_vars_0 = [ var for var in dfs[ 0 ].columns if dfs[ 0 ][ var ].isnull().any() ]
# missing_vars_1 = [ var for var in dfs[ 1 ].columns if dfs[ 1 ][ var ].isnull().any() ]
# missing_vars_2 = [ var for var in dfs[ 2 ].columns if dfs[ 2 ][ var ].isnull().any() ]
# missing_vars_3 = [ var for var in dfs[ 3 ].columns if dfs[ 3 ][ var ].isnull().any() ]
# missing_vars_4 = [ var for var in dfs[ 4 ].columns if dfs[ 4 ][ var ].isnull().any() ]

# print( missing_vars_0,
#        missing_vars_1,
#        missing_vars_2,
#        missing_vars_3,
#        missing_vars_4, sep = "\n" )

['sharevotprim', 'margvictory', 'Qpolitical', 'vototal']
['sharevotprim', 'margvictory', 'Qpolitical', 'vototal']
['sharevotprim', 'margvictory', 'Qpolitical', 'vototal']
['sharevotprim', 'margvictory', 'Qpolitical', 'vototal']
['sharevotprim', 'margvictory', 'Qpolitical', 'vototal']


In [38]:
missing_vars_list = []

for df in dfs:
    missing_vars = [var for var in df.columns if df[var].isnull().any()]
    missing_vars_list.append(missing_vars)

for missing_vars in missing_vars_list:
    print(missing_vars)

[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]


Se verifica el numero de valores perdidos por base

In [23]:
# print( dfs[ 0 ].isnull().sum().sum(),
#        dfs[ 1 ].isnull().sum().sum(),
#        dfs[ 2 ].isnull().sum().sum(),
#        dfs[ 3 ].isnull().sum().sum(),
#        dfs[ 4 ].isnull().sum().sum(), sep = "\n" )

192
200
24
24
24


In [36]:
for df in dfs:
    total_nulls = df.isnull().sum().sum()
    print( total_nulls )

0
0
0
0
0
0
0
0
0
0
0
0
0
0


Se eliminan las filas con valores perdidos

In [40]:
# for i, df in enumerate( dfs ):
#     dfs[ i ] = fun.drop_missing_rows( dfs[ i ], missing_vars_1 )

Se verifica la dimensionalidad de las bases de datos

In [41]:
for i in range( 14 ):
    
    if i <= 2:
        dfs[ i ].name = f'base0_200{ 7 + i }'   
    else: 
        dfs[ i ].name = f'base0_20{ 7 + i }'

fun.determinar_dimensiones( dfs )

base0_2007 (1830, 14734)
base0_2008 (1830, 14734)
base0_2009 (1834, 14734)
base0_2010 (1834, 14734)
base0_2011 (1837, 14734)
base0_2012 (1838, 14734)
base0_2013 (1838, 14734)
base0_2014 (1847, 14734)
base0_2015 (1855, 14734)
base0_2016 (1874, 14734)
base0_2017 (1876, 14734)
base0_2018 (1874, 14734)
base0_2019 (1874, 14734)
base0_2020 (1874, 14734)


In [None]:
# print( dfs[ 0 ].isnull().sum().sum(),
#        dfs[ 1 ].isnull().sum().sum(),
#        dfs[ 2 ].isnull().sum().sum(),
#        dfs[ 3 ].isnull().sum().sum(),
#        dfs[ 3 ].isnull().sum().sum(), sep = "\n" )

In [42]:
for df in dfs:
    total_nulls = df.isnull().sum().sum()
    print( total_nulls )

0
0
0
0
0
0
0
0
0
0
0
0
0
0


### 2.6. Imputar outliers

Se imputa los valores del percentil 1% superior con los valores del percentil 99% para cada una de las variables de SIAF

In [43]:
for i, df in enumerate( dfs ):
    dfs[ i ] = fun.imputar_outliers( dfs[ i ], vn.siaf_variables, 0.01 )

### 2.7. Transformaciones logarítmicas

Se identifica las variables negativas de SIAF y se les divide entre un millón. 

In [44]:
vars_no_mod      = [ 'ubigeo', 'year' ]
vars_no_mod_full = vn.dependientes_variables + vars_no_mod

In [45]:
for i, df in enumerate( dfs ):
    dfs[ i ] = fun.dividir_variables_negativas( dfs[ i ], 1_000_000, vars_no_mod_full )

Se crea una nueva lista de variables que no serán modificadas, que incluye a "year", "ubigeo" y las variables dependientes categóricas

In [46]:
num_predictores = vn.siaf_variables + vn.dependientes_numericas
vars_no_mod_2   = vars_no_mod + vn.dependientes_categoricas

Se realiza una transformación logarítmica a todas las variables pertenecientes a SIAF que no son negativas.

In [47]:
for i, df in enumerate( dfs ):
    dfs[ i ] = fun.transformacion_log( dfs[ i ], num_predictores, vars_no_mod_2 )

Se verifica el numero de variables por fuente de cada base luego del paso 2.7.

In [48]:
for i in range( 14 ):
    
    if i <= 2:
        dfs[ i ].name = f'base0_200{ 7 + i }'   
    else: 
        dfs[ i ].name = f'base0_20{ 7 + i }'

fun.determinar_dimensiones( dfs )

base0_2007 (1830, 14734)
base0_2008 (1830, 14734)
base0_2009 (1834, 14734)
base0_2010 (1834, 14734)
base0_2011 (1837, 14734)
base0_2012 (1838, 14734)
base0_2013 (1838, 14734)
base0_2014 (1847, 14734)
base0_2015 (1855, 14734)
base0_2016 (1874, 14734)
base0_2017 (1876, 14734)
base0_2018 (1874, 14734)
base0_2019 (1874, 14734)
base0_2020 (1874, 14734)


In [50]:
# fun.contar_variables( dfs )

In [51]:
dfs[ 0 ][ 'year' ].dtype

dtype('O')

### 2.7. Exportar las bases de datos

In [34]:
dfs[ 0 ].to_csv( r'..\..\input\prediction_data\base0_ci\preprocessed_data\base0_2016.csv', index = False )
dfs[ 1 ].to_csv( r'..\..\input\prediction_data\base0_ci\preprocessed_data\base0_2017.csv', index = False )
dfs[ 2 ].to_csv( r'..\..\input\prediction_data\base0_ci\preprocessed_data\base0_2018.csv', index = False )
dfs[ 3 ].to_csv( r'..\..\input\prediction_data\base0_ci\preprocessed_data\base0_2019.csv', index = False )
dfs[ 4 ].to_csv( r'..\..\input\prediction_data\base0_ci\preprocessed_data\base0_2020.csv', index = False )

In [55]:
for i, year in enumerate( range( 2007, 2021 ) ):
    
    file_name = rf'..\..\input\prediction_data\ejecucion_6\b0_ci_siaf\preprocessed_data\base0_{ year }.csv'
    dfs[ i ].to_csv( file_name, index = False )

In [None]:
# for i, year in enumerate(range(2016, 2021)):
#     # Construir el nombre del archivo con el año correspondiente
#     file_name = rf'..\..\input\prediction_data\base0_ci\preprocessed_data\base0_{year}.csv'
#     # Guardar el dataframe en un archivo CSV
#     dfs[i].to_csv(file_name, index=False)