# Limpieza Datos de Transparencia

\[CONTEXT\] La información a disposición en el portal de transparencia (https://www.portaltransparencia.cl/PortalPdT/web/guest/home) está en un formato dot csv. Los archivos son de tamaño 1GB a 4GB, ya que trae la data histórica desde los años 2016-2017. Los datos son sobre la composición de trabajadores en los distintos tipos de contrato. 

\[PROBLEM\] El tamaño de estos archivos (6-12 millones de filas, i.e, 1-4GB) son muy pesados como para ser tratados como frames. Por ende, se deben filtrar para tomar la data de interés (un punto determinado del tiempo, i.e, un mes y un año en particular).

\[SOLUTION\] Usaremos la librería "dask", que usa multiprocesamiento en paralelo y que nos ayudará a filtrar esta data. El resultado serán archivos de 4KB (10^6 más pequeños que los archivos originales).


In [2]:
#Import dask
import dask.dataframe as dd

In [1]:
#Specify year and month
year = 2020
month = 'Abril'

### \[READ\] Personal Código del Trabajo

In [4]:
#Path to file
PATH = '../0.data/TA_PersonalCodigotrabajo.csv'

#Specify metatype to faster analysis
types = {'camino': str, 'organismo_nombre': str, 'organismo_codigo': str, 'fecha_publicacion': str,
       'anyo': str, 'Mes': str, 'nombre': str, 'Tipo cargo': str, 'grado_eus': str,
       'tipo_calificacionp': str, 'region': str, 'asignaciones': str, 'Tipo Unidad monetaria': str,
       'remuneracionbruta_mensual': float, 'remuliquida_mensual': float, 'diurnas': str,
       'nocturnas': str, 'fecha_ingreso': str, 'fecha_termino': str, 'observaciones': str,
       'viaticos': str, 'enlace': str}

#Read
df = dd.read_csv(PATH, encoding='ISO-8859-1', delimiter=';', dtype = types)

#Display first rows
df.head()

Unnamed: 0,camino,organismo_nombre,organismo_codigo,fecha_publicacion,anyo,Mes,Nombres,Paterno,Materno,Tipo cargo,...,Horas extra diurnas,Pago extra nocturnas,Horas extra nocturnas,Pago extra festivas,Horas extra festivas,fecha_ingreso,fecha_termino,observaciones,viaticos,enlace
0,/Año 2017/Enero,Municipalidad de Vicuña,MU335,2017/03/09,2017,Enero,Nicolás,Puebla,Gallardo,RELATOR,...,,,,,,01/01/2017,01/12/2017,Sin observaciones,,a href=http:www.google.com target=_blankwww.go...
1,/Año 2017/Enero,Municipalidad de Vicuña,MU335,2017/03/09,2017,Enero,César,Puebla,Ruíz,Analista,...,,,,,,01/01/2017,31/12/2017,Sin observaciones,,No
2,/Año 2018/Abril,Asociación de Municipalidades Territorio de Ri...,MA011,2021/01/13,2018,Abril,Gina Maria,Hidalgo,Cancino,Secretaria Ejecutiva,...,,,,,,16/04/2018,Indefinido,Sin observaciones,,No
3,/2018/Febrero,Ex Consejo Nacional de la Cultura y las Artes ...,AV001,2018/05/15,2018,Febrero,KARLA,GAETE,SILVA,PRIMERA BAILARINA,...,,,,,,01/01/2006,Indefinido,Sin observaciones,,No
4,/2018/Febrero,Ex Consejo Nacional de la Cultura y las Artes ...,AV001,2018/05/15,2018,Febrero,JORGE,GAJARDO,BEROIZA,PRIMER MUSICO,...,,,,,,01/01/2007,Indefinido,Sin observaciones,,No


### \[FILTERING\] Personal Código del Trabajo

In [5]:
#Filtering original frame
new_df = df[df.anyo == str(year)]
new_df = new_df[new_df.Mes == month]

#Save new frame
new_df.to_csv('../2.filtered-data/' + month + str(year) + 'PersonalCodigotrabajo.csv', single_file = True)

#Display head
new_df.head()


Unnamed: 0,camino,organismo_nombre,organismo_codigo,fecha_publicacion,anyo,Mes,Nombres,Paterno,Materno,Tipo cargo,...,Horas extra diurnas,Pago extra nocturnas,Horas extra nocturnas,Pago extra festivas,Horas extra festivas,fecha_ingreso,fecha_termino,observaciones,viaticos,enlace
33851,/Año 2020/Abril,Asociación de Municipios Ciudad Sur,MA031,2020/12/03,2020,Abril,Ana,Montrosis,Guaje,ADMINISTRATIVA,...,,,,,,01/12/2018,31/12/2020,Sin observaciones,,No
33852,/Año 2020/Abril,Asociación de Municipios Ciudad Sur,MA031,2020/12/03,2020,Abril,José,Soto,Sandoval,SECRETARIO EJECUTIVO CIUDAD SUR ENCARGADO REL...,...,,,,,,01/08/2018,31/12/2020,Sin observaciones,,No
33974,/2020/Abril,Asociación Chilena de Municipalidades con Farm...,MA053,2020/08/11,2020,Abril,Pablo Salvador,Zúñiga,Jorquera,PROYECTOS Y COMUNICACIÓN,...,,,,,,01/04/2018,Indefinido,Sin observaciones,,No
33975,/2020/Abril,Asociación Chilena de Municipalidades con Farm...,MA053,2020/08/11,2020,Abril,Ricardo Mauricio,Santis,Zuñiga,LABORATORIO AUDITIVO,...,,,,,,01/08/2019,Indefinido,Sin observaciones,,No
33976,/2020/Abril,Asociación Chilena de Municipalidades con Farm...,MA053,2020/08/11,2020,Abril,Ana María,Pineida,Olivares,ASISTENTE ADMINISTRATIVA,...,,,,,,01/01/2018,Indefinido,Sin observaciones,,No


### \[READ\] Personal Contrata

In [6]:
#Path to file
PATH = '../0.data/TA_PersonalContrata.csv'

#Specify metadata for faster reading
types = {'camino': str, 'organismo_nombre': str, 'organismo_codigo': str, 'fecha_publicacion': str,
       'anyo': str, 'Mes': str, 'Tipo Estamento': str, 'nombre': str, 'Tipo cargo': str, 'grado_eus': str,
       'tipo_calificacionp': str, 'region': str, 'asignaciones': str, 'Tipo Unidad monetaria': str,
       'remuneracionbruta_mensual': float, 'remuliquida_mensual': float, 'diurnas': str, 'festivas':str,
       'nocturnas': str, 'fecha_ingreso': str, 'fecha_termino': str, 'observaciones': str,
       'viaticos': str, 'enlace': str, 'Pago extra diurnas': 'float64'}

#Read
df2 = dd.read_csv(PATH, encoding='ISO-8859-1', delimiter=';', dtype=types)

#Display first rows
df2.head()

Unnamed: 0,camino,organismo_nombre,organismo_codigo,fecha_publicacion,anyo,Mes,Tipo Estamento,Nombres,Paterno,Materno,...,Horas extra diurnas,Pago extra nocturnas,Horas extra nocturnas,Pago extra festivas,Horas extra festivas,fecha_ingreso,fecha_termino,observaciones,enlace,viaticos
0,/Pagina 3,Partido Ciudadanos,PP030,2016/06/29,2016,Abril,Profesional,JORGE ANTONIO,CARRIZO,CARRASCO,...,8.0,,,,,15/06/2011,16/04/2015,Esto es un funcionario de prueba,No,
1,/Pagina 3,Partido Ciudadanos,PP030,2016/06/29,2016,Abril,Profesional,HOMERO ANDRES,CASANGA,CORTES,...,8.0,,,,,16/06/2011,17/04/2015,Esto es un funcionario de prueba,No,
2,/Pagina 3,Partido Ciudadanos,PP030,2016/06/29,2016,Abril,Profesional,TOMAS RODRIGO,CASAREGGIO,SEPULVEDA,...,8.0,,,,,17/06/2011,18/04/2015,Esto es un funcionario de prueba,No,
3,/Pagina 3,Partido Ciudadanos,PP030,2016/06/29,2016,Abril,Administrativo,SEBASTIAN ABELARDO,CASTILLO,SEPULVEDA,...,8.0,,,,,18/06/2011,19/04/2015,Esto es un funcionario de prueba,No,
4,/Pagina 3,Partido Ciudadanos,PP030,2016/06/29,2016,Abril,Profesional,AIDA MORELIA,CASTRO,CASTRO,...,8.0,,,,,19/06/2011,20/04/2015,Esto es un funcionario de prueba,No,


### \[FILTERING\] Personal Contrata

In [7]:
#Filter original frame 
new_df2 = df2[df2.anyo == str(year)]
new_df2 = new_df2[new_df2.Mes == month]

#Save new frame
new_df2.to_csv('../2.filtered-data/' + month + str(year) + 'PersonalContrata.csv', single_file = True)

#Display first rows
new_df2.head()

Unnamed: 0,camino,organismo_nombre,organismo_codigo,fecha_publicacion,anyo,Mes,Tipo Estamento,Nombres,Paterno,Materno,...,Horas extra diurnas,Pago extra nocturnas,Horas extra nocturnas,Pago extra festivas,Horas extra festivas,fecha_ingreso,fecha_termino,observaciones,enlace,viaticos
23022,/Municipalidad/2020/Mes de Abril,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Abril,Técnico,RODRIGO ANDRES,BAHAMONDE,TENORIO,...,40.0,229676.0,40.0,0.0,0.0,01/02/2017,31/12/2020,Sin observaciones,No,
23023,/Municipalidad/2020/Mes de Abril,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Abril,Auxiliar,MAURICIO ROLANDO,ALVARADO,GONZALEZ,...,1.0,0.0,0.0,0.0,0.0,01/05/2017,31/12/2020,Sin observaciones,No,
23024,/Municipalidad/2020/Mes de Abril,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Abril,Administrativo,RAÚL ALEJANDRO,BAHAMONDE,TENORIO,...,3.0,0.0,0.0,0.0,0.0,13/10/2015,31/12/2020,Sin observaciones,No,
23025,/Municipalidad/2020/Mes de Abril,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Abril,Auxiliar,HERIBERTO SEGUNDO,AGUERO,VARGAS,...,32.0,211316.0,72.0,0.0,0.0,01/01/2015,31/12/2020,Sin observaciones,No,
23026,/Municipalidad/2020/Mes de Abril,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Abril,Administrativo,MARCIA ALEJANDRA,ANDRADE,PINOL,...,1.0,0.0,0.0,0.0,0.0,01/03/2016,31/12/2020,Sin observaciones,No,


### ### \[READ\] Personal de Planta

In [3]:
#Path to file
PATH = '../0.data/TA_PersonalPlanta.csv'

#Specify metadata for faster reading
types = {'camino': str, 'organismo_nombre': str, 'organismo_codigo': str, 'fecha_publicacion': str,
       'anyo': str, 'Mes': str, 'Tipo Estamento': str, 'nombre': str, 'Tipo cargo': str, 'grado_eus': str,
       'tipo_calificacionp': str, 'region': str, 'asignaciones': str, 'Tipo Unidad monetaria': str,
       'remuneracionbruta_mensual': float, 'remuliquida_mensual': float, 'diurnas': str, 'festivas':str,
       'nocturnas': str, 'fecha_ingreso': str, 'fecha_termino': str, 'observaciones': str,
       'viaticos': str, 'enlace': str}

#Read
df3 = dd.read_csv(PATH, encoding='ISO-8859-1', delimiter=';', dtype = types)

#Display first rows
df3.head()

Unnamed: 0,camino,organismo_nombre,organismo_codigo,fecha_publicacion,anyo,Mes,Tipo Estamento,Nombres,Paterno,Materno,...,Horas extra diurnas,Pago extra nocturnas,Horas extra nocturnas,Pago extra festivas,Horas extra festivas,fecha_ingreso,fecha_termino,observaciones,enlace,viaticos
0,/Municipal/Municipal Año 2014/Septiembre,Municipalidad de Puchuncaví,MU229,2015/02/27,2014,Julio,Administrativo,ANDREA DEL ROSARIO,ARAVENA,MUÑOZ,...,,,,,,10/06/1996,Indefinido,SIN OBSERVACIONES,No,0.0
1,/Municipal/Municipal Año 2014/Septiembre,Municipalidad de Puchuncaví,MU229,2015/02/27,2014,Julio,Administrativo,JOSE ANTONIO,ARAYA,ROJAS,...,,,,,,01/09/1986,Indefinido,SIN OBSERVACIONES,No,0.0
2,/Municipal/Municipal Año 2014/Septiembre,Municipalidad de Puchuncaví,MU229,2015/02/27,2014,Julio,Auxiliar,MANUEL,ARAYA,ROJAS,...,,,,,,01/11/1987,Indefinido,SIN OBSERVACIONES,No,0.0
3,/Municipal/Municipal Año 2014/Septiembre,Municipalidad de Puchuncaví,MU229,2015/02/27,2014,Julio,Jefatura,MIRIAM DEL CARMEN,ARCE,MORENO,...,,,,,,16/12/1991,Indefinido,SIN OBSERVACIONES,No,0.0
4,/Municipal/Municipal Año 2014/Septiembre,Municipalidad de Puchuncaví,MU229,2015/02/27,2014,Julio,Técnico,LUIS ANTONIO,ARELLANO,SOZA,...,,,,,,01/11/1967,Indefinido,SIN OBSERVACIONES,No,0.0


### \[FILTERING\] Personal de Planta

In [4]:
#Filter original frame
new_df3 = df3[df3.anyo == str(year)]
new_df3 = new_df3[new_df3.Mes == month]

#Save new frame
new_df3.to_csv('../2.filtered-data/' + month + str(year) + 'PersonalPlanta.csv', single_file = True)

#Display first rows
new_df3.head()

Unnamed: 0,camino,organismo_nombre,organismo_codigo,fecha_publicacion,anyo,Mes,Tipo Estamento,Nombres,Paterno,Materno,...,Horas extra diurnas,Pago extra nocturnas,Horas extra nocturnas,Pago extra festivas,Horas extra festivas,fecha_ingreso,fecha_termino,observaciones,enlace,viaticos
13716,/Municipalidad de Llanquihue/2020/Mes de Abril,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Abril,Administrativo,MARIA ANGELICA,REYES,LEIVA,...,11.0,0.0,0.0,0.0,0.0,01/01/2015,Indefinido,Sin observaciones,No,0.0
13717,/Municipalidad de Llanquihue/2020/Mes de Abril,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Abril,Administrativo,VICTOR EUGENIO,REYES,ROMERO,...,0.0,21089.0,6.0,0.0,0.0,01/04/2000,Indefinido,Sin observaciones,No,0.0
13718,/Municipalidad de Llanquihue/2020/Mes de Abril,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Abril,Auxiliar,YOCELYN VIVIANA,ROGEL,LEVICAN,...,0.0,0.0,0.0,0.0,0.0,01/06/2016,Indefinido,Sin observaciones,No,0.0
13719,/Municipalidad de Llanquihue/2020/Mes de Abril,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Abril,Administrativo,NATALIA ANDREA,SAEZ,CARRILLO,...,7.0,0.0,0.0,0.0,0.0,03/06/2019,Indefinido,Sin observaciones,No,0.0
13720,/Municipalidad de Llanquihue/2020/Mes de Abril,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Abril,Auxiliar,FRANCISCO ROLANDO,SANCHEZ,GONZALEZ,...,6.0,0.0,0.0,0.0,0.0,01/01/2015,Indefinido,Sin observaciones,No,0.0


### \[READ\] Personal Contratada a Honorario

In [10]:
#Path to file
PATH = '../0.data/TA_PersonalContratohonorarios.csv'

#Specify metadata to faster reading
types = {'camino': str, 'organismo_nombre': str, 'organismo_codigo': str, 'fecha_publicacion': str,
       'anyo': str, 'Mes': str, 'nombre': str, 'grado_eus': str, 'descripcion_funcion': str,
       'tipo_calificacionp': str, 'region': str, 'Tipo Unidad monetaria': str,
       'remuneracionbruta': float, 'remuliquida_mensual': float, 'pago_mensuales': str, 
       'fecha_ingreso': str, 'fecha_termino': str, 'observaciones': str,
       'viaticos': str, 'enlace': str}

#Read
df4 = dd.read_csv(PATH, encoding='ISO-8859-1', delimiter=';')

#Display first rows
df4.head()


Unnamed: 0,camino,organismo_nombre,organismo_codigo,fecha_publicacion,anyo,Mes,Nombres,Paterno,Materno,grado_eus,...,region,Tipo Unidad monetaria,remuneracionbruta,remuliquida_mensual,pago_mensuales,fecha_ingreso,fecha_termino,observaciones,enlace,viaticos
0,/Año 2017/Mayo,Asociación de Municipalidades del Valle del Maipo,MA049,2020/12/01,2017,Junio,Luis,Céspedes,Inostroza,No asimilado a Grado,...,Región Metropolitana de Santiago,Pesos,888889,800000.0,Sí,2016/06/01 00:00:00.000,31/12/2017,Sin observaciones,No,
1,/Año 2017/Junio,Asociación de Municipalidades del Valle del Maipo,MA049,2020/12/01,2017,Junio,Luis,Céspedes,Inostroza,No asimilado a Grado,...,Región Metropolitana de Santiago,Pesos,888889,800000.0,Sí,2016/06/01 00:00:00.000,31/12/2017,Sin observaciones,No,
2,/Año 2017/Julio,Asociación de Municipalidades del Valle del Maipo,MA049,2020/12/01,2017,Junio,Luis,Céspedes,Inostroza,No asimilado a Grado,...,Región Metropolitana de Santiago,Pesos,888889,800000.0,Sí,2016/06/01 00:00:00.000,31/12/2017,Sin observaciones,No,
3,/Año 2017/Agosto,Asociación de Municipalidades del Valle del Maipo,MA049,2020/12/01,2017,Junio,Luis,Céspedes,Inostroza,No asimilado a Grado,...,Región Metropolitana de Santiago,Pesos,888889,800000.0,Sí,2016/06/01 00:00:00.000,31/12/2017,Sin observaciones,No,
4,/2017/Noviembre,Asociación Municipalidades Provincia de Llanqu...,MA025,2017/12/21,2017,Noviembre,Alejandro Javier,Bórquez,Felmer,No asimilado a grado,...,Región de Los Lagos,Pesos,1700000,1530000.0,Sí,2016/12/01 00:00:00.000,31/12/2017,Sin observaciones,No,


### \[FILTERING\] Personal Contratada a Honorario

In [11]:
#Filter original frame
new_df4 = df4[df4.anyo == year]
new_df4 = new_df4[new_df4.Mes == month]

#Save new frame
new_df4.to_csv('../2.filtered-data/' + month + str(year) + 'PersonalHonorarios.csv', single_file = True)

#Display first rows
new_df4.head()

Unnamed: 0,camino,organismo_nombre,organismo_codigo,fecha_publicacion,anyo,Mes,Nombres,Paterno,Materno,grado_eus,...,region,Tipo Unidad monetaria,remuneracionbruta,remuliquida_mensual,pago_mensuales,fecha_ingreso,fecha_termino,observaciones,enlace,viaticos
50056,/Contrato a Honorarios Municipalidad 21.04 (su...,Municipalidad de Los Angeles,MU153,2020/03/13,2020,Abril,WILLIAMS YERKO,AGUILERA,CARDENAS,No asimilado a Grado,...,Región del Biobío,Pesos,234000,210600.0,Sí,2016/01/04 00:00:00.000,31/12/2016,SObs.,No,
65149,/Municipal/Municipal 2020/Abril,Municipalidad de Melipilla,MU173,2020/12/15,2020,Abril,GUSTAVO ALEJANDRO,GUZMAN,CANALES,No Asimilado a Grado,...,Región Metropolitana de Santiago,Pesos,799556,,Sí,2020/04/01 00:00:00.000,31/07/2020,Sin Observación,No,
65150,/Municipal/Municipal 2020/Abril,Municipalidad de Melipilla,MU173,2020/12/15,2020,Abril,ROMINA ANDREA,VALDIVIA,MESINA,No Asimilado a Grado,...,Región Metropolitana de Santiago,Pesos,1400000,,Sí,2019/10/01 00:00:00.000,30/04/2020,Sin Observación,No,
65151,/Municipal/Municipal 2020/Abril,Municipalidad de Melipilla,MU173,2020/12/15,2020,Abril,JOSE ANTONIO,VALDIVIA,VERA,No Asimilado a Grado,...,Región Metropolitana de Santiago,Pesos,913778,,Sí,2020/04/01 00:00:00.000,31/12/2020,Sin Observación,No,
65152,/Municipal/Municipal 2020/Abril,Municipalidad de Melipilla,MU173,2020/12/15,2020,Abril,FLORENCIO JOSE,VALDOVINOS,REYES,No Asimilado a Grado,...,Región Metropolitana de Santiago,Pesos,1399222,,Sí,2020/04/01 00:00:00.000,31/12/2020,Sin Observación,No,


In [5]:
breakpoint()
