# Limpieza Datos de Transparencia

\[CONTEXT\] La información a disposición en el portal de transparencia (https://www.portaltransparencia.cl/PortalPdT/web/guest/home) está en un formato dot csv. Los archivos son de tamaño 1GB a 4GB, ya que trae la data histórica desde los años 2016-2017. Los datos son sobre la composición de trabajadores en los distintos tipos de contrato. 

\[PROBLEM\] El tamaño de estos archivos (6-12 millones de filas, i.e, 1-4GB) son muy pesados como para ser tratados como frames. Por ende, se deben filtrar para tomar la data de interés (un punto determinado del tiempo, i.e, un mes y un año en particular).

\[SOLUTION\] Usaremos la librería "dask", que usa multiprocesamiento en paralelo y que nos ayudará a filtrar esta data. El resultado serán archivos de 4KB (10^6 más pequeños que los archivos originales).


In [1]:
#Import dask
import dask.dataframe as dd

In [2]:
#Specify year and month
year = 2020
month = 'Abril'

### \[READ\] 

In [4]:
#Path to file
PATH = '../0.data/TA_PersonalCodigotrabajo.csv'

#Specify metatype to faster analysis
types = {'camino': str, 'organismo_nombre': str, 'organismo_codigo': str, 'fecha_publicacion': str,
       'anyo': str, 'Mes': str, 'nombre': str, 'Tipo cargo': str, 'grado_eus': str,
       'tipo_calificacionp': str, 'region': str, 'asignaciones': str, 'Tipo Unidad monetaria': str,
       'remuneracionbruta_mensual': float, 'remuliquida_mensual': float, 'diurnas': str,
       'nocturnas': str, 'fecha_ingreso': str, 'fecha_termino': str, 'observaciones': str,
       'viaticos': str, 'enlace': str}


types2 = {'camino' : str,
'organismo_nombre' : str,
'organismo_codigo' : str,
'fecha_publicacion' : str,
'anyo' : str,
'Mes' : str,
'Tipo' : str,
'Estamento' : str,
'Nombres' : str,
'Paterno' : str,
'Materno' : str,
'grado_eus' : str,
'tipo_calificacionp' : str,
'Tipo cargo' : str,
'region' : str,
'asignaciones' : str,
'Tipo Unidad monetaria' : str,
'remuneracionbruta_mensual' : float,
'remuliquida_mensual' : float,
'Pago extra diurnas' : str,
'Horas extra diurnas' : str,
'Pago extra nocturnas' : str,
'Horas extra nocturnas' : str,
'Pago extra festivas' : str,
'Horas extra festivas' : str,
'fecha_ingreso' : str,
'fecha_termino' : str,
'observaciones' : str,
'enlace' : str,
'viaticos' : str}


#Read
df = dd.read_csv(PATH, encoding='ISO-8859-1', delimiter=';', dtype = types)

#Display first rows
df.head()

Unnamed: 0,camino,organismo_nombre,organismo_codigo,fecha_publicacion,anyo,Mes,Nombres,Paterno,Materno,Tipo cargo,...,Horas extra diurnas,Pago extra nocturnas,Horas extra nocturnas,Pago extra festivas,Horas extra festivas,fecha_ingreso,fecha_termino,observaciones,viaticos,enlace
0,/Año 2017/Enero,Municipalidad de Vicuña,MU335,2017/03/09,2017,Enero,Nicolás,Puebla,Gallardo,RELATOR,...,,,,,,01/01/2017,01/12/2017,Sin observaciones,,a href=http:www.google.com target=_blankwww.go...
1,/Año 2017/Enero,Municipalidad de Vicuña,MU335,2017/03/09,2017,Enero,César,Puebla,Ruíz,Analista,...,,,,,,01/01/2017,31/12/2017,Sin observaciones,,No
2,/Año 2018/Abril,Asociación de Municipalidades Territorio de Ri...,MA011,2021/01/13,2018,Abril,Gina Maria,Hidalgo,Cancino,Secretaria Ejecutiva,...,,,,,,16/04/2018,Indefinido,Sin observaciones,,No
3,/2018/Febrero,Ex Consejo Nacional de la Cultura y las Artes ...,AV001,2018/05/15,2018,Febrero,KARLA,GAETE,SILVA,PRIMERA BAILARINA,...,,,,,,01/01/2006,Indefinido,Sin observaciones,,No
4,/2018/Febrero,Ex Consejo Nacional de la Cultura y las Artes ...,AV001,2018/05/15,2018,Febrero,JORGE,GAJARDO,BEROIZA,PRIMER MUSICO,...,,,,,,01/01/2007,Indefinido,Sin observaciones,,No


### \[READ\] Personal de Planta

In [5]:
#Path to file
PATH = '../0.data/TA_PersonalPlanta.csv'

#Specify metadata for faster reading
types = {'camino': str, 'organismo_nombre': str, 'organismo_codigo': str, 'fecha_publicacion': str,
       'anyo': str, 'Mes': str, 'Tipo Estamento': str, 'nombre': str, 'Tipo cargo': str, 'grado_eus': str,
       'tipo_calificacionp': str, 'region': str, 'asignaciones': str, 'Tipo Unidad monetaria': str,
       'remuneracionbruta_mensual': float, 'remuliquida_mensual': float, 'diurnas': str, 'festivas':str,
       'nocturnas': str, 'fecha_ingreso': str, 'fecha_termino': str, 'observaciones': str,
       'viaticos': str, 'enlace': str}

#Read
df3 = dd.read_csv(PATH, encoding='ISO-8859-1', delimiter=';', dtype = types2)

#Display first rows
df3.head()

Unnamed: 0,camino,organismo_nombre,organismo_codigo,fecha_publicacion,anyo,Mes,Tipo Estamento,Nombres,Paterno,Materno,...,Horas extra diurnas,Pago extra nocturnas,Horas extra nocturnas,Pago extra festivas,Horas extra festivas,fecha_ingreso,fecha_termino,observaciones,enlace,viaticos
0,/Municipal/Municipal Año 2014/Septiembre,Municipalidad de Puchuncaví,MU229,2015/02/27,2014,Julio,Administrativo,ANDREA DEL ROSARIO,ARAVENA,MUÑOZ,...,,,,,,10/06/1996,Indefinido,SIN OBSERVACIONES,No,0.0
1,/Municipal/Municipal Año 2014/Septiembre,Municipalidad de Puchuncaví,MU229,2015/02/27,2014,Julio,Administrativo,JOSE ANTONIO,ARAYA,ROJAS,...,,,,,,01/09/1986,Indefinido,SIN OBSERVACIONES,No,0.0
2,/Municipal/Municipal Año 2014/Septiembre,Municipalidad de Puchuncaví,MU229,2015/02/27,2014,Julio,Auxiliar,MANUEL,ARAYA,ROJAS,...,,,,,,01/11/1987,Indefinido,SIN OBSERVACIONES,No,0.0
3,/Municipal/Municipal Año 2014/Septiembre,Municipalidad de Puchuncaví,MU229,2015/02/27,2014,Julio,Jefatura,MIRIAM DEL CARMEN,ARCE,MORENO,...,,,,,,16/12/1991,Indefinido,SIN OBSERVACIONES,No,0.0
4,/Municipal/Municipal Año 2014/Septiembre,Municipalidad de Puchuncaví,MU229,2015/02/27,2014,Julio,Técnico,LUIS ANTONIO,ARELLANO,SOZA,...,,,,,,01/11/1967,Indefinido,SIN OBSERVACIONES,No,0.0


In [26]:
# Año 2020
currentYear = df3[df3.anyo == str(2020)]

# Meses
Enero = currentYear[currentYear.Mes == "Enero"]
Febrero = currentYear[currentYear.Mes == "Febrero"]
Marzo = currentYear[currentYear.Mes == "Marzo"]
Abril = currentYear[currentYear.Mes == "Abril"]
Mayo = currentYear[currentYear.Mes == "Mayo"]

In [25]:
Enero.to_csv('../2.filtered-data/' + 'Enero' + str(2020) + 'PersonalPlanta.csv', single_file = True)
Febrero.to_csv('../2.filtered-data/' + 'Febrero' + str(2020) + 'PersonalPlanta.csv', single_file = True)
Marzo.to_csv('../2.filtered-data/' + 'Marzo' + str(2020) + 'PersonalPlanta.csv', single_file = True)
Abril.to_csv('../2.filtered-data/' + 'Abril' + str(2020) + 'PersonalPlanta.csv', single_file = True)
Mayo.to_csv('../2.filtered-data/' + 'Mayo' + str(2020) + 'PersonalPlanta.csv', single_file = True)



['/Users/nicolasvega/Desktop/Personal/transparency-project/2.filtered-data/Mayo2020PersonalPlanta.csv']