# Simulación Monte Carlo

#### Objetivos

* Análisis global de los apellidos del registro civil
* Crear los clusters de origen étnico en base a los datos encontrados en la web
* Identificar las brechas en la composición del ADP

## [LIB] Import

In [41]:
# Librerias

import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt 
plt.rcParams['figure.dpi']= 100
import time 
import csv 
import warnings
warnings.filterwarnings('ignore')

## [READ] Datasets

Estos son los grandes datasets de la investigación. Están separados por que el tamaño de la operación sería muy grande.

In [42]:
df_paternos = pd.read_excel('../0.apellidos/apellidos_paternos.xlsx', index_col=0, usecols = 'A:D',engine="openpyxl")

In [43]:
df_maternos = pd.read_excel('../0.apellidos/apellidos_maternos.xlsx', index_col=0, usecols = 'A:D',engine="openpyxl")

In [45]:
df_instituciones = pd.read_csv('../0.data/Acronimos Organismos.csv', index_col=0, encoding="ISO-8859-1", delimiter =';')

In [48]:
df_planta = pd.read_csv('../2.filtered-data/Febrero2020PersonalPlanta.csv', index_col=0)

## [CLEAN] Remover tildes

In [49]:
#Remove tildes
cols = df_paternos.select_dtypes(include=[np.object]).columns
df_paternos[cols] =df_paternos[cols].apply(lambda x: x.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'))

In [50]:
cols = df_planta.select_dtypes(include=[np.object]).columns
df_planta[cols] =df_planta[cols].apply(lambda x: x.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'))

## [DIVIDE] Apellidos Paternos x Region

In [51]:
pd.options.display.float_format = '{:,.2f}'.format 
df_paternos['AP PATERNO'] = df_paternos['AP PATERNO'].str.upper()
df_paternos_region = df_paternos[df_paternos['AP PATERNO'].notna()]
df_paternos_region = df_paternos_region.groupby(['REG','AP PATERNO']).agg({'CANTIDAD': "sum"}).sort_values(by=['CANTIDAD'], ascending=False)
df_paternos_region = df_paternos_region[df_paternos_region['CANTIDAD'] > 1]
df_paternos_region['CANTIDAD'] = df_paternos_region['CANTIDAD'].astype(int)
df_paternos_region = df_paternos_region.reset_index(level=['REG'])
df_paternos_region

Unnamed: 0_level_0,REG,CANTIDAD
AP PATERNO,Unnamed: 1_level_1,Unnamed: 2_level_1
GONZALEZ,13.00,172857
MUNOZ,13.00,119926
DIAZ,13.00,90809
ROJAS,13.00,86148
PEREZ,13.00,71250
...,...,...
BURATOVIC,5.00,2
FELLAY,10.00,2
POMEROY,13.00,2
ENDRUSSAT,10.00,2


## [DIVIDE] Apellidos Paternos Total

In [54]:
pd.options.display.float_format = '{:,.2f}'.format 
df_paternos_total = df_paternos_region.groupby(['AP PATERNO']).agg({'CANTIDAD': "sum"}).sort_values(by=['CANTIDAD'], ascending=False)
df_paternos_total['PORCENTAJE'] = (df_paternos_total['CANTIDAD']/df_paternos_total['CANTIDAD'].sum())
df_paternos_total['CANTIDAD'] = df_paternos_total['CANTIDAD'].astype(int)
df_paternos_total = df_paternos_total.dropna()
df_paternos_total = df_paternos_total[df_paternos_total['CANTIDAD'] > 1]
df_paternos_total

Unnamed: 0_level_0,CANTIDAD,PORCENTAJE
AP PATERNO,Unnamed: 1_level_1,Unnamed: 2_level_1
GONZALEZ,444542,0.02
MUNOZ,349675,0.02
ROJAS,249660,0.01
DIAZ,246901,0.01
PEREZ,196733,0.01
...,...,...
CANOBA,2,0.00
CANNY,2,0.00
CANNIZZO,2,0.00
GARIZADO,2,0.00


## [REGION] Código de las Regiones

In [55]:
region_codes = {'Region Metropolitana de Santiago':13,
                'Region de Antofagasta':2,
                'Region de Arica y Parinacota':15,
                'Region de Atacama':3,
                'Region de Aysen':11,
                'Region de Coquimbo':4,
                'Region de La Araucania':9,
                'Region de Los Lagos':10,
                'Region de Los Rios':14,
                'Region de Magallanes':12,
                'Region de Nuble':16,
                'Region de OHiggins':6,
                'Region de Tarapaca':1,
                'Region de Valparaiso':5,
                'Region del Biobio':8,
                'Region del Maule':7}

## [MODEL] Modelo MonteCarlo - Nivel Nacional

Aquí intentamos simular una MonteCarlo a nivel nacional, es decir, nuestra población seleccionada se rige por la probabilidad de ser elegidos para el servicio público en base a su porcentaje de frecuencia en la población. Vale decir, si un González está presente en la población chilena en un 2%, en una situación de igual condiciones tendría una probabilidad del 0.2 de ser elegido para ese puesto. 

In [56]:
''' Let\'s try  to model a simple montecarlo simulation using the total chilean Population'''

def MonteCarlo(population, sample_number, weights_column, 
                        current_distint_names, iterations):
    
    sum_distint_names = 0 #numero de apellidos distintos
    higher = 0       #veces que el numero de apellidos (simulado) fue mayor al actual
    lower = 0        #veces que el numero de apellidos (simulado) fue menor al actual
    equal = 0        #veces que el numero de apellidos (simulado) fue igual al actual
    
    
    for i in range(0, iterations): #numero de iteraciones
        
        #esto saca un random example de la poblacion (general), le damos un "N" y un peso específico a cada apellido
        random_weighted_sample = population.sample(n = sample_number, replace = True, 
                                                   weights= weights_column, axis = 0)
        
        #sacamos el numero de apellidos distintos simulados
        distint_names = len(set(random_weighted_sample.index)) #Assuming index contains surnames
        
        
        sum_distint_names += distint_names
        
        
        if distint_names > current_distint_names:
            
            higher += 1

        elif distint_names < current_distint_names:
            
            lower += 1
        
        else:
            
            equal += 1
         
    #guardar output
    output = {'Avergare Distint Names': sum_distint_names/iterations, 
              'Current Distint Names': current_distint_names, 
              '# MonteCarlo\'s Distint Names > Current Distint Names': higher, 
              '# MonteCarlo\'s Distint Names < Current Distint Names': lower, 
              '# MonteCarlo\'s Distint Names = Current Distint Names': equal, 
              'P(MonteCarlo\'s Distint Names > Current Distint Names)': higher/iterations, 
              'P(MonteCarlo\'s Distint Names < Current Distint Names)': lower/iterations, 
              'P(MonteCarlo\'s Distint Names = Current Distint Names)': equal/iterations,
              'Iterations': iterations
             }
    
    return output
        

## [MODEL] Modelo MonteCarlo - Nivel Regional

Aquí intentamos simular una MonteCarlo a nivel regional, es decir, nuestra población seleccionada 
se rige por la probabilidad de ser elegidos para el servicio público en base a su porcentaje de frecuencia 
en la población regional. Vale decir, si un González está presente en la región metropolitana en un 2%, 
en una situación de igual condiciones tendría una probabilidad del 0.2 de ser elegido para ese puesto. 

In [57]:
''' Let\'s try  to model a simple montecarlo simulation using the chilean population divided by region'''

def Regional_MonteCarlo(population_by_region, sample_number, current_distint_names, iterations, distribution):
    
    sum_distint_names = 0
    higher = 0
    lower = 0
    equal = 0
    
    for i in range(0, iterations): 
        
        sample_by_region = []
        
        for index, row in distribution.iterrows():
            
            n_by_region = int(sample_number*row['percentage']) #Percentage of personal in each region
            region_code = row['region_codes']                  #Code of the region
            population = population_by_region[population_by_region['REG'] == region_code] #Getting only region's surnames
            weight = population['CANTIDAD']/population['CANTIDAD'].sum() # Proportion of each surname
            
            random_weighted_sample = population.sample(n = n_by_region, 
                                                           replace = True, 
                                                           weights= weight, 
                                                           axis = 0)
            
            sample_by_region.append(random_weighted_sample)            
        
        for j in range(0, len(sample_by_region)):

            if j != 0:
                sample_by_region[0] = sample_by_region[0].append(sample_by_region[j], ignore_index = False)

        distint_names = len(set(sample_by_region[0].index)) #Assuming index contains surnames
       
        sum_distint_names += distint_names

        if distint_names > current_distint_names:    
            higher += 1

        elif distint_names < current_distint_names:
            lower += 1
        
        else:
            equal += 1
         
        
    output = {'Avergare Distint Names': sum_distint_names/iterations,  'Current Distint Names': distint_names, 
              '# MonteCarlo\'s Distint Names > Current Distint Names': higher, 
              '# MonteCarlo\'s Distint Names < Current Distint Names': lower, 
              '# MonteCarlo\'s Distint Names = Current Distint Names': equal, 
              'P(MonteCarlo\'s Distint Names > Current Distint Names)': higher/iterations, 
              'P(MonteCarlo\'s Distint Names < Current Distint Names)': lower/iterations, 
              'P(MonteCarlo\'s Distint Names = Current Distint Names)': equal/iterations,
              'Iterations': iterations
             }
    
    return output

## [ANALYSIS] Personal de Planta

In [71]:
# Personal de Planta
df_planta

Unnamed: 0,camino,organismo_nombre,organismo_codigo,fecha_publicacion,anyo,Mes,Tipo Estamento,Nombres,Paterno,Materno,...,Horas extra diurnas,Pago extra nocturnas,Horas extra nocturnas,Pago extra festivas,Horas extra festivas,fecha_ingreso,fecha_termino,observaciones,enlace,viaticos
10773,/Departamento de Educacion/2020/Mes de Febrero,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Febrero,Docente,CLAUDIA FABIOLA,VARGAS,OYARZO,...,0.00,0.00,0.00,0.00,0.00,09/03/1990,Indefinido,Sin observaciones,No,0.00
10774,/Departamento de Educacion/2020/Mes de Febrero,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Febrero,Docente,SOLEDAD MAGDALENA,VARGAS,VARGAS,...,0.00,0.00,0.00,0.00,0.00,01/03/1999,Indefinido,Sin observaciones,No,0.00
10775,/Departamento de Educacion/2020/Mes de Febrero,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Febrero,Docente,JUAN FERNANDO,VASQUEZ,VASQUEZ,...,0.00,0.00,0.00,0.00,0.00,01/07/2008,Indefinido,Sin observaciones,No,0.00
10776,/Departamento de Educacion/2020/Mes de Febrero,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Febrero,Docente,MARIA ANGELICA,VELOSO,URIBE,...,0.00,0.00,0.00,0.00,0.00,06/04/1995,Indefinido,Sin observaciones,No,0.00
10777,/Departamento de Educacion/2020/Mes de Febrero,Municipalidad de Llanquihue,MU142,2020/10/30,2020,Febrero,Docente,FELIPE ALEJANDRO,VIDAL,PAICIL,...,0.00,0.00,0.00,0.00,0.00,01/03/2012,Indefinido,Sin observaciones,No,0.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
139738,/Salud/2020/Noviembre,Corporacion Municipal de Quellon,CM013,2021/01/14,2020,Febrero,Auxiliar,YOLANDA DEL TRANSITO,BASTIAS,MONTERO,...,,,,,,01/01/2011,Indefinido,Sin observaciones,No,0.00
139739,/Salud/2020/Noviembre,Corporacion Municipal de Quellon,CM013,2021/01/14,2020,Febrero,Tecnicos de nivel superior (Ley 19.378),FABIOLA YANETH,COLIVORO,CARDENAS,...,,,,,,25/09/2015,Indefinido,Sin observaciones,No,0.00
139740,/Salud/2020/Noviembre,Corporacion Municipal de Quellon,CM013,2021/01/14,2020,Febrero,Administrativo,LLOSELINT DEL CARMEN,DELGADO,LOW,...,,,,,,03/01/2008,Indefinido,Sin observaciones,No,0.00
139761,/Salud/2020/Noviembre,Corporacion Municipal de Quellon,CM013,2021/01/14,2020,Febrero,Tecnicos de nivel superior (Ley 19.378),VANESSA JOHANNA,FERNANDEZ,CURALLAN,...,,,,,,21/03/2012,Indefinido,Sin observaciones,No,0.00


## [EXEC] Ejecución - Organismos

In [67]:
#Set de organismos
organismos = set(df_planta['organismo_nombre'].value_counts().index)
# CAMBIAR !
numero_iteraciones = 10

#Dictionario con los resultados
dict_organismos = {}

#Para cada organismo
for organismo in organismos:
    
    print('El organismo a procesar es:  {0}'.format(organismo))
    #planta filtrada por organismo
    df_organismo = df_planta[df_planta['organismo_nombre'] == organismo]

    #numero de apellidos unicos en el organismo
    distint_names_organismo = len(set(df_organismo['Paterno'].value_counts().index))
    print('La cantidad única de apellidos es:  {0}'.format(distint_names_organismo))

    #numero de personas en el organismo
    total = len(df_organismo['Paterno'])
    print('El número de empleados de planta es:  {0}'.format(total))
    
    #región del organismo
    region = df_organismo.head(1)['region'].item()
    
    import unicodedata
    region = unicodedata.normalize("NFKD",region).encode("ascii","ignore").decode("ascii")

    #codigo de la región
    code_region = region_codes[region]  
    
    #saca todos los apellidos de la región
    population = df_paternos_region[df_paternos_region['REG'] == code_region]
    
    #El peso de los apellidos de la región
    population['PORCENTAJE'] = population['CANTIDAD']/population['CANTIDAD'].sum()
    
    #Ejecutar MonteCarlo
    output = MonteCarlo(population, total, 'PORCENTAJE', distint_names_organismo, 10)
    
    #Guardar resultado
    dict_organismos[organismo] = output


El organismo a procesar es:  Municipalidad de Cochrane
La cantidad única de apellidos es:  11
El número de empleados de planta es:  12
El organismo a procesar es:  Servicio de Evaluacion Ambiental (SEA)
La cantidad única de apellidos es:  23
El número de empleados de planta es:  24
El organismo a procesar es:  Hospital Clinico Magallanes Dr Lautaro Navarro Aravia
La cantidad única de apellidos es:  425
El número de empleados de planta es:  1016
El organismo a procesar es:  Direccion de Prevision de Carabineros de Chile (DIPRECA)
La cantidad única de apellidos es:  140
El número de empleados de planta es:  204
El organismo a procesar es:  Hospital Gustavo Fricke
La cantidad única de apellidos es:  397
El número de empleados de planta es:  775
El organismo a procesar es:  Municipalidad de Puerto Varas
La cantidad única de apellidos es:  251
El número de empleados de planta es:  346
El organismo a procesar es:  Municipalidad de Puerto Octay
La cantidad única de apellidos es:  88
El número

El organismo a procesar es:  Municipalidad de Huechuraba
La cantidad única de apellidos es:  385
El número de empleados de planta es:  664
El organismo a procesar es:  Municipalidad de El Tabo
La cantidad única de apellidos es:  133
El número de empleados de planta es:  184
El organismo a procesar es:  AGENCIA CHILENA DE COOPERACION INTERNACIONAL PARA EL DESARROLLO (AGCID)
La cantidad única de apellidos es:  10
El número de empleados de planta es:  10
El organismo a procesar es:  Subsecretaria de Agricultura
La cantidad única de apellidos es:  38
El número de empleados de planta es:  39
El organismo a procesar es:  Subsecretaria de Prevencion del Delito
La cantidad única de apellidos es:  12
El número de empleados de planta es:  12
El organismo a procesar es:  Servicio de Salud Araucania Norte
La cantidad única de apellidos es:  235
El número de empleados de planta es:  363
El organismo a procesar es:  Municipalidad de Mariquina
La cantidad única de apellidos es:  162
El número de empl

La cantidad única de apellidos es:  8
El número de empleados de planta es:  8
El organismo a procesar es:  Municipalidad de Chillan Viejo
La cantidad única de apellidos es:  170
El número de empleados de planta es:  215
El organismo a procesar es:  Municipalidad de Sierra Gorda
La cantidad única de apellidos es:  42
El número de empleados de planta es:  44
El organismo a procesar es:  Municipalidad de Queilen
La cantidad única de apellidos es:  21
El número de empleados de planta es:  24
El organismo a procesar es:  Servicio de Salud Iquique
La cantidad única de apellidos es:  66
El número de empleados de planta es:  75
El organismo a procesar es:  Municipalidad de Lo Espejo
La cantidad única de apellidos es:  347
El número de empleados de planta es:  597
El organismo a procesar es:  Servicio de Salud Biobio
La cantidad única de apellidos es:  322
El número de empleados de planta es:  728
El organismo a procesar es:  Municipalidad de Angol
La cantidad única de apellidos es:  306
El núm

El organismo a procesar es:  Municipalidad de Peumo
La cantidad única de apellidos es:  99
El número de empleados de planta es:  131
El organismo a procesar es:  Corporacion Municipal de Las Condes
La cantidad única de apellidos es:  208
El número de empleados de planta es:  580
El organismo a procesar es:  Subsecretaria de Justicia
La cantidad única de apellidos es:  31
El número de empleados de planta es:  32
El organismo a procesar es:  Municipalidad de Renca
La cantidad única de apellidos es:  145
El número de empleados de planta es:  179
El organismo a procesar es:  Municipalidad de Andacollo
La cantidad única de apellidos es:  33
El número de empleados de planta es:  40
El organismo a procesar es:  Instituto de Salud Publica (ISP)
La cantidad única de apellidos es:  87
El número de empleados de planta es:  105
El organismo a procesar es:  Servicio Nacional de la Mujer y la Equidad de Genero (SERNAMEG)
La cantidad única de apellidos es:  114
El número de empleados de planta es:  1

El organismo a procesar es:  Municipalidad de Dalcahue
La cantidad única de apellidos es:  34
El número de empleados de planta es:  48
El organismo a procesar es:  SEREMI de Salud  de Antofagasta
La cantidad única de apellidos es:  6
El número de empleados de planta es:  6
El organismo a procesar es:  Municipalidad de Guaitecas
La cantidad única de apellidos es:  30
El número de empleados de planta es:  30
El organismo a procesar es:  Gobierno Regional de Magallanes y de la Antartica Chilena (GORE Magallanes)
La cantidad única de apellidos es:  19
El número de empleados de planta es:  19
El organismo a procesar es:  Municipalidad de Pozo Almonte
La cantidad única de apellidos es:  28
El número de empleados de planta es:  36
El organismo a procesar es:  Municipalidad de San Rosendo
La cantidad única de apellidos es:  64
El número de empleados de planta es:  82
El organismo a procesar es:  Municipalidad de San Nicolas
La cantidad única de apellidos es:  196
El número de empleados de plan

El organismo a procesar es:  Hospital Barros Luco
La cantidad única de apellidos es:  554
El número de empleados de planta es:  1160
El organismo a procesar es:  Municipalidad de La Union
La cantidad única de apellidos es:  227
El número de empleados de planta es:  375
El organismo a procesar es:  Municipalidad de Codegua
La cantidad única de apellidos es:  120
El número de empleados de planta es:  204
El organismo a procesar es:  Hospital San Juan de Dios de San Fernando
La cantidad única de apellidos es:  191
El número de empleados de planta es:  303
El organismo a procesar es:  Municipalidad de Aysen
La cantidad única de apellidos es:  122
El número de empleados de planta es:  177
El organismo a procesar es:  Municipalidad de Panguipulli
La cantidad única de apellidos es:  65
El número de empleados de planta es:  80
El organismo a procesar es:  Direccion de Vialidad (VIALIDAD)
La cantidad única de apellidos es:  225
El número de empleados de planta es:  314
El organismo a procesar e

El organismo a procesar es:  Municipalidad de San Vicente de Tagua Tagua
La cantidad única de apellidos es:  89
El número de empleados de planta es:  115
El organismo a procesar es:  Municipalidad de Pichilemu
La cantidad única de apellidos es:  137
El número de empleados de planta es:  199
El organismo a procesar es:  Municipalidad de Paihuano
La cantidad única de apellidos es:  81
El número de empleados de planta es:  103
El organismo a procesar es:  Municipalidad de Retiro
La cantidad única de apellidos es:  177
El número de empleados de planta es:  361
El organismo a procesar es:  Subsecretaria de Pesca y Acuicultura
La cantidad única de apellidos es:  26
El número de empleados de planta es:  26
El organismo a procesar es:  Corporacion Municipal de Quinta Normal
La cantidad única de apellidos es:  337
El número de empleados de planta es:  574
El organismo a procesar es:  Instituto de Seguridad Laboral (ISL)
La cantidad única de apellidos es:  19
El número de empleados de planta es:

El organismo a procesar es:  Hospital El Pino
La cantidad única de apellidos es:  190
El número de empleados de planta es:  252
El organismo a procesar es:  Direccion de Contabilidad y Finanzas (DCYF)
La cantidad única de apellidos es:  24
El número de empleados de planta es:  24
El organismo a procesar es:  Municipalidad de Maipu
La cantidad única de apellidos es:  425
El número de empleados de planta es:  830
El organismo a procesar es:  Municipalidad de Huara
La cantidad única de apellidos es:  64
El número de empleados de planta es:  72
El organismo a procesar es:  Direccion de Planeamiento (DIRPLAN)
La cantidad única de apellidos es:  18
El número de empleados de planta es:  19
El organismo a procesar es:  Municipalidad de Nancagua
La cantidad única de apellidos es:  152
El número de empleados de planta es:  257
El organismo a procesar es:  Direccion Nacional del Servicio Civil
La cantidad única de apellidos es:  18
El número de empleados de planta es:  19
El organismo a procesar 

El organismo a procesar es:  Municipalidad de Punitaqui
La cantidad única de apellidos es:  93
El número de empleados de planta es:  147
El organismo a procesar es:  Fiscalia MOP
La cantidad única de apellidos es:  9
El número de empleados de planta es:  9
El organismo a procesar es:  Corporacion Municipal de Quellon
La cantidad única de apellidos es:  253
El número de empleados de planta es:  479
El organismo a procesar es:  Municipalidad de Yerbas Buenas
La cantidad única de apellidos es:  168
El número de empleados de planta es:  286
El organismo a procesar es:  Subsecretaria del Deporte
La cantidad única de apellidos es:  43
El número de empleados de planta es:  45
El organismo a procesar es:  Corporacion Municipal de Panguipulli
La cantidad única de apellidos es:  225
El número de empleados de planta es:  359
El organismo a procesar es:  Hospital Roberto del Rio
La cantidad única de apellidos es:  265
El número de empleados de planta es:  423
El organismo a procesar es:  Municipal

La cantidad única de apellidos es:  188
El número de empleados de planta es:  293
El organismo a procesar es:  Gobierno Regional de Valparaiso  ( GORE Valparaiso)
La cantidad única de apellidos es:  26
El número de empleados de planta es:  29
El organismo a procesar es:  Municipalidad de San Clemente
La cantidad única de apellidos es:  360
El número de empleados de planta es:  794
El organismo a procesar es:  Municipalidad de Ovalle
La cantidad única de apellidos es:  462
El número de empleados de planta es:  1962
El organismo a procesar es:  Hospital La Serena
La cantidad única de apellidos es:  224
El número de empleados de planta es:  445
El organismo a procesar es:  Municipalidad de Rengo
La cantidad única de apellidos es:  335
El número de empleados de planta es:  672
El organismo a procesar es:  Corporacion Municipal de Talagante
La cantidad única de apellidos es:  172
El número de empleados de planta es:  228
El organismo a procesar es:  Municipalidad de Calera de Tango
La canti

## \[SAVE\] Guardar Resultados

In [69]:
#Cambiar!
nombre_archivo = 'ORGANISMO-I{0}'.format(numero_iteraciones)
data = [] 
columns = []

for key, value in dict_areas.items():
    data.append(value)
    columns.append(key)
    
total = pd.DataFrame(data, index = columns) 
total.to_csv(nombre_archivo)


## [READ] Organismos - Deciles

In [70]:
# Personal de Planta - Distintos Meses
plantaEnero = pd.read_csv('../2.filtered-data/Enero2020PersonalPlanta.csv', index_col=0)
plantaFebrero = pd.read_csv('../2.filtered-data/Febrero2020PersonalPlanta.csv', index_col=0)
plantaMarzo = pd.read_csv('../2.filtered-data/Marzo2020PersonalPlanta.csv', index_col=0)
plantaAbril = pd.read_csv('../2.filtered-data/Abril2020PersonalPlanta.csv', index_col=0)
plantaMayo = pd.read_csv('../2.filtered-data/Mayo2020PersonalPlanta.csv', index_col=0)

## [EXEC] Organismos - Deciles Ejecución

In [74]:
#Selecciones Mes --> CAMBIAR
df_planta = plantaEnero
#Numero de iteraciones --> CAMBIAR
numero_de_iteraciones = 10

#Set de organismos
organismos = set(df_planta['organismo_nombre'].value_counts().index)

#Dictionario con los resultados
dict_organismos = {}

#Generar deciles en base a la remuneración bruta
df_planta['decilePlanta'] = pd.qcut(df_planta['remuneracionbruta_mensual'], 10, labels=False, duplicates='drop')

#Para cada organismo
for organismo in organismos:

    #Dataset del organismo., i.e, listado de empleados de planta
    df_organismo = df_planta[df_planta['organismo_nombre'] == organismo]
    
    #Total de empleados en ese organismo
    totalOrg = len(df_organismo['Paterno'])
    
    #Decil Top
    topDecil = df_organismo[df_organismo['decilePlanta'] == 9]
    
    #Otros deciles
    bottomDeciles = df_organismo[df_organismo['decilePlanta'] < 9]
    
    #Si la organización tiene más de 100 personas:
    if totalOrg > 100 :

        #Para el top 10%
        
        #Cantidad única de apellidos
        distint_names_organismo = len(set(topDecil['Paterno'].value_counts().index))
        
        #Cantidad de personas en el decil top
        total = len(topDecil['Paterno'])
        
        #Region del organismo
        region = topDecil.head(1)['region'].item()
        
        #Obtener region del organismo
        import unicodedata
        region = unicodedata.normalize("NFKD",region).encode("ascii","ignore").decode("ascii")
        
        #Código de la region
        code_region = region_codes[region]  
        
        #Población de esa región
        population = df_paternos_region[df_paternos_region['REG'] == code_region] 
        
        #Sacamos los pesos de cada apellido i.e, el porcentaje en esa región
        population['PORCENTAJE'] = population['CANTIDAD']/population['CANTIDAD'].sum()
        
        #Corremos la Monte Carlo
        output = MonteCarlo(population, total, 'PORCENTAJE', distint_names_organismo, numero_de_iteraciones)
        
        #Guardamos ese resultado
        dict_organismos[organismo + '- TOP 10%'] = output
        print(organismo + '- TOP 10%')

        #Para el bottom 90%
        distint_names_organismo = len(set(bottomDeciles['Paterno'].value_counts().index))
        
        total = len(bottomDeciles['Paterno'])
        
        region = bottomDeciles.head(1)['region'].item()
        
        import unicodedata
        region = unicodedata.normalize("NFKD",region).encode("ascii","ignore").decode("ascii")
        code_region = region_codes[region]  

        population = df_paternos_region[df_paternos_region['REG'] == code_region] 
        
        population['PORCENTAJE'] = population['CANTIDAD']/population['CANTIDAD'].sum()
        
        output = MonteCarlo(population, total, 'PORCENTAJE', distint_names_organismo, numero_de_iteraciones)
        
        dict_organismos[organismo + '- BOTTOM 90%'] = output
        
        print(organismo + '- BOTTOM 10%')
        

Corporación Municipal de Talagante- TOP 10%
Corporación Municipal de Talagante- BOTTOM 10%
Hospital Gustavo Fricke- TOP 10%
Hospital Gustavo Fricke- BOTTOM 10%
Municipalidad de Puerto Varas- TOP 10%
Municipalidad de Puerto Varas- BOTTOM 10%
Municipalidad de Chépica- TOP 10%
Municipalidad de Chépica- BOTTOM 10%
Municipalidad de Independencia- TOP 10%
Municipalidad de Independencia- BOTTOM 10%
Hospital Base de Valdivia- TOP 10%
Hospital Base de Valdivia- BOTTOM 10%
Municipalidad de Mostazal- TOP 10%
Municipalidad de Mostazal- BOTTOM 10%
Servicio de Registro Civil e Identificación- TOP 10%
Servicio de Registro Civil e Identificación- BOTTOM 10%
Municipalidad de Quirihue- TOP 10%
Municipalidad de Quirihue- BOTTOM 10%
Servicio de Salud Aysén- TOP 10%
Servicio de Salud Aysén- BOTTOM 10%
Municipalidad de Litueche- TOP 10%
Municipalidad de Litueche- BOTTOM 10%
Corporación Municipal de San Joaquin- TOP 10%
Corporación Municipal de San Joaquin- BOTTOM 10%
Municipalidad de El Monte- TOP 10%
Munic

Municipalidad de Pelarco- BOTTOM 10%
Servicio Local de Educación Pública de Barrancas- TOP 10%
Servicio Local de Educación Pública de Barrancas- BOTTOM 10%
Hospital Claudio Vicuña de San Antonio- TOP 10%
Hospital Claudio Vicuña de San Antonio- BOTTOM 10%
Municipalidad de Cartagena- TOP 10%
Municipalidad de Cartagena- BOTTOM 10%
Municipalidad de Coihueco- TOP 10%
Municipalidad de Coihueco- BOTTOM 10%
Subsecretaría de Servicios Sociales- TOP 10%
Subsecretaría de Servicios Sociales- BOTTOM 10%
Corporación Municipal de San Vicente- TOP 10%
Corporación Municipal de San Vicente- BOTTOM 10%
Municipalidad de Alhué- TOP 10%
Municipalidad de Alhué- BOTTOM 10%
Municipalidad de Hualaihué- TOP 10%
Municipalidad de Hualaihué- BOTTOM 10%
Instituto Traumatológico- TOP 10%
Instituto Traumatológico- BOTTOM 10%
Municipalidad de Traiguén- TOP 10%
Municipalidad de Traiguén- BOTTOM 10%
Municipalidad de Peumo- TOP 10%
Municipalidad de Peumo- BOTTOM 10%
Municipalidad de Renca- TOP 10%
Municipalidad de Renca- 

Municipalidad de Quilicura- BOTTOM 10%
Municipalidad de Tierra Amarilla- TOP 10%
Municipalidad de Tierra Amarilla- BOTTOM 10%
Dirección del Trabajo (DT)- TOP 10%
Dirección del Trabajo (DT)- BOTTOM 10%
Municipalidad de Tocopilla- TOP 10%
Municipalidad de Tocopilla- BOTTOM 10%
Hospital Roberto del Río- TOP 10%
Hospital Roberto del Río- BOTTOM 10%
Municipalidad de Hualpén- TOP 10%
Municipalidad de Hualpén- BOTTOM 10%
Servicio de Salud Araucanía Sur- TOP 10%
Servicio de Salud Araucanía Sur- BOTTOM 10%
Municipalidad de Hijuelas- TOP 10%
Municipalidad de Hijuelas- BOTTOM 10%
Municipalidad de Penco- TOP 10%
Municipalidad de Penco- BOTTOM 10%
Hospital Juan Noé de Arica- TOP 10%
Hospital Juan Noé de Arica- BOTTOM 10%
Municipalidad de El Quisco- TOP 10%
Municipalidad de El Quisco- BOTTOM 10%
Municipalidad de Pichidegua- TOP 10%
Municipalidad de Pichidegua- BOTTOM 10%
Hospital San Juan de Dios de Los Andes- TOP 10%
Hospital San Juan de Dios de Los Andes- BOTTOM 10%
Municipalidad de Salamanca- TOP

Municipalidad de Chillán Viejo- TOP 10%
Municipalidad de Chillán Viejo- BOTTOM 10%
Municipalidad de Canela- TOP 10%
Municipalidad de Canela- BOTTOM 10%
Municipalidad de Lago Ranco- TOP 10%
Municipalidad de Lago Ranco- BOTTOM 10%
Hospital de Ovalle- TOP 10%
Hospital de Ovalle- BOTTOM 10%
Municipalidad de Lo Prado- TOP 10%
Municipalidad de Lo Prado- BOTTOM 10%
Municipalidad de Máfil- TOP 10%
Municipalidad de Máfil- BOTTOM 10%
Servicio Local de Educación Pública Gabriela Mistral- TOP 10%
Servicio Local de Educación Pública Gabriela Mistral- BOTTOM 10%
Hospital de Melipilla- TOP 10%
Hospital de Melipilla- BOTTOM 10%
Hospital Regional Coyhaique- TOP 10%
Hospital Regional Coyhaique- BOTTOM 10%
Dirección de Vialidad (VIALIDAD)- TOP 10%
Dirección de Vialidad (VIALIDAD)- BOTTOM 10%
Municipalidad de San Pedro De La Paz- TOP 10%
Municipalidad de San Pedro De La Paz- BOTTOM 10%
Municipalidad de Pudahuel- TOP 10%
Municipalidad de Pudahuel- BOTTOM 10%
Municipalidad de Los Sauces- TOP 10%
Municipalid

## [EXEC] Deciles - Areas Ejecución

In [75]:
#Hacemos un left join con la tabla de organismo para sacar el área del organismo
df_planta = pd.merge(plantaEnero, df_instituciones, left_on='organismo_codigo', right_on='Codigo_org', how='inner')
areas = set(df_planta['Padre_org'].value_counts().index)

In [76]:
##Cambiar!
numero_de_iteraciones = 10
#Dictionario con los resultados
dict_areas = {}

#Sacamos los deciles
df_planta['decilePlanta'] = pd.qcut(df_planta['remuneracionbruta_mensual'], 10, labels=False, duplicates='drop')

#Para cada area
for area in areas:
    
    #Se filtra la planta por area
    df_area = df_planta[df_planta['Padre_org'] == area]
    
    #Número de personas en el área
    totalOrg = len(df_area['Paterno'])
    
    #Personas del area en el decil top
    topDecil = df_area[df_area['decilePlanta'] == 9]
    
    #Personas en otros deciles
    bottomDeciles = df_area[df_area['decilePlanta'] < 9]
    
    #Si el área tiene más de cien personas
    if totalOrg > 100 :
        
        #Top 10%
        distint_names_area = len(set(topDecil['Paterno'].value_counts().index))

        total = len(topDecil['Paterno'])
        
        region = topDecil.head(1)['region'].item()
        
        import unicodedata
        region = unicodedata.normalize("NFKD",region).encode("ascii","ignore").decode("ascii")
        code_region = region_codes[region]  
        
        population = df_paternos_region[df_paternos_region['REG'] == code_region] 
        
        population['PORCENTAJE'] = population['CANTIDAD']/population['CANTIDAD'].sum()
        
        output = MonteCarlo(population, total, 'PORCENTAJE', distint_names_area, numero_de_iteraciones)
        
        dict_areas[area + '- TOP 10%'] = output
        
        print(area + '- TOP 10%')

        #Top 90%
        distint_names_area = len(set(bottomDeciles['Paterno'].value_counts().index))
        
        total = len(bottomDeciles['Paterno'])
        
        region = bottomDeciles.head(1)['region'].item()
        
        import unicodedata
        region = unicodedata.normalize("NFKD",region).encode("ascii","ignore").decode("ascii")
        code_region = region_codes[region]  
        
        population = df_paternos_region[df_paternos_region['REG'] == code_region] 
        
        population['PORCENTAJE'] = population['CANTIDAD']/population['CANTIDAD'].sum()
        
        output = MonteCarlo(population, total, 'PORCENTAJE', distint_names_area, numero_de_iteraciones)
        
        dict_areas[area + '- BOTTOM 90%'] = output
        
        print(area + '- BOTTOM 90%')

Secretaría General de Gobierno- TOP 10%
Secretaría General de Gobierno- BOTTOM 90%
Municipios de Ñuble- TOP 10%
Municipios de Ñuble- BOTTOM 90%
La Mujer y Equidad de Género- TOP 10%
La Mujer y Equidad de Género- BOTTOM 90%
Energía- TOP 10%
Energía- BOTTOM 90%
Municipios del Libertador General Bernardo OHiggins- TOP 10%
Municipios del Libertador General Bernardo OHiggins- BOTTOM 90%
Municipios de Aysen del General Carlos Ibáñez del Campo- TOP 10%
Municipios de Aysen del General Carlos Ibáñez del Campo- BOTTOM 90%
Trabajo y Previsión Social- TOP 10%
Trabajo y Previsión Social- BOTTOM 90%
Salud- TOP 10%
Salud- BOTTOM 90%
Municipios de Atacama- TOP 10%
Municipios de Atacama- BOTTOM 90%
Educación- TOP 10%
Educación- BOTTOM 90%
Justicia- TOP 10%
Justicia- BOTTOM 90%
Desarrollo Social- TOP 10%
Desarrollo Social- BOTTOM 90%
Defensa Nacional- TOP 10%
Defensa Nacional- BOTTOM 90%
Municipios de La Araucanía- TOP 10%
Municipios de La Araucanía- BOTTOM 90%
Vivienda y Urbanismo- TOP 10%
Vivienda y U

In [77]:
data = [] 
columns = []

for key, value in dict_areas.items():
    data.append(value)
    columns.append(key)
    
total = pd.DataFrame(data, index = columns) 
total.to_csv("AREAS-{0}-10VS90.csv".format(numero_de_iteraciones))
