In [1]:
#Importación de librearías necesarias
import pandas as pd
from datetime import datetime
import socket
import numpy as np
import math
import time
import pickle  #Para guardar archivos
import os

from pympler import asizeof #Para liberar memoria
import gc

import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap, to_rgb


from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
from scipy.spatial.distance import cdist

In [2]:
#Path general de archivos
if socket.gethostname()=='LAPTOP-PUSGG08B': #Ip de la laptop
    ruta = "E:/Cristian Guatemal/Master/Big Data y Ciencia de Datos/VIU_TFM/Data/TFM/"
    r_ruta = "E:/Cristian Guatemal/Master/Big Data y Ciencia de Datos/VIU_TFM/RData/TFM/"
elif socket.gethostname()=='PCUIOMTDAIE6382': #Ip del working
    ruta =   "D:/Master/Big_Data_Ciencia_Datos/VIU_TFM/Data/TFM/"
    r_ruta = "D:/Master/Big_Data_Ciencia_Datos/VIU_TFM/RData/TFM/"
# Ruta del archivo de pensionistas de vejez
ruta_vj = ruta + 'POB_VEJ_CD656_NEW.dsv'
# Ruta del archivo de historia laboral de pensionistas
ruta_afi = ruta + 'APORTES_CD656_new.dsv'

In [None]:
#Importación de archivos de afiliados
inicio = time.time()
afi = pd.read_csv( ruta_afi, delimiter='\t', encoding='iso-8859-1', decimal='.')
fin = time.time()  
print('Tiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', 
        (fin-inicio)%60, ' segundos' )

In [None]:
#Agrupamiento por relación de trabajo
inicio = time.time()
agrupa = [ (afi['SECTOR'].isin(['PRIVADO', 'PASANTE PRIVADO'])), 
           (afi['SECTOR'].isin(['PUBLICO', 'PASANTE PUBLICO'])), 
           (afi['SECTOR'].isin(['INDEPENDIENTES', '108-ARTISTA Y GESTOR DE CULTURA', 
                                '02-TRABAJ. AUT Y SIN RELAC DEPEN DESDE  2011-12 SOLO AF.VOLUNT  '])),
           (afi['SECTOR'].isin(['69-VOLUNTARIO ECUATORIANO DOMICILIADO EN EL EXTERIOR ',
                                '89-AFILIACION DOMICILIADO EN EL EXTERIOR'])),
           (afi['SECTOR'] == '90-AFILIACION DOMICILIADO EN EL PAIS / SIN RELACION DEPENDENCIA'),
           (afi['SECTOR'] == '06-CODIGO DEL TRABAJO - CT ')
            ]
            
tipo = ['PRI', 'PUB', 'IND', 'VOL_EX', 'VOL_EC', 'COD_TR']

afi['SECTOR_A'] = np.select( agrupa, tipo, default=afi['SECTOR'])
fin = time.time()  
print('Tiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', 
        (fin-inicio)%60, ' segundos' )

In [None]:
afi['SECTOR'].unique()

In [None]:
afi['SECTOR_A'].unique()

In [None]:
afi.shape

In [None]:
#Para acceder a las prestaciones de IVM debe tener al menos 5 años de aporte o 60 imposiciones
ced_counts = afi.drop_duplicates(subset=['CEDULA_COD', 'ANIO', 'MES'])['CEDULA_COD'].value_counts()

In [None]:
# numero de cedulas que tienen menos de 60 imposiciones
ced_counts[ced_counts < 60].index.nunique()

In [None]:
#Se filtran a las cedulas con menos de 60 imposicones 
inicio = time.time()
afi_fil = afi[~afi['CEDULA_COD'].isin(ced_counts[ced_counts < 60].index)].copy()
fin = time.time()  
print('Tiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )

#Se crea una variable fecha
inicio = time.time()
afi_fil.loc[:, 'FECHA'] = pd.to_datetime(afi_fil['ANIO'].astype(str) + '-' + afi_fil['MES'].astype(str).str.zfill(2) + '-01')
fin = time.time()  
print('Tiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )

#Se ordenan los registros
inicio = time.time()
afi_fil = afi_fil.sort_values( by=["CEDULA_COD","ANIO", "MES"], ascending=[True, True, True] )
fin = time.time()  
print('Tiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )
afi_fil.shape

In [None]:
# Especifica la ruta del directorio donde quieres guardar el archivo
directorio = r_ruta

# Asegúrate de que el directorio existe
os.makedirs(directorio, exist_ok=True)

# Nombre del archivo
nombre_archivo = 'viu_clean_afi.pkl'
# Ruta completa del archivo
ruta_archivo = os.path.join(directorio, nombre_archivo)
# Objetos a guardar
objeto1 = afi

# Guardar los objetos en el archivo
with open(ruta_archivo, 'wb') as archivo:
    pickle.dump(objeto1, archivo)
    
    
# Nombre del archivo
nombre_archivo = 'viu_clean_afi_fil.pkl'
# Ruta completa del archivo
ruta_archivo = os.path.join(directorio, nombre_archivo)
# Objetos a guardar
objeto2 = afi_fil

# Guardar los objetos en el archivo
with open(ruta_archivo, 'wb') as archivo:
    pickle.dump(objeto2, archivo)

In [3]:
##Cargar los archivos
directorio = r_ruta
nombre_archivo = 'viu_clean_afi_fil.pkl'
ruta_archivo = os.path.join(directorio, nombre_archivo)

with open( ruta_archivo, 'rb') as archivo:
    afi_fil = pickle.load( archivo )    

In [None]:
#Se eliminan archivos no necesarios para liberar la memoria
del afi
del objeto1
del objeto2
del ced_counts

In [None]:
afi_fil #Tiene una dimensión de (64638969 rows × 14 columns) 

In [4]:
#Se seleccionan las características de la población para los año y mes de aportación
afi_sel = afi_fil[['CEDULA_COD', 'ANIO', 'MES', 'FECHA','SALARIO', 'SECTOR_A']].copy()
del afi_fil

In [None]:
#Inicio de la HL
caract = afi_sel.groupby('CEDULA_COD')['FECHA'].min().reset_index() 
caract.rename( columns={'FECHA': 'INI_HL'}, inplace=True)
#Fin de la HL
caract['FIN_HL'] = caract['CEDULA_COD'].map( afi_sel.groupby('CEDULA_COD')['FECHA'].max() )
#Contar los meses, considerando duplicidad en los meses que puede tener aporte simultaneos
caract['MES_AS'] = caract['CEDULA_COD'].map( afi_sel['CEDULA_COD'].value_counts() )
#Meses trabajados unicos
aux = afi_sel.drop_duplicates(subset=['CEDULA_COD', 'ANIO', 'MES'])
caract['MES_TU'] = caract['CEDULA_COD'].map( aux['CEDULA_COD'].value_counts() )

In [None]:
# Nombre del archivo
nombre_archivo = 'viu_clean_caract.pkl'
# Ruta completa del archivo
ruta_archivo = os.path.join(directorio, nombre_archivo)
# Objetos a guardar
objeto3 = caract

# Guardar los objetos en el archivo
with open(ruta_archivo, 'wb') as archivo:
    pickle.dump(objeto3, archivo)    

In [None]:
del objeto3

In [None]:
caract

In [None]:
#Personas que tienen varios aportes simultaneos
caract[caract['MES_AS']>caract['MES_TU']]

In [None]:
#afi_sel[afi_sel['CEDULA_COD']==21729781].tail(60)

In [5]:
afi_sel =  afi_sel.sort_values( by=["CEDULA_COD","ANIO", "MES"], ascending=[True, False, False] )
afi_sel['SALARIO_SECTOR'] = afi_sel['SALARIO']
afi_sel['NUM_SEC_MES'] = 1
afi_sel['%_NUM_SECTOR'] = afi_sel['SALARIO']

In [6]:
aux = afi_sel[afi_sel.duplicated(subset=['CEDULA_COD', 'ANIO', 'MES'], keep=False)]
aux1 = afi_sel[~afi_sel.duplicated(subset=['CEDULA_COD', 'ANIO', 'MES'], keep=False)]

In [7]:
aux

Unnamed: 0,CEDULA_COD,ANIO,MES,FECHA,SALARIO,SECTOR_A,SALARIO_SECTOR,NUM_SEC_MES,%_NUM_SECTOR
49903381,216,2007,7,2007-07-01,214.73,PRI,214.73,1,214.73
55083518,216,2007,7,2007-07-01,434.60,PUB,434.60,1,434.60
10965727,216,2007,6,2007-06-01,214.73,PRI,214.73,1,214.73
47034764,216,2007,6,2007-06-01,434.60,PUB,434.60,1,434.60
14328233,216,2007,5,2007-05-01,434.60,PUB,434.60,1,434.60
...,...,...,...,...,...,...,...,...,...
49799993,21035907,2008,6,2008-06-01,239.27,PUB,239.27,1,239.27
3581920,21104059,2016,4,2016-04-01,120.72,PRI,120.72,1,120.72
23862301,21104059,2016,4,2016-04-01,150.00,PRI,150.00,1,150.00
17467547,21729781,2018,1,2018-01-01,425.00,VOL_EC,425.00,1,425.00


In [8]:
#Se debe analizar a las personas que tienen varios aportes en un mismo mes
#Se suman los salarios y se concatenan los sectores para la cedula que en el mismo anio y mes tienen más de un sector
inicio = time.time()
afi_sel_g = aux.groupby(['CEDULA_COD', 'ANIO', 'MES']).agg({'SALARIO': 'sum',
                                                            'SALARIO_SECTOR': lambda x: ';'.join(x.astype(str)),
                                                            'SECTOR_A': lambda x: ';'.join(x),
                                                            'NUM_SEC_MES': lambda x: len(x),
                                                            '%_NUM_SECTOR': lambda x:  ';'.join((x / x.sum()).round(4).astype(str))
                                                                }).reset_index()
fin = time.time()  
print('Tiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )


Tiempo de ejecución es:  0.0  horas con  9.0  minutos y 3.796420097351074  segundos


In [9]:
afi_sel_g

Unnamed: 0,CEDULA_COD,ANIO,MES,SALARIO,SALARIO_SECTOR,SECTOR_A,NUM_SEC_MES,%_NUM_SECTOR
0,216,2004,9,451.63,282.95;168.68,PUB;PRI,2,0.6265;0.3735
1,216,2004,10,451.63,282.95;168.68,PUB;PRI,2,0.6265;0.3735
2,216,2004,11,451.63,168.68;282.95,PRI;PUB,2,0.3735;0.6265
3,216,2004,12,451.63,282.95;168.68,PUB;PRI,2,0.6265;0.3735
4,216,2005,1,487.94,311.26;176.68,PUB;PRI,2,0.6379;0.3621
...,...,...,...,...,...,...,...,...
2347227,20949683,2014,3,696.22,528.9;167.32,PRI;PUB,2,0.7597;0.2403
2347228,21035240,2010,9,332.59,194.4;138.19,PRI;PRI,2,0.5845;0.4155
2347229,21035907,2008,6,409.27,170.0;239.27,PRI;PUB,2,0.4154;0.5846
2347230,21104059,2016,4,270.72,120.72;150.0,PRI;PRI,2,0.4459;0.5541


In [10]:
afi_sel_g_all = pd.concat( [aux1[['CEDULA_COD', 'ANIO', 'MES', 'SALARIO', 'SALARIO_SECTOR','SECTOR_A', 'NUM_SEC_MES', '%_NUM_SECTOR']], 
                            afi_sel_g], ignore_index=True )

In [11]:
afi_sel_g_all

Unnamed: 0,CEDULA_COD,ANIO,MES,SALARIO,SALARIO_SECTOR,SECTOR_A,NUM_SEC_MES,%_NUM_SECTOR
0,126,2010,12,8.06,8.06,PRI,1,8.06
1,126,2010,11,250.00,250.0,PRI,1,250.0
2,126,2010,10,250.00,250.0,PRI,1,250.0
3,126,2010,9,250.00,250.0,PRI,1,250.0
4,126,2010,8,250.00,250.0,PRI,1,250.0
...,...,...,...,...,...,...,...,...
62130162,20949683,2014,3,696.22,528.9;167.32,PRI;PUB,2,0.7597;0.2403
62130163,21035240,2010,9,332.59,194.4;138.19,PRI;PRI,2,0.5845;0.4155
62130164,21035907,2008,6,409.27,170.0;239.27,PRI;PUB,2,0.4154;0.5846
62130165,21104059,2016,4,270.72,120.72;150.0,PRI;PRI,2,0.4459;0.5541


In [12]:
# Nombre del archivo
nombre_archivo = 'viu_clean_afi_sel_g_all.pkl'
# Ruta completa del archivo
ruta_archivo = os.path.join(directorio, nombre_archivo)
# Objetos a guardar
objeto4 = afi_sel_g_all

# Guardar los objetos en el archivo
with open(ruta_archivo, 'wb') as archivo:
    pickle.dump(objeto4, archivo)      

In [None]:
#afi_sel_g_all = objetos[3]

In [None]:
del aux
del aux1
del objeto4

In [13]:
afi_sel_g_all = afi_sel_g_all.sort_values( by=["CEDULA_COD","ANIO", "MES"], ascending=[True, False, False] )
afi_sel_g_all.loc[ (afi_sel_g_all['NUM_SEC_MES'] == 1), '%_NUM_SECTOR'] = '1'

In [None]:
afi_sel_g_all[afi_sel_g_all['CEDULA_COD']==216]

In [14]:
#Se reinician los index
afi_sel_g_all.reset_index(inplace=True)
afi_sel_g_all.rename(columns={'index': 'nuevo_indice'}, inplace=True)
afi_sel_g_all.drop(columns=['nuevo_indice'], inplace=True)

In [None]:
afi_sel_g_all[afi_sel_g_all['CEDULA_COD']==126]

In [15]:
#se crean los grupos de 12 meses trabajados para tener
n_grupo = 12
afi_sel_g_all['GRUPO'] = (afi_sel_g_all.groupby('CEDULA_COD').cumcount() // n_grupo ) + 1
#Se saca el salario promedio de cada grupo
afi_sel_g_all['SAL_PROM_GRUPO'] = afi_sel_g_all.groupby(['CEDULA_COD', 'GRUPO'])['SALARIO'].transform('mean')

In [None]:
afi_sel_g_all

In [None]:
afi_sel_g_all[afi_sel_g_all['CEDULA_COD']==126]['GRUPO'].unique()

In [16]:
#Se obtienen los sueldos promedios para cada grupo y cada cedula
inicio = time.time()
df1 = afi_sel_g_all.groupby(['CEDULA_COD', 'GRUPO'])['SAL_PROM_GRUPO'].first().reset_index().copy()
df1 = df1.sort_values(by = ['CEDULA_COD','SAL_PROM_GRUPO'], ascending=[True,False])
fin = time.time()  
print('Tiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )

Tiempo de ejecución es:  0.0  horas con  0.0  minutos y 5.357856512069702  segundos


In [None]:
df1

In [None]:
 df1[df1['CEDULA_COD']==126]

In [17]:
#Se seleccionan los 5 mejores años de sueldo
inicio = time.time()
top = 5
#top_sal = df1.groupby('CEDULA_COD')['SAL_PROM_GRUPO'].nlargest(top).reset_index(level=0, drop=True)
indices = df1.groupby('CEDULA_COD').apply(lambda x: x.index[:top]).explode()
df2 = df1.loc[indices].reset_index(drop=True)
fin = time.time()  
print('Tiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )

Tiempo de ejecución es:  0.0  horas con  0.0  minutos y 8.086708784103394  segundos


In [None]:
df2[df2['CEDULA_COD']==126]

In [18]:
#Seleccionar los cinco mejores años del grupo total de años de aporte
combinaciones = set(zip(df2['CEDULA_COD'], df2['GRUPO']))
afi_sel_g_all['GRUPO_SEL'] = [(cedula, grupo) in combinaciones for cedula, grupo in zip(afi_sel_g_all['CEDULA_COD'], afi_sel_g_all['GRUPO'])]
afi_sel_g_all['GRUPO_SEL'] = afi_sel_g_all['GRUPO_SEL'].astype(int)

In [19]:
#Verificar que todas las cédulas tengan al menos 60 registros de los salarios
ced_counts1 = afi_sel_g_all.drop_duplicates(subset=['CEDULA_COD', 'ANIO', 'MES'])['CEDULA_COD'].value_counts()
ced_counts1[ced_counts1 < 60].index.nunique()

0

In [None]:
afi_sel_g_all[afi_sel_g_all['CEDULA_COD']==126].tail(60)

In [20]:
#Se crea una variable fecha para el período de mejores años y la base de cálculo
inicio = time.time()
mejores = afi_sel_g_all[afi_sel_g_all['GRUPO_SEL']==1].copy()
mejores.loc[:, 'FECHA'] = pd.to_datetime(mejores['ANIO'].astype(str) + '-' + mejores['MES'].astype(str).str.zfill(2) + '-01')

#Se calcula la base de calculo
df_prom = mejores.groupby('CEDULA_COD')['SALARIO'].mean()
fin = time.time()  
print('Tiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )

Tiempo de ejecución es:  0.0  horas con  0.0  minutos y 31.285127639770508  segundos


In [None]:
mejores

In [21]:
afi_sel_g_all['INI_CAL'] = afi_sel_g_all['CEDULA_COD'].map( mejores.groupby('CEDULA_COD')['FECHA'].max() )
afi_sel_g_all['FIN_CAL'] = afi_sel_g_all['CEDULA_COD'].map( mejores.groupby('CEDULA_COD')['FECHA'].min() )
afi_sel_g_all['BASE_CAL'] = afi_sel_g_all['CEDULA_COD'].map( df_prom )

In [22]:
caract['INI_CAL'] = caract['CEDULA_COD'].map( mejores.groupby('CEDULA_COD')['FECHA'].max() )
caract['FIN_CAL'] = caract['CEDULA_COD'].map( mejores.groupby('CEDULA_COD')['FECHA'].min() )
caract['BASE_CAL'] = caract['CEDULA_COD'].map( df_prom )
caract

NameError: name 'caract' is not defined

In [None]:
del df1, df2, mejores

In [None]:
afi_sel_g_all[ (afi_sel_g_all['CEDULA_COD']==126) & (afi_sel_g_all['GRUPO_SEL']==1)]['SALARIO'].mean()

In [None]:
afi_sel_g_all[ (afi_sel_g_all['CEDULA_COD']==126)]

In [None]:
# #     df = asignar_grupo(sect, n_grupo)
# #     df1 = valores_unicos_grupos(df)
# #     df2 = sel_top_salarios(df1, top)
# #     df = sel_grupo(df, df2)
#     df = fec_sel_grupo(df)
#     df = base_cal(df)
#     df = ati_base_cal_m1(df, inferior)
#     df = base_cal_sin_ati_m1(df)
#     df = sbu_ajuste_m1(df, SBU)

In [None]:
#Registros con años menores al 2000
afi_sel_g_all[afi_sel_g_all['FIN_CAL'].dt.year<2000]

In [23]:
#Se agrega el valor del SBU
SBU = pd.DataFrame( { 'ANIO':[2000,2001,2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020,
                              2021, 2022, 2023, 2024],
                      'VALOR':[57,85.65,105, 122, 136, 150, 160, 170, 200, 218, 240, 264, 292, 318, 340, 354, 366, 375, 386, 394, 400, 
                              400, 425, 450, 460]})
SBU

Unnamed: 0,ANIO,VALOR
0,2000,57.0
1,2001,85.65
2,2002,105.0
3,2003,122.0
4,2004,136.0
5,2005,150.0
6,2006,160.0
7,2007,170.0
8,2008,200.0
9,2009,218.0


In [24]:
afi_sel_g_all['SBU'] = afi_sel_g_all['ANIO'].map( SBU.groupby('ANIO')['VALOR'].first())

In [None]:
afi_sel_g_all

In [25]:
#Cédula que tienen su historia laboral igual al SBU
afi_sel_g_all['ID_SBU'] = afi_sel_g_all['SALARIO'] == afi_sel_g_all['SBU']
#Si tiene -1 es un valor que no es un SBU en ese año y mes
afi_sel_g_all['ID_SBU'] = afi_sel_g_all['ID_SBU'].astype(int)-1
afi_sel_g_all

Unnamed: 0,CEDULA_COD,ANIO,MES,SALARIO,SALARIO_SECTOR,SECTOR_A,NUM_SEC_MES,%_NUM_SECTOR,GRUPO,SAL_PROM_GRUPO,GRUPO_SEL,INI_CAL,FIN_CAL,BASE_CAL,SBU,ID_SBU
0,126,2010,12,8.06,8.06,PRI,1,1,1,229.838333,1,2010-12-01,2006-01-01,210.635,240.0,-1
1,126,2010,11,250.00,250.0,PRI,1,1,1,229.838333,1,2010-12-01,2006-01-01,210.635,240.0,-1
2,126,2010,10,250.00,250.0,PRI,1,1,1,229.838333,1,2010-12-01,2006-01-01,210.635,240.0,-1
3,126,2010,9,250.00,250.0,PRI,1,1,1,229.838333,1,2010-12-01,2006-01-01,210.635,240.0,-1
4,126,2010,8,250.00,250.0,PRI,1,1,1,229.838333,1,2010-12-01,2006-01-01,210.635,240.0,-1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
62130162,23594465,2012,9,10528.81,10528.81,PRI,1,1,6,11149.854545,0,2018-03-01,2013-04-01,16604.299,292.0,-1
62130163,23594465,2012,8,10722.25,10722.25,PRI,1,1,6,11149.854545,0,2018-03-01,2013-04-01,16604.299,292.0,-1
62130164,23594465,2012,7,10722.25,10722.25,PRI,1,1,6,11149.854545,0,2018-03-01,2013-04-01,16604.299,292.0,-1
62130165,23594465,2012,6,13046.07,13046.07,PRI,1,1,6,11149.854545,0,2018-03-01,2013-04-01,16604.299,292.0,-1


In [26]:
#Verificar que todas las cédulas tengan 60 registros
ced_counts2 = afi_sel_g_all.drop_duplicates(subset=['CEDULA_COD', 'ANIO', 'MES'])['CEDULA_COD'].value_counts()
ced_counts2[ced_counts2 < 60].index.nunique()

0

In [None]:
afi_sel_g_all[afi_sel_g_all['CEDULA_COD']==126].shape

In [None]:
afi_sel_g_all[(afi_sel_g_all['CEDULA_COD']==126) & (afi_sel_g_all['GRUPO_SEL']==1)]

In [28]:
# Nombre del archivo
nombre_archivo = 'viu_clean_afi_sel_g_all_2.pkl'
# Ruta completa del archivo
ruta_archivo = os.path.join(directorio, nombre_archivo)
# Objetos a guardar
objeto5 = afi_sel_g_all

# Guardar los objetos en el archivo
with open(ruta_archivo, 'wb') as archivo:
    pickle.dump(objeto5, archivo)          

In [29]:
objeto5

Unnamed: 0,CEDULA_COD,ANIO,MES,SALARIO,SALARIO_SECTOR,SECTOR_A,NUM_SEC_MES,%_NUM_SECTOR,GRUPO,SAL_PROM_GRUPO,GRUPO_SEL,INI_CAL,FIN_CAL,BASE_CAL,SBU,ID_SBU
0,126,2010,12,8.06,8.06,PRI,1,1,1,229.838333,1,2010-12-01,2006-01-01,210.635,240.0,-1
1,126,2010,11,250.00,250.0,PRI,1,1,1,229.838333,1,2010-12-01,2006-01-01,210.635,240.0,-1
2,126,2010,10,250.00,250.0,PRI,1,1,1,229.838333,1,2010-12-01,2006-01-01,210.635,240.0,-1
3,126,2010,9,250.00,250.0,PRI,1,1,1,229.838333,1,2010-12-01,2006-01-01,210.635,240.0,-1
4,126,2010,8,250.00,250.0,PRI,1,1,1,229.838333,1,2010-12-01,2006-01-01,210.635,240.0,-1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
62130162,23594465,2012,9,10528.81,10528.81,PRI,1,1,6,11149.854545,0,2018-03-01,2013-04-01,16604.299,292.0,-1
62130163,23594465,2012,8,10722.25,10722.25,PRI,1,1,6,11149.854545,0,2018-03-01,2013-04-01,16604.299,292.0,-1
62130164,23594465,2012,7,10722.25,10722.25,PRI,1,1,6,11149.854545,0,2018-03-01,2013-04-01,16604.299,292.0,-1
62130165,23594465,2012,6,13046.07,13046.07,PRI,1,1,6,11149.854545,0,2018-03-01,2013-04-01,16604.299,292.0,-1


In [None]:
#Selección de cedulas con sus mejores años de sueldo y que su salario no sea un SBU
data_sin_ati = afi_sel_g_all[ (afi_sel_g_all['GRUPO_SEL']==1) & (afi_sel_g_all['ID_SBU']!=-1)]
data_ati = afi_sel_g_all[ (afi_sel_g_all['GRUPO_SEL']==1) & (afi_sel_g_all['ID_SBU']!=0)]

In [None]:
data_ati.shape #(21022610, 15)
data_sin_ati.shape #(5449506, 15)

In [None]:
data_ati[data_ati['CEDULA_COD']==126][['CEDULA_COD','ANIO','MES','SALARIO']].shape

In [None]:
data_ati[data_ati['CEDULA_COD']==126]

In [None]:
# Nombre del archivo
nombre_archivo = 'viu_clean_data_ati.pkl'
# Ruta completa del archivo
ruta_archivo = os.path.join(directorio, nombre_archivo)
# Objetos a guardar
objeto6 = data_ati

# Guardar los objetos en el archivo
with open(ruta_archivo, 'wb') as archivo:
    pickle.dump(objeto6, archivo)         

# Nombre del archivo
nombre_archivo = 'viu_clean_data_sin_ati.pkl'
# Ruta completa del archivo
ruta_archivo = os.path.join(directorio, nombre_archivo)
# Objetos a guardar
objeto7 = data_sin_ati

# Guardar los objetos en el archivo
with open(ruta_archivo, 'wb') as archivo:
    pickle.dump(objeto7, archivo)     
    
del objeto6, objeto7

In [None]:
#Cargar los archivos
directorio = r_ruta
nombre_archivo = 'viu_clean_afi_sel_g_all_2.pkl'
ruta_archivo = os.path.join(directorio, nombre_archivo)

with open( ruta_archivo, 'rb') as archivo:
    data_l = pickle.load( archivo )     

In [None]:
#Análisis de atípicos
#Método de clustering jerárquico
data_l.shape #(62130167, 15)

In [None]:
inicio = time.time()
data_l = data_l.sort_values( by=["CEDULA_COD","ANIO", "MES"], ascending=[ True, True, True] )
data_l.reset_index(inplace=True)
data_l.rename(columns={'index': 'nuevo_indice'}, inplace=True)
data_l.drop(columns=['nuevo_indice'], inplace=True)
data_l['INDICE'] = data_l.index

#Casos de no análisis
data_no_grupo = data_l[ (data_l['GRUPO_SEL']==0) ].copy()
data_no_grupo['ATI_CJ_M1'] = np.nan
data_no_grupo['ATI_CJ_M2'] = np.nan
data_no_grupo['ATI_CJ_M3'] = np.nan

#Casos de análisis
data = data_l[ (data_l['GRUPO_SEL']==1) ].copy()

fin = time.time()  
print('Tiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )


In [None]:
#Para ejecutar el cluster jerarquico
def cluster_jerarquico( data_si_dic, k):
    inicio = time.time()
    nom = 'ATI_CJ_M' + str( k+1 )
    data_val_ati = {}
    for cedula in data_si_dic:

        if( len( data_si_dic[ cedula ]['SALARIO'] ) > 1 ): #Para formar al menos un cluster

            aux = np.array( data_si_dic[ cedula ]['SALARIO'] ).reshape(-1, 1)
            Z = linkage( aux , method='single', metric='euclidean')

            num_clusters = 2  # Puedes ajustar este valor según tus necesidades
            clusters = fcluster(Z, num_clusters, criterion='maxclust')

            if( len( np.unique(clusters) ) > 1 ): #Para considerar al menos 2 cluster
                # Calcular el centroide de cada clúster
                cluster_centers = np.array([[ np.nanmean(aux[clusters == i], axis=0)[0], i ] for i in range(1, num_clusters + 1)] ) 

                Q1 = np.quantile(aux, 0.25)
                Q3 = np.quantile(aux, 0.75)
                IQR = Q3-Q1
                LI = Q1 - 1.5 * IQR
                LS = Q3 + 1.5 * IQR

                cl_at = np.where( cluster_centers[:,0] > (LS +  1e-8) )[0]
                cluster_centers[cl_at][:, 1]

                mod_aux = np.zeros((len(aux), 2))
                mod_aux[:, 0] = aux[:, 0]  # Copiar los valores originales de aux en la primera columna
                mod_aux[np.isin(clusters, cluster_centers[cl_at][:, 1]), 1] = 1  # Asignar 1 en la segunda columna donde el cluster es 1

                data_val_ati[cedula] = {'SALARIO': mod_aux[:, 0].tolist(),
                                             nom : mod_aux[:, 1].tolist(),
                                        'INDICE' : data_si_dic[ cedula ]['INDICE']}
            else:
                data_val_ati[cedula] = { 'SALARIO': aux.flatten().tolist(),
                                               nom:  [-1] * len(aux),
                                         'INDICE' : data_si_dic[ cedula ]['INDICE']} 

        else:
            data_val_ati[cedula] = { 'SALARIO': data_si_dic[ cedula ]['SALARIO'],
                                           nom:  [-2] * len( data_si_dic[ cedula ]['SALARIO'] ),
                                     'INDICE' : data_si_dic[ cedula ]['INDICE']}
    fin = time.time()  
    print('\tTiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )
    
    return data_val_ati
 
#Para unir los resultados
def extend_data( data_val_ati, k ):
    inicio = time.time()
    nom = 'ATI_CJ_M' + str( k + 1 )
    data1 = { 'CEDULA_COD': [], 'SALARIO': [], nom : [], 'INDICE':[]}

    # Llenar las listas con los datos del diccionario
    for cedula, values in data_val_ati.items():
        salario = values['SALARIO']
        atipico = values[ nom ]
        indice = values['INDICE']
        num_rows = len(salario)

        # Extender las listas en el diccionario de datos
        data1['CEDULA_COD'].extend([cedula] * num_rows)
        data1['SALARIO'].extend(salario)
        data1[ nom ].extend(atipico)
        data1['INDICE'].extend(indice)

    fin = time.time()  
    print('\tTiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )
    return data1

#Para graficar el comportamiento de los atipicos
def graf_ati(ced, k):
    nom = 'ATI_CJ_M'+ str(k)
    dt = data_l[(data_l['GRUPO_SEL']==1) & (data_l['CEDULA_COD']==ced)]
    unique_ati = dt[ nom ].nunique(dropna=False)
    categories = dt[ nom ].unique()

    # Generar una lista de colores discretos
    colors = plt.cm.coolwarm(np.linspace(0, 1, unique_ati))

    # Crear un mapa de colores discreto
    cmap = ListedColormap(colors)

    # Graficar
    plt.figure(figsize=(8, 5))
    scatter = plt.scatter(dt.index, dt['SALARIO'], c=dt[ nom ], cmap=cmap)

    plt.xlabel('Index')
    plt.ylabel('Salario')
    plt.title('Gráfico de Salario')

    # Crear una leyenda discreta personalizada
    # Definir las etiquetas para cada categoría
    labels = { 0: 'No es atípico', 1: 'Es atípico', -1: 'Es un solo clúter', -2:'No forma parte del proceso',
               np.nan: 'Valor NA'}

    # Crear los handles para la leyenda
    handles = [plt.Line2D([0], [0], marker='o', color='w', 
                          markersize=10, markerfacecolor=cmap(i), 
                          label=labels[i]) for i in categories]

    plt.legend(handles=handles, title='Tipo de Salario')
    plt.show()

In [None]:
data[ ~(( data['SALARIO'] >= data['SBU'] ) & ( data['ANIO'] >= 2000 )) ]

In [None]:
#Se crea un bucle para cada caso
for k in range(0,3):
    nom = 'ATI_CJ_M' + str( k+1 )
    if (k==0):
        ##Primer Caso--Considerando solo los salarios mayores al SBU y desde el año 2000
        print('*' * 50, 'Caso ', str( k+1 ), '*' * 50)
        data_si = data[   (( data['SALARIO'] >= data['SBU'] ) & ( data['ANIO'] >= 2000 )) ].copy() 
        data_no = data[ ~(( data['SALARIO'] >= data['SBU'] ) & ( data['ANIO'] >= 2000 )) ].copy() 
        data_no[ nom ] = np.nan
        print('Tamaño de la data utilizada dentro de los años seleccionados', data_si.shape) #(26006294, 16)
        print('Tamaño de la data no utilizada dentro de los años seleccionados',data_no.shape)  #(465822, 16)
        
        data_si_dic = data_si.groupby('CEDULA_COD').agg({'SALARIO': list, 'INDICE': list}).to_dict(orient='index')
        data_no_dic = data_no.groupby('CEDULA_COD').agg({'SALARIO': list, 'INDICE': list}).to_dict(orient='index')
        
        print('Algoritmo Cluster Jerárquico')
        data_val_ati = cluster_jerarquico( data_si_dic, k )
        print('Extensión del diccionario')
        data1 = extend_data( data_val_ati, k )
        
        print('Concatenación de dataframe')
        inicio = time.time()
        data_jerar = None
        data_jerar = pd.concat( [ data_no_grupo[['CEDULA_COD', 'SALARIO',  nom , 'INDICE']],
                                  pd.DataFrame( data1 ), 
                                  data_no[['CEDULA_COD', 'SALARIO',  nom , 'INDICE']] ], axis=0)
    
        data_jerar = data_jerar.sort_values( by=["INDICE"], ascending=[ True ] )
        data_jerar.reset_index(inplace=True)
        data_jerar.rename(columns={'index': 'nuevo_indice'}, inplace=True)
        data_jerar.drop(columns=['nuevo_indice'], inplace=True)
        fin = time.time()  
        print('\tTiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )
        
        print('Creación de la columna')
        inicio = time.time()
        data_l[ nom ] = np.nan
        aux = data_jerar[ nom ].to_numpy()
        data_l.iloc[:, data_l.columns.get_loc( nom )] = aux
        fin = time.time()  
        print('\tTiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )
        
        print('Verificación de posibles errores')
        inicio = time.time()
        dif1 = data_l[data_l['SALARIO']!= data_jerar['SALARIO']].index
        fin = time.time()  
        print('\tTiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )
        print('*' * 108, '\n')  
        
    if (k==1):
        ##Segundo Caso--Considerando todo el registro de los mejores años
        print('*' * 50, 'Caso ', str( k+1 ), '*' * 50)
        data_si = data.copy()
        print('Tamaño de la data utilizada dentro de los años seleccionados', data_si.shape) 
        
        data_si_dic = data_si.groupby('CEDULA_COD').agg({'SALARIO': list, 'INDICE': list}).to_dict(orient='index')
        
        print('Algoritmo Cluster Jerárquico')
        data_val_ati = cluster_jerarquico( data_si_dic, k )
        print('Extensión del diccionario')
        data1 = extend_data( data_val_ati, k )
        
        print('Concatenación de dataframe')
        inicio = time.time()
        data_jerar = None
        data_jerar = pd.concat( [ data_no_grupo[['CEDULA_COD', 'SALARIO', nom, 'INDICE']],
                                  pd.DataFrame( data1 ) ], axis=0)
    
        data_jerar = data_jerar.sort_values( by=["INDICE"], ascending=[ True ] )
        data_jerar.reset_index(inplace=True)
        data_jerar.rename(columns={'index': 'nuevo_indice'}, inplace=True)
        data_jerar.drop(columns=['nuevo_indice'], inplace=True)
        fin = time.time()  
        print('\tTiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )
        
        print('Creación de la columna')
        inicio = time.time()
        data_l[ nom ] = np.nan
        aux = data_jerar[ nom ].to_numpy()
        data_l.iloc[:, data_l.columns.get_loc( nom ) ] = aux
        fin = time.time()  
        print('\tTiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )
        
        print('Verificación de posibles errores')
        inicio = time.time()
        dif2 = data_l[data_l['SALARIO']!= data_jerar['SALARIO']].index
        fin = time.time()  
        print('\tTiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )
        print('*' * 108, '\n')
        
    if (k==2):
        ##Tercer Caso--Considerando todo el registro de los mejores años, pero a partir del año 2000
        print('*' * 50, 'Caso ', str( k+1 ), '*' * 50)
        data_si = data[  ( ( data['ANIO'] >= 2000 )) ].copy()
        data_no = data[ ~( ( data['ANIO'] >= 2000 )) ].copy()   
        data_no[ nom ] = np.nan
        print('Tamaño de la data utilizada dentro de los años seleccionados', data_si.shape) 
        print('Tamaño de la data no utilizada dentro de los años seleccionados',data_no.shape) 
        
        data_si_dic = data_si.groupby('CEDULA_COD').agg({'SALARIO': list, 'INDICE': list}).to_dict(orient='index')
        data_no_dic = data_no.groupby('CEDULA_COD').agg({'SALARIO': list, 'INDICE': list}).to_dict(orient='index')
        
        print('Algoritmo Cluster Jerárquico')
        data_val_ati = cluster_jerarquico( data_si_dic, k )
        print('Extensión del diccionario')
        data1 = extend_data( data_val_ati, k )
        
        print('Concatenación de dataframe')
        inicio = time.time()
        data_jerar = None
        data_jerar = pd.concat( [ data_no_grupo[['CEDULA_COD', 'SALARIO', nom, 'INDICE']],
                                  pd.DataFrame( data1 ), 
                                  data_no[['CEDULA_COD', 'SALARIO', nom, 'INDICE']] ], axis=0)
    
        data_jerar = data_jerar.sort_values( by=["INDICE"], ascending=[ True ] )
        data_jerar.reset_index(inplace=True)
        data_jerar.rename(columns={'index': 'nuevo_indice'}, inplace=True)
        data_jerar.drop(columns=['nuevo_indice'], inplace=True)
        fin = time.time()  
        print('\tTiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )
        
        print('Creación de la columna')
        inicio = time.time()
        data_l[ nom ] = np.nan
        aux = data_jerar[ nom ].to_numpy()
        data_l.iloc[:, data_l.columns.get_loc( nom )] = aux
        fin = time.time()  
        print('\tTiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )
        
        print('Verificación de posibles errores')
        inicio = time.time()
        dif3 = data_l[data_l['SALARIO']!= data_jerar['SALARIO']].index
        fin = time.time()  
        print('\tTiempo de ejecución es: ',  (fin-inicio)//3600, ' horas con ' ,  (fin-inicio)%3600//60 , ' minutos y', (fin-inicio)%60, ' segundos' )
        print('*' * 108, '\n')



        

In [None]:
del data, data_jerar, data1, aux, data_si, data_no, data_no_grupo, data_val_ati
gc.collect()

In [None]:
#Se calculan los limítes máximos de aportación en función de la HL
##Primer Caso -- Para toda la historia laboral
grupo1 = data_l.copy()
Q1 = grupo1.groupby('CEDULA_COD')['SALARIO'].quantile(0.25)
Q3 = grupo1.groupby('CEDULA_COD')['SALARIO'].quantile(0.75)
IQR = Q3-Q1
LI = Q1 - 1.5 * IQR
LS = Q3 + 1.5 * IQR
data_l['LS1'] = data_l['CEDULA_COD'].map( LS )
##Segundo Caso --Para la historia laboral a partir del año 2020
grupo2 = data_l[data_l['ANIO']>=2000].copy()
Q1 = grupo2.groupby('CEDULA_COD')['SALARIO'].quantile(0.25)
Q3 = grupo2.groupby('CEDULA_COD')['SALARIO'].quantile(0.75)
IQR = Q3-Q1
LI = Q1 - 1.5 * IQR
LS = Q3 + 1.5 * IQR
data_l['LS2'] = data_l['CEDULA_COD'].map( LS )

In [None]:
#El valor de NA implica que esos datos no son parte de data_si, por lo que no se analizaron
#El valor de -1 implica que se formó un solo cluster
#El valor de -2 implica que en la selección de datos (data_si), la cedula solo tenía un único valor para formar los cluster
# pues era el resultado de filtrar el data_si

##Se analiza el caso de los valores de atipicos del método 1
# data_l[ ( data_l['GRUPO_SEL']==1 )]['ATI_CJ_M1'].unique() #array([ 0., nan,  1., -1., -2.])
# data_l[ ( data_l['GRUPO_SEL']==1 ) & (data_l['ATI_CJ_M1']==-2)] #86 rows × 21 columns
# data_l[ ( data_l['GRUPO_SEL']==1 ) & (data_l['ATI_CJ_M1'].isna())]  #465822 rows × 21 columns
# data_l[ ( data_l['GRUPO_SEL']==1 ) & (data_l['ATI_CJ_M1']==-1)]  # 3292785 rows × 21 columns

##Se analiza el caso de los valores de atipicos del método 2
# data_l[ ( data_l['GRUPO_SEL']==1 )]['ATI_CJ_M2'].unique() #rray([ 0.,  1., -1.])
# ata_l[ ( data_l['GRUPO_SEL']==1 ) & (data_l['ATI_CJ_M2']==-1)]  #3125765 rows × 21 columns

##Se analiza el caso de los valores de atipicos del método 3
# data_l[ ( data_l['GRUPO_SEL']==1 )]['ATI_CJ_M3'].unique() #array([ 0.,  1., -1., nan, -2.])
# data_l[ ( data_l['GRUPO_SEL']==1 ) & (data_l['ATI_CJ_M3']==-2)] #2 rows × 21 columns
# data_l[ ( data_l['GRUPO_SEL']==1 ) & (data_l['ATI_CJ_M3'].isna())]  # 7454 rows × 21 columns
data_l[ ( data_l['GRUPO_SEL']==1 ) & (data_l['ATI_CJ_M3']==-1)] #3125140 rows × 21 columns

In [None]:
#Cedulas que tiene datos atípicos----------------------------------------------------------------------------------------------
print('*' * 50, 'Caso ', str( 1 ), '*' * 50)
print('\tCedulas con al menos un atípico:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==1)]['CEDULA_COD'].nunique()) #134017
print('\tCedulas con valor -2:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==-2)]['CEDULA_COD'].nunique()) #86
print('\tCedulas con valor nan:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1'].isna())]['CEDULA_COD'].nunique()) #85804
print('\tCedulas con valor -1:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==-1)]['CEDULA_COD'].nunique()) #55669
print('\tCedulas con valor 0:',  data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==0)]['CEDULA_COD'].nunique()) #379216
print('*' * 50, 'Caso ', str( 2 ), '*' * 50)
print('\tCedulas con al menos un atípico:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M2']==1)]['CEDULA_COD'].nunique()) #123850
print('\tCedulas con valor -2:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M2']==-2)]['CEDULA_COD'].nunique()) #0
print('\tCedulas con valor nan:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M2'].isna())]['CEDULA_COD'].nunique()) #0
print('\tCedulas con valor -1:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M2']==-1)]['CEDULA_COD'].nunique()) #52121
print('\tCedulas con valor 0:',  data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M2']==0)]['CEDULA_COD'].nunique()) #383682
print('*' * 50, 'Caso ', str( 3 ), '*' * 50)
print('\tCedulas con al menos un atípico:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==1)]['CEDULA_COD'].nunique()) #123826
print('\tCedulas con valor -2:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==-2)]['CEDULA_COD'].nunique()) #2
print('\tCedulas con valor nan:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3'].isna())]['CEDULA_COD'].nunique()) #499
print('\tCedulas con valor -1:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==-1)]['CEDULA_COD'].nunique()) # 52124
print('\tCedulas con valor 0:',  data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==0)]['CEDULA_COD'].nunique()) #383653
print('*' * 50, 'Caso ', str( 1 ), '*' * 50)

In [None]:
graf_ati(23075971, 1)

In [None]:
#Caso 1- Correcciones---------------------------------------------------------------------------------------------------
#Se corrige en función deL Límite máximo de la HL a apartir del año 2000, pues es la fecha en la que entra en dolar a ecuador ( -2 -> 1 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==-2) & (data_l['SALARIO'] > data_l['LS2']) ), 'ATI_CJ_M1'] = 1 #quedan 45 casos
#Se corrige en función del valores menoRes al limite máximo la HL a apartir del año 2000, pues es la fecha en la que entra en dolar a ecuador ( -2 -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==-2) & (data_l['SALARIO'] <= data_l['LS2']) ), 'ATI_CJ_M1'] = 0 
# Se hacen las correcciones para los valores -2, en donde si el Salario es menor o igual a un SBU no es atípico( -2 -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==-2) & (data_l['SALARIO'] <= data_l['SBU']) ), 'ATI_CJ_M1'] = 0 

#Se corrige en función deL Límite máximo de toda la HL, pues si no hay datos del SBU para atrás ( NA -> 1 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1'].isna()) & (data_l['SALARIO'] > data_l['LS1']) ), 'ATI_CJ_M1'] = 1  #quedan 463235 casos
#Se corrige en función del valores menoRes al limite máximo la HL, pues si no hay datos del SBU para atrás ( NA -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1'].isna()) & (data_l['SALARIO'] <= data_l['LS1']) ), 'ATI_CJ_M1'] = 0  #
#Se hacen las correcciones para los valores NA, en donde si el Salario es menor o igual a un SBU no es atípico( NA -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1'].isna()) & (data_l['SALARIO'] <= data_l['SBU']) ), 'ATI_CJ_M1'] = 0  

#Se hacen las correcciones para los valores -1, en donde si el Salario es mayor a LS1 es atípico( -1 -> 1 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==-1) & (data_l['SALARIO'] > data_l['LS1']) ), 'ATI_CJ_M1'] = 1 #quedan 3267088
#Se hacen las correcciones para los valores -1, en donde si el Salario es menor o igual a LS1 no es atípico( -1 -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==-1) & (data_l['SALARIO'] <= data_l['LS1']) ), 'ATI_CJ_M1'] = 0 #q 
#Se hacen las correcciones para los valores -1, en donde si el Salario es menor o igual a un SBU no es atípico( -1 -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==-1) & (data_l['SALARIO'] <= data_l['SBU']) ), 'ATI_CJ_M1'] = 0 #

#Se hacen las correcciones para los valores 1, en donde si el Salario es menor o igual al SBU no es atípico( 1 -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==1) & (data_l['SALARIO'] <= data_l['SBU']) ), 'ATI_CJ_M1'] = 0

In [None]:
#Caso 2 - Correcciones---------------------------------------------------------------------------------------------------
#No existen valores igual a NA e igual a -2
#Se hacen las correcciones para los valores -1, en donde si el Salario es mayor a LS1 es atípico( -1 -> 1 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M2']==-1) & (data_l['SALARIO'] > data_l['LS1']) ), 'ATI_CJ_M2'] = 1 # quedan 3104185
#Se hacen las correcciones para los valores -1, en donde si el Salario es menor o igual a LS1 no es atípico( -1 -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M2']==-1) & (data_l['SALARIO'] <= data_l['LS1']) ), 'ATI_CJ_M2'] = 0
#Se hacen las correcciones para los valores -1, en donde si el Salario es menor o igual a un SBU no es atípico( -1 -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M2']==-1) & (data_l['SALARIO'] <= data_l['SBU']) ), 'ATI_CJ_M2'] = 0 
#Se hacen las correcciones para los valores 1, en donde si el Salario es menor o igual al SBU no es atípico( 1 -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M2']==1) & (data_l['SALARIO'] <= data_l['SBU']) ), 'ATI_CJ_M2'] = 0

In [None]:
#Caso 3 - Correcciones-------------------------------------------------------------------------------------------------
#Se corrige en función deL Límite máximo de la HL a apartir del año 2000, pues es la fecha en la que entra en dolar a ecuador ( -2 -> 1 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==-2) & (data_l['SALARIO'] > data_l['LS2']) ), 'ATI_CJ_M3'] = 1 # quedan 2 casos
#Se corrige en función del valores menores al limite máximo la HL a apartir del año 2000, pues es la fecha en la que entra en dolar a ecuador ( -2 -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==-2) & (data_l['SALARIO'] <= data_l['LS2']) ), 'ATI_CJ_M3'] = 0
#Se hacen las correcciones para los valores -2, en donde si el Salario es menor o igual a un SBU no es atípico( -2 -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==-2) & (data_l['SALARIO'] <= data_l['SBU']) ), 'ATI_CJ_M3'] = 0 #

#Se corrige en función deL Límite máximo de toda la HL, pues si no hay datos del SBU para atrás ( NA -> 1 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3'].isna()) & (data_l['SALARIO'] > data_l['LS1']) ), 'ATI_CJ_M3'] = 1 #quedan 7394 casos
#Se corrige en función del valores menoRes al limite máximo la HL, pues sno hay datos del SBU para atrás ( NA -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3'].isna()) & (data_l['SALARIO'] <= data_l['LS1']) ), 'ATI_CJ_M3'] = 0  
#Se hacen las correcciones para los valores NA, en donde si el Salario es menor o igual a un SBU no es atípico( NA -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3'].isna()) & (data_l['SALARIO'] <= data_l['SBU']) ), 'ATI_CJ_M3'] = 0 

#Se hacen las correcciones para los valores -1, en donde si el Salario es mayor a LS1 es atípico( -1 -> 1 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==-1) & (data_l['SALARIO'] > data_l['LS1']) ), 'ATI_CJ_M3'] = 1 #quedan 3103457  casos
#Se hacen las correcciones para los valores -1, en donde si el Salario es menor o igual a LS1 no es atípico( -1 -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==-1) & (data_l['SALARIO'] <= data_l['LS1']) ), 'ATI_CJ_M3'] = 0
#Se hacen las correcciones para los valores -1, en donde si el Salario es menor o igual a un SBU no es atípico( -1 -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==-1) & (data_l['SALARIO'] <= data_l['SBU']) ), 'ATI_CJ_M3'] = 0 
#Se hacen las correcciones para los valores 1, en donde si el Salario es menor o igual al SBU no es atípico( 1 -> 0 )
data_l.loc[ ( (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==1) & (data_l['SALARIO'] <= data_l['SBU']) ), 'ATI_CJ_M3'] = 0

In [None]:
data_l[ (data_l['CEDULA_COD']==23075971) & (data_l['GRUPO_SEL']==1)]

In [None]:
#Cedulas que tiene datos atípicos----------------------------------------------------------------------------------------------
print('*' * 50, 'Caso ', str( 1 ), '*' * 50)
print('\tCedulas con al menos un atípico:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==1)]['CEDULA_COD'].nunique()) #125237
print('\tCedulas con valor 0:',  data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==0)]['CEDULA_COD'].nunique()) #436149
print('*' * 50, 'Caso ', str( 2 ), '*' * 50)
print('\tCedulas con al menos un atípico:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M2']==1)]['CEDULA_COD'].nunique()) #116931
print('\tCedulas con valor 0:',  data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M2']==0)]['CEDULA_COD'].nunique()) #436148
print('*' * 50, 'Caso ', str( 3 ), '*' * 50)
print('\tCedulas con al menos un atípico:', data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==1)]['CEDULA_COD'].nunique()) #116938
print('\tCedulas con valor 0:',  data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==0)]['CEDULA_COD'].nunique()) #436149
print('*' * 102)

In [None]:
data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==1)]['CEDULA_COD'].unique()

In [None]:
graf_ati(21729781, 1)

In [None]:
data_l[ (data_l['GRUPO_SEL']==1) & (data_l['CEDULA_COD']==21729781)]

In [None]:
#Analisis para atitpicos vs aportes simultáneos
#Cedulas que tiene datos atípicos----------------------------------------------------------------------------------------------
print('*' * 50, 'Caso ', str( 1 ), '*' * 50)
print('\tCedulas con al menos un atípico con un único sector:',
      data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==1) & (data_l['NUM_SEC_MES']==1)]['CEDULA_COD'].nunique()) 
print('\tCedulas con al menos un atípico con más de un único sector:',
      data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==1) & (data_l['NUM_SEC_MES']>1)]['CEDULA_COD'].nunique())
print('*' * 50, 'Caso ', str( 2 ), '*' * 50)
print('\tCedulas con al menos un atípico con un único sector:',
      data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M2']==1) & (data_l['NUM_SEC_MES']==1)]['CEDULA_COD'].nunique()) 
print('\tCedulas con al menos un atípico con más de un único sector:',
      data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M2']==1) & (data_l['NUM_SEC_MES']>1)]['CEDULA_COD'].nunique())
print('*' * 50, 'Caso ', str( 3 ), '*' * 50)
print('\tCedulas con al menos un atípico con un único sector:',
      data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==1) & (data_l['NUM_SEC_MES']==1)]['CEDULA_COD'].nunique()) 
print('\tCedulas con al menos un atípico con más de un único sector:',
      data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M3']==1) & (data_l['NUM_SEC_MES']>1)]['CEDULA_COD'].nunique())
print('*' * 102)

In [None]:
#Para el caso 1-- Correcciones en función del número de sectores trabajados
data_l[ (data_l['GRUPO_SEL']==1) & (data_l['ATI_CJ_M1']==1) & (data_l['NUM_SEC_MES']>1)]

In [None]:
data_l[ (data_l['GRUPO_SEL']==1) & (data_l['CEDULA_COD']==397)]