In [1]:
# Import the libraries
import numpy as np  # Used for numerical computations and working with arrays.
import pandas as pd  # Used for data manipulation and analysis, particularly with structured data.
import matplotlib.pyplot as plt  # Used for creating various types of data visualizations.
import seaborn as sns  # Used for creating attractive and informative statistical graphics.
import time  # Used for measuring time or introducing delays in code.
import os  # Used for interacting with the operating system, like file and directory manipulation.
import re  # Used for pattern matching and manipulating strings based on regular expressions.
import datetime


In [2]:


def procesar_archivos_en_directorio(ruta_directorio):
    """
    Procesa archivos Excel dentro de una ruta dada que comienzan con "Base_" seguido de un número.
    
    Args:
    - ruta_directorio (str): Ruta al directorio que contiene los archivos a procesar.
    
    Returns:
    - DataFrame: Un conjunto de datos concatenado con el contenido de todos los archivos procesados.
    """
    # Lista todos los archivos en el directorio
    lista_archivos = os.listdir(ruta_directorio)
    print(lista_archivos)
    
    # Inicializa una lista vacía para almacenar DataFrames individuales
    lista_dataframes = []

    # Expresión regular para identificar archivos que siguen el patrón "Base_" seguido de un número
    patron = r'^Base_\d+'

    for nombre_archivo in lista_archivos:
        if re.match(patron, nombre_archivo):
            print(nombre_archivo)
            
            # Leer el archivo Excel principal, omitiendo las primeras 4 filas y usando 2 filas como encabezado
            df_principal = pd.read_excel(os.path.join(ruta_directorio, nombre_archivo), skiprows=4, header=[0, 1])
            
            # Leer las primeras 3 filas del mismo archivo para capturar información adicional
            df_info_adicional = pd.read_excel(os.path.join(ruta_directorio, nombre_archivo), nrows=3)

            # Extraer el número del nombre del archivo
            numero_archivo = re.search(r'(\d+)', nombre_archivo).group(1)
            df_principal['Nombre del Proceso'] = f"proceso {numero_archivo}"
            
            # Capturar información adicional y añadirla al DataFrame principal
            for i in range(3):
                df_principal[df_info_adicional.iloc[i, 0]] = df_info_adicional.iloc[i, 1]

            # Agregar información de metadatos
            df_principal['RECORD_SOURCE'] = nombre_archivo
            fecha_formateada = datetime.datetime.now().strftime("%Y-%m-%d %H:%M")
            df_principal['LOAD_DATE'] = fecha_formateada
            
            # Agregar DataFrame procesado a la lista
            lista_dataframes.append(df_principal)
        else:
            print(f"No es base a usar {nombre_archivo}")

    # Concatena todos los DataFrames en uno solo
    dataset_final = pd.concat(lista_dataframes)
    
    return dataset_final

# Uso del código:
ruta = 'Prueba reto'
Base_Total = procesar_archivos_en_directorio(ruta)
Base_permanencia = pd.read_excel(os.path.join(ruta, "Base_permanencia.xlsx"))


['Base_1.xlsx', 'Base_2.xlsx', 'Base_final_modelo.xlsx', 'Base_permanencia.xlsx']
Base_1.xlsx
Base_2.xlsx


  warn(msg)


No es base a usar Base_final_modelo.xlsx
No es base a usar Base_permanencia.xlsx


In [3]:
Base_Total.shape

(5047, 73)

In [4]:
Base_Total.columns

MultiIndex([(                                               'Ranking', ...),
            (                                    'No. Identificación', ...),
            (                                                'Estado', ...),
            (                                                'Origen', ...),
            (                                         'Contratado el', ...),
            (                                             'Etiquetas', ...),
            (      'Fecha de Ingreso a Proceso\n(Zona horaria GMT 0)', ...),
            ('Fecha de Finalización de Proceso\n(Zona horaria GMT 0)', ...),
            (                                                'Ciudad', ...),
            (                                                'Género', ...),
            (                                          'Estado Civil', ...),
            (                                                  'Edad', ...),
            (                                          'Discapacidad', ...),

In [5]:
Base_Total.shape

(5047, 73)

In [6]:
pd.set_option('display.max_columns', 78) 

In [7]:
Base_Total.tail(5) #Printing first 5 rows of the Base_Total

Unnamed: 0_level_0,Ranking,No. Identificación,Estado,Origen,Contratado el,Etiquetas,Fecha de Ingreso a Proceso\n(Zona horaria GMT 0),Fecha de Finalización de Proceso\n(Zona horaria GMT 0),Ciudad,Género,Estado Civil,Edad,Discapacidad,Reubicación laboral,Última Experiencia,Última Experiencia,Última Experiencia,Última Experiencia,Última Experiencia,Habilidades\nHabilidad (Nivel),Idiomas\nIdioma (Nivel),Motivadores Laborales,Preguntas filtro,Preguntas filtro,Preguntas filtro,Preguntas filtro,Preguntas filtro,Calidad del trabajo,Calidad del trabajo,Calidad del trabajo,Calidad del trabajo,Desarrollo de relaciones,Desarrollo de relaciones,Desarrollo de relaciones,Desarrollo de relaciones,Escrupulosidad/Minuciosidad,Escrupulosidad/Minuciosidad,Escrupulosidad/Minuciosidad,Escrupulosidad/Minuciosidad,Flexibilidad y Adaptabilidad,Flexibilidad y Adaptabilidad,Flexibilidad y Adaptabilidad,Flexibilidad y Adaptabilidad,Orden y la calidad,Orden y la calidad,Orden y la calidad,Orden y la calidad,Orientación al Logro,Orientación al Logro,Orientación al Logro,Orientación al Logro,Pensamiento Analítico,Pensamiento Analítico,Pensamiento Analítico,Pensamiento Analítico,Resolución de problemas,Resolución de problemas,Resolución de problemas,Resolución de problemas,Tesón y disciplina,Tesón y disciplina,Tesón y disciplina,Tesón y disciplina,Trabajo en equipo,Trabajo en equipo,Trabajo en equipo,Trabajo en equipo,Nombre del Proceso,Nombre del Perfil,Inicio \n(Zona horaria GMT 0),Fin \n(Zona horaria GMT 0),RECORD_SOURCE,LOAD_DATE
Unnamed: 0_level_1,Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Empresa,Cargo,Inicio,Fin,Actividades,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Indícanos el género que figura en tu DNI,Indícanos tu nivel educativo alcanzado,Indícanos tu ubicación actual,Indícanos tu estado civil,¿Estas estudiando actualmente?,Valor,Esperado,Brecha,Cumplimiento,Valor,Esperado,Brecha,Cumplimiento,Valor,Esperado,Brecha,Cumplimiento,Valor,Esperado,Brecha,Cumplimiento,Valor,Esperado,Brecha,Cumplimiento,Valor,Esperado,Brecha,Cumplimiento,Valor,Esperado,Brecha,Cumplimiento,Valor,Esperado,Brecha,Cumplimiento,Valor,Esperado,Brecha,Cumplimiento,Valor,Esperado,Brecha,Cumplimiento,Unnamed: 68_level_1,Unnamed: 69_level_1,Unnamed: 70_level_1,Unnamed: 71_level_1,Unnamed: 72_level_1,Unnamed: 73_level_1
4968,5075,ID10004106,TERMINADO,Manual,,,2022-08-16 17:35:00,2022-08-16 21:44:00,LIMA,FEMENINO,CASADO/A,38.0,No,No,,,,,,,,,Femenino,Secundaria completa,Lima,Casado,No,0.35,6.0,-5.65,0.43,0.56,6.0,-5.44,0.46,0.92,6.0,-5.08,0.49,1.26,6.0,-4.74,0.53,2.0,6.0,-4.0,0.6,0.0,6.0,-6.0,0.4,0.74,6.0,-5.26,0.47,0.56,6.0,-5.44,0.46,0.56,6.0,-5.44,0.46,0.0,6.0,-6.0,0.4,proceso 2,CAJERO,18/05/2023 16:02,31/08/2025 16:02,Base_2.xlsx,2023-09-24 02:40
4969,5076,ID10001314,TERMINADO,Manual,,,2022-06-01 02:59:00,2022-06-19 18:08:00,LIMA,FEMENINO,SOLTERO/A,18.0,No,No,Restaurante EL BUEN GUSTO y chifa,ATENCION AL CLIENTE,01/01/22,01/12/22,Me dedicaba atender a las personas,"Computer (Medio),trabajo en equipo (Alto)",,1.BUEN TRABAJO EN EQUIPO\n2.BUEN CLIMA DE TRAB...,Femenino,Secundaria completa,Lima,Soltero,No,0.35,6.0,-5.65,0.43,0.56,6.0,-5.44,0.46,0.92,6.0,-5.08,0.49,0.65,6.0,-5.35,0.47,2.0,6.0,-4.0,0.6,0.0,6.0,-6.0,0.4,0.74,6.0,-5.26,0.47,0.56,6.0,-5.44,0.46,0.56,6.0,-5.44,0.46,0.0,6.0,-6.0,0.4,proceso 2,CAJERO,18/05/2023 16:02,31/08/2025 16:02,Base_2.xlsx,2023-09-24 02:40
4970,5077,ID10002337,TERMINADO,Manual,,,2022-08-24 17:49:00,2022-08-24 18:35:00,LIMA,MASCULINO,SOLTERO/A,20.0,No,No,Executive solutions,OPERADOR DE PRODUCCION U OPERADOR BASICO,01/09/22,01/05/23,Operador de productos tissue cargo paletisador...,,Español (Intermedio),1.BONIFICACIONES POR BUEN DESEMPEÑO\n2.BUEN TR...,Masculino,Técnica completa,Lima,Soltero,No,0.35,6.0,-5.65,0.43,0.0,6.0,-6.0,0.4,0.92,6.0,-5.08,0.49,1.26,6.0,-4.74,0.53,2.0,6.0,-4.0,0.6,0.0,6.0,-6.0,0.4,0.0,6.0,-6.0,0.4,0.0,6.0,-6.0,0.4,0.56,6.0,-5.44,0.46,1.25,6.0,-4.75,0.53,proceso 2,CAJERO,18/05/2023 16:02,31/08/2025 16:02,Base_2.xlsx,2023-09-24 02:40
4971,5078,ID10001337,TERMINADO,Manual,,,2022-09-01 18:50:00,2022-09-05 17:15:00,LIMA,MASCULINO,SOLTERO/A,26.0,No,Sí,,,,,,,,,Masculino,Secundaria completa,Lima,Soltero,No,0.35,6.0,-5.65,0.43,1.67,6.0,-4.33,0.57,0.92,6.0,-5.08,0.49,0.17,6.0,-5.83,0.42,1.0,6.0,-5.0,0.5,0.0,6.0,-6.0,0.4,0.74,6.0,-5.26,0.47,0.56,6.0,-5.44,0.46,0.56,6.0,-5.44,0.46,0.0,6.0,-6.0,0.4,proceso 2,CAJERO,18/05/2023 16:02,31/08/2025 16:02,Base_2.xlsx,2023-09-24 02:40
4972,5079,ID10004230,TERMINADO,Manual,,,2022-08-24 17:49:00,NaT,LIMA,FEMENINO,SOLTERO/A,36.0,No,No,Imperio el sol,Mis experiencias laborales atención al cliente,01/05/09,01/11/10,Soy una persona muy positiva muy dinamica un c...,contratacion permanente (Alto),Inglés (Intermedio),1.BUEN CLIMA DE TRABAJO\n2.BUEN TRABAJO EN EQU...,Femenino,Técnico incompleta,Lima,Soltero,No,0.35,6.0,-5.65,0.43,0.0,6.0,-6.0,0.4,1.43,6.0,-4.57,0.54,0.65,6.0,-5.35,0.47,1.0,6.0,-5.0,0.5,1.15,6.0,-4.85,0.52,0.0,6.0,-6.0,0.4,0.0,6.0,-6.0,0.4,1.17,6.0,-4.83,0.52,0.0,6.0,-6.0,0.4,proceso 2,CAJERO,18/05/2023 16:02,31/08/2025 16:02,Base_2.xlsx,2023-09-24 02:40


In [8]:
Base_Total.columns

MultiIndex([(                                               'Ranking', ...),
            (                                    'No. Identificación', ...),
            (                                                'Estado', ...),
            (                                                'Origen', ...),
            (                                         'Contratado el', ...),
            (                                             'Etiquetas', ...),
            (      'Fecha de Ingreso a Proceso\n(Zona horaria GMT 0)', ...),
            ('Fecha de Finalización de Proceso\n(Zona horaria GMT 0)', ...),
            (                                                'Ciudad', ...),
            (                                                'Género', ...),
            (                                          'Estado Civil', ...),
            (                                                  'Edad', ...),
            (                                          'Discapacidad', ...),

In [9]:
# Cleaning up the column names
cleaned_columns = []
for col in Base_Total.columns:
    # Check if the second level of the multi-index is a string and contains "Unnamed:"
    if isinstance(col[1], str) and ("Unnamed:" in col[1] or col[1] == "" or col[1] is None):
        cleaned_columns.append(col[0])
    else:
        cleaned_columns.append(col)

Base_Total.columns = cleaned_columns

Base_Total.head(5)

Unnamed: 0,Ranking,No. Identificación,Estado,Origen,Contratado el,Etiquetas,Fecha de Ingreso a Proceso\n(Zona horaria GMT 0),Fecha de Finalización de Proceso\n(Zona horaria GMT 0),Ciudad,Género,Estado Civil,Edad,Discapacidad,Reubicación laboral,"(Última Experiencia, Empresa)","(Última Experiencia, Cargo)","(Última Experiencia, Inicio)","(Última Experiencia, Fin)","(Última Experiencia, Actividades)",Habilidades\nHabilidad (Nivel),Idiomas\nIdioma (Nivel),Motivadores Laborales,"(Preguntas filtro, Indícanos el género que figura en tu DNI)","(Preguntas filtro, Indícanos tu nivel educativo alcanzado)","(Preguntas filtro, Indícanos tu ubicación actual)","(Preguntas filtro, Indícanos tu estado civil)","(Preguntas filtro, ¿Estas estudiando actualmente?)","(Calidad del trabajo, Valor)","(Calidad del trabajo, Esperado)","(Calidad del trabajo, Brecha)","(Calidad del trabajo, Cumplimiento)","(Desarrollo de relaciones, Valor)","(Desarrollo de relaciones, Esperado)","(Desarrollo de relaciones, Brecha)","(Desarrollo de relaciones, Cumplimiento)","(Escrupulosidad/Minuciosidad, Valor)","(Escrupulosidad/Minuciosidad, Esperado)","(Escrupulosidad/Minuciosidad, Brecha)","(Escrupulosidad/Minuciosidad, Cumplimiento)","(Flexibilidad y Adaptabilidad, Valor)","(Flexibilidad y Adaptabilidad, Esperado)","(Flexibilidad y Adaptabilidad, Brecha)","(Flexibilidad y Adaptabilidad, Cumplimiento)","(Orden y la calidad, Valor)","(Orden y la calidad, Esperado)","(Orden y la calidad, Brecha)","(Orden y la calidad, Cumplimiento)","(Orientación al Logro, Valor)","(Orientación al Logro, Esperado)","(Orientación al Logro, Brecha)","(Orientación al Logro, Cumplimiento)","(Pensamiento Analítico, Valor)","(Pensamiento Analítico, Esperado)","(Pensamiento Analítico, Brecha)","(Pensamiento Analítico, Cumplimiento)","(Resolución de problemas, Valor)","(Resolución de problemas, Esperado)","(Resolución de problemas, Brecha)","(Resolución de problemas, Cumplimiento)","(Tesón y disciplina, Valor)","(Tesón y disciplina, Esperado)","(Tesón y disciplina, Brecha)","(Tesón y disciplina, Cumplimiento)","(Trabajo en equipo, Valor)","(Trabajo en equipo, Esperado)","(Trabajo en equipo, Brecha)","(Trabajo en equipo, Cumplimiento)",Nombre del Proceso,Nombre del Perfil,Inicio \n(Zona horaria GMT 0),Fin \n(Zona horaria GMT 0),RECORD_SOURCE,LOAD_DATE
0,1,ID00000001,TERMINADO,,,,2022-01-16 15:27:00,2022-01-23 03:25:00,MALA,FEMENINO,SOLTERO/A,20.0,No,No,,,,,,"contabilidad de proyectos (Alto),liderazgo de ...",,1.ESTABILIDAD LABORAL\n2.CAPACITACIÓN Y DESARR...,Femenino,Universitaria incompleta,Provincias,Soltero,Si,7.0,7.0,0.0,1.0,6.33,7.0,-0.67,0.93,7.0,7.0,0.0,1.0,5.22,7.0,-1.78,0.82,5.0,7.0,-2.0,0.8,5.0,7.0,-2.0,0.8,6.0,7.0,-1.0,0.9,8.22,7.0,1.22,0.88,5.0,7.0,-2.0,0.8,7.0,7.0,0.0,1.0,proceso 1,CAJERO,16/01/2023 15:27,04/03/2023 21:27,Base_1.xlsx,2023-09-24 02:40
1,2,ID00000054,TERMINADO,,,,2022-01-30 17:37:00,2022-02-03 08:47:00,MALA,FEMENINO,SOLTERO/A,19.0,No,No,,,,,,"Optimismo (Alto),Solidaridad (Alto),Empatía (A...",,1.BUEN LIDER/JEFE\n2.BUEN TRABAJO EN EQUIPO\n3...,Femenino,Técnico incompleta,Provincias,Soltero,Si,5.0,7.0,-2.0,0.8,7.0,7.0,0.0,1.0,6.0,7.0,-1.0,0.9,6.22,7.0,-0.78,0.92,5.0,7.0,-2.0,0.8,4.89,7.0,-2.11,0.79,6.0,7.0,-1.0,0.9,3.44,7.0,-3.56,0.64,6.0,7.0,-1.0,0.9,7.0,7.0,0.0,1.0,proceso 1,CAJERO,16/01/2023 15:27,04/03/2023 21:27,Base_1.xlsx,2023-09-24 02:40
2,3,ID00000032,TERMINADO,,,,2022-01-18 14:20:00,2022-01-18 18:11:00,MALA,MASCULINO,SOLTERO/A,23.0,No,No,,,,,,,,,Masculino,Universitaria completa,Lima,Soltero,Si,7.0,7.0,0.0,1.0,6.0,7.0,-1.0,0.9,9.0,7.0,2.0,0.8,6.67,7.0,-0.33,0.97,7.0,7.0,0.0,1.0,3.33,7.0,-3.67,0.63,7.0,7.0,0.0,1.0,7.11,7.0,0.11,0.99,0.0,7.0,-7.0,0.3,6.5,7.0,-0.5,0.95,proceso 1,CAJERO,16/01/2023 15:27,04/03/2023 21:27,Base_1.xlsx,2023-09-24 02:40
3,4,ID00000002,TERMINADO,,,,2022-01-23 22:17:00,2022-01-24 04:44:00,CHIMBOTE,MASCULINO,SOLTERO/A,19.0,No,No,DON PEPE,VENDEDOR,01/01/21,01/05/21,Mis funciones en esta empresa de venta de abar...,"Retail (Medio),ingles comercial (Bajo),Windows...",Inglés (Básico),1.OPORTUNIDADES DE CRECIMIENTO (PLAN DE CARRER...,Masculino,Secundaria completa,Provincias,Soltero,Si,7.0,7.0,0.0,1.0,4.44,7.0,-2.56,0.74,7.0,7.0,0.0,1.0,6.11,7.0,-0.89,0.91,5.0,7.0,-2.0,0.8,5.11,7.0,-1.89,0.81,4.0,7.0,-3.0,0.7,7.44,7.0,0.44,0.96,4.0,7.0,-3.0,0.7,5.5,7.0,-1.5,0.85,proceso 1,CAJERO,16/01/2023 15:27,04/03/2023 21:27,Base_1.xlsx,2023-09-24 02:40
4,5,ID00000031,TERMINADO,,,,2022-02-02 00:53:00,2022-02-02 16:47:00,MALA,FEMENINO,SOLTERO/A,24.0,No,No,Tiendas efe cañete,ASESOR COMERCIAL RETAIL,01/10/22,01/02/23,Estuve como acesora de ventas en la empresa re...,contabilidad tributaria (Bajo),,1.CAPACITACIÓN Y DESARROLLO PROFESIONAL\n2.DES...,Femenino,Técnica completa,Provincias,Soltero,No,5.0,7.0,-2.0,0.8,7.56,7.0,0.56,0.94,7.0,7.0,0.0,1.0,5.56,7.0,-1.44,0.86,5.0,7.0,-2.0,0.8,5.67,7.0,-1.33,0.87,2.0,7.0,-5.0,0.5,7.67,7.0,0.67,0.93,4.0,7.0,-3.0,0.7,6.5,7.0,-0.5,0.95,proceso 1,CAJERO,16/01/2023 15:27,04/03/2023 21:27,Base_1.xlsx,2023-09-24 02:40


In [10]:
Base_Total.columns

Index([                                                       'Ranking',
                                                   'No. Identificación',
                                                               'Estado',
                                                               'Origen',
                                                        'Contratado el',
                                                            'Etiquetas',
                     'Fecha de Ingreso a Proceso\n(Zona horaria GMT 0)',
               'Fecha de Finalización de Proceso\n(Zona horaria GMT 0)',
                                                               'Ciudad',
                                                               'Género',
                                                         'Estado Civil',
                                                                 'Edad',
                                                         'Discapacidad',
                                                  '

In [11]:
new_columns = []
for col in Base_Total.columns:
    if isinstance(col, tuple):
        new_col = '_'.join(col)
    else:
        new_col = col
    new_columns.append(new_col)

Base_Total.columns = new_columns

In [12]:
Base_Total.columns

Index(['Ranking', 'No. Identificación', 'Estado', 'Origen', 'Contratado el',
       'Etiquetas', 'Fecha de Ingreso a Proceso\n(Zona horaria GMT 0)',
       'Fecha de Finalización de Proceso\n(Zona horaria GMT 0)', 'Ciudad',
       'Género', 'Estado Civil', 'Edad', 'Discapacidad', 'Reubicación laboral',
       'Última Experiencia_Empresa', 'Última Experiencia_Cargo',
       'Última Experiencia_Inicio', 'Última Experiencia_Fin',
       'Última Experiencia_Actividades', 'Habilidades\nHabilidad (Nivel)',
       'Idiomas\nIdioma (Nivel)', 'Motivadores Laborales',
       'Preguntas filtro_Indícanos el género que figura en tu DNI',
       'Preguntas filtro_Indícanos tu nivel educativo alcanzado',
       'Preguntas filtro_Indícanos tu ubicación actual',
       'Preguntas filtro_Indícanos tu estado civil',
       'Preguntas filtro_¿Estas estudiando actualmente?',
       'Calidad del trabajo_Valor', 'Calidad del trabajo_Esperado',
       'Calidad del trabajo_Brecha', 'Calidad del trabajo_Cumplim

In [13]:
Base_Total.columns = Base_Total.columns.str.replace('\n', ' ')


In [14]:
Base_Total.head(5)

Unnamed: 0,Ranking,No. Identificación,Estado,Origen,Contratado el,Etiquetas,Fecha de Ingreso a Proceso (Zona horaria GMT 0),Fecha de Finalización de Proceso (Zona horaria GMT 0),Ciudad,Género,Estado Civil,Edad,Discapacidad,Reubicación laboral,Última Experiencia_Empresa,Última Experiencia_Cargo,Última Experiencia_Inicio,Última Experiencia_Fin,Última Experiencia_Actividades,Habilidades Habilidad (Nivel),Idiomas Idioma (Nivel),Motivadores Laborales,Preguntas filtro_Indícanos el género que figura en tu DNI,Preguntas filtro_Indícanos tu nivel educativo alcanzado,Preguntas filtro_Indícanos tu ubicación actual,Preguntas filtro_Indícanos tu estado civil,Preguntas filtro_¿Estas estudiando actualmente?,Calidad del trabajo_Valor,Calidad del trabajo_Esperado,Calidad del trabajo_Brecha,Calidad del trabajo_Cumplimiento,Desarrollo de relaciones_Valor,Desarrollo de relaciones_Esperado,Desarrollo de relaciones_Brecha,Desarrollo de relaciones_Cumplimiento,Escrupulosidad/Minuciosidad_Valor,Escrupulosidad/Minuciosidad_Esperado,Escrupulosidad/Minuciosidad_Brecha,Escrupulosidad/Minuciosidad_Cumplimiento,Flexibilidad y Adaptabilidad_Valor,Flexibilidad y Adaptabilidad_Esperado,Flexibilidad y Adaptabilidad_Brecha,Flexibilidad y Adaptabilidad_Cumplimiento,Orden y la calidad_Valor,Orden y la calidad_Esperado,Orden y la calidad_Brecha,Orden y la calidad_Cumplimiento,Orientación al Logro_Valor,Orientación al Logro_Esperado,Orientación al Logro_Brecha,Orientación al Logro_Cumplimiento,Pensamiento Analítico_Valor,Pensamiento Analítico_Esperado,Pensamiento Analítico_Brecha,Pensamiento Analítico_Cumplimiento,Resolución de problemas_Valor,Resolución de problemas_Esperado,Resolución de problemas_Brecha,Resolución de problemas_Cumplimiento,Tesón y disciplina_Valor,Tesón y disciplina_Esperado,Tesón y disciplina_Brecha,Tesón y disciplina_Cumplimiento,Trabajo en equipo_Valor,Trabajo en equipo_Esperado,Trabajo en equipo_Brecha,Trabajo en equipo_Cumplimiento,Nombre del Proceso,Nombre del Perfil,Inicio (Zona horaria GMT 0),Fin (Zona horaria GMT 0),RECORD_SOURCE,LOAD_DATE
0,1,ID00000001,TERMINADO,,,,2022-01-16 15:27:00,2022-01-23 03:25:00,MALA,FEMENINO,SOLTERO/A,20.0,No,No,,,,,,"contabilidad de proyectos (Alto),liderazgo de ...",,1.ESTABILIDAD LABORAL\n2.CAPACITACIÓN Y DESARR...,Femenino,Universitaria incompleta,Provincias,Soltero,Si,7.0,7.0,0.0,1.0,6.33,7.0,-0.67,0.93,7.0,7.0,0.0,1.0,5.22,7.0,-1.78,0.82,5.0,7.0,-2.0,0.8,5.0,7.0,-2.0,0.8,6.0,7.0,-1.0,0.9,8.22,7.0,1.22,0.88,5.0,7.0,-2.0,0.8,7.0,7.0,0.0,1.0,proceso 1,CAJERO,16/01/2023 15:27,04/03/2023 21:27,Base_1.xlsx,2023-09-24 02:40
1,2,ID00000054,TERMINADO,,,,2022-01-30 17:37:00,2022-02-03 08:47:00,MALA,FEMENINO,SOLTERO/A,19.0,No,No,,,,,,"Optimismo (Alto),Solidaridad (Alto),Empatía (A...",,1.BUEN LIDER/JEFE\n2.BUEN TRABAJO EN EQUIPO\n3...,Femenino,Técnico incompleta,Provincias,Soltero,Si,5.0,7.0,-2.0,0.8,7.0,7.0,0.0,1.0,6.0,7.0,-1.0,0.9,6.22,7.0,-0.78,0.92,5.0,7.0,-2.0,0.8,4.89,7.0,-2.11,0.79,6.0,7.0,-1.0,0.9,3.44,7.0,-3.56,0.64,6.0,7.0,-1.0,0.9,7.0,7.0,0.0,1.0,proceso 1,CAJERO,16/01/2023 15:27,04/03/2023 21:27,Base_1.xlsx,2023-09-24 02:40
2,3,ID00000032,TERMINADO,,,,2022-01-18 14:20:00,2022-01-18 18:11:00,MALA,MASCULINO,SOLTERO/A,23.0,No,No,,,,,,,,,Masculino,Universitaria completa,Lima,Soltero,Si,7.0,7.0,0.0,1.0,6.0,7.0,-1.0,0.9,9.0,7.0,2.0,0.8,6.67,7.0,-0.33,0.97,7.0,7.0,0.0,1.0,3.33,7.0,-3.67,0.63,7.0,7.0,0.0,1.0,7.11,7.0,0.11,0.99,0.0,7.0,-7.0,0.3,6.5,7.0,-0.5,0.95,proceso 1,CAJERO,16/01/2023 15:27,04/03/2023 21:27,Base_1.xlsx,2023-09-24 02:40
3,4,ID00000002,TERMINADO,,,,2022-01-23 22:17:00,2022-01-24 04:44:00,CHIMBOTE,MASCULINO,SOLTERO/A,19.0,No,No,DON PEPE,VENDEDOR,01/01/21,01/05/21,Mis funciones en esta empresa de venta de abar...,"Retail (Medio),ingles comercial (Bajo),Windows...",Inglés (Básico),1.OPORTUNIDADES DE CRECIMIENTO (PLAN DE CARRER...,Masculino,Secundaria completa,Provincias,Soltero,Si,7.0,7.0,0.0,1.0,4.44,7.0,-2.56,0.74,7.0,7.0,0.0,1.0,6.11,7.0,-0.89,0.91,5.0,7.0,-2.0,0.8,5.11,7.0,-1.89,0.81,4.0,7.0,-3.0,0.7,7.44,7.0,0.44,0.96,4.0,7.0,-3.0,0.7,5.5,7.0,-1.5,0.85,proceso 1,CAJERO,16/01/2023 15:27,04/03/2023 21:27,Base_1.xlsx,2023-09-24 02:40
4,5,ID00000031,TERMINADO,,,,2022-02-02 00:53:00,2022-02-02 16:47:00,MALA,FEMENINO,SOLTERO/A,24.0,No,No,Tiendas efe cañete,ASESOR COMERCIAL RETAIL,01/10/22,01/02/23,Estuve como acesora de ventas en la empresa re...,contabilidad tributaria (Bajo),,1.CAPACITACIÓN Y DESARROLLO PROFESIONAL\n2.DES...,Femenino,Técnica completa,Provincias,Soltero,No,5.0,7.0,-2.0,0.8,7.56,7.0,0.56,0.94,7.0,7.0,0.0,1.0,5.56,7.0,-1.44,0.86,5.0,7.0,-2.0,0.8,5.67,7.0,-1.33,0.87,2.0,7.0,-5.0,0.5,7.67,7.0,0.67,0.93,4.0,7.0,-3.0,0.7,6.5,7.0,-0.5,0.95,proceso 1,CAJERO,16/01/2023 15:27,04/03/2023 21:27,Base_1.xlsx,2023-09-24 02:40


In [15]:
# Lista de competencias que quieres revisar
competencias = ["Calidad del trabajo", 
                "Desarrollo de relaciones", 
                "Escrupulosidad/Minuciosidad", 
                "Flexibilidad y Adaptabilidad", 
                "Orden y la calidad", 
                "Orientación al Logro", 
                "Pensamiento Analítico", 
                "Resolución de problemas", 
                "Tesón y disciplina", 
                "Trabajo en equipo"]

# Categorías de las competencias a verificar
categorias = ["_Valor", "_Esperado", "_Brecha", "_Cumplimiento"]

# Construye una máscara para filtrar las filas
mask = True
for competencia in competencias:
    for categoria in categorias:
        columna = f"{competencia}{categoria}"
        mask &= Base_Total[columna].notna()

# Elimina las filas usando la máscara inversa (con ~)
Base_Total.drop(Base_Total[~mask].index, inplace=True)


In [16]:
Base_Total.shape

(5040, 73)

In [17]:
Base_Total["Fecha de Finalización de Proceso (Zona horaria GMT 0)"] = Base_Total["Fecha de Finalización de Proceso (Zona horaria GMT 0)"].fillna(Base_Total["Fecha de Ingreso a Proceso (Zona horaria GMT 0)"])

In [18]:
# Ordena el DataFrame por 'Fecha de Finalización de Proceso (Zona horaria GMT 0)' de manera descendente
Base_Total = Base_Total.sort_values(by='Fecha de Finalización de Proceso (Zona horaria GMT 0)', ascending=False)

# Elimina duplicados por 'No. Identificación' y se queda con el primer registro (el más reciente debido al ordenamiento previo)
Base_Total = Base_Total.drop_duplicates(subset='No. Identificación', keep='first')


In [19]:
Base_Total.shape

(4975, 73)

In [20]:
current_datetime = datetime.datetime.now()
formatted_datetime = current_datetime.strftime("%Y-%m-%d %H:%M")  # Formatea la fecha y hora actual
Base_Total['PROCESS_DATA'] = formatted_datetime
# Obtener el nombre de usuario de Windows
windows_username = os.getlogin()

# Establecer el valor de la columna CREATION_USER
Base_Total['CREATION_USER'] = windows_username

In [21]:
Base_Total["No. Identificación"]=Base_Total["No. Identificación"].str.replace(' ', '', regex=True)
Base_permanencia["No. Identificación"]=Base_permanencia["No. Identificación"].str.replace(' ', '', regex=True)
Base_Total=pd.merge(Base_Total,Base_permanencia,how='inner',on='No. Identificación')

In [22]:
Base_Total.columns

Index(['Ranking', 'No. Identificación', 'Estado', 'Origen', 'Contratado el',
       'Etiquetas', 'Fecha de Ingreso a Proceso (Zona horaria GMT 0)',
       'Fecha de Finalización de Proceso (Zona horaria GMT 0)', 'Ciudad',
       'Género', 'Estado Civil', 'Edad', 'Discapacidad', 'Reubicación laboral',
       'Última Experiencia_Empresa', 'Última Experiencia_Cargo',
       'Última Experiencia_Inicio', 'Última Experiencia_Fin',
       'Última Experiencia_Actividades', 'Habilidades Habilidad (Nivel)',
       'Idiomas Idioma (Nivel)', 'Motivadores Laborales',
       'Preguntas filtro_Indícanos el género que figura en tu DNI',
       'Preguntas filtro_Indícanos tu nivel educativo alcanzado',
       'Preguntas filtro_Indícanos tu ubicación actual',
       'Preguntas filtro_Indícanos tu estado civil',
       'Preguntas filtro_¿Estas estudiando actualmente?',
       'Calidad del trabajo_Valor', 'Calidad del trabajo_Esperado',
       'Calidad del trabajo_Brecha', 'Calidad del trabajo_Cumplimient

In [23]:
Base_Total = Base_Total.sort_values(by=["Nombre del Proceso",'Ranking'], ascending=True)


In [25]:
Base_Total.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4975 entries, 4941 to 1349
Data columns (total 76 columns):
 #   Column                                                     Non-Null Count  Dtype         
---  ------                                                     --------------  -----         
 0   Ranking                                                    4975 non-null   int64         
 1   No. Identificación                                         4975 non-null   object        
 2   Estado                                                     4975 non-null   object        
 3   Origen                                                     4912 non-null   object        
 4   Contratado el                                              0 non-null      float64       
 5   Etiquetas                                                  0 non-null      float64       
 6   Fecha de Ingreso a Proceso (Zona horaria GMT 0)            4975 non-null   datetime64[ns]
 7   Fecha de Finalización de Proceso (Z

In [24]:
Base_Total.to_excel("Modelo_base_consolidado.xlsx",index=False)