# 1. Imports and environment setup.

Purpose: lightweight environment initialization without embedding business logic.

In [56]:
import os
import pandas as pd
import numpy as np
from tfm.config import RAW_DIR, INTERIM_DIR, PROCESSED_DIR

# Planilla

In [57]:
planilla = pd.read_csv(os.path.join(RAW_DIR,"planilla.csv"))
planilla.head()

Unnamed: 0,numero_empleado,titulo,departamento,fecha_ingreso,modalidad_trabajo,salario_bruto_anual_eur
0,EI1400001ES,Asistente Comercial,Comercial,2014-01-14,Oficina,25306
1,EI2000002ES,Asistente de Crédito,Crédito,2020-10-01,Híbrido,30434
2,EI9600003ES,Gerente de Riesgo,Riesgo,1996-09-12,Oficina,98380
3,EI0600004ES,Ejecutivo Comercial,Comercial,2006-10-31,Oficina,55529
4,EI1700005ES,Asistente Comercial,Comercial,2017-03-03,Oficina,31382


In [58]:
planilla['fecha_ingreso'] = pd.to_datetime(planilla['fecha_ingreso'], format='%Y-%m-%d')
planilla = planilla.rename(columns={'numero_empleado': 'id', 
                                    'titulo': 'job_title', 
                                    'departamento':'department', 
                                    'fecha_ingreso':'start_date', 
                                    'modalidad_trabajo':'location',
                                    'salario_bruto_anual_eur':'salary'})

In [59]:
planilla.head()

Unnamed: 0,id,job_title,department,start_date,location,salary
0,EI1400001ES,Asistente Comercial,Comercial,2014-01-14,Oficina,25306
1,EI2000002ES,Asistente de Crédito,Crédito,2020-10-01,Híbrido,30434
2,EI9600003ES,Gerente de Riesgo,Riesgo,1996-09-12,Oficina,98380
3,EI0600004ES,Ejecutivo Comercial,Comercial,2006-10-31,Oficina,55529
4,EI1700005ES,Asistente Comercial,Comercial,2017-03-03,Oficina,31382


In [60]:
planilla.info()

<class 'pandas.DataFrame'>
RangeIndex: 7000 entries, 0 to 6999
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   id          7000 non-null   str           
 1   job_title   7000 non-null   str           
 2   department  7000 non-null   str           
 3   start_date  7000 non-null   datetime64[us]
 4   location    7000 non-null   str           
 5   salary      7000 non-null   int64         
dtypes: datetime64[us](1), int64(1), str(4)
memory usage: 638.3 KB


In [61]:
planilla.describe()

Unnamed: 0,start_date,salary
count,7000,7000.0
mean,2008-05-23 06:45:27.771428,67963.801143
min,1990-01-01 00:00:00,22021.0
25%,1999-02-23 06:00:00,38256.75
50%,2008-05-01 12:00:00,57045.5
75%,2017-07-22 18:00:00,95531.5
max,2026-12-30 00:00:00,195315.0
std,,34863.945473


In [62]:
#Extraer los diferentes titulos
job_title_df = pd.DataFrame(planilla['job_title'].unique())
job_title_df.columns = ['job_title']
#Agrega nueva columna ID
job_title_df.insert(0, 'id', range(1, len(job_title_df) + 1))
job_title_df.head(20)

Unnamed: 0,id,job_title
0,1,Asistente Comercial
1,2,Asistente de Crédito
2,3,Gerente de Riesgo
3,4,Ejecutivo Comercial
4,5,Gerente General
5,6,Analista de Operaciones
6,7,Director IT
7,8,Analista de Riesgo
8,9,Soporte IT
9,10,Gerente de Área


In [63]:
#Extraer las diferentes modalidades
location_df = pd.DataFrame(planilla['location'].unique())
location_df.columns = ['location']
#Agrega nueva columna ID
location_df.insert(0, 'id', range(1, len(location_df) + 1))
location_df.head(20)

Unnamed: 0,id,location
0,1,Oficina
1,2,Híbrido
2,3,Remoto


In [64]:
#Extraer las diferentes departamentos
department_df = pd.DataFrame(planilla['department'].unique())
department_df.columns = ['department']
#Agrega nueva columna ID
department_df.insert(0, 'id', range(1, len(department_df) + 1))
department_df.head(20)

Unnamed: 0,id,department
0,1,Comercial
1,2,Crédito
2,3,Riesgo
3,4,Gerencia
4,5,Operaciones
5,6,Dirección
6,7,IT
7,8,Talento Humano
8,9,Atención al Cliente


In [65]:
job_map = job_title_df.set_index('job_title')['id'].to_dict()
job_map

{'Asistente Comercial': 1,
 'Asistente de Crédito': 2,
 'Gerente de Riesgo': 3,
 'Ejecutivo Comercial': 4,
 'Gerente General': 5,
 'Analista de Operaciones': 6,
 'Director IT': 7,
 'Analista de Riesgo': 8,
 'Soporte IT': 9,
 'Gerente de Área': 10,
 'Gerente de Operaciones': 11,
 'Analista RRHH': 12,
 'Supervisor de Sucursal': 13,
 'Arquitecto de Software': 14,
 'Gerente Comercial': 15,
 'Analista de Crédito': 16,
 'Gerente IT': 17,
 'Cajero': 18,
 'Desarrollador': 19,
 'Director de Riesgo': 20,
 'Especialista RRHH': 21,
 'Asistente de Plataforma': 22,
 'Gerente de Talento Humano': 23,
 'Gerente de Crédito': 24,
 'Analista de Datos': 25,
 'Director Financiero': 26,
 'Director Comercial': 27}

In [66]:
location_map = location_df.set_index('location')['id'].to_dict()
location_map

{'Oficina': 1, 'Híbrido': 2, 'Remoto': 3}

In [67]:
department_map = department_df.set_index('department')['id'].to_dict()
department_map

{'Comercial': 1,
 'Crédito': 2,
 'Riesgo': 3,
 'Gerencia': 4,
 'Operaciones': 5,
 'Dirección': 6,
 'IT': 7,
 'Talento Humano': 8,
 'Atención al Cliente': 9}

In [68]:
planilla['job_title'] = planilla['job_title'].map(job_map)
planilla['location'] = planilla['location'].map(location_map)
planilla['department'] = planilla['department'].map(department_map)

In [69]:
planilla.head(15)

Unnamed: 0,id,job_title,department,start_date,location,salary
0,EI1400001ES,1,1,2014-01-14,1,25306
1,EI2000002ES,2,2,2020-10-01,2,30434
2,EI9600003ES,3,3,1996-09-12,1,98380
3,EI0600004ES,4,1,2006-10-31,1,55529
4,EI1700005ES,1,1,2017-03-03,1,31382
5,EI1600006ES,5,4,2016-09-12,2,195315
6,EI2100007ES,6,5,2021-11-04,2,36036
7,EI9300008ES,7,6,1993-11-23,2,152574
8,EI1000009ES,4,1,2010-04-10,1,44916
9,EI9700010ES,8,3,1997-11-07,2,43677


In [70]:
job_title_df.to_csv(os.path.join(INTERIM_DIR,"job_titles.csv"), index=False)
location_df.to_csv(os.path.join(INTERIM_DIR,"locations.csv"), index=False)
department_df.to_csv(os.path.join(INTERIM_DIR,"departments.csv"), index=False)
planilla.to_csv(os.path.join(INTERIM_DIR,"employees.csv"), index=False)
job_title_df.to_parquet(os.path.join(PROCESSED_DIR,"job_titles.parquet"), index=False)
location_df.to_parquet(os.path.join(PROCESSED_DIR,"location.parquet"), index=False)
department_df.to_parquet(os.path.join(PROCESSED_DIR,"departments.parquet"), index=False)
planilla.to_parquet(os.path.join(PROCESSED_DIR,"employees.parquet"), index=False)

# CBI

In [71]:
cbi = pd.read_csv(os.path.join(RAW_DIR,"cbi_respuestas.csv"))
cbi.head()

Unnamed: 0,numero_empleado,cbi_item_1,cbi_item_2,cbi_item_3,cbi_item_4,cbi_item_5,cbi_item_6,cbi_item_7,cbi_item_8,cbi_item_9,...,cbi_item_11,cbi_item_12,cbi_item_13,cbi_item_14,cbi_item_15,cbi_item_16,cbi_item_17,cbi_item_18,cbi_item_19,timestamp_respuesta
0,EI0206501ES,A menudo,Raramente,A menudo,A veces,Siempre,Nunca,A menudo,Siempre,Nunca,...,A veces,Nunca,Raramente,Siempre,Siempre,Siempre,Siempre,Nunca,A menudo,2026-05-18 14:46:27
1,EI9402945ES,Nunca,Siempre,Raramente,Nunca,A menudo,Raramente,Siempre,A veces,A veces,...,Siempre,Siempre,Raramente,Raramente,Siempre,A veces,A veces,Raramente,A veces,2026-08-01 04:47:30
2,EI2402025ES,Raramente,Raramente,Nunca,A veces,A veces,Raramente,Nunca,A veces,Raramente,...,Siempre,Raramente,A veces,Raramente,A veces,A veces,A menudo,A veces,Raramente,2026-08-27 11:38:02
3,EI9800264ES,A veces,A veces,Raramente,Raramente,Siempre,A menudo,Raramente,Raramente,Nunca,...,Raramente,A menudo,A menudo,A veces,Nunca,A veces,A veces,A menudo,Siempre,2026-11-29 00:39:07
4,EI0304351ES,A menudo,A veces,A menudo,A menudo,A veces,A menudo,A veces,Nunca,Siempre,...,A veces,A veces,A menudo,A menudo,A menudo,Nunca,A menudo,Siempre,Raramente,2026-02-20 12:56:37


In [72]:
cbi.info()

<class 'pandas.DataFrame'>
RangeIndex: 6720 entries, 0 to 6719
Data columns (total 21 columns):
 #   Column               Non-Null Count  Dtype
---  ------               --------------  -----
 0   numero_empleado      6720 non-null   str  
 1   cbi_item_1           6720 non-null   str  
 2   cbi_item_2           6720 non-null   str  
 3   cbi_item_3           6720 non-null   str  
 4   cbi_item_4           6720 non-null   str  
 5   cbi_item_5           6720 non-null   str  
 6   cbi_item_6           6720 non-null   str  
 7   cbi_item_7           6720 non-null   str  
 8   cbi_item_8           6720 non-null   str  
 9   cbi_item_9           6720 non-null   str  
 10  cbi_item_10          6720 non-null   str  
 11  cbi_item_11          6720 non-null   str  
 12  cbi_item_12          6720 non-null   str  
 13  cbi_item_13          6720 non-null   str  
 14  cbi_item_14          6720 non-null   str  
 15  cbi_item_15          6720 non-null   str  
 16  cbi_item_16          6720 non-null 

In [73]:
cbi = cbi.rename(columns={'numero_empleado': 'emp_id'})
cbi.rename(
    columns={f"cbi_item_{i}": f"cbi{i}" for i in range(1, 20)},
    inplace=True
)

In [74]:
cbi.info()

<class 'pandas.DataFrame'>
RangeIndex: 6720 entries, 0 to 6719
Data columns (total 21 columns):
 #   Column               Non-Null Count  Dtype
---  ------               --------------  -----
 0   emp_id               6720 non-null   str  
 1   cbi1                 6720 non-null   str  
 2   cbi2                 6720 non-null   str  
 3   cbi3                 6720 non-null   str  
 4   cbi4                 6720 non-null   str  
 5   cbi5                 6720 non-null   str  
 6   cbi6                 6720 non-null   str  
 7   cbi7                 6720 non-null   str  
 8   cbi8                 6720 non-null   str  
 9   cbi9                 6720 non-null   str  
 10  cbi10                6720 non-null   str  
 11  cbi11                6720 non-null   str  
 12  cbi12                6720 non-null   str  
 13  cbi13                6720 non-null   str  
 14  cbi14                6720 non-null   str  
 15  cbi15                6720 non-null   str  
 16  cbi16                6720 non-null 

In [75]:
respuestas = {
    'A menudo':1,
    'A veces':2,
    'Raramente':3,
    'Siempre':4,
    'Nunca':5
}

In [76]:
cols = cbi.loc[:, "cbi1":"cbi19"].columns
for col in cols:
    cbi[col] = (
        cbi[col]
            .map(respuestas)
            .astype("Int64")  # nullable integer
    )

In [77]:
cbi = cbi.drop(columns=['timestamp_respuesta'])
cbi.head()


Unnamed: 0,emp_id,cbi1,cbi2,cbi3,cbi4,cbi5,cbi6,cbi7,cbi8,cbi9,cbi10,cbi11,cbi12,cbi13,cbi14,cbi15,cbi16,cbi17,cbi18,cbi19
0,EI0206501ES,1,3,1,2,4,5,1,4,5,4,2,5,3,4,4,4,4,5,1
1,EI9402945ES,5,4,3,5,1,3,4,2,2,2,4,4,3,3,4,2,2,3,2
2,EI2402025ES,3,3,5,2,2,3,5,2,3,2,4,3,2,3,2,2,1,2,3
3,EI9800264ES,2,2,3,3,4,1,3,3,5,2,3,1,1,2,5,2,2,1,4
4,EI0304351ES,1,2,1,1,2,1,2,5,4,5,2,2,1,1,1,5,1,4,3


In [78]:
cbi.to_csv(os.path.join(INTERIM_DIR,"cbi_results.csv"), index=False)
cbi.to_parquet(os.path.join(PROCESSED_DIR,"cbi_results.parquet"), index=False)

# Operativo

In [79]:
operativo = pd.read_csv(os.path.join(RAW_DIR,"datos_operativos.csv"))
operativo.head()

Unnamed: 0,numero_empleado,periodo,horas_laborales_normales,horas_extras,ausencias_justificadas,ausencias_no_justificadas,llegadas_tardias,evaluacion_desempeno
0,EI1400001ES,2025-02,165,7,0,0,2,Exceeds
1,EI1400001ES,2025-03,165,9,1,0,0,Meets
2,EI1400001ES,2025-04,156,11,1,1,0,Exceeds
3,EI1400001ES,2025-05,160,4,0,0,0,Meets
4,EI1400001ES,2025-06,153,5,0,0,0,Exceeds


In [80]:
operativo.info()

<class 'pandas.DataFrame'>
RangeIndex: 84000 entries, 0 to 83999
Data columns (total 8 columns):
 #   Column                     Non-Null Count  Dtype
---  ------                     --------------  -----
 0   numero_empleado            84000 non-null  str  
 1   periodo                    84000 non-null  str  
 2   horas_laborales_normales   84000 non-null  int64
 3   horas_extras               84000 non-null  int64
 4   ausencias_justificadas     84000 non-null  int64
 5   ausencias_no_justificadas  84000 non-null  int64
 6   llegadas_tardias           84000 non-null  int64
 7   evaluacion_desempeno       84000 non-null  str  
dtypes: int64(5), str(3)
memory usage: 7.1 MB


In [None]:
operativo["mes"] = operativo["periodo"].str.split("-").str[1]
operativo["periodo"] = operativo["periodo"].str.split("-").str[0]

#cambiamos year de la ultima posicion a la posicion 2
col = operativo.columns[8]
operativo.insert(2, col, operativo.pop(col))

operativo["periodo"] = pd.to_numeric(operativo['periodo'], errors='coerce').astype('Int64')
operativo["mes"] = pd.to_numeric(operativo['mes'], errors='coerce').astype('Int64')

operativo = operativo.rename(columns={'numero_empleado': 'emp_id', 
                                    'periodo': 'year', 
                                    'mes':'month', 
                                    'horas_laborales_normales':'hours_normal', 
                                    'horas_extras':'hours_extra',
                                    'ausencias_justificadas':'absence',
                                    'ausencias_no_justificadas':'absence_unapprove',
                                    'llegadas_tardias':'lateness',
                                    'evaluacion_desempeno':'rating'})

operativo.head()

Unnamed: 0,emp_id,year,mes,hours_normal,hours_extra,absence,absence_unapprove,lateness,rating
0,EI1400001ES,2025,2,165,7,0,0,2,Exceeds
1,EI1400001ES,2025,3,165,9,1,0,0,Meets
2,EI1400001ES,2025,4,156,11,1,1,0,Exceeds
3,EI1400001ES,2025,5,160,4,0,0,0,Meets
4,EI1400001ES,2025,6,153,5,0,0,0,Exceeds


In [82]:
rating = {
    'Outstanding':1,
    'Exceeds':2,
    'Meets':3,
    'Needs Improvement':4
}
rating_df = pd.DataFrame(
    list(rating.items()),
    columns=["description", "id"]
)

In [83]:
operativo['rating'] = operativo['rating'].map(rating)
operativo.head()

Unnamed: 0,emp_id,year,mes,hours_normal,hours_extra,absence,absence_unapprove,lateness,rating
0,EI1400001ES,2025,2,165,7,0,0,2,2
1,EI1400001ES,2025,3,165,9,1,0,0,3
2,EI1400001ES,2025,4,156,11,1,1,0,2
3,EI1400001ES,2025,5,160,4,0,0,0,3
4,EI1400001ES,2025,6,153,5,0,0,0,2


In [84]:
rating_df.head()

Unnamed: 0,description,id
0,Outstanding,1
1,Exceeds,2
2,Meets,3
3,Needs Improvement,4


In [85]:
rating_df.to_csv(os.path.join(INTERIM_DIR,"rating.csv"), index=False)
operativo.to_csv(os.path.join(INTERIM_DIR,"history_operation.csv"), index=False)
rating_df.to_parquet(os.path.join(PROCESSED_DIR,"rating.parquet"), index=False)
operativo.to_parquet(os.path.join(PROCESSED_DIR,"history_operation.parquet"), index=False)

# Psicosociales

In [86]:
sociales = pd.read_csv(os.path.join(RAW_DIR,"factores_psicosociales.csv"))
sociales.head()

Unnamed: 0,numero_empleado,periodo,feedback_clientes,reconocimientos_desempeno_merito,apoyo_supervisor,apoyo_equipo
0,EI0302199ES,2025-02,2,5,5,2
1,EI0302199ES,2025-03,2,4,2,3
2,EI0302199ES,2025-04,2,3,4,4
3,EI0302199ES,2025-05,3,5,5,4
4,EI0302199ES,2025-06,4,4,1,4


In [87]:
sociales.rename(
    columns={"reconocimientos_desempeno_merito": "reconocimiento"},
    inplace=True
)

In [None]:
sociales["mes"] = sociales["periodo"].str.split("-").str[1]
sociales["periodo"] = sociales["periodo"].str.split("-").str[0]

#cambiamos year de la ultima posicion a la posicion 2
col = sociales.columns[6]
sociales.insert(2, col, sociales.pop(col))

sociales["periodo"] = pd.to_numeric(sociales['periodo'], errors='coerce').astype('Int64')
sociales["mes"] = pd.to_numeric(sociales['mes'], errors='coerce').astype('Int64')

sociales = sociales.rename(columns={'numero_empleado': 'emp_id', 
                                    'periodo': 'year', 
                                    'mes':'month', 
                                    'feedback_clientes':'feedback_clients', 
                                    'reconocimiento':'recognition',
                                    'apoyo_supervisor':'help_manager',
                                    'apoyo_equipo':'help_team'})

sociales.head()

Unnamed: 0,emp_id,year,mes,feedback_clients,recognition,help_manager,help_team
0,EI0302199ES,2025,2,2,5,5,2
1,EI0302199ES,2025,3,2,4,2,3
2,EI0302199ES,2025,4,2,3,4,4
3,EI0302199ES,2025,5,3,5,5,4
4,EI0302199ES,2025,6,4,4,1,4


In [89]:
sociales.info()

<class 'pandas.DataFrame'>
RangeIndex: 70560 entries, 0 to 70559
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype
---  ------            --------------  -----
 0   emp_id            70560 non-null  str  
 1   year              70560 non-null  Int64
 2   mes               70560 non-null  Int64
 3   feedback_clients  70560 non-null  int64
 4   recognition       70560 non-null  int64
 5   help_manager      70560 non-null  int64
 6   help_team         70560 non-null  int64
dtypes: Int64(2), int64(4), str(1)
memory usage: 4.6 MB


In [90]:
sociales.to_csv(os.path.join(INTERIM_DIR,"history_performance.csv"), index=False)
sociales.to_parquet(os.path.join(PROCESSED_DIR,"history_performance.parquet"), index=False)