# Importar librerías

In [13]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

from importlib import reload
import utils  # Importa el módulo
reload(utils)  # Recarga el módulo


<module 'utils' from 'c:\\Users\\USUARIO\\OneDrive - Universidad de Antioquia\\Aprendizaje\\Universidad\\2023-2\\Analítica II\\Caso Estudio Supervisado\\pediccion_abandono_empleo\\utils.py'>

# Importar datos

In [14]:
df = pd.read_csv('Datasets/datos_limpios.csv')
df.job_level = df.job_level.astype(str)
df.stock_option_level = df.stock_option_level.astype(str)

In [15]:
df.shape

(4401, 27)

In [16]:
df.head(3)

Unnamed: 0,employee_id,age,attrition,business_travel,department,distance_from_home,education,education_field,gender,job_level,...,training_times_last_year,years_at_company,years_since_last_promotion,years_with_curr_manager,environment_satisfaction,job_satisfaction,work_life_balance,job_involvement,performance_rating,mean_time
0,1,51,No,Travel_Rarely,Sales,6,Universitario,Life Sciences,Female,1,...,6,1,0,0,Alto,Muy alto,Buena,Alto,Excelente,6.8702
1,2,31,Yes,Travel_Frequently,Research & Development,10,Por debajo de la universidad,Life Sciences,Female,1,...,3,5,1,4,Alto,Medio,La mejor,Medio,Sobresaliente,7.316
2,3,32,No,Travel_Frequently,Research & Development,17,Máster,Other,Male,4,...,2,5,0,3,Medio,Medio,Mala,Alto,Excelente,6.8161


# Análisis de variables categóricas

### Si el empleado se abandono su empleo o no el año anterior

In [17]:
utils.univariado_barras(df, 'attrition')

Unnamed: 0,attrition,Frecuencia Absoluta,Frecuencia Relativa
0,No,3692,83.89 %
1,Yes,709,16.11 %


Se evidencia que no sucede nada diferente a lo que se esperaía. La gran mayoría de los empleados no abandonarons su empleo, solo 16.11% de los 4401 empleados abandonaron su empleo en el último año.

### Frecuencia con la que los empleados viajaron por motivos de trabajo en el último año

In [18]:
utils.univariado_torta(df, 'business_travel')

Unnamed: 0,business_travel,Frecuencia Absoluta,Frecuencia Relativa
2,Travel_Rarely,3123,70.961 %
1,Travel_Frequently,829,18.837 %
0,Non_Travel,449,10.202 %


En esta agencia de marketing es muy normal viajar por motivos de trabajo, pero solo una pequeña parte lo hace frecuentemente. El 99.2% de los empleados viajan por motivos de trabajo, 18.8% viajan frecuentemente y el 71% rara vez viajan. Por otro lado, el 10.2% de los empleados no viajan.

### Departamento en la empresa


In [19]:
utils.univariado_barras(df, 'department', orientation='h')

Unnamed: 0,department,Frecuencia Absoluta,Frecuencia Relativa
1,Research & Development,2877,65.372 %
2,Sales,1336,30.357 %
0,Human Resources,188,4.272 %


Hay una clara dominancia del departamento de Investigación y Desarrollo, la gran mayoría (65.4%) de los empleados pertenecen a este departamento, el 30.4% al departamento de ventas y el restante 4.2% al departamento de recursos humanos, siendo este el departamento con menos empleados.

### Nivel de educación

In [20]:
utils.univariado_barras(df, 'education')

Unnamed: 0,education,Frecuencia Absoluta,Frecuencia Relativa
1,Licenciado,1711,38.878 %
2,Máster,1191,27.062 %
4,Universitario,845,19.2 %
3,Por debajo de la universidad,510,11.588 %
0,Doctor,144,3.272 %


La gran mayoría de empleados tienen estudios de nivel superior. El nivel educativo más común en la empresa es el de Licenciado(38.9%), seguido de Máster(27%) y Universitario(19.2%). Por otro lado, los niveles menos frecuentes son por Debajo de la universidad(11.6%) y Doctor(3.3%).

### Ámbito de formación

In [21]:
utils.univariado_barras(df, 'education_field')

Unnamed: 0,education_field,Frecuencia Absoluta,Frecuencia Relativa
1,Life Sciences,1812,41.172 %
3,Medical,1389,31.561 %
2,Marketing,477,10.838 %
5,Technical Degree,396,8.998 %
4,Other,246,5.59 %
0,Human Resources,81,1.84 %


Cómo podría esperarse, dado que el departamento con más empleados es Invertigación y Desarrollo, los ámbitos de formación más comunes en los empleados de la empresa son Biología(41.2%) y Medicina(31.4%). Pero es inusual, porque aunque es una empresa de marketing, solo el 10.8% de lo empleados tienen educación en ese campo.

### Género

In [22]:
utils.univariado_torta(df, 'gender', hole=.3)

Unnamed: 0,gender,Frecuencia Absoluta,Frecuencia Relativa
1,Male,2640,59.986 %
0,Female,1761,40.014 %


La mayoría de los empleados son de género masculino

### Nivel del puesto de trabajo

In [23]:
utils.univariado_barras(df, 'job_level')

Unnamed: 0,job_level,Frecuencia Absoluta,Frecuencia Relativa
0,1,1624,36.901 %
1,2,1599,36.333 %
2,3,653,14.838 %
3,4,318,7.226 %
4,5,207,4.703 %


Esto nos da una idea de como se distribuyen los niveles jerarquicos en la empresa. Solo el 4.7% de los empleados están en un nivel 5 y 7.2% en nivel 4. Mientras que más del 70% de los empleados se distribuyen en los niveles 1 y 2.

### Puesto de trabajo

In [24]:
utils.univariado_torta(df, 'job_role', hole=.3)

Unnamed: 0,job_role,Frecuencia Absoluta,Frecuencia Relativa
7,Sales Executive,977,22.2 %
6,Research Scientist,876,19.905 %
2,Laboratory Technician,774,17.587 %
4,Manufacturing Director,432,9.816 %
0,Healthcare Representative,393,8.93 %
3,Manager,306,6.953 %
8,Sales Representative,248,5.635 %
5,Research Director,239,5.431 %
1,Human Resources,156,3.545 %


Habíamos encontrado que los 3 ambitos de formación más comunes en los empleados con son Bilogía, Medicina y Marketing. Aquí se puede ver que los 3 puestos de trabajo más frecuentes son Ejecutivo de Ventas, Investigador y Técico de laboratorio; lo cual es un resultado esperado.

### Estado civil

In [25]:
utils.univariado_torta(df, 'marital_status', hole=.3)

Unnamed: 0,marital_status,Frecuencia Absoluta,Frecuencia Relativa
1,Married,2014,45.762 %
2,Single,1409,32.015 %
0,Divorced,978,22.222 %


Son más los empleados que se encuentran en matrimonio, un 45.8%; el 32% son solteros y el 22.2% son divorcidados.

### Nivel de opciones sobre acciones del empleado

In [26]:
utils.univariado_barras(df, 'stock_option_level')

Unnamed: 0,stock_option_level,Frecuencia Absoluta,Frecuencia Relativa
0,0,1889,42.922 %
1,1,1784,40.536 %
2,2,473,10.748 %
3,3,255,5.794 %


Hay pocos empleados con nivel 1 o 2 de opciones sobre acciones, pues estas suelen ser para empleados de cierto nivel en adelante y y que llevan un tiempo determinaod en la empresa.

### Satisfacción del entorno de trabajo, satisfacción laboral y vida trabajo-familia

In [34]:
orden1 = {'Bajo':1 , 'Medio':2, 'Alto':3, 'Muy alto':4}
df_env_sat = utils.tabla_frecuencias(df, 'environment_satisfaction').sort_values(by='environment_satisfaction', key=lambda x: x.map(orden1))
df_env_sat

Unnamed: 0,environment_satisfaction,Frecuencia Absoluta,Frecuencia Relativa
1,Bajo,844,19.177 %
2,Medio,853,19.382 %
0,Alto,1372,31.175 %
3,Muy alto,1332,30.266 %


In [35]:
df_job_sat = utils.tabla_frecuencias(df, 'job_satisfaction').sort_values(by='job_satisfaction', key=lambda x: x.map(orden1))
df_job_sat

Unnamed: 0,job_satisfaction,Frecuencia Absoluta,Frecuencia Relativa
1,Bajo,860,19.541 %
2,Medio,838,19.041 %
0,Alto,1318,29.948 %
3,Muy alto,1385,31.47 %


In [39]:
orden2 = {'Mala':1 , 'Buena':2, 'Muy buena':3, 'La mejor':4}
df_work_life_balance = utils.tabla_frecuencias(df, 'work_life_balance').sort_values(by='work_life_balance', key=lambda x: x.map(orden2))
df_work_life_balance

Unnamed: 0,work_life_balance,Frecuencia Absoluta,Frecuencia Relativa
2,Mala,239,5.431 %
0,Buena,1019,23.154 %
3,Muy buena,2689,61.1 %
1,La mejor,454,10.316 %


In [40]:
fig = make_subplots(
    rows=1, cols=3,
    specs=[[{"type": "bar"},{"type": "bar"}, {"type": "bar"}]]
)

fig.add_trace(go.Bar(x = df_env_sat['environment_satisfaction'],
                     y = df_env_sat['Frecuencia Absoluta'],
                     text = df_env_sat['Frecuencia Absoluta'],
                     name = 'Satisfacción entorno de trabajo'),
              row=1, col=1)

fig.add_trace(go.Bar(x = df_job_sat['job_satisfaction'],
                     y = df_job_sat['Frecuencia Absoluta'],
                     text =df_job_sat['Frecuencia Absoluta'],
                     name = 'Satisfacción laboral'),
              row=1, col=2)

fig.add_trace(go.Bar(x = df_work_life_balance['work_life_balance'],
                     y = df_work_life_balance['Frecuencia Absoluta'],
                     text = df_work_life_balance['Frecuencia Absoluta'],
                     name = 'Conciliación de la vida laboral y familiar'),
              row=1, col=3)

fig.update_layout(title='Niveles de satisfacción con el entorno de trabajo, laboral y conciliación vida laboral y familiar',
                  showlegend=True)

Las puntuaciones para Satisfacción con el entorno de trabajo y Satisfacción laboral tienen una distribución casi igual, es de esperarse que un empleados satisfecho con su entorno de trabajo tenga también una alta satisfacción laboral, pero en ambos aspectos hay un porcentaje alto de empleados que califican en bajo y medio, por lo que la sastifacción de los empleados no está en un buen punto. Por otro lado, la puntuación en cuanto a conciliación de la vida laboral y familiar se concentra en buena y muy buena; muy pocos, solo el 10.3% sienten que en la empresa tienen la mejor. 

### Implicación en el trabajo y rendimiento en el trabajo

In [42]:
df_job_involvement = utils.tabla_frecuencias(df, 'job_involvement').sort_values(by='job_involvement', key=lambda x: x.map(orden1))
df_job_involvement

Unnamed: 0,job_involvement,Frecuencia Absoluta,Frecuencia Relativa
1,Bajo,247,5.612 %
2,Medio,1124,25.54 %
0,Alto,2599,59.055 %
3,Muy alto,431,9.793 %


In [43]:
df_performance_rating = utils.tabla_frecuencias(df, 'performance_rating')
df_performance_rating

Unnamed: 0,performance_rating,Frecuencia Absoluta,Frecuencia Relativa
0,Excelente,3725,84.64 %
1,Sobresaliente,676,15.36 %


In [44]:
fig = make_subplots(
    rows=1, cols=2,
    specs=[[{"type": "bar"},{"type": "bar"}]]
)

fig.add_trace(go.Bar(x = df_job_involvement['job_involvement'],
                     y = df_job_involvement['Frecuencia Absoluta'],
                     text = df_job_involvement['Frecuencia Absoluta'],
                     name = 'Implicación en el trabajo'),
              row=1, col=1)

fig.add_trace(go.Bar(x = df_performance_rating['performance_rating'],
                     y = df_performance_rating['Frecuencia Absoluta'],
                     text =df_performance_rating['Frecuencia Absoluta'],
                     name = 'Rendimiento en el último año'),
              row=1, col=2)

fig.update_layout(title='Implicación en el trabajo y rendimiento en el trabajo',
                  showlegend=True)

Todos los empleados tuvieron un rendimiento Sobresaliente y Excelente en el último año, siendo calificados la gran mayoría (84.6%) con un rendimiento Excelente, lo que sugiere que la empresa está conforme con el rendimiento que dieron los empleados en el último año. En cuanto a la implicación en el trabajo, la frecuencia más alta se presenta en una implicación Alta, encontrándose entre Muy alto y Alto casi un 69% de los empleados, esto sugiere que los empleados no están inconformes con el nivel de implicación que tuvieron los empleados en el último año.