# Importar librerías

In [145]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Importar datos

In [146]:
df = pd.read_csv('Datasets/datos_limpios.csv')

# Análisis de variables categóricas

### Función para clacular tablas de frecuencia

In [147]:
def tabla_frecuencias(df, col):
    n = df.shape[0]
    tabla = df.groupby([col])[['employee_id']].count().rename(columns={'employee_id':'Frecuencia Absoluta'}).reset_index()
    tabla['Frecuencia Relativa'] = tabla['Frecuencia Absoluta'].apply(lambda x: str(round(100*x/n, 3))+' %')
    return tabla
    

### Si el empleado se abandono su empleo o no el año anterior

In [148]:
df_attrition = tabla_frecuencias(df, 'attrition')
df_attrition

Unnamed: 0,attrition,Frecuencia Absoluta,Frecuencia Relativa
0,No,3692,83.89 %
1,Yes,709,16.11 %


In [149]:
fig = px.bar(df_attrition,
             x = 'attrition',
             y = ['Frecuencia Absoluta'],
             text_auto = True,
             title = 'Empleados que abandonaron su empleo el año anterior',
             height = 400,
             labels = {'value': 'Total', 'attrition':'Abandonó'})
fig.layout.update(showlegend=False)
fig.show()

### Frecuencia con la que los empleados viajaron por motivos de trabajo en el último año

In [150]:
df_business_travel = tabla_frecuencias(df, 'business_travel')
df_business_travel

Unnamed: 0,business_travel,Frecuencia Absoluta,Frecuencia Relativa
0,Non-Travel,449,10.202 %
1,Travel_Frequently,829,18.837 %
2,Travel_Rarely,3123,70.961 %


In [151]:
labels = df_business_travel['business_travel']
values = df_business_travel['Frecuencia Absoluta']

fig = go.Figure(data=[go.Pie(labels=labels,
                             values=values,
                             textinfo='value+percent',
                             hole=0.3
                            )])
fig.update_layout(
    title_text="Frecuencia con la que los empleados viajaron por motivos de trabajo en el último año",
    height= 400 )
fig.show()

### Departamento en la empresa


In [152]:
df_department = tabla_frecuencias(df, 'department')
df_department

Unnamed: 0,department,Frecuencia Absoluta,Frecuencia Relativa
0,Human Resources,188,4.272 %
1,Research & Development,2877,65.372 %
2,Sales,1336,30.357 %


In [153]:
fig = px.bar(
    df_department,
    x = ['Frecuencia Absoluta'],
    y = 'department',
    title = 'Número de trabajadores por departamento de la empresa',
    text_auto = True,
    labels = {'value':'Total de empleados', 'department':'Departamento'},
    text = 'Frecuencia Relativa',
    height=400,
    orientation='h'
)
fig.layout.update(showlegend=False)
fig.show()

### Nivel de educación

In [154]:
df_education = tabla_frecuencias(df, 'education')
df_education

Unnamed: 0,education,Frecuencia Absoluta,Frecuencia Relativa
0,Doctor,144,3.272 %
1,Licenciado,1711,38.878 %
2,Máster,1191,27.062 %
3,Por debajo de la universidad,510,11.588 %
4,Universitario,845,19.2 %


In [157]:
fig = px.bar(
    df_education,
    x = 'education',
    y = ['Frecuencia Absoluta'],
    title = 'Cantidad de empleados por nivel de educación',
    text_auto = True,
    labels = {'value':'Total de empleados', 'education':'Nivel de educación'},
    text = 'Frecuencia Relativa',
    height=400,
    orientation='v'
)
fig.layout.update(showlegend=False)
fig.show()

### Ámbito de formación

In [142]:
df_education_field = tabla_frecuencias(df, 'education_field')
df_education_field

Unnamed: 0,education_field,Frecuencia Absoluta,Frecuencia Relativa
0,Human Resources,81,1.84 %
1,Life Sciences,1812,41.172 %
2,Marketing,477,10.838 %
3,Medical,1389,31.561 %
4,Other,246,5.59 %
5,Technical Degree,396,8.998 %


In [158]:
fig = px.bar(
    df_education_field,
    x = 'education_field',
    y = ['Frecuencia Absoluta'],
    title = 'Cantidad de empleados por ámbito de formación',
    text_auto = True,
    labels = {'value':'Total de empleados', 'education_field':'Campo de formación'},
    text = 'Frecuencia Relativa',
    height=400,
    orientation='v'
)
fig.layout.update(showlegend=False)
fig.show()

### Género

In [159]:
df_gender = tabla_frecuencias(df, 'gender')
df_gender

Unnamed: 0,gender,Frecuencia Absoluta,Frecuencia Relativa
0,Female,1761,40.014 %
1,Male,2640,59.986 %


In [162]:
labels = df_gender['gender']
values = df_gender['Frecuencia Absoluta']

fig = go.Figure(data=[go.Pie(labels=labels,
                             values=values,
                             textinfo='value+percent',
                             hole=0.3
                            )])
fig.update_layout(
    title_text="Género",
    height= 400 )
fig.show()

### Nivel del puesto en la empresa

In [164]:
df_job_level = tabla_frecuencias(df, 'job_level')
df_job_level

Unnamed: 0,job_level,Frecuencia Absoluta,Frecuencia Relativa
0,1,1624,36.901 %
1,2,1599,36.333 %
2,3,653,14.838 %
3,4,318,7.226 %
4,5,207,4.703 %


In [165]:
fig = px.bar(
    df_job_level,
    x = 'job_level',
    y = ['Frecuencia Absoluta'],
    title = 'Cantidad de empleados por nivel de puesto en la empresa',
    text_auto = True,
    labels = {'value':'Total de empleados', 'job_level':'Nivel del puesto en la empresa'},
    text = 'Frecuencia Relativa',
    height=400,
    orientation='v'
)
fig.layout.update(showlegend=False)
fig.show()

### Puesto de trabajo

In [167]:
df_job_role = tabla_frecuencias(df, 'job_role')
df_job_role

Unnamed: 0,job_role,Frecuencia Absoluta,Frecuencia Relativa
0,Healthcare Representative,393,8.93 %
1,Human Resources,156,3.545 %
2,Laboratory Technician,774,17.587 %
3,Manager,306,6.953 %
4,Manufacturing Director,432,9.816 %
5,Research Director,239,5.431 %
6,Research Scientist,876,19.905 %
7,Sales Executive,977,22.2 %
8,Sales Representative,248,5.635 %


In [173]:
labels = df_job_role['job_role']
values = df_job_role['Frecuencia Absoluta']

fig = go.Figure(data=[go.Pie(labels=labels,
                             values=values,
                             textinfo='value+percent',
                             hole=0.3
                            )])
fig.update_layout(
    title_text="Puesto de trabajo",
    height= 600 )
fig.show()

### Estado civil

In [175]:
df_marital_status = tabla_frecuencias(df, 'marital_status')
df_marital_status

Unnamed: 0,marital_status,Frecuencia Absoluta,Frecuencia Relativa
0,Divorced,978,22.222 %
1,Married,2014,45.762 %
2,Single,1409,32.015 %


In [178]:
labels = df_marital_status['marital_status']
values = df_marital_status['Frecuencia Absoluta']

fig = go.Figure(data=[go.Pie(labels=labels,
                             values=values,
                             textinfo='value+percent',
                             hole=0.3
                            )])
fig.update_layout(
    title_text="Estado civil",
    height= 400 )
fig.show()

### Si el empleado es mayor de 18 años

In [183]:
df_over18 = tabla_frecuencias(df, 'over18')
df_over18

Unnamed: 0,over18,Frecuencia Absoluta,Frecuencia Relativa
0,Sí,4401,100.0 %


### Satisfacción del entorno de trabajo y satisfacción laboral

In [190]:
df_env_sat = tabla_frecuencias(df, 'environment_satisfaction')
df_env_sat

Unnamed: 0,environment_satisfaction,Frecuencia Absoluta,Frecuencia Relativa
0,Alto,1372,31.175 %
1,Bajo,844,19.177 %
2,Medio,853,19.382 %
3,Muy alto,1332,30.266 %


In [189]:
df_job_sat = tabla_frecuencias(df, 'job_satisfaction')
df_job_sat

Unnamed: 0,job_satisfaction,Frecuencia Absoluta,Frecuencia Relativa
0,Alto,1318,29.948 %
1,Bajo,860,19.541 %
2,Medio,838,19.041 %
3,Muy alto,1385,31.47 %


In [208]:
df_work_life_balance = tabla_frecuencias(df, 'work_life_balance')
df_work_life_balance

Unnamed: 0,work_life_balance,Frecuencia Absoluta,Frecuencia Relativa
0,Buena,1019,23.154 %
1,La mejor,454,10.316 %
2,Mala,239,5.431 %
3,Muy buena,2689,61.1 %


In [230]:
fig = make_subplots(
    rows=1, cols=3,
    specs=[[{"type": "bar"},{"type": "bar"}, {"type": "bar"}]]
)

fig.add_trace(go.Bar(x = df_env_sat['environment_satisfaction'],
                     y = df_env_sat['Frecuencia Absoluta'],
                     text = df_env_sat['Frecuencia Absoluta'],
                     name = 'Satisfacción entorno de trabajo'),
              row=1, col=1)

fig.add_trace(go.Bar(x = df_job_sat['job_satisfaction'],
                     y = df_job_sat['Frecuencia Absoluta'],
                     text =df_job_sat['Frecuencia Absoluta'],
                     name = 'Satisfacción laboral'),
              row=1, col=2)

fig.add_trace(go.Bar(x = df_work_life_balance['work_life_balance'],
                     y = df_work_life_balance['Frecuencia Absoluta'],
                     text = df_work_life_balance['Frecuencia Absoluta'],
                     name = 'Conciliación de la vida laboral y familiar'),
              row=1, col=3)

fig.update_layout(title='Niveles de satisfacción con el entorno de trabajo, laboral y conciliación vida laboral y familiar',
                  showlegend=True)

### Implicación en el trabajo y rendimiento en el trabajo

In [231]:
df_job_involvement = tabla_frecuencias(df, 'job_involvement')
df_job_involvement

Unnamed: 0,job_involvement,Frecuencia Absoluta,Frecuencia Relativa
0,Alto,2599,59.055 %
1,Bajo,247,5.612 %
2,Medio,1124,25.54 %
3,Muy alto,431,9.793 %


In [232]:
df_performance_rating = tabla_frecuencias(df, 'performance_rating')
df_performance_rating

Unnamed: 0,performance_rating,Frecuencia Absoluta,Frecuencia Relativa
0,Excelente,3725,84.64 %
1,Sobresaliente,676,15.36 %


In [243]:
fig = make_subplots(
    rows=1, cols=2,
    specs=[[{"type": "bar"},{"type": "bar"}]]
)

fig.add_trace(go.Bar(x = df_job_involvement['job_involvement'],
                     y = df_job_involvement['Frecuencia Absoluta'],
                     text = df_job_involvement['Frecuencia Absoluta'],
                     name = 'Implicación en el trabajo'),
              row=1, col=1)

fig.add_trace(go.Bar(x = df_performance_rating['performance_rating'],
                     y = df_performance_rating['Frecuencia Absoluta'],
                     text =df_performance_rating['Frecuencia Absoluta'],
                     name = 'Rendimiento en el último año'),
              row=1, col=2)

fig.update_layout(title='Implicación en el trabajo y rendimiento en el trabajo',
                  showlegend=True)