## Importar librerías

In [2]:
import pandas as pd
import numpy as np
import plotly.express as px
import seaborn as sns

## Importar datos

In [3]:
df = pd.read_csv('Datasets/datos_limpios.csv')
df.job_level = df.job_level.astype(str)
df.stock_option_level = df.stock_option_level.astype(str)
df.training_times_last_year = df.training_times_last_year.astype(str)

In [4]:
df

Unnamed: 0,employee_id,age,attrition,business_travel,department,distance_from_home,education,education_field,gender,job_level,...,training_times_last_year,years_at_company,years_since_last_promotion,years_with_curr_manager,environment_satisfaction,job_satisfaction,work_life_balance,job_involvement,performance_rating,mean_time
0,1,51,No,Travel_Rarely,Sales,6,Universitario,Life Sciences,Female,1,...,6,1,0,0,Alto,Muy alto,Buena,Alto,Excelente,6.8702
1,2,31,Yes,Travel_Frequently,Research & Development,10,Por debajo de la universidad,Life Sciences,Female,1,...,3,5,1,4,Alto,Medio,La mejor,Medio,Sobresaliente,7.3160
2,3,32,No,Travel_Frequently,Research & Development,17,Máster,Other,Male,4,...,2,5,0,3,Medio,Medio,Mala,Alto,Excelente,6.8161
3,4,38,No,Non-Travel,Research & Development,2,Doctor,Life Sciences,Male,3,...,5,8,7,5,Muy alto,Muy alto,Muy buena,Medio,Excelente,6.7892
4,5,32,No,Travel_Rarely,Research & Development,10,Por debajo de la universidad,Medical,Male,1,...,2,6,0,4,Muy alto,Bajo,Muy buena,Alto,Excelente,7.8776
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4396,4405,29,No,Travel_Rarely,Sales,4,Licenciado,Other,Female,2,...,2,6,1,5,Alto,Muy alto,Muy buena,Medio,Excelente,7.1171
4397,4406,42,No,Travel_Rarely,Research & Development,5,Máster,Medical,Female,1,...,5,3,0,2,Muy alto,Bajo,Muy buena,Alto,Excelente,8.3169
4398,4407,29,No,Travel_Rarely,Research & Development,2,Máster,Medical,Male,1,...,2,3,0,2,Muy alto,Muy alto,Muy buena,Medio,Excelente,5.8972
4399,4408,25,No,Travel_Rarely,Research & Development,25,Universitario,Life Sciences,Male,2,...,4,4,1,2,Bajo,Alto,Muy buena,Alto,Sobresaliente,7.1495


## Análisis bivariado de variables numéricas

### Relación entre la variable age y la variable attrition

In [5]:
fig=px.box(df, x=df['attrition'], y=df['age'],orientation='v',color_discrete_sequence=px.colors.qualitative.Plotly)
fig.update_layout(width=800,title=dict(text=f'Attrition & age', x=0.5))
fig.show()    

Podemos observar que tanto en la categoria de "no" como en la de "si", la mediana no está en el centro de la caja, lo cual indica que los datos están un poco sesgados. Además, se ven dos datos atípicos en la categoria de "si", lo cual indica que son valores inusuales o errores de medición. Es importante resaltar que los empleados que abandonaron su empleo el año anterior son mas jóvenes que los que no, por otro lado, notamos que el tercer cuartil de la categoria "si" termina mucho antes que el "no", lo que nos puede decir que a medida que aumenta la edad, tenemos mayor concentración de personas que no renunciaron a su empleo el año anterior.

### Relación entre la variable distance_from_home y la variable attrition

In [6]:
fig=px.box(df, x=df['attrition'], y=df['distance_from_home'],orientation='v',color_discrete_sequence=px.colors.qualitative.Plotly)
fig.update_layout(width=800,title=dict(text=f'Attrition & distance from home', x=0.5))
fig.show()   

En este gráfico podemos observar que realmente no se puede determinar que la distancia del domicilio (en kms) sea relevante respecto a si un empleado renunció o no a su trabajo el año anterior solo con este paso, ya que se notó que la mediana de las dos cajas es igual la una de la otra. Pero se pudo analizar que el tercer cuartil del "no" termina un poco antes que el del "si", lo que puede indicar que a medida que aumenta la distancia del domicilio, se tiene una mayor concetración de personas que si renucniaron a su empleo el año pasado.

### Relación entre la variable job_level y la variable attrition

In [7]:
fig=px.box(df, x=df['attrition'], y=df['job_level'],orientation='v',color_discrete_sequence=px.colors.qualitative.T10)
fig.update_layout(width=800,title=dict(text=f'Attrition & job level', x=0.5))
fig.show() 

En cuanto a estas dos variables, lo primero que se observa es que no se puede responder directamente si los que no renunciaron a su empleo el año pasado tienen un nivel de puesto en la empresa más alto, ya que se nota que la mediana de las dos cajas son iguales. Sin embargo, se puede observar que el tercer cuartil de la categoria "si" termina mucho antes que el de la categoria "no", lo que nos puede decir que a medida que aumenta el nivel de puesto en la empresa, se tiene una mayor concentración de personas que no renunciaron a su empleo el año anterior, por otro lado, se pueden observar dos datos atípicos en las personas que si renunciaron a su empleo el año anterior.

### Relación entre la variable mean_time y la variable attrition

In [8]:
fig=px.box(df, x=df['attrition'], y=df['mean_time'],orientation='v',color_discrete_sequence=px.colors.qualitative.T10)
fig.update_layout(width=800,title=dict(text=f'Attrition & mean time', x=0.5))
fig.show() 

A partir de este gráfico, se puede ver que las personas que si renunciaron a su trabajo el año anterior tienen una mediana de tiempo promedio de trabajo al día mayor que las que no. Además podemos ver que el primer cuartil de los que no renunciaron a su trabajo empezó antes y el tercer cuartil también termina mucho antes que el del que "si", esto nos puede decir que a medida que aumenta el tiempo promedio de trabajo al día en el último año, hay mayor concentración de personas que si renunciaron a su trabajo el año anterior. Por último, observamos que hay muchos datos atípicos en la categoria de las personas que no renunciaron a su trabajo en el último año.

### Relación entre la variable monthly_income y la variable attrition

In [9]:
fig=px.box(df, x=df['attrition'], y=df['monthly_income'],orientation='v',color_discrete_sequence=px.colors.qualitative.Plotly)
fig.update_layout(width=800,title=dict(text=f'Attrition & monthly income', x=0.5))
fig.show() 

Al analizar este gráfico, podemos observar que no hay mucha diferencia en la mediana de las dos categorias, por lo tanto, no se puede decir que los ingresos mensuales en dólares al mes son mayores en alguna de las categorias. Por otro lado, se nota que el tercer cuartil de los que si renunciaron a su trabajo el año anterior termina antes que el de los que "no", por lo tanto, a medida que aumentan los ingresos hay mayor cantidad de personas que no renunciaron a su trabajo el último año, además vimos que en ambas categorias hay gran cantidad de datos atípicos.

### Relación entre la variable num_companies_worked y la variable attrition

In [10]:
fig=px.box(df, x=df['attrition'], y=df['num_companies_worked'],orientation='v',color_discrete_sequence=px.colors.qualitative.Plotly)
fig.update_layout(width=800,title=dict(text=f'Attrition & num companies worked', x=0.5))
fig.show()

Se puede observar que las personas que si renunciaron a su trabajo el año anterior tienen una mediana de número total de empresas en las que ha trabajado el empleado más baja que los que no. Además observamos que a medida que crece el número de empresas hay mayor concentración de personas que si han renunciado a su trabajo en el último año, por lo tanto, es una variables que puede llegar a influir en esta importante decisión. Por último, se observa un dato atípico en la categoría de los que no renunciaron a su trabajo.

### Relación entre la variable percent_salary_hike y la variable attrition

In [14]:
fig=px.box(df, x=df['attrition'], y=df['percent_salary_hike'],orientation='v',color_discrete_sequence=px.colors.qualitative.T10)
fig.update_layout(width=800,title=dict(text=f'Attrition & percent salary hike', x=0.5))
fig.show()

Se puede observar que en realidad no se puede responder directamente si los que no renunciaron a su trabajo el año anterior tienen un porcentaje de aumento salarial mayor que los que si renunciaron, debido a que tanto la mediana como todos los cuartiles son iguales en las dos categorias.

### Relación entre la variable stock_option_level y la variable attrition

In [15]:
fig=px.box(df, x=df['attrition'], y=df['stock_option_level'],orientation='v',color_discrete_sequence=px.colors.qualitative.T10)
fig.update_layout(width=800,title=dict(text=f'Attrition & Stock option level', x=0.5))
fig.show()

Se puede observar que en realidad no se puede responder directamente si los que si renunciaron a su trabajo el año anterior tienen un nivel de opciones sobre acciones del empleado mayor que los que no renunciaron, debido a que tanto la mediana como todos los cuartiles son iguales en las dos categorias. Sin embargo, se nota que en ambas categorias hay un dato atípico.

### Relación entre la variable total_working_years y la variable attrition

In [16]:
fig=px.box(df, x=df['attrition'], y=df['total_working_years'],orientation='v',color_discrete_sequence=px.colors.qualitative.Plotly)
fig.update_layout(width=800,title=dict(text=f'Attrition & Total working years', x=0.5))
fig.show()

Se puede observar que las personas que no renunciaron a su trabajo el año anterior tienen una mediana de número total de años que el empleado ha trabajado hasta ahora mayor que los que si renunciaron, además podemos analizar que el primer cuartil de los que si renunciaron el año anterior empieza mucho antes y el tercer cuartil termina también mucho antes que el de los que no renunciaron, lo que nos dice que a medida que aumenta el total de años que el empleado ha trabajado, se tiene una mayor concentración de personas que no renunciaron a su trabajo el año anterior. Pot último, se observa que en ambas categorias hay varios datos atípicos.

### Relación entre la variable training_times_last_year y la variable attrition

In [17]:
fig=px.box(df, x=df['attrition'], y=df['training_times_last_year'],orientation='v',color_discrete_sequence=px.colors.qualitative.Plotly)
fig.update_layout(width=800,title=dict(text=f'Attrition & Training times last year', x=0.5))
fig.show()

Se puede observar que en realidad no se puede responder directamente si los que no renunciaron a su trabajo el año anterior tienen un número de veces que se les impartió formación el año pasado mayor que los que si renunciaron, debido a que tanto la mediana como todos los cuartiles son iguales en las dos categorias. Sin embargo, se nota que en ambas categorias hay tres datos atípico, uno por debajo del primer cuartil y 2 por encima del tercer cuartil.

### Relación entre la variable years_at_company y la variable attrition

In [18]:
fig=px.box(df, x=df['attrition'], y=df['years_at_company'],orientation='v',color_discrete_sequence=px.colors.qualitative.T10)
fig.update_layout(width=800,title=dict(text=f'Attrition & Years at company', x=0.5))
fig.show()

Se puede analizar que los que no renunciaron a su trabajo el año anterior tienen una mediana de número total de años que el empleado lleva en la empresa mayor que los que si renunciaron. Además, se puede observar que el primer cuartil y tercer cuartil de las personas que si renunciaron a su trabajo empieza y termina mucho antes, respectivamente, que los que no renunciaron, lo cual nos puede decir que a medida que aumenta el número total de años que el empleado lleva en la empresa, se tiene una mayor concentración de personas que no renunciaron a su trabajo en el año anterior. Por último, se nota que hay muchos valores atípicos en ambas categorias.

### Relación entre la variable years_since_last_promotion y la variable attrition

In [19]:
fig=px.box(df, x=df['attrition'], y=df['years_since_last_promotion'],orientation='v',color_discrete_sequence=px.colors.qualitative.T10)
fig.update_layout(width=800,title=dict(text=f'Attrition & Years since last promotion', x=0.5))
fig.show()

No se puede responder directamente si los que si renunciaron el año anterior a su trabajo han tenido más número de años desde el último ascenso que los que no renunciaron. Además, pudimos analizar que el tercer cuartil de los que si renunciaron termina mucho antes que el cuartil de los que no renunciaron, lo que nos dice que a medida que aumenta el número de años desde el último ascenso, se tiene una mayor concentración de personas que no renunciaron a su trabajo el año anterior. También se nota que hay varios datos atípicos en ambas categorias.

### Relación entre la variable years_with_curr_manager y la variable attrition

In [20]:
fig=px.box(df, x=df['attrition'], y=df['years_with_curr_manager'],orientation='v',color_discrete_sequence=px.colors.qualitative.Plotly)
fig.update_layout(width=800,title=dict(text=f'Attrition & Years with curr manager', x=0.5))
fig.show()

Se puede ver que los que no renunciaron a su trabajo el año anterior tienen una mediana de número de años bajo el mando del jefe actual mayor que los que si renunciaron. Además, notamos que tanto el primer como el tercer cuartil de los que si renunciaron a su trabajo empieza y termina, respectivamente, mucho antes que los cuartiles de los que no renunciaron, lo que nos dice que a medida que aumenta el número de años bajo el mando del jefe actual, se tiene mayor concentración de personas que no renunciaron a su trabajo el año anterior. Por último, se pueden observar tres datos atípicos para los que no renunciaron y uno para los que si.