# Desarrollo del An√°lisis de Rotaci√≥n de Empleados
La rotaci√≥n y el abandono voluntario de empleados pueden estar influenciados por m√∫ltiples factores.
Vamos a estructurar el an√°lisis en tres fases:
1. An√°lisis Univariado (Explorar cada variable por separado).
2. An√°lisis Bivariado (Relacionar variables y encontrar patrones).
3. Visualizaci√≥n Impactante (Gr√°ficos clave para entender el problema).


# 1. An√°lisis Univariado
Antes de cruzar datos, es clave entender la distribuci√≥n de cada variable.

üìå Variables categ√≥ricas:

-> "employee_turnover": ¬øCu√°ntos empleados han dejado la empresa?
üîπ Gr√°fico recomendado: Gr√°fico de barras

-> "overtime_hour", "business_travel_frequency", "remote_work": ¬øCu√°ntos empleados hacen horas extra, viajan o trabajan remoto?
üîπ Gr√°fico recomendado: Gr√°fico de pastel o barras

-> "job_level", "education_level", "marital_status": ¬øC√≥mo se distribuyen los empleados seg√∫n estos factores?
üîπ Gr√°fico recomendado: Histograma o barras apiladas

üìå Variables num√©ricas:

->  "years_at_company", "distance_from_home_km", "annual_salary": ¬øQu√© forma tiene su distribuci√≥n?
üîπ Gr√°fico recomendado: Histograma y boxplot para ver la dispersi√≥n.

-> "percent_salary_hike": ¬øSon los aumentos salariales justos o aleatorios?
üîπ Gr√°fico recomendado: Boxplot para comparar valores extremos.

Sin embargo, no todas las variables ser√°n clave para responder por qu√© los empleados abandonan la empresa. Debemos enfocarnos en aquellas con mayor impacto en la rotaci√≥n.
Aqu√≠ est√°n las relaciones m√°s relevantes a analizar:
üîπ 1. Satisfacci√≥n y rotaci√≥n
Variables clave:
- "employee_turnover" (abandono)
- "environmental_satisfaction_level"  (satisfacci√≥n con compa√±eros y l√≠deres)
- "work_life_balance" (equilibrio vida-trabajo)

üîç Hip√≥tesis: Si los empleados con baja satisfacci√≥n y mal equilibrio vida-trabajo se van m√°s, estos factores son cr√≠ticos.

üìä Gr√°ficos recomendados:
- Gr√°fico de barras apilado: % de empleados que se fueron en cada nivel de satisfacci√≥n.
- Boxplot: Comparar satisfacci√≥n entre quienes se fueron y quienes se quedaron.

üîπ 2. Crecimiento profesional y rotaci√≥n
Variables clave:
- "years_since_last_promotion" (a√±os sin ascenso)
- "job_level" (nivel de empleo)
- "education_level" (nivel educativo)

üîç Hip√≥tesis: Los empleados que pasan muchos a√±os sin promoci√≥n podr√≠an estar m√°s propensos a irse.
üìä Gr√°ficos recomendados:
- Gr√°fico de dispersi√≥n con regresi√≥n (scatterplot): Relaci√≥n entre a√±os sin promoci√≥n y abandono.
- Gr√°fico de barras segmentado: % de abandono seg√∫n el nivel de empleo.

üîπ 3. Salario y rotaci√≥n
Variables clave:
- "annual_salary" (salario anual)
- "percent_salary_hike" (incremento salarial)
- "stock_option_level" (beneficios de acciones)

üîç Hip√≥tesis: Si los empleados con menores salarios y menos incrementos salariales se van m√°s, el salario es un factor determinante.
üìä Gr√°ficos recomendados:
- Boxplot: Comparar salarios entre empleados que se fueron y los que se quedaron.
- Violin plot: Distribuci√≥n de salarios en cada grupo.
- Mapa de calor (heatmap): Correlaciones entre salario, beneficios y rotaci√≥n.

üîπ 4. Distancia y condiciones laborales vs. Rotaci√≥n
Variables clave:
- "distance_from_home_km" (distancia hogar-trabajo)
- "overtime_hour" (horas extra)
- "remote_work" (trabajo remoto)
- "business_travel_frequency" (frecuencia de viajes)
üîç Hip√≥tesis: Si los empleados que trabajan muchas horas extras y viven lejos se van m√°s, la empresa podr√≠a mejorar estas condiciones.
üìä Gr√°ficos recomendados:
- Scatter plot: Relaci√≥n entre distancia y abandono.
- Gr√°fico de pastel: % de empleados que trabajan remoto vs. presenciales.
- Barras apiladas: Impacto de las horas extra en la rotaci√≥n.



# 3. Visualizaci√≥n Impactante
Para contar la historia de por qu√© los empleados se van, se pueden combinar gr√°ficos:

‚úÖ Mapa de calor (heatmap con Seaborn):
- Mostrar la correlaci√≥n entre salario ("annual_salary"), distancia al trabajo ("distance_from_home_km"), a√±os sin promoci√≥n ("years_since_last_promotion") y satisfacci√≥n ("relationship_satisfaction_level", "environmental_satisfaction_level").
            - Nominal: Son las categor√≠as sin ning√∫n orden espec√≠fico: "employee_turnover", "overtime_hour", "standard_work_hours", "gender", "marital_status", "remote_work".

** "work_life_balance", ("overtime_hour", "job_level", "standard_work_hours", "employee_turnover") y "marital_status"
** "gender", "employee_turnover" y "marital_status"
** "job_involvement_level", "job_level", "years_with_current_manager", ("relationship_satisfaction_level", "environmental_satisfaction_level")
** "num_companies_worked", "total_years_worked", "employee_turnover"
** "birth_year", "years_with_current_manager", "employee_turnover"

‚úÖ Gr√°fico de dispersi√≥n (scatterplot con tendencia de regresi√≥n):
- Relaci√≥n entre salario ("annual_salary") y rotaci√≥n ("employee_turnover").

‚úÖ Gr√°fico de Sankey (Plotly):
Visualizar c√≥mo se mueve el flujo de empleados (desde nivel de satisfacci√≥n ("relationship_satisfaction_level", "environmental_satisfaction_level")hasta abandono("employee_turnover")).

In [1]:
# importamos las librer√≠as que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualizaci√≥n
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# ------------------------------------------------------------------------------
from scipy.stats import shapiro, kstest

# Configuraci√≥n
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gesti√≥n de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

In [None]:
# lo primero que hacemos es cargar el dataframe que vamos a usar para esta lecci√≥n
df = pd.read_csv("df_filtrado_notnulls.csv")
df.head(3)

In [None]:
# selecciono columnas categ√≥ricas
df.select_dtypes(include=['object']).columns.tolist()

In [None]:
df.describe().T

In [None]:
df_marital_salary = df.groupby("marital_status")["annual_salary"].mean().reset_index()
df_marital_salary

In [None]:
df_environ_birth= df.groupby("environmental_satisfaction_level")["birth_year"].median().reset_index()
df_environ_birth

In [None]:
df_turnover_experience= df.groupby("employee_turnover")["years_at_company"].median().reset_index()
df_turnover_experience

In [None]:
# comenzamos empezando estableciendo nuestra gr√°fica y indicando el n√∫mero de filas y columnas que queremos
fig, axes = plt.subplots(nrows = 1, ncols = 4, figsize = (20,5))

# creamos un boxplot, recordemos que en el caso de Seaborn para indicar en el subplot lo queremos tenemos que usar el par√°metro 'ax' dentro del m√©todo de la funci√≥n
# fijaos que la √∫nica diferencia con los boxplot que hemos creado previamente es que hemos a√±adido el parametro 'y' 
sns.boxplot(x = "marital_status",
            y = "annual_salary", 
            data = df, 
            ax = axes[0], 
            palette= "mako")

# hacemos lo mismo para el violinplot
sns.violinplot(x = "marital_status", 
               y = "annual_salary", 
               data = df, 
               ax = axes[1], 
               palette = "magma")

# creamos nuestro primer barplot. üìå LO QUE NOS MUESTRA ES LA MEDIA DE EDAD EN FUNCI√ìN DEL ESTADO CIVIL
sns.barplot(x = "marital_status", 
            y = "annual_salary", 
            data = df_marital_salary, 
            ax = axes[2], 
            palette = "magma")


# creamos un barplot usando Matplotlib, el m√©todo 'plt.bar()' 
axes[3].bar(x = "marital_status", 
            height=  "income", 
            data = df_marital_salary,
            color = "teal");

In [None]:
sns.countplot(x = "environmental_satisfaction_level", 
              data = df, 
              color = "yellow",)

In [None]:
sns.barplot(x = "environmental_satisfaction_level", 
            y = "income", 
            data = df, 
            ax = axes[2], 
            palette = "magma")
# creamos un barplot usando Matplotlib, el m√©todo 'plt.bar()'