# PROYECTO DE MACHINE LEARNING: PREDICCIÓN DEL NIVEL DE BURNOUT EN EL TRABAJO

## TEMA

El burnout, o síndrome de desgaste profesional, es un problema creciente en el entorno laboral moderno, caracterizado por un estado de agotamiento físico, emocional y mental causado por el estrés prolongado en el trabajo. Identificar y mitigar el burnout es crucial para mantener el bienestar de los empleados y la productividad de las organizaciones. Este proyecto se centra en desarrollar un modelo de predicción basado en Machine Learning (ML) para evaluar el nivel de burnout en los empleados.

### Localización de datos

A través de https://www.kaggle.com/datasets/blurredmachine/are-your-employees-burning-out

## HIPÓTESIS

1. Las personas con mayor responsabilidad tendrán más probabilidad de sufrir burnout.
2. Las personas que dediquen más horas de trabajo al día y que no dispongan de teletrabajo tendrán más probabilidad de sufrir burnout. 
3. Las personas dedicadas al sector del servicio tendrán más probabilidad de sufrir burnout que las personas dedicadas al sector de producción. 
4. Existirá una correlación positiva y significativa entre el nivel de fatiga mental y burnout. 
5. Se establece como objetivo exploratorio comprobar la posible relación entre género y burnout.


## Pasos iniciales

1. Descargar librerías
2. Cargar los datos
3. Visualizar los datos:
    -  **ID del empleado**: ID único asignado a cada empleado (ejemplo: fffe390032003000).
    - **Fecha de ingreso**: La fecha y hora en que el empleado se unió a la organización (ejemplo: 2008-12-30).
    - **Género**: El género del empleado (Masculino/Femenino).
    - **Tipo de empresa**: El tipo de empresa donde el empleado trabaja (Servicios/Productos).
    - **Facilidad para trabajar desde casa**: Indica si el empleado tiene la posibilidad de trabajar desde casa (Sí/No).
    - **Designación**: La designación del empleado en la organización, en un rango de [0.0, 5.0], donde un valor más alto indica una designación más alta.
    - **Asignación de recursos**: La cantidad de recursos asignados al empleado para trabajar, es decir, el número de horas de trabajo, en un rango de [1.0, 10.0], donde un valor más alto indica más recursos.
    - **Puntuación de fatiga mental**: El nivel de fatiga mental que enfrenta el empleado, en un rango de [0.0, 10.0], donde 0.0 significa sin fatiga y 10.0 significa completamente fatigado.
    - **Tasa de Burnout**: El valor que necesitamos predecir para cada empleado, indicando la tasa de burnout mientras trabaja, en un rango de [0.0, 1.0], donde un valor más alto indica un mayor nivel de burnout.

## Limpieza

1. Se eliminan las filas que contenga algún valor nulo debido al volumen suficiente de los datos.
2. Se renombran las columnas para mayor comprensión.
3. Se crea la columna de fecha y de años en la empresa, pero se elimina al ver la poca relevancia de los datos.
4. Se codifican las variables object en variables numéricas para el posterior modelado.

## Split de los datos

Se hace un split de train (80%) y test (20%) de la base de datos. 

## Análisis de variables

1. Se observa la distribución de la variable target
2. Análisis de la variable 'gender'.  
    - Se realiza prueba de Mann-Whitney para ver relación entre género y burnout. Se grafica y comparan los grupos. 
3. Análisis de la variable 'company'
    - Se realiza la prueba de Mann-Whitney para ver la relación entre la compañía y burnout. Se grafica y comparan los grupos.
4. Análisis de la variable 'wfh'.  
    - Se realiza prueba de Mann-Whitney para ver relación entre el teletrabajo y burnout. Se grafica y comparan los grupos. 
5. Análisis de la variable 'position'.  
    - Se realiza prueba de Kruskal-Wallis para ver relación entre el nivel del puesto de trabajo y burnout. Se grafica y comparan los grupos. 
6. Análisis de la variable 'allocation'.  
    - Se realiza prueba de Kruskal-Wallis para ver relación entre el nivel de carga de trabajo y burnout. Se grafica y comparan los grupos. 
7. Análisis de la variable 'mentalfatige'
    - Se observa la correlación entre la fatiga mental y burnout. 
    - Se comprueba la correlación con todas las variables.
    

## Machine learning

### Escalado de datos

Pese a que los datos tienen sus mínimos y sus máximos en un rango próximo, se realiza MinMaxScaler debido a la sensibilidad de algunos modelos con los que vamos a probar.

### Linear Regression

- Se explora una primera opción de modelo mediante Regresión lineal.
- Se observan los coeficientes y features importances 
- Se entrena
- Se prueba con test
- Se visualiza gráficamente la distribución de los datos válidos y predichos según el modelo
- Se intenta optimizar con regularización 
- Se guarda el modelo

### Random Forest Regressor

- Se explora una segunda opción de modelo mediante Random Forest.
- Se definen los hiperparámetros: n_estimators, max_depth, min_samples_split, min_samples_leaf, max_featuresy se configurar el Grid Search con validación cruzada.
- Se entrena
- Se prueba con test
- Se guarda el modelo

### Otros modelos 

Debido a la proximidad de los resultados de las métricas de los modelos anteriores, se prueba a comparar los modelos: 
- Linear Regression
- Ridge Regression
- Lasso Regression
- Decision Tree
- Random Forest
- Gradient Boosting
- XGB Regressor
- LGBM Regressor
- CatBoost Regressor
- KNN
- SVR

### Oprimización de LGBM Regressor

Con criterio de tomar el modelo con el MAE más bajo y el R2 más alto, se intenta optimizar el modelo LGBM 

- Se grafica el comportamiento de los datos en función del error de predicción
- Se observan las features importances
- Se guarda el modelo