# 📄 Machine Learning Canvas: Predicción de Número de Horas de Ausencia
**Dataset:** Absenteeism at Work (UCI Machine Learning Repository, 2007–2010, courier company in Brazil)  
**Instancias:** 740  
**Variables:** 19 features + 1 target  
**Tarea ML:** Regresión supervisada  
**Target:** `Absenteeism time in hours`  

---

## 🎯 Objetivo

**Proposición de valor:**  
- Anticipar el número de horas que un empleado estará ausente.  
- Mejorar la planificación operativa, reducir costos asociados a ausencias inesperadas y diseñar políticas de salud y bienestar.  

**Usuarios / Stakeholders:**  
- **RRHH:** diseño de programas de salud, reducción de ausentismo.  
- **Supervisores:** organización de equipos y cargas de trabajo.  
- **Dirección:** decisiones estratégicas sobre contratación y retención.  
- **Empleados:** indirectamente beneficiados con políticas personalizadas de apoyo.  

---

## 📚 Aprender

### 🔹 Fuentes de datos
- **Históricos de RRHH**: ausencias y motivos asociados al código ICD (International Classification of Diseases).  
- **Datos demográficos**: edad, educación, hijos, hábitos sociales.  
- **Condiciones laborales**: tiempo de servicio, carga laboral promedio, historial disciplinario.  
- **Condiciones personales**: transporte, distancia, salud, peso, índice de masa corporal.  

### 🔹 Recolección de datos
- El dataset incluye 740 registros recolectados entre **2007 y 2010**.  
- Datos recolectados de sistemas internos (asistencia, salud, RRHH).  
- En un entorno real:  
  - **Batch mensual** de registros de asistencia.  
  - Actualización trimestral del dataset con nuevas observaciones.  

### 🔹 Características (features candidatas)
Ejemplos de variables disponibles en el dataset:  

- **Demográficas:**  
  - `Age`  
  - `Education` (1=high school, 2=graduate, 3=postgraduate, 4=masters/doctorate)  
  - `Son` (número de hijos)  

- **Laborales:**  
  - `Service time` (antigüedad)  
  - `Work load average/day`  
  - `Disciplinary failure` (0/1)  
  - `Hit target` (nivel de cumplimiento de objetivos)  

- **Salud y estilo de vida:**  
  - `Reason for absence` (ICD)  
  - `Social drinker` (0/1)  
  - `Social smoker` (0/1)  
  - `Weight`, `Height`, `Body mass index`  

- **Transporte y condiciones externas:**  
  - `Transportation expense`  
  - `Distance from Residence to Work`  
  - `Seasons` (1=summer, 2=autumn, 3=winter, 4=spring)  
  - `Month of absence`  
  - `Day of the week`  

**Variable objetivo (target):**  
- `Absenteeism time in hours`  

### 🔹 Construcción de modelos
- **Entrenamiento inicial:** con dataset histórico 2007–2010.  
- **Frecuencia de actualización:** trimestral con nuevos registros.  
- **Pipeline propuesto:**  
  1. Limpieza de datos (revisión de outliers, encoding de variables categóricas como ICD, seasons).  
  2. Feature engineering (ej. transformar `Distance` + `Transportation expense` en costo-tiempo de transporte).  
  3. Normalización de variables numéricas (edad, peso, distancia).  
  4. Entrenamiento con algoritmos de regresión.  

---

## 🔮 Predecir

### 🔹 Tareas Machine Learning
- **Tipo de problema:** Regresión.  
- **Entrada:** 19 variables de perfil, transporte, hábitos y laborales.  
- **Salida:** `Absenteeism time in hours`  

### 🔹 Algoritmos candidatos
- **Baseline:** Regresión lineal múltiple.  
- **Modelos más robustos:**  
  - Random Forest Regressor  
  - Gradient Boosting (XGBoost, LightGBM, CatBoost)  
  - Redes neuronales feed-forward (si se amplía dataset).  

### 🔹 Decisiones
- **RRHH:** identificación de empleados con alta probabilidad de ausencias prolongadas.  
- **Supervisores:** reorganización de equipos antes de que se generen faltas.  
- **Empresa:** detección de patrones comunes en causas de ausencias (ej. problemas de transporte, salud recurrente).  

### 🔹 Hacer predicciones
- **Frecuencia:** mensual, al inicio de cada ciclo.  
- **Modo:** batch predictions sobre todos los empleados activos.  
- **Tiempo de respuesta:** batch (no requiere real time).  

### 🔹 Evaluación offline
- **Métricas:**  
  - MAE (Mean Absolute Error)  
  - RMSE (Root Mean Squared Error)  
  - R² (variabilidad explicada)  
- **Comparación contra baseline:** promedio histórico de horas de ausencia.  
- **Validación cruzada k-fold.**  

---

## 📊 Evaluar

### 🔹 Monitorización en producción
- **Comparación continua:** predicciones vs. ausencias reales (mensual).  
- **Métricas en vivo:** MAE, RMSE, tasa de error por departamento.  
- **Monitoreo de drift:** cambios en distribución de variables (ej. edad promedio, patrones de transporte).  

### 🔹 Riesgos
- **Datos sensibles:** edad, salud, hábitos de consumo (posibles sesgos).  
- **Privacidad:** cumplir con GDPR / LGPD para el manejo de datos personales.  
- **Explicabilidad:** modelos complejos deben ser interpretables (ej. SHAP values).  

---

## 🔧 Mejoras futuras
- Incorporar variables externas: condiciones climáticas, tráfico, calendario de festivos.  
- Usar modelos de **series temporales** para capturar estacionalidad de ausencias.  
- Aplicar **clustering** para identificar perfiles de empleados con patrones similares de ausencia.  
- Generar dashboards dinámicos para RRHH con métricas y predicciones.  

---

## ✅ Conclusión
El dataset de **Absenteeism at Work** permite abordar la predicción de horas de ausencia como un **problema de regresión supervisada**.  

La combinación de variables demográficas, laborales, de transporte y de salud ofrece un marco robusto para generar **predicciones útiles y accionables**, con impacto directo en la **gestión de recursos humanos, productividad y bienestar organizacional**.  
