# Estrategia de Diseño: ¿Por qué Recall al 80% y Categorización de Datos?

En ciencia de datos aplicada a la salud, no buscamos el modelo más "exacto" matemáticamente, sino el más **útil y seguro** clínicamente. Estas dos decisiones reflejan esa prioridad.

---

## 1. Maximizando el Recall al 80%: La Red de Seguridad

En medicina, el **Recall** (Sensibilidad) responde a: *"De todos los pacientes que realmente tienen un riesgo, ¿a cuántos logré detectar?"*

### ¿Por qué el 80% es una buena meta?
* **Evitar el "Falso Negativo" (Error Tipo II):** El error más grave en una App médica es decirle a alguien que está "Sano" cuando en realidad está en riesgo. Un Recall del 80% significa que atrapamos a 8 de cada 10 personas en peligro.
* **El Costo del Error:** * Un **Falso Positivo** (decirle a alguien que tiene riesgo y no es cierto) causa una preocupación temporal o un chequeo extra. 
    * Un **Falso Negativo** puede significar un tratamiento que no se inicia a tiempo.
* **Punto de Equilibrio:** Subir el Recall al 100% suele destruir la precisión (el modelo pitaría por todo). El 80% es un "punto dulce" que ofrece alta seguridad sin saturar el sistema con falsas alarmas.

---

## 2. De Números a Categorías (Binning): Hablando el Idioma Clínico

Llevar datos numéricos (como edad 62 o glucosa 125) a grupos como `age_cat_Q4_Critico` o `glucose_cat_Diabético` es una técnica llamada **Binning**.

### ¿Por qué es una decisión inteligente?

1. **Captura de No-Linealidad:** El riesgo médico no siempre sube de forma constante. Pasar de 20 a 30 años no cambia mucho el riesgo de infarto, pero pasar de 60 a 70 años lo dispara. Al crear "categorías críticas", le facilitamos al XGBoost entender estos saltos bruscos de riesgo.

2. **Resiliencia ante el Ruido (Outliers):**
   Si un sensor de glucosa falla y marca un valor imposible (ej. 900), un modelo numérico podría volverse loco intentando ajustar la línea. Si usamos categorías, ese valor simplemente cae en la caja de "Glucosa Alta", protegiendo la estabilidad del modelo.

3. **Interpretabilidad Humana (SHAP):**
   Como viste en tus gráficos, es mucho más fácil explicarle a un médico que *"pertenecer al grupo de Edad Crítica (Q4)"* aumenta el riesgo, que intentar explicar una pendiente decimal compleja. Permite crear la tabla de **Explicación Clínica** que ya tienes.

4. **Tratamiento de Umbrales Médicos:**
   La medicina se basa en rangos (Pre-hipertensión, Obesidad Grado 1, etc.). Al agrupar los datos, alineamos la inteligencia artificial con los protocolos médicos establecidos.

## **3. Resumen Didáctico: La Red de Pesca y las Tallas de Ropa**
Para que nunca se te olvide, usemos estas dos analogías:

**Recall al 80% (La Red de Pesca):** Imagina que pescas en un río para salvar especies en peligro. Prefieres una red con agujeros muy pequeños que atrape casi todo lo que pasa (Recall alto), aunque también saques algunas botas viejas o ramas (Falsos Positivos), porque dejar pasar un solo pez en peligro es un fracaso total.

**Categorización (Tallas de Ropa):** Imagina que fabricas uniformes médicos. Podrías pedir la medida exacta en milímetros de cada doctor, pero es un caos logístico. Es mucho más eficiente crear tallas: S, M, L y XL.

XGBoost trabaja mejor con estas "tallas" porque puede agrupar a las personas con riesgos similares en contenedores claros, en lugar de perderse en los milímetros de diferencia entre un paciente y otro.