# Evaluación de Modelos: Más allá del simple "Acierto"

Cuando trabajamos con XGBoost, especialmente en problemas con clases desbalanceadas (como fraude o enfermedades), confiar solo en el **Accuracy** es un error fatal. Necesitamos herramientas que nos digan **dónde** se está equivocando el modelo.

## 1. La Matriz de Confusión: El Mapa de la Verdad

Es la base de todas las demás métricas. Es una tabla que cruza la realidad con las predicciones del modelo.

* **Verdaderos Positivos (TP):** El modelo dijo "Sí" y era "Sí". (Acierto crítico).
* **Verdaderos Negativos (TN):** El modelo dijo "No" y era "No". (Acierto por descarte).
* **Falsos Positivos (FP) - Error Tipo I:** El modelo dijo "Sí" pero era "No". (Falsa Alarma).
* **Falsos Negativos (FN) - Error Tipo II:** El modelo dijo "No" pero era "Sí". (El fallo más peligroso).

## 2. Desglosando las Métricas Clave

### A. Accuracy (Exactitud)
Es el porcentaje total de aciertos sobre el total de casos.
$$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$$
* **Uso:** Útil solo si tus clases están balanceadas (50/50). Si el 99% de tus datos son "Sanos", un modelo que siempre dice "Sano" tendrá 99% de Accuracy pero será inútil para detectar enfermos.

### B. Precision (Precisión)
¿De todos los que el modelo marcó como positivos, cuántos eran **realmente** positivos?
$$\text{Precision} = \frac{TP}{TP + FP}$$
* **Enfoque:** Se centra en reducir las **Falsas Alarmas**. 
* **Ejemplo:** En un filtro de Spam, prefieres alta precisión (no quieres que un correo importante de tu jefe termine en la basura).

### C. Recall / Sensitivity (Exhaustividad)
¿De todos los casos que eran **realmente** positivos, cuántos logró atrapar el modelo?
$$\text{Recall} = \frac{TP}{TP + FN}$$
* **Enfoque:** Se centra en **no dejar escapar** ningún caso positivo.
* **Ejemplo:** En un diagnóstico de Cáncer, el Recall es lo más importante. No importa si das una falsa alarma (FP), lo que no puedes permitir es que un enfermo se vaya a casa pensando que está sano (FN).

### D. F1-Score
Es el promedio armonioso entre Precision y Recall.
$$\text{F1-Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$$
* **Uso:** Es la métrica reina cuando tienes clases desbalanceadas. Te da una idea global de qué tan bien equilibrado está tu modelo entre atrapar a los positivos y no dar falsas alarmas.

## 3. Curva ROC y AUC (El rendimiento del umbral)

XGBoost no predice un "Sí" o un "No" directamente, sino una **probabilidad** (ej. 0.85). Por defecto, si es $>0.5$ se dice que es Positivo.

* **Curva ROC:** Grafica la tasa de Verdaderos Positivos contra la de Falsos Positivos para todos los umbrales posibles.
* **AUC (Área Bajo la Curva):** Es un número entre 0 y 1. 
    * **0.5:** El modelo es tan bueno como lanzar una moneda al aire (puro azar).
    * **1.0:** El modelo es perfecto.
    * **0.8 - 0.9:** Un modelo excelente.

## 4. Resumen Didáctico: El Detector de Metales

Imagina que estás en la playa buscando **monedas de oro (Clase Positiva)** en la arena con un detector de metales (tu modelo XGBoost):

1. **Accuracy:** Es el porcentaje de veces que el detector hizo algún sonido correcto (ya sea pitando sobre una moneda o quedándose callado sobre una piedra).
2. **Precision:** Si el detector suena, ¿qué tan seguro estás de que es oro y no una corcholata de cerveza (Falso Positivo)?
3. **Recall:** De todas las monedas de oro enterradas en la playa, ¿cuántas pitó el detector y cuántas pasaste de largo sin darte cuenta (Falso Negativo)?
4. **F1-Score:** Es la calificación final de tu día en la playa. Si tienes muchas monedas pero también cavaste 100 hoyos para nada, tu F1 bajará.
5. **AUC:** Es qué tan sensible es la perilla de tu detector. Un detector de alta gama (AUC cercano a 1) pitará con el oro y se callará con la basura, sin importar qué tan fuerte subas el volumen.