# Curvas PR y ROC: Evaluación de Modelos de Clasificación

## Introducción

Cuando evaluamos modelos de clasificación, las curvas **ROC** y **PR** son herramientas esenciales para visualizar y entender el rendimiento del modelo más allá de métricas simples como la precisión y el recall. Ambas curvas nos ayudan a determinar cómo se comporta un modelo a medida que cambia su umbral de clasificación.

---

## 1. Curva ROC (Receiver Operating Characteristic)

### **Descripción**
La **curva ROC** es una representación gráfica que muestra la relación entre la **tasa de verdaderos positivos** (TPR) y la **tasa de falsos positivos** (FPR) a diferentes umbrales de decisión. El área bajo la curva ROC, conocida como **AUC-ROC**, es una métrica que resume el rendimiento del modelo; un valor más cercano a 1 indica un mejor rendimiento.

### **Fórmulas Clave**
- **TPR (Tasa de Verdaderos Positivos)**:
$$
TPR = \frac{TP}{TP + FN}
$$

- **FPR (Tasa de Falsos Positivos)**:
$$
FPR = \frac{FP}{FP + TN}
$$

Donde:
- $TP$ = Verdaderos positivos
- $FP$ = Falsos positivos
- $TN$ = Verdaderos negativos
- $FN$ = Falsos negativos

### **Método de Feynman**
Imagina que tienes un detector de incendios. Si aumentas la sensibilidad, capturará más incendios (TP) pero también dará más falsas alarmas (FP). La curva ROC muestra cómo varían las verdaderas detecciones y las falsas alarmas al cambiar la sensibilidad.

### **Aplicación**
- Ideal para problemas de clasificación binaria.
- Evaluación general de modelos donde el balance entre TPR y FPR es importante.

---

## 2. Curva PR (Precision-Recall)

### **Descripción**
La **curva PR** muestra la relación entre la **precisión** y el **recall** a diferentes umbrales. Es especialmente útil para problemas con clases desbalanceadas, ya que se enfoca en la clase positiva y en la capacidad del modelo de mantener una alta precisión a medida que se incrementa el recall.

### **Fórmulas Clave**
- **Precisión**:
$$
\text{Precisión} = \frac{TP}{TP + FP}
$$

- **Recall**:
$$
\text{Recall} = \frac{TP}{TP + FN}
$$

### **Método de Feynman**
Imagina que tienes un tamiz para encontrar pepitas de oro en la arena. Si tu tamiz es muy fino, solo capturarás las pepitas más grandes (alta precisión, bajo recall). Si usas un tamiz más grueso, capturarás más pepitas (alto recall), pero también más arena (baja precisión). La curva PR muestra cómo cambian la precisión y el recall con el tamaño del tamiz (umbral).

### **Aplicación**
- Es más relevante que la curva ROC cuando hay un fuerte desbalance de clases.
- Útil para problemas donde el costo de los falsos positivos o falsos negativos es alto.

---

## Comparación entre Curva ROC y Curva PR

| **Métrica**            | **Curva ROC**                                       | **Curva PR**                                         |
|------------------------|------------------------------------------------------|------------------------------------------------------|
| **Cuando usarla**      | Cuando hay un balance entre clases.                 | Cuando hay un desbalance de clases.                  |
| **Interpretación**     | Muestra TPR vs. FPR a diferentes umbrales.          | Muestra precisión vs. recall a diferentes umbrales.  |
| **Métrica resumen**    | AUC-ROC (Área bajo la curva ROC).                   | AUC-PR (Área bajo la curva PR).                      |
| **Fuerte desbalance**  | Puede ser engañosa en este caso.                    | Ofrece una mejor representación de la clase positiva.|

---

## Ejemplo Práctico en Python

### Configuración del entorno

```python
import numpy as np
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, roc_auc_score, precision_recall_curve, auc
import matplotlib.pyplot as plt

# Generar un conjunto de datos de clasificación binaria
X, y = make_classification(n_samples=1000, n_classes=2, weights=[0.9, 0.1], random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Modelo de clasificación
model = LogisticRegression()
model.fit(X_train, y_train)

# Predicciones de probabilidad
y_scores = model.predict_proba(X_test)[:, 1]