@ Gustavo Vazquez

# Métricas de Evaluación en Problemas de Clasificación

Evaluar el desempeño de un modelo de clasificación es esencial para medir su efectividad y comprender sus fortalezas y limitaciones. Existen diversas métricas que proporcionan información específica sobre el rendimiento del clasificador, permitiendo una evaluación más detallada de sus predicciones.

En el contexto de clasificación, el caso más común es la clasificación binaria, donde los datos se dividen en dos categorías distintas. Este tipo de problema es particularmente relevante cuando las clases representan conceptos opuestos. En estos casos, la correcta identificación de cada clase es crucial para seleccionar y aplicar las métricas de evaluación adecuadas.

En este caso tendremos dos clases:

- **Clase Positiva (P):** Es la clase de interés en el problema. Representa los casos que el modelo debe detectar con mayor precisión.
- **Clase Negativa (N):** Es la clase complementaria. Son los casos que no pertenecen a la clase positiva.

La elección de la clase positiva depende del contexto del problema. Algunos ejemplos:

- En un modelo de detección de pacientes con patologías:
  - **Positiva (P):** Paciente con patología.
  - **Negativa (N):** Paciente sano.
  - Un falso negativo (FN) es crítico, ya que podría llevar a no diagnosticar una enfermedad.

- En un filtro de spam:
  - **Positiva (P):** Correo clasificado como spam.
  - **Negativa (N):** Correo legítimo.
  - Un falso positivo (FP) significa que un correo válido se detectó erróneamente como spam.

- En detección de fraudes bancarios:
  - **Positiva (P):** Transacción fraudulenta.
  - **Negativa (N):** Transacción legítima.
  - Es preferible minimizar los falsos negativos (FN), ya que permitiría que una transacción fraudulenta pase desapercibida.

Definir correctamente qué es la clase positiva y negativa afecta la interpretación de métricas como **precisión, recall y F1-score**.

---
## 2. Matriz de Confusión

La **matriz de confusión** es una tabla que permite visualizar el desempeño del clasificador en términos de predicciones correctas e incorrectas. Está compuesta por cuatro valores clave:

|                 | Clase Real Positiva (P) | Clase Real Negativa (N) |
|----------------|------------------------|------------------------|
| **Predicción Positiva** | Verdadero Positivo (TP) | Falso Positivo (FP) |
| **Predicción Negativa** | Falso Negativo (FN) | Verdadero Negativo (TN) |

- **Verdadero Positivo (TP):** Número de ejemplos correctamente clasificados como positivos.
- **Falso Positivo (FP):** Número de ejemplos negativos clasificados erróneamente como positivos.
- **Falso Negativo (FN):** Número de ejemplos positivos clasificados erróneamente como negativos.
- **Verdadero Negativo (TN):** Número de ejemplos correctamente clasificados como negativos.

La correcta interpretación de esta tabla es clave para definir las métricas que evaluarán el modelo.

---
## 3. Accuracy (Exactitud)

**Accuracy** mide la proporción de predicciones correctas sobre el total de ejemplos. Se define como:

$$
Accuracy = \frac{TP + TN}{TP + FP + TN + FN}
$$

### Ejemplo:
Supongamos que un modelo clasifica si un correo es **spam (positivo)** o **no spam (negativo)**. Evaluamos el modelo con 100 correos:
- 80 clasificaciones correctas (50 spam y 30 no spam).
- 10 correos spam mal clasificados como no spam.
- 10 correos no spam mal clasificados como spam.

Aplicamos la fórmula:

$$
Accuracy = \frac{50 + 30}{50 + 10 + 30 + 10} = \frac{80}{100} = 0.8 \, (80\%)
$$

### Limitaciones:
- Si las clases están desbalanceadas, **accuracy puede ser engañosa**. Por ejemplo, si el 95% de los correos no son spam, un modelo que siempre predice "no spam" tendrá una accuracy del 95%, pero no será útil.

---
## 4. Precision (Precisión)

La **precisión** mide cuántos de los ejemplos clasificados como positivos realmente lo son. Se define como:

$$
Precision = \frac{TP}{TP + FP}
$$

### Ejemplo:
En el mismo problema de clasificación de spam:
- El modelo predijo 60 correos como spam, pero 10 no eran realmente spam (**FP = 10**).
- De los 60 predichos como spam, 50 sí lo eran (**TP = 50**).

$$
Precision = \frac{50}{50 + 10} = \frac{50}{60} = 0.8333 \, (83.3\%)
$$

---
## 5. Recall (Sensibilidad o Exhaustividad)

El **recall** mide cuántos de los ejemplos positivos fueron correctamente clasificados. Se define como:

$$
Recall = \frac{TP}{TP + FN}
$$

### Ejemplo:
- En el problema del spam, el modelo clasificó correctamente 50 correos spam (**TP = 50**), pero falló en detectar 10 correos spam (**FN = 10**).

$$
Recall = \frac{50}{50 + 10} = \frac{50}{60} = 0.8333 \, (83.3\%)
$$

![Precision y Recall](https://upload.wikimedia.org/wikipedia/commons/2/26/Precisionrecall.svg)

---
## 6. F1-Score

El **F1-score** es la media armónica entre precisión y recall. Se usa cuando es necesario un balance entre ambas métricas.

$$
F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}
$$

### Ejemplo:
- **Precision = 0.8333**, **Recall = 0.8333**

$$
F1 = 2 \times \frac{0.8333 \times 0.8333}{0.8333 + 0.8333} = 0.8333
$$

---
## 7. Ejemplo en Código: Evaluación de un Modelo de Clasificación

In [None]:
import numpy as np
from sklearn.metrics import confusion_matrix, precision_score, recall_score, accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification

# Generar un conjunto de datos más difícil de clasificar
X, y = make_classification(n_samples=200, n_features=5, n_informative=3, n_redundant=2,
                           class_sep=0.5, flip_y=0.15, random_state=42)

# Dividir en entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar un modelo de clasificación (Regresión Logística) con iteraciones limitadas
model = LogisticRegression()
model.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Calcular la matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
print("Matriz de Confusión:\n", conf_matrix)

# Calcular métricas de evaluación
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)

# Mostrar resultados
print(f"Accuracy (Exactitud): {accuracy:.2f}")
print(f"Precision (Precisión): {precision:.2f}")
print(f"Recall (Exhaustividad): {recall:.2f}")


Matriz de Confusión:
 [[17  3]
 [ 7 13]]
Accuracy (Exactitud): 0.75
Precision (Precisión): 0.81
Recall (Exhaustividad): 0.65


----

## 8. Cómo Elegir una Métrica de Evaluación

La elección depende de los objetivos:

- Si ambas clases son igualmente importantes y el dataset está balanceado → **accuracy** es aceptable.  
- Si lo importante es no perder casos positivos → **recall**.  
- Si lo importante es minimizar falsos positivos → **precision**.  
- Si se busca un equilibrio → **F1-score**.  
- Si interesa la capacidad global de ranking → **ROC AUC**.  
- Si interesa la calidad de las probabilidades → **Log-Loss**, **Brier Score**.  

En problemas desbalanceados, es clave priorizar **precision**, **recall**, **F1-score** o métricas basadas en curvas (ROC, Precision-Recall), en lugar de depender únicamente de **accuracy**.