![imagenes](logo.png)

# Clasificación multiclase

En clasificación binaria todo gira alrededor de una sola pregunta: ¿pertenece o no a la clase positiva? 

Pero en muchos problemas reales la pregunta es más rica: ¿a cuál de varias clases pertenece? (tipo de flor, categoría de documento, tipo de falla, dígito escrito a mano, etc.).

La clasificación multiclase consiste en asignar cada observación a una entre $K$ clases posibles. En deep learning, el modelo aprende regiones del espacio de características asociadas a cada clase, y produce una distribución de probabilidad sobre todas ellas.

La diferencia con regresión no está en “qué tan profunda” es la red, sino en:

- el tipo de variable objetivo (clase entre $K$),

- la interpretación probabilística de la salida,

- y la función de pérdida usada para entrenar.

## ¿Qué significa clasificar multiclase en una red neuronal?

En un problema multiclase con $K$ clases, la red aprende una función

$$f(\boldsymbol{x})=(P(y=1|\boldsymbol{x}),P(y=2|\boldsymbol{x}),...,P(y=K|\boldsymbol{x}))$$

donde:

- cada componente es una probabilidad,

- todas son no negativas y suman 1.

En otras palabras: el modelo no “elige” directamente una clase; primero estima qué tan plausible es cada clase dada la entrada $\boldsymbol{x}$.



## Capa de salida en clasificación multiclase

En multiclase, la salida estándar es:
- $K$ neuronas
- Función de activación softmax

La softmax transforma los scores (logits) en probabilidades $$\hat{y}_k=\frac{e^{z_k}}{\sum_{j=1}^K e^{z_j}}$$

Interpretación:
- $\hat{y}_k$ es la probabilidad asignada a la clase $k$
- la predicción final usualmente es $\mathrm{argmax}_k\hat{y}_k$
- y no hay un umbral único como en binaria: la decisión es “la clase con mayor probabilidad”.

## Función de pérdida en clasificación multiclase

La pérdida estándar es la entropía cruzada categórica (categorical cross-entropy). Si la etiqueta real está codificada como one-hot (vector con 1 en la clase correcta), la pérdida es: $$\mathcal{L}=-\sum_{k=1}^Ky_k\log(\hat{y}_k)$$

Como sólo una componente $y_k$ vale 1 (la clase verdadera), esto equivale a:
$$\mathcal{L}=-\log(\hat{y}_{\mbox{clase real}})$$

Así, el modelo es castigado cuando asigna baja probabilidad a la clase correcta y la penalización crece mucho si **está seguro pero equivocado.**

Durante el entrenamiento, minimizar esta pérdida equivale a maximizar la verosimilitud de las clases observadas bajo el modelo.

## Regularización en clasificación multiclase

El sobreajuste sigue siendo el enemigo: una red puede memorizar patrones accidentales y crear fronteras de decisión demasiado complejas.

Las técnicas más usadas se mantienen:

- L2 (weight decay): penaliza pesos grandes → decisiones más suaves y estables.

- Dropout: obliga a redundancia interna → reduce dependencia de rutas específicas.

- Early stopping: detiene el entrenamiento cuando el desempeño en validación deja de mejorar.

En multiclase esto es especialmente importante porque pequeñas variaciones pueden cambiar el argmax y, con ello, la clase predicha.

## Métricas de evaluación en clasificación multiclase

En multiclase, además del accuracy, suele interesar cómo se comporta el modelo **por clase**, porque no todas tienen la misma frecuencia o importancia.

- **Accuracy:** proporción de aciertos globales.

- **Matriz de confusión $K\times K$:** muestra qué clases se confunden entre sí.

- **Precision / Recall / F1 por clase**: evalúa desempeño clase a clase.

- **Macro-F1:** promedio simple del F1 de cada clase (trata a todas las clases “igual”).

- **Weighted-F1:** promedio ponderado por soporte (pesa más las clases frecuentes).

La elección depende del contexto: no es lo mismo clasificar especies equilibradas que detectar una clase rara de falla crítica.