![imagenes](logo.png)

# Funciones de pérdida

Como ya hemos comentado, dependiendo del tipo de problema que se nos presente tendremos una función de activación específica en la capa de salida. Pero eso no es suficiente: una vez que la red produce una salida $\boldsymbol{\hat{y}}$ necesitamos cuantificar qué tan equivocada está respecto a la salida real $\boldsymbol y$.$

Esa cuantificación la realiza la función de pérdida $\mathcal{L}(\boldsymbol{y},\boldsymbol{\hat{y}})$, que mide el error cometido por la red en una predicción.

Mientras que la función de activación de salida traduce números internos a algo interpretable (probabilidades, clases, valores reales), la función de pérdida traduce la diferencia entre lo predicho y lo real en un número que la red pueda minimizar durante el entrenamiento.

De nuevo, la elección no es arbitraria: la función de pérdida está dictada por el tipo de problema y por la activación usada en la capa de salida.

## Regresión

En problemas de regresión, la salida es un número real sin restricciones. No estamos hablando de probabilidades ni de clases, sino de valores continuos.

La función de pérdida más común es el error cuadrático medio (MSE): $$\mathcal{L}(y,\hat{y})=(y-\hat{y})^2$$ o bien su versión promedio cuando tenemos muchos datos.

Esta pérdida penaliza fuertemente los errores grandes y es coherente con una salida lineal $f_{out}(t)=t$.

## Clasificación binaria

Aquí la salida de la red es una probabilidad $$\hat{y}=P(y=1|\boldsymbol{x})$$ obtenida típicamente mediante una sigmoide.

En este contexto, usar una pérdida cuadrática es conceptualmente incorrecto: no estamos midiendo distancias entre números reales, sino discrepancias entre probabilidades y eventos binarios.

La función adecuada es la entropía cruzada binaria:
$$\mathcal{L}(y,\hat{y})=-(y\log(\hat{y})+(1-y)\log(1-\hat{y}))$$

Esta función castiga con mucha severidad las predicciones “seguras pero equivocadas”, lo cual es exactamente lo que queremos en clasificación.

### ¿Qué significa que la pérdida “castiga fuertemente”?

Cuando decimos que la función de pérdida en clasificación binaria *castiga fuertemente*, **no hablamos de fórmulas**, sino del comportamiento lógico del error.

En clasificación binaria, la red **no solo decide**, también **expresa qué tan segura está** de su decisión. La entropía cruzada binaria no solo pregunta:

> “¿Te equivocaste o no?”

sino también:

> “¿Qué tan convencido estabas de tu respuesta?”

---

#### Caso 1: la red se equivoca, pero duda

El valor real es $y=1$ (por ejemplo, el paciente **sí** tiene la enfermedad). La red dice algo como:
> “Creo que sí, pero no estoy muy seguro”.

Es decir, asigna una probabilidad intermedia a $y=1$. Aquí la pérdida **aumenta**, pero de forma moderada. La red se equivocó, pero **no estaba convencida** de su error.

---

#### Caso 2: la red se equivoca y está muy segura

El valor real es $y=1$. La red dice:
> “Estoy casi seguro de que **no**”.

Aquí el problema es mayor:
- La predicción es incorrecta.
- Además, la red estaba **muy confiada** en esa respuesta falsa.

En este caso la función de pérdida **crece mucho** y se penaliza severamente el error seguro.

---

#### Caso 3: la red acierta, pero con poca seguridad

El valor real es $y=1$. La red dice:
> “Creo que sí, pero apenas”.

La pérdida es pequeña, pero **no cero**. La red acertó, pero todavía debe aprender a estar más segura.

---

#### Caso 4: la red acierta y está muy segura

El valor real es $y=1$. La red dice:
> “Estoy completamente seguro de que sí”.

Aquí la pérdida es **casi nula**.  No hay nada relevante que corregir.





## Clasificación multiclase (una sola clase correcta)

En este caso la red produce un **vector de probabilidades**, una por clase, mediante una softmax:

$$
\hat{y}_j = \frac{e^{z_{out}^{(j)}}}{\sum_k e^{z_{out}^{(k)}}}.
$$

La función de pérdida adecuada es la **entropía cruzada categórica**

$$
\mathcal{L}(\boldsymbol{y},\boldsymbol{\hat{y}}) = -\sum_j y_j \log(\hat{y}_j),
$$

donde $\boldsymbol{y}$ es un vector one-hot que indica la clase correcta.

Esta pérdida mide qué tan bien la red asigna probabilidad a la clase verdadera frente a las demás, reflejando la competencia implícita del softmax.

## Clasificación multietiqueta

Aquí no hay competencia entre salidas: cada neurona responde de forma independiente si cierta etiqueta está presente o no.

Por ello, aunque hay varias neuronas de salida, **cada una usa una sigmoide**, y la pérdida es la suma de entropías cruzadas binarias:

$$
\mathcal{L}(\boldsymbol{y}, \boldsymbol{\hat{y}}) = -\sum_j \left( y_j \log(\hat{y}_j) + (1 - y_j) \log(1 - \hat{y}_j) \right).
$$

Cada etiqueta se evalúa como un problema binario independiente.