# Explicación cross entropy loss

**Autor:** Jazna Meza Hidalgo

**Correo Electrónico:** ja.meza@profesor.duoc.cl

**Fecha de Creación:** Febrero de 2025    
**Versión:** 1.0  

---

## Descripción

Este notebook explica el concepto de la entropia cruzada (cross entropy).

*Cross entropy* es una función de pérdida utilziada en problemas de clasificación, especialmente en modelos que producen probabilidades, como las redes neuronales con **Softmax** en la última capa.


---

## Requisitos de Software

Este notebook fue desarrollado con Python 3.9. A continuación se listan las bibliotecas necesarias:

- numpy (1.26.4)

Para verificar la versión instalada ejecutar usando el nombre del paquete del cual quieres saber la versión; por ejemplo, si quieres saber la versión de sklearn usas:

```bash
import numpy
print(numpy.__version__)
````

# Intuición detrás de cross entropy

Cuando se entrena un modelo de clasificación, se quiere que la probabilidad predicha para la clase correcta sea la más **alta posible**.

Por ejemplo, si se están clasificando imàgenes de gatos y perror, un buen modelo debe asignar una **probabilidad alta** a la clase en cada caso.

Si un modelo predice que una imagen de un gato tiene una probabilidad de 0.9 de ser gato y 0.1 de ser perro, es una mejor predicción que decir que ambas clases tienne 0,5 de probabilidad.

*Cross entropy* mide **qué tan bien están alineadas las probabilidades predichas con la clase real**

# Matemática asociada con cross entropy

Para una única muestra con una distribución real y una distrobución predicha $\hat{y}$ la **cross entropy** se define como:

$H(y,\hat{y})=-
\sum_{i=1}^{C}y_{i}log(\hat{y})$

Donde:

+ C es el número de clases.
+ $y_i$ es el **valor real** de la clase $i$ (1 es la clase correcta, 0 en caso contrario).
+ $\hat{y}$ es la **probabilidad predicha** por el modelo para la clase $i$.

Si sólo se tienen **una clase correcta**, esta ecuación se reduce a:

$L=-log(\hat{y}_{correcta})$


# Ejemplo con 3 clases (gatos, perro, panda)

| Clase         | Probabilidad predicha $\hat{y}_i$|
|---------------|----------------------------------|
| Gato (0)      |                         0.1      |
| Perro (1)     |                         0.7      |
| Panda (2)     |                         0.2      |

Como la imagen es un perro, la entropía cruzada será:

$L=-log(0.7)$

Si el modelo fuera perro y predijera 0.3 para perro:

$L=-log(0.3)$

🔹 Cuanto mayor sea la probabilidad predicha de la clase correcta, menor será la pérdida.

🔹 Si la probabilidad de la clase correcta es cercana a 0, la pérdida será muy alta.

# Ejemplo práctico

In [3]:
import numpy as np

def cross_entropy(y_true: np.array, y_pred: np.array):
    """
    Calcula la pérdida de entropía cruzada entre etiquetas reales y predichas.

    Parámetros:
    - y_true: np.array de etiquetas reales (one-hot encoded)
    - y_pred: np.array de probabilidades predichas (softmax output)

    Retorna:
    - Pérdida de entropía cruzada promedio.
    """
    epsilon = 1e-12  # Para evitar log(0)
    y_pred = np.clip(y_pred, epsilon, 1. - epsilon)
    return -np.sum(y_true * np.log(y_pred)) / y_true.shape[0]

# Ejemplo: Clasificación de 3 clases
y_real = np.array([[0, 1, 0]])  # La clase real es la segunda (Perro)
y_pred_bien = np.array([[0.1, 0.7, 0.2]])  # Buen modelo
y_pred_mal = np.array([[0.3, 0.3, 0.4]])  # Mal modelo

print(f"Pérdida (modelo bueno): {cross_entropy(y_real, y_pred_bien)}")
print(f"Pérdida (modelo malo) : {cross_entropy(y_real, y_pred_mal)}")


Pérdida (modelo bueno): 0.35667494393873245
Pérdida (modelo malo) : 1.2039728043259361




---
**Comentarios**

---

🔹 El modelo bueno tendrá menor pérdida que el malo.

🔹 Si la clase correcta tiene una probabilidad alta, la pérdida será baja.



# ¿Por qué se usa en clasificación?

+ Es **convexa**, lo que facilita la optimización con métodos como **descenso de gradiente**.
+ **Maximiza la probabilidad de la clase correcta**, lo que hace que el modelo aprenda a generar predicciones más confiables.
+ Funciona bien con **softmax**, ya que este convierte los valores en una distriución de probabilidad.

# Resumen

✅ Mide qué tan bien las probabilidades predichas se alinean con las etiquetas reales.

✅ Si la clase correcta tiene probabilidad baja, la pérdida será grande.

✅ Es una función clave en clasificación y se usa junto con Softmax.



---


🔹 💡 Entre más confianza tenga el modelo en la clase correcta, menor será la pérdida.


---

