# Explicaci√≥n cross entropy loss

**Autor:** Jazna Meza Hidalgo

**Correo Electr√≥nico:** ja.meza@profesor.duoc.cl

**Fecha de Creaci√≥n:** Febrero de 2025    
**Versi√≥n:** 1.0  

---

## Descripci√≥n

Este notebook explica el concepto de la entropia cruzada (cross entropy).

*Cross entropy* es una funci√≥n de p√©rdida utilziada en problemas de clasificaci√≥n, especialmente en modelos que producen probabilidades, como las redes neuronales con **Softmax** en la √∫ltima capa.


---

## Requisitos de Software

Este notebook fue desarrollado con Python 3.9. A continuaci√≥n se listan las bibliotecas necesarias:

- numpy (1.26.4)

Para verificar la versi√≥n instalada ejecutar usando el nombre del paquete del cual quieres saber la versi√≥n; por ejemplo, si quieres saber la versi√≥n de sklearn usas:

```bash
import numpy
print(numpy.__version__)
````

# Intuici√≥n detr√°s de cross entropy

Cuando se entrena un modelo de clasificaci√≥n, se quiere que la probabilidad predicha para la clase correcta sea la m√°s **alta posible**.

Por ejemplo, si se est√°n clasificando im√†genes de gatos y perror, un buen modelo debe asignar una **probabilidad alta** a la clase en cada caso.

Si un modelo predice que una imagen de un gato tiene una probabilidad de 0.9 de ser gato y 0.1 de ser perro, es una mejor predicci√≥n que decir que ambas clases tienne 0,5 de probabilidad.

*Cross entropy* mide **qu√© tan bien est√°n alineadas las probabilidades predichas con la clase real**

# Matem√°tica asociada con cross entropy

Para una √∫nica muestra con una distribuci√≥n real y una distrobuci√≥n predicha $\hat{y}$ la **cross entropy** se define como:

$H(y,\hat{y})=-
\sum_{i=1}^{C}y_{i}log(\hat{y})$

Donde:

+ C es el n√∫mero de clases.
+ $y_i$ es el **valor real** de la clase $i$ (1 es la clase correcta, 0 en caso contrario).
+ $\hat{y}$ es la **probabilidad predicha** por el modelo para la clase $i$.

Si s√≥lo se tienen **una clase correcta**, esta ecuaci√≥n se reduce a:

$L=-log(\hat{y}_{correcta})$


# Ejemplo con 3 clases (gatos, perro, panda)

| Clase         | Probabilidad predicha $\hat{y}_i$|
|---------------|----------------------------------|
| Gato (0)      |                         0.1      |
| Perro (1)     |                         0.7      |
| Panda (2)     |                         0.2      |

Como la imagen es un perro, la entrop√≠a cruzada ser√°:

$L=-log(0.7)$

Si el modelo fuera perro y predijera 0.3 para perro:

$L=-log(0.3)$

üîπ Cuanto mayor sea la probabilidad predicha de la clase correcta, menor ser√° la p√©rdida.

üîπ Si la probabilidad de la clase correcta es cercana a 0, la p√©rdida ser√° muy alta.

# Ejemplo pr√°ctico

In [3]:
import numpy as np

def cross_entropy(y_true: np.array, y_pred: np.array):
    """
    Calcula la p√©rdida de entrop√≠a cruzada entre etiquetas reales y predichas.

    Par√°metros:
    - y_true: np.array de etiquetas reales (one-hot encoded)
    - y_pred: np.array de probabilidades predichas (softmax output)

    Retorna:
    - P√©rdida de entrop√≠a cruzada promedio.
    """
    epsilon = 1e-12  # Para evitar log(0)
    y_pred = np.clip(y_pred, epsilon, 1. - epsilon)
    return -np.sum(y_true * np.log(y_pred)) / y_true.shape[0]

# Ejemplo: Clasificaci√≥n de 3 clases
y_real = np.array([[0, 1, 0]])  # La clase real es la segunda (Perro)
y_pred_bien = np.array([[0.1, 0.7, 0.2]])  # Buen modelo
y_pred_mal = np.array([[0.3, 0.3, 0.4]])  # Mal modelo

print(f"P√©rdida (modelo bueno): {cross_entropy(y_real, y_pred_bien)}")
print(f"P√©rdida (modelo malo) : {cross_entropy(y_real, y_pred_mal)}")


P√©rdida (modelo bueno): 0.35667494393873245
P√©rdida (modelo malo) : 1.2039728043259361




---
**Comentarios**

---

üîπ El modelo bueno tendr√° menor p√©rdida que el malo.

üîπ Si la clase correcta tiene una probabilidad alta, la p√©rdida ser√° baja.



# ¬øPor qu√© se usa en clasificaci√≥n?

+ Es **convexa**, lo que facilita la optimizaci√≥n con m√©todos como **descenso de gradiente**.
+ **Maximiza la probabilidad de la clase correcta**, lo que hace que el modelo aprenda a generar predicciones m√°s confiables.
+ Funciona bien con **softmax**, ya que este convierte los valores en una distriuci√≥n de probabilidad.

# Resumen

‚úÖ Mide qu√© tan bien las probabilidades predichas se alinean con las etiquetas reales.

‚úÖ Si la clase correcta tiene probabilidad baja, la p√©rdida ser√° grande.

‚úÖ Es una funci√≥n clave en clasificaci√≥n y se usa junto con Softmax.



---


üîπ üí° Entre m√°s confianza tenga el modelo en la clase correcta, menor ser√° la p√©rdida.


---

