# **Funciones de Pérdida en Redes Neuronales**

## **¿Qué es una función de pérdida?**

Es una métrica matemática que mide el nivel de error o discrepancia entre las predicciones de un modelo de aprendizaje automático y los valores reales que se espera que el modelo prediga

## **Tipos Comunes de Funciones de Pérdida**

### **Para Problemas de Regresión**

#### 1. Error Cuadrático Medio (MSE)

$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

Keras: `mean_squared_error`


#### 2. Error Absoluto Medio (MAE)

$\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$

Keras: `mean_absolute_error`

### **Para Problemas de Clasificación**


#### 1. Entropía Cruzada Binaria (Binary Crossentropy)

$\text{BCE} = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right]$

Donde;

$n$: número de muestras.

$y_i$: valor real de la clase para la muestra $i$ $(0\ o\ 1)$.

$\hat{y}_i$: probabilidad predicha por el modelo para la clase positiva $(1)$, es decir, $\hat{y}_i ∈[0,1] $

$\text{log}$: el logaritmo natural.

*- Se usado en problemas de clasificación binaria*

Keras: `binary_crossentropy`




#### 2.  Entropía Cruzada Categórica (Categorical Crossentropy)

$\text{CCE} = -\sum_{i=1}^{n} \sum_{c=1}^{C} y_{ic} \log(\hat{y}_{ic})$

*- Se usado en problemas de clasificación multiclase*

Donde:

$n$: es el número de muestras.

$C$: es el número de clases.

$y_{ic}$: es el valor real ($1$ si la muestra $i$ pertenece a la clase $c$, de lo contrario $0$).

$\hat{y}_{ic}$: es la probabilidad predicha para que la muestra $i$ pertenezca a la clase $c$.

Keras: `categorical_crossentropy`




#### 3.  Sparse Categorical Crossentropy

$\text{Sparse CCE} = -\sum_{i=1}^{n} \log(\hat{y}_{i, y_i})$

*- Se usado en problemas de clasificación multiclase. Se utiliza cuando las etiquetas de clase están en formato entero en lugar de formato one-hot*

Donde:

$n$: es el número de muestras.

$y_i$: es la clase verdadera de la muestra $i$, expresada como un índice entero en el rango $[0 , C−1]$, donde $C$ es el número de clases.

$\hat{y}_{i, y_i}$: es la probabilidad predicha por el modelo para la clase verdadera $y_i$ de la muestra $i$.

Keras: `sparse_categorical_crossentropy`

## **Ejemplo desde la intuición**

Supón que para una muestra el valor real es $y_i = 1$ (clase positiva), y el modelo predice $\hat{y}_i = 0.9$ (una probabilidad alta de ser 1). Entonces, la parte de la fórmula relevante sería:

$\text{BCE} = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right]$



$\text{BCE} = 1. \log(0.9) + (1 - 1) \log(1 - 0.9)$



$y_i. \text{log}(\hat{y}_i)\ =\ 1\ \text{x}\ \text{log}(0.9)\ =\ \text{log}(0.9)\ \thickapprox\ -0.105$

**Interpretación**: *Este valor negativo pequeño indica que el modelo hizo una buena predicción*.

Si en cambio el modelo predice $\hat{y}_i = 0.1$ (una probabilidad baja de ser 1), entonces:

$\text{BCE} = 1. \log(0.1) + (1 - 1) \log(1 - 0.1)$

$y_i. \text{log}(\hat{y}_i)\ =\ 1\ . \text{log}(0.1)\ =\ \text{log}(0.1)\ \thickapprox\ -2.3$

**Para el caso en que la etiqueta de la muestra evaluada sea `clase 0`**

Sea:


$\text{BCE} = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right]$

Para este caso $y_i$ = 0

Y el modelo predice $\hat{y}_i = 0.1$ (una probabilidad baja de ser 1), entonces:



$\text{BCE} = 0. \log(0.1) + (1 - 0) \log(1 - 0.1)$

$(1 - y_i). \text{log}(\hat{y}_i)\ =\ (1 - 0)\ . \text{log}(0.9)\ =\ \text{log}(0.9)\ \thickapprox\ -0.105$

## **Ejemplos Prácticos:**

#### Ejemplo 1: Función de Pérdida de Regresión (MSE)

In [None]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# Generar datos simulados
X = np.random.rand(100, 1)
y = 3 * X + 2 + np.random.randn(100, 1) * 0.1  # Relación lineal con algo de ruido

# Definir un modelo simple de red neuronal
model = Sequential([
    Dense(1, input_dim=1)
])

# Compilar el modelo con la función de pérdida MSE
model.compile(optimizer='adam', loss='mean_squared_error')

# Entrenar el modelo
history = model.fit(X, y, epochs=100, verbose=0)

# Graficar la pérdida durante el entrenamiento
import matplotlib.pyplot as plt
plt.plot(history.history['loss'])
plt.title('Pérdida (MSE) durante el entrenamiento')
plt.xlabel('Épocas')
plt.ylabel('Pérdida (MSE)')
plt.show()


#### Ejemplo 2: Función de Pérdida para Clasificación (Entropía Cruzada Binaria)

In [None]:
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
import numpy as np

# Generar datos simulados de clasificación binaria
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear un modelo simple para clasificación
model = Sequential([
    Dense(64, activation='relu', input_dim=20),
    Dense(1, activation='sigmoid')  # Salida binaria
])

# Compilar el modelo con Binary Crossentropy
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Entrenar el modelo
history = model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=100, verbose=0)

# Graficar la pérdida y la precisión durante el entrenamiento
plt.plot(history.history['loss'], label='Pérdida Entrenamiento')
plt.plot(history.history['val_loss'], label='Pérdida Validación')
plt.title('Pérdida (Binary Crossentropy)')
plt.xlabel('Épocas')
plt.ylabel('Pérdida')
plt.legend()
plt.show()

plt.plot(history.history['accuracy'], label='Precisión Entrenamiento')
plt.plot(history.history['val_accuracy'], label='Precisión Validación')
plt.title('Precisión del modelo')
plt.xlabel('Épocas')
plt.ylabel('Precisión')
plt.legend()
plt.show()
