# MSE: Mean Squared Error

## Definición
El **MSE** (Error Cuadrático Medio) mide el error promedio cuadrático entre los valores reales y las predicciones.

$$
\text{MSE}=\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat y_i)^2
$$

- $n$: número de muestras.  
- $y_i$: valor real de la muestra $i$.  
- $\hat y_i$: valor predicho para la muestra $i$.  
- $(y_i-\hat y_i)$: residuo o error de predicción en la muestra $i$.

## Dataset del ejemplo
Contexto: problema de **regresión**, donde se predice una variable continua.  

Variables:
- $y$: vector con los valores reales observados.  
- $\hat y$: vector con las predicciones del modelo.  
- $r$: vector de residuos de la resta $y_i - \hat y_i$.  

Muestras:
| $i$ | $y_i$  | $\hat y_i$  | $r_i$ | $r_i^2$ |
|---|------|------|--------------------------|-------|
| 1 | 3.0  | 2.5  | 0.5                      | 0.25  |
| 2 | -0.5 | 0.0  | -0.5                     | 0.25  |
| 3 | 2.0  | 2.0  | 0.0                      | 0.00  |
| 4 | 7.0  | 8.0  | -1.0                     | 1.00  |
| 5 | 4.5  | 5.0  | -0.5                     | 0.25  |

Suma de cuadrados:  
$$0.25 + 0.25 + 0.00 + 1.00 + 0.25 = 1.75$$  

Promedio:  
$$\text{MSE} = \frac{1.75}{5} = 0.35$$  

**Interpretación:**  
El valor medio del cuadrado de los errores es **0.35**.  
Esto indica que, en promedio, las predicciones se desvían del valor real en una magnitud que al cuadrarse equivale a 0.35.  
El MSE **penaliza más los errores grandes** debido a la operación cuadrática.


---
# BCE: Binary Cross-Entropy

## Definición
El **BCE** mide el desacuerdo entre las probabilidades predichas y las etiquetas reales en **clasificación binaria**.

$$
\text{BCE}=-\frac{1}{n}\sum_{i=1}^{n}\left[y_i\ln(\hat y_i)+(1-y_i)\ln(1-\hat y_i)\right]
$$

- $n$: número de muestras.
- $y_i \in \{0,1\}$: etiqueta real binaria.
- $\hat y_i \in (0,1)$: probabilidad predicha de clase positiva.
- Si $y_i=1$ aporta $-\ln(\hat y_i)$.
- Si $y_i=0$ aporta $-\ln(1-\hat y_i)$.

## Dataset del ejemplo
Contexto: un modelo con salida sigmoide que predice la probabilidad de clase positiva.  
Variables:
- $y$: vector de etiquetas verdaderas.
- $\hat y$: vector de probabilidades predichas para la clase 1.

Muestras:
| $i$ | $y_i$ | $\hat y_i$  | ${BCE}_i$ |
|---|-----|------|----------------|
| 1 | 1   | 0.9  | $-\ln(0.9)=0.1053605$ |
| 2 | 0   | 0.2  | $-\ln(1-0.2)=0.2231436$ |
| 3 | 1   | 0.4  | $-\ln(0.4)=0.9162907$ |
| 4 | 0   | 0.8  | $-\ln(1-0.8)=1.6094379$ |
| 5 | 1   | 0.7  | $-\ln(0.7)=0.3566749$ |

Promedio:
$$
\text{BCE}=\frac{0.1053605+0.2231436+0.9162907+1.6094379+0.3566749}{5}\approx 0.6421815
$$

Interpretación: penaliza fuertemente estar muy seguro y equivocado. Ideal con función de activación **sigmoide en la capa de salida**.


---
# CE multiclase: Categorical Cross-Entropy

## Definición
La **entropía cruzada multiclase** mide el desacuerdo entre la distribución real y la distribución predicha en **clasificación con C clases**.

$$
\text{CE}=-\frac{1}{n}\sum_{i=1}^{n}\sum_{c=1}^{C}y_{i,c}\ln(\hat y_{i,c})
$$

- $n$: número de muestras.
- $C$: número de clases.
- $y_{i,c}$: 1 si la muestra $i$ pertenece a la clase $c$, 0 en caso contrario (one hot).
- $\hat y_{i,c}$: probabilidad predicha de la clase $c$ para la muestra $i$ (salida softmax).
- Con one hot, para cada muestra solo cuenta la probabilidad de la clase correcta.

---

## Dataset del ejemplo
Contexto: un clasificador de 3 clases con salida softmax.  
Variables:
- $y$: matriz one hot de etiquetas reales.
- $\hat y$: matriz de probabilidades predichas por clase.

Muestras:
| $i$ | $y_i$ (one hot) | $\hat y_i$ (probabilidades) |
|---|----------------|----------------------|
| 1 | [1, 0, 0] | [0.70, 0.20, 0.10] |
| 2 | [0, 1, 0] | [0.10, 0.60, 0.30] |
| 3 | [0, 0, 1] | [0.20, 0.10, 0.70] |
| 4 | [1, 0, 0] | [0.85, 0.10, 0.05] |
| 5 | [0, 0, 1] | [0.05, 0.25, 0.70] |

Término por muestra usando la clase correcta:
| $i$ | Clase verdadera | Prob. predicha correcta | ${CE}_i$ |
|---|------------------|-------------------------|----------------------------|
| 1 | 1 | 0.70 | 0.3566749 |
| 2 | 2 | 0.60 | 0.5108256 |
| 3 | 3 | 0.70 | 0.3566749 |
| 4 | 1 | 0.85 | 0.1625189 |
| 5 | 3 | 0.70 | 0.3566749 |

Promedio:
$$
\text{CE}=\frac{0.3566749+0.5108256+0.3566749+0.1625189+0.3566749}{5}\approx 0.3486738
$$

Interpretación: si la probabilidad de la clase correcta es alta, la pérdida es baja. Se usa con función de activación **softmax** en la salida.


In [None]:
import numpy as np

# ------------------------------------------------
# MSE: Mean Squared Error
# ------------------------------------------------
y_mse = np.array([3.0, -0.5, 2.0, 7.0, 4.5], dtype=float)
yhat_mse = np.array([2.5, 0.0, 2.0, 8.0, 5.0], dtype=float)

res = y_mse - yhat_mse
mse = np.mean(res**2)

print("=== MSE (Error Cuadrático Medio) ===")
print("i |   y_i |  ŷ_i  | residuo | residuo^2")
for i, (yi, yhi, ri) in enumerate(zip(y_mse, yhat_mse, res), start=1):
    print(f"{i:1d} | {yi:6.2f} | {yhi:6.2f} | {ri:8.3f} | {ri**2:9.4f}")
print("MSE promedio =", mse)
print()

# ------------------------------------------------
# BCE: Binary Cross-Entropy
# ------------------------------------------------
y_bce = np.array([1, 0, 1, 0, 1], dtype=float)
yhat_bce = np.array([0.9, 0.2, 0.4, 0.8, 0.7], dtype=float)

# Clipping para evitar log(0)
eps = 1e-12
yhat_bce = np.clip(yhat_bce, eps, 1 - eps)

# Uso de logaritmo natural (ln)
terms_bce = -(y_bce * np.log(yhat_bce) + (1 - y_bce) * np.log(1 - yhat_bce))
bce = terms_bce.mean()

print("=== BCE (Entropía Cruzada Binaria) ===")
print("i | y_i | ŷ_i  | -[y_i ln(ŷ_i) + (1 - y_i) ln(1 - ŷ_i)]")
for i, (yi, yhi, ti) in enumerate(zip(y_bce, yhat_bce, terms_bce), start=1):
    print(f"{i:1d} | {int(yi)}   | {yhi:6.3f} | {ti:10.6f}")
print("BCE promedio =", bce)
print()

# ------------------------------------------------
# CE multiclase: Categorical Cross-Entropy
# ------------------------------------------------
y_true_onehot = np.array([
    [1, 0, 0],
    [0, 1, 0],
    [0, 0, 1],
    [1, 0, 0],
    [0, 0, 1]
], dtype=float)

y_pred_probs = np.array([
    [0.70, 0.20, 0.10],
    [0.10, 0.60, 0.30],
    [0.20, 0.10, 0.70],
    [0.85, 0.10, 0.05],
    [0.05, 0.25, 0.70]
], dtype=float)

y_pred_probs = np.clip(y_pred_probs, eps, 1 - eps)

correct_idx = y_true_onehot.argmax(axis=1)
correct_probs = y_pred_probs[np.arange(len(correct_idx)), correct_idx]

# Logaritmo natural ln()
ce_terms = -np.log(correct_probs)
ce = ce_terms.mean()

print("=== CE (Entropía Cruzada Multiclase) ===")
print("i | clase | prob_correcta | -ln(prob_correcta)")
for i, (cls, p, t) in enumerate(zip(correct_idx + 1, correct_probs, ce_terms), start=1):
    print(f"{i:1d} | {cls:6d} | {p:14.3f} | {t:14.9f}")
print("CE promedio =", ce)
print()



=== MSE (Error Cuadrático Medio) ===
i |   y_i |  ŷ_i  | residuo | residuo^2
1 |   3.00 |   2.50 |    0.500 |    0.2500
2 |  -0.50 |   0.00 |   -0.500 |    0.2500
3 |   2.00 |   2.00 |    0.000 |    0.0000
4 |   7.00 |   8.00 |   -1.000 |    1.0000
5 |   4.50 |   5.00 |   -0.500 |    0.2500
MSE promedio = 0.35

=== BCE (Entropía Cruzada Binaria) ===
i | y_i | ŷ_i  | -[y_i ln(ŷ_i) + (1 - y_i) ln(1 - ŷ_i)]
1 | 1   |  0.900 |   0.105361
2 | 0   |  0.200 |   0.223144
3 | 1   |  0.400 |   0.916291
4 | 0   |  0.800 |   1.609438
5 | 1   |  0.700 |   0.356675
BCE promedio = 0.6421815310438047

=== CE (Entropía Cruzada Multiclase) ===
i | clase | prob_correcta | -ln(prob_correcta)
1 |      1 |          0.700 |    0.356674944
2 |      2 |          0.600 |    0.510825624
3 |      3 |          0.700 |    0.356674944
4 |      1 |          0.850 |    0.162518929
5 |      3 |          0.700 |    0.356674944
CE promedio = 0.3486738770159926



# Función Softmax

Al final de la explicación de la "Categorical Cross-Entropy" se mencionó a la función de activación **softmax**. Ahora profundizaremos en ella.

## Definición
La **función Softmax** convierte un conjunto de valores reales (llamados *logits*) en **probabilidades normalizadas**, que suman 1.  
Se usa típicamente en la **última capa** de modelos de clasificación multiclase.

Dada una muestra con $C$ clases y logits $z_1, z_2, ..., z_C$, la función softmax se define como:

$$
\hat{y}_j = \frac{e^{z_j}}{\sum_{k=1}^{C} e^{z_k}} \quad \text{para } j = 1, 2, ..., C
$$

donde:
- $z_j$: valor de activación (logit) antes del softmax para la clase $j$.  
- $\hat{y}_j$: probabilidad predicha para la clase $j$.  
- $e^{z_j}$: transforma los logits en valores positivos y realza las diferencias relativas entre ellos.  

El resultado $\hat{y}$ es un vector de probabilidades tal que:
$$
\sum_{j=1}^{C}\hat{y}_j = 1
$$

---

La función Softmax **amplifica las diferencias relativas** entre los logits:
- Un valor de logit mucho mayor que los demás produce una probabilidad cercana a 1.  
- Logits similares generan probabilidades similares.  
- Nunca produce ceros ni unos exactos (a diferencia del argmax).  

En resumen:
- Actúa como una versión “suavizada” del **argmax**.  
- Permite que el modelo exprese incertidumbre: por ejemplo, `[0.6, 0.3, 0.1]` en lugar de una decisión rígida.

---

## Ejemplo numérico

Supongamos un modelo con tres clases y logits:

$$
z = [2.0,\; 1.0,\; 0.1]
$$

1. Calculamos los exponenciales:
$$
e^{z} = [e^{2.0},\; e^{1.0},\; e^{0.1}] = [7.389,\; 2.718,\; 1.105]
$$

2. Sumamos los valores:
$$
\sum e^{z_k} = 7.389 + 2.718 + 1.105 = 11.212
$$

3. Normalizamos:
$$
\hat{y}_1 = \frac{7.389}{11.212} = 0.659
$$
$$
\hat{y}_2 = \frac{2.718}{11.212} = 0.243
$$
$$
\hat{y}_3 = \frac{1.105}{11.212} = 0.098
$$

Resultado final:
| Clase | Logit ($z_j$) | $e^{z_j}$ | Probabilidad ($\hat{y}_j$) |
|--------|---------------|-----------|-----------------------------|
| 1 | 2.0 | 7.389 | 0.659 |
| 2 | 1.0 | 2.718 | 0.243 |
| 3 | 0.1 | 1.105 | 0.098 |

La suma de las probabilidades es:
$$
0.659 + 0.243 + 0.098 = 1.000
$$

---

## Propiedades importantes

1. **Normalización:**  
   La salida siempre suma 1, por lo que puede interpretarse como una distribución de probabilidad.

2. **Sensibilidad relativa:**  
   Multiplicar todos los logits por un número mayor hace las diferencias más marcadas (las probabilidades tienden más hacia 0 o 1).

3. **Invarianza a traslaciones:**  
   Si sumamos una constante a todos los logits, la salida del softmax no cambia:
   $$
   \text{softmax}(z) = \text{softmax}(z + c)
   $$
   Esto se usa para **estabilizar numéricamente** la función restando el logit máximo antes de aplicar $e^{z}$.

---

## Implementación estable numéricamente

Para evitar desbordamientos al calcular $e^{z_j}$ (si los logits son grandes), se usa la versión estable:

$$
\hat{y}_j = \frac{e^{z_j - \max(z)}}{\sum_{k=1}^{C} e^{z_k - \max(z)}}
$$

Esto no cambia el resultado matemático, pero evita problemas de precisión.

---

## En redes neuronales
- Se usa en la **última capa** de modelos de clasificación multiclase.  
- Convierte los logits en probabilidades que pueden compararse con las etiquetas one hot usando la **Categorical Cross-Entropy (CE)**:
  $$
  \text{CE} = -\sum_{c=1}^{C} y_c \ln(\hat{y}_c)
  $$

Softmax y Cross-Entropy se implementan juntas en la mayoría de librerías (por ejemplo, `nn.CrossEntropyLoss` en PyTorch) porque su derivada combinada es más estable y eficiente.

---

## Finalmente

Softmax no decide directamente la clase, sino que **asigna confianza**.  
El modelo luego elige la clase con mayor probabilidad:
$$
\text{Clase predicha} = \arg\max_j(\hat{y}_j)
$$

Así, Softmax convierte las salidas crudas del modelo en una distribución interpretable, facilitando el cálculo de la pérdida y la interpretación de las predicciones.


---
## ¿Por qué la función Softmax amplifica las diferencias relativas entre los logits?

La clave del comportamiento de **Softmax** está en la **exponencial ($e^{z_j}$)** presente en su definición:

$$
\hat{y}_j = \frac{e^{z_j}}{\sum_{k=1}^{C} e^{z_k}}
$$

La función exponencial **crece muy rápido** para valores grandes y **disminuye rápidamente** para valores pequeños.  
Esto provoca que **pequeñas diferencias en los logits se transformen en diferencias mucho mayores en las probabilidades**.

---

### 1. Ejemplo simple

Supongamos dos clases con logits:

| Clase | Logit $z_j$ | $e^{z_j}$ | Probabilidad $\hat{y}_j$ |
|--------|--------------|------------|---------------------------|
| A | 2.0 | 7.389 | 0.731 |
| B | 1.0 | 2.718 | 0.269 |

Aunque la diferencia entre los logits es solo **1 unidad**,  
la diferencia entre las probabilidades finales es de **0.731 - 0.269 = 0.462**.  
Softmax amplifica ese contraste.

---

### 2. Si aumentamos ligeramente la diferencia de logits

| Clase | Logit $z_j$ | $e^{z_j}$ | Probabilidad $\hat{y}_j$ |
|--------|--------------|------------|---------------------------|
| A | 2.5 | 12.182 | 0.818 |
| B | 1.0 | 2.718 | 0.182 |

Ahora la diferencia de logits es 1.5,  
pero la diferencia de probabilidades sube a **0.818 - 0.182 = 0.636**.  

**El crecimiento exponencial convierte incrementos lineales en aumentos no lineales de confianza.**

---

### 3. Consecuencia práctica

Esto significa que:
- Softmax **refuerza las clases más probables** (las hace aún más probables).  
- Reduce aún más las probabilidades de las clases menos favorecidas.  
- Hace que el modelo sea más **decisivo**, pero también más **sensible** a los cambios en los logits.

Por eso, una pequeña mejora en el logit de la clase correcta puede traducirse en un gran aumento en su probabilidad final.  
Del mismo modo, un pequeño error en los logits puede hacer que el modelo se vuelva demasiado confiado en una clase incorrecta.

---

### 4. Comparación visual

Si graficamos la función exponencial y una función lineal para el mismo rango de logits:

| $z$ | $e^z$ | $z$ |
|-----|-------|-----|
| -1 | 0.367 | -1 |
| 0 | 1 | 0 |
| 1 | 2.718 | 1 |
| 2 | 7.389 | 2 |
| 3 | 20.085 | 3 |

Mientras una función lineal aumenta de manera constante, la exponencial crece **de forma explosiva**.  
Softmax hereda esa propiedad: **amplifica la diferencia entre logits grandes y pequeños** antes de normalizarlos.

---

### 5. Implicación en el aprendizaje

- Si el modelo produce logits muy cercanos entre sí, las probabilidades estarán **repartidas** (el modelo es incierto).  
- Si una clase obtiene un logit un poco mayor, Softmax la hace **dominante**, empujando su probabilidad cerca de 1.  
- En el entrenamiento, esto incentiva a las redes a **separar más claramente las clases** para minimizar la entropía cruzada.

---

### 6. Conclusiones

Softmax actúa como un **amplificador de confianza**:
- Convierte diferencias pequeñas en decisiones más claras.  
- Potencia la clase más probable, sin eliminar completamente las demás.  
- Permite que la red exprese **“cuán seguro está”** de su predicción.

Por eso, en la práctica, los logits son proporcionales a la **confianza bruta del modelo**,  
y Softmax los traduce en una distribución de probabilidad interpretable, **amplificando las diferencias relativas** entre ellos.
