# 损失函数

# MSE

MSE 是一种常用的 回归问题 损失函数，用来衡量预测值和真实值之间的差距。
公式如下：

$$
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2
$$

- \( y_i \)：真实值  
- \( \hat{y_i} \)：预测值  
- \( n \)：样本数量 

In [1]:
import torch
import torch.nn as nn

# 定义真实值和预测值
y_true = torch.tensor([3.0, 5.0, 7.0])
y_pred = torch.tensor([2.0, 6.0, 8.0])

# 定义MSE损失函数
mse_loss = nn.MSELoss()

# 计算损失
loss = mse_loss(y_pred, y_true)
print("MSE Loss:", loss.item())


MSE Loss: 1.0


而平均绝对误差损失函数（Mean Absolute Error, MAE）是另一种常用于回归问题的损失函数，它的目标是度量真实值和预测值差异的绝对值之和，定义如下:

$$
MAE = \frac{1}{n} \sum_{i=1}^{n} \left| y_i - \hat{y_i} \right|
$$


# 交叉熵损失函数

熵最开始是物理学中的一个术语，它表示了一个系统的混乱程度或者说无序程度。如果一个系统越混乱，那么它的熵越大。信息论创始人香农把这个概念引申到信道通信的过程中，开创了信息论，所以这里的熵又称为信息熵。信息熵的公式化可以表示为：

$$
H(p) = - \sum_{i} p(x_i) \log p(x_i)
$$


其中，x 表示随机变量，与之相对应的是所有可能输出的集合。P(x) 表示输出概率函数。变量的不确定性越大，熵也就越大，把变量搞清楚所需要的信息量也就越大。


当我们将函数变为如下格式，将 log p 改为 log q，即：

$$
- \sum_{i=1}^{n} p(x_i) \log \big( q(x_i) \big)
$$


其中，𝑝(𝑥) 表示真实概率分布，𝑞(𝑥) 表示预测概率分布。这个函数就是交叉熵损失函数（Cross entropy loss）。也就意味着，这个公式同时衡量了真实概率分布和预测概率分布两方面。所以，这个函数实际上就是通过衡量并不断去尝试缩小两个概率分布的误差，使预测的概率分布尽可能达到真实概率分布。


### 举个例子

三分类问题：

- 真实标签：第 2 类 → \( p = [0, 1, 0] \)  
- 模型预测：\( q = [0.2, 0.7, 0.1] \)  

交叉熵损失：  

$$
Loss = - (1 \cdot \log 0.7) = -\log 0.7 \approx 0.357
$$

---

如果预测错了，比如 \( q = [0.8, 0.1, 0.1] \)，  

$$
Loss = -\log 0.1 \approx 2.302
$$

损失就会变大


### 直观理解

如果模型预测正确类别的概率很大（接近 1），损失就很小。
如果模型预测正确类别的概率很小（接近 0），损失就很大（趋近于无穷大）。

# softmax 损失函数

softmax 是深度学习中使用非常频繁的一个函数。在某些场景下，一些数值大小范围分布非常广，而为了方便计算，或者使梯度更好的更新（后续我们还会学习梯度更新），我们需要把输入的这些数值映射为 0-1 之间的实数，并且归一化后能够保证几个数的和为 1。


公式：

$$
q_i = \frac{e^{z_i}}{\sum_{j=1}^{n} e^{z_j}}
$$

- \( z_i \)：模型对类别 \( i \) 的输出分数（logit）  
- \( q_i \)：归一化后类别 \( i \) 的概率  
- 所有 \( q_i \) 相加 = 1


例子：
如果模型输出 logits = [2.0, 1.0, 0.1],
Softmax 会转成概率： [0.65, 0.24, 0.11]。