## 交叉熵损失函数

- [torch.nn.CrossEntropyLoss损失函数的官网链接](https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html#torch.nn.CrossEntropyLoss)

这里的`torch.nn.CrossEntropyLoss`是一个类，因此想要调用的话，首先需要实例化。


参数：

1. `weight=None`: 如果某些类别不均衡的话，`weight`能够对其稍微处理一下，使其整体均衡一下。

2. `size_average=None`:

3. `ignore_index=- 100`：类似`padding`的操作，使其能够处理长度不均匀的情况。

4. `reduce=None`: 

5. `reduction='mean'`: 也可以是`sum`或者`None`，如果是`None`的话，返回的就是每个样本的`Loss`，而不是对整个`minibatch`做的平均。

6. `label_smoothing=0.0`: 把目标类别的概率值降低一点，降低出来的这些概率值，将其随机分配到其它类别上。

交叉熵是用于衡量两个分布之间的差距的。分布$q$相对于分布$p$的交叉熵公式如下所示:

$$
H(p, q)=-\mathrm{E}_{p}[\log q]
$$

也就是对$log q$求$p$分布下的期望值。

将其离散化的话，可以表示为:

$$
H(p, q)=-\sum_{x \in \mathcal{X}} p(x) log q(x) 
$$

可以看到如果将$p(x)$换成$q(x)$的话，这里就是随机变量的熵，这里是两个分布，所以称之为交叉熵。

又由于是分类问题，传入的标签是`one-hot`类型的数据，所以目标分布$p(x)$只会有一项是`1`，其余都是`0`，就不用算了。因此，在`PyTorch`中，交叉熵损失函数被定义为如下形式:

$$
l_{n} = -w_{y_{n}} log \frac{exp(x_{n,y_{n}})}{\sum_{c=1}^{C} exp(x_{n,c})} \dot \{y_{n} \neq ignore\_index\}
$$

其中$x$是输入，$y$是输出，$w$是权重，$C$是类别数，$N$是`mini-batch`参数。

当然，在知识蒸馏中，我们的target分布并不一定是one-hot类别的，而是对于每个类别都有一个概率值。此时公式变为:

$$
l_{n} = -w_{y_{n}} log \frac{exp(x_{n,y_{n}})}{\sum_{c=1}^{C} exp(x_{n,c})} y_{n, c}
$$

### 调用与实战

- `Input`: 输入数据的形状可以是$(C)$, $(N, C)$, $(N, C, d_{1}, d_{2}, \cdots, d_{K})$，其中$K \geq 1$。对于$(C)$而言，就是一个样本，我们期望的`target`数据，加上`batch`之后，就是$(N, C)$，而如果是$(N, C, d_{1}, d_{2}, \cdots, d_{K})$的话，可以理解为对于一个视频的每个像素都进行分类，后面的$d_{1}, d_{2}, \cdots, d_{K}$可以是通道数，图像的高度和宽度等等，但是必须要类别数在第二维度。

- `Target`: `Target`可以有两种，一种是类别索引，另一种是各个类别对应的概率值。如果是类别索引的话，`shape`是$()$,$(N)$,或者是$(N, d_{1}, d_{2}, \cdots, d_{K})$，但是要注意类别索引是从`0`开始的。如果是概率值的话，`Target`的`shape`和输入是一样的。


**需要注意的是，这里的`Input`期望是未归一化的数据**

In [1]:
import torch
import torch.nn as nn

In [2]:
batch_size = 2
num_classes = 4

#### target数据是index类型数据时：

In [3]:
logits = torch.randn(batch_size, num_classes)
target_index = torch.randint(num_classes, size=(batch_size,))

In [4]:
cross_entropy_loss_fn = nn.CrossEntropyLoss()

In [5]:
cross_entropy_loss_value = cross_entropy_loss_fn(logits, target_index)
print(f"Cross Entropy Loss for index target is {cross_entropy_loss_value}")

Cross Entropy Loss for index target is 1.7796131372451782


#### target数据是probability类型数据时:

In [6]:
target_logits = torch.randn(batch_size, num_classes)

In [7]:
cross_entropy_loss_value = cross_entropy_loss_fn(logits, torch.softmax(target_logits, -1))
print(f"Cross Entropy Loss for probability is {cross_entropy_loss_value}")

Cross Entropy Loss for probability is 1.6599925756454468


## 负对数似然损失函数

- [torch.nn.NLLLoss损失函数的官网链接](https://pytorch.org/docs/stable/generated/torch.nn.NLLLoss.html?highlight=nllloss#torch.nn.NLLLoss)

这里的`torch.nn.NLLLoss`是一个类，因此想要调用的话，首先需要实例化。负对数似然函数通常也是用来训练分类问题，函数原型如下:

```python
class torch.nn.NLLLoss(weight=None, size_average=None, ignore_index=- 100, reduce=None, reduction='mean')
```

它同样提供可选参数`weight`。输入数据类型与交叉熵损失函数类似但需要是每一个类别的对数概率值。`target`必须是一个类别索引，而不能是概率值了。具体的使用方法如下所示:

In [8]:
nll_fn = torch.nn.NLLLoss()
nll_loss = nll_fn(torch.log(torch.softmax(logits, dim=-1) + 1e-7), target_index)
print(f"negative log-likelihood loss: {nll_loss}")

negative log-likelihood loss: 1.7796125411987305


可以看到，这里的输出结果与交叉熵损失函数中`target`数据时`index`类型数据时产生的`loss`是一致的。这是因为，交叉熵就是负对数似然:

$$
\frac{1}{N} \log (\mathcal{L}(\theta))=\frac{1}{N} \log \prod_{i} q_{\theta}(X=i)^{N p(X=i)}=\sum_{i} p(X=i) \log q_{\theta}(X=i)=-H(p, q)
$$

## KL散度

交叉熵等于信息熵加上一个KL（Kullback-Leibler）散度。对于离散空间的KL散度的定义如下所示:

$$
D_{\mathrm{KL}}(P \| Q)=\sum_{x \in \mathcal{X}} P(x) \log \left(\frac{P(x)}{Q(x)}\right)
$$



- [torch.nn.KLDivLoss的官网链接](https://pytorch.org/docs/stable/generated/torch.nn.KLDivLoss.html?highlight=kld#torch.nn.KLDivLoss)

函数原型为:

```python
class torch.nn.KLDivLoss(size_average=None, reduce=None, reduction='mean', log_target=False)
```

其官网给定的计算公式如下:

$$
L\left(y_{\text {pred }}, y_{\text {true }}\right)=y_{\text {true }} \cdot \log \frac{y_{\text {true }}}{y_{\text {pred }}}=y_{\text {true }} \cdot\left(\log y_{\text {true }}-\log y_{\text {pred }}\right)
$$

因此，在传入数据的时候, `input`需要在前, 并且期望`input`是属于`log`空间。如果`log_target`设置为`True`的话，则`target`也需要是在`log`空间中。

In [9]:
kld_loss_fn = torch.nn.KLDivLoss()
kld_loss = kld_loss_fn(torch.log(torch.softmax(logits, dim=-1)), torch.softmax(target_logits, dim=-1))
print(f"KL loss: {kld_loss}")

KL loss: 0.2005188912153244




###  验证

$$
H(p, q) = H(p) + D_{KL}(p || q)
$$

In [14]:
ce_loss_fn_sample = torch.nn.CrossEntropyLoss(reduction='none')
ce_loss_sample = ce_loss_fn_sample(logits, torch.softmax(target_logits, dim=-1))
print(f"ce_loss_sample: {ce_loss_sample}")

ce_loss_sample: tensor([2.1617, 1.1582])


In [15]:
kld_loss_fn_sample = torch.nn.KLDivLoss(reduction='none')
kld_loss_sample = kld_loss_fn_sample(torch.log(torch.softmax(logits, dim=-1)), 
                                     torch.softmax(target_logits, dim=-1)).sum(-1)
print(f"kld_loss_sample : {kld_loss_sample}")

kld_loss_sample : tensor([1.2465, 0.3577])


In [16]:
target_information_entropy = torch.distributions.Categorical(probs=torch.softmax(target_logits, dim=-1)).entropy()
print(f"target_information_entropy {target_information_entropy}")

target_information_entropy tensor([0.9153, 0.8005])


In [18]:
print(kld_loss_sample + target_information_entropy)
print(torch.allclose(ce_loss_sample, kld_loss_sample + target_information_entropy))

tensor([2.1617, 1.1582])
True


如果目标分布是one-hot类型，那么target_information_entropy就会为0，此时优化交叉熵与优化KL散度是一样的。

## BCELoss

BCELoss（binary cross entropy）的官方链接为:[torch.nn.BCELoss](https://pytorch.org/docs/stable/generated/torch.nn.BCELoss.html?highlight=bceloss#torch.nn.BCELoss)

BCELosswithlogits的API中自带softmax。

In [19]:
bce_loss_fn = torch.nn.BCELoss()
logits = torch.randn(batch_size)
prob_1 = torch.sigmoid(logits)

In [20]:
target = torch.randint(2, size=(batch_size,))

In [23]:
bce_loss = bce_loss_fn(prob_1, target.float())
print(f"bce_loss : {bce_loss}")

bce_loss : 0.7650077939033508


In [24]:
prob_0 = 1-prob_1.unsqueeze(-1)
prob = torch.cat([prob_0, prob_1.unsqueeze(-1)], dim=-1)
nll_loss_binary = nll_fn(torch.log(prob), target)
print(f"nll_loss_binary : {nll_loss_binary}")

nll_loss_binary : 0.7650077939033508
