In [1]:
import torch
import torch.nn.functional as F

input = torch.randn(10,1)
target = torch.FloatTensor(10, 1).random_(2)

In [2]:
input

tensor([[ 0.0250],
        [-2.0967],
        [-1.0569],
        [ 0.5865],
        [ 0.8285],
        [-1.8605],
        [-0.0229],
        [ 0.5823],
        [ 0.7552],
        [-0.5068]])

In [3]:
pred = F.sigmoid(input)
pred

tensor([[ 0.5063],
        [ 0.1094],
        [ 0.2579],
        [ 0.6426],
        [ 0.6960],
        [ 0.1346],
        [ 0.4943],
        [ 0.6416],
        [ 0.6803],
        [ 0.3760]])

In [4]:
target

tensor([[ 1.],
        [ 1.],
        [ 1.],
        [ 1.],
        [ 0.],
        [ 1.],
        [ 0.],
        [ 0.],
        [ 0.],
        [ 1.]])

In [5]:
loss_fn = torch.nn.BCELoss()

In [6]:
loss = loss_fn(pred, target)
loss

tensor(1.1713)

BCE loss 的公式为：

$BCE\_loss = -\frac{1}{n}\sum_{i=1}^n target_i\cdot\mathrm{log}(pred_i) + (1-target_i)\cdot\mathrm{log}(1-pred_i)$

从公式中可以看到，其本质与 multi-class crossentropy loss 是一样的，只不过 BCE 只有两种情况，所以把在各类上的循环显式地写在了求和号中。

BCE loss 和 multi-class crossentropy loss 的不同之处，在于实现过程：

* BCE loss 的网络只有一个输出，并且需要在网络的输出端加上 sigmoid 激活函数，以直接输出属于正类的概率，即 BCE loss 传入的 pred 必须是一个概率
* multi-class CE 有几个 class 就有几个输出，不需要指定输出端的激活函数，它内部会把输出端的值通过 softmax 激活函数转变为概率，然后与 target 计算
* 两者的 target 都是向量，每个元素代表一个类别，不必手动转换成 one-hot 的形式
* BCE loss 的 target 可以是 float 类型，而 multi-class CE 的 target 必须是 long 类型

In [10]:
input = torch.randn(3, 5)
target = torch.LongTensor(3).random_(5)
loss_fn = torch.nn.CrossEntropyLoss()
loss_fn(input, target)

tensor(2.1929)

In [12]:
input = torch.randn(10,1)
pred = F.sigmoid(input)
target = torch.FloatTensor(10, 1).random_(2)

In [15]:
loss_fn = torch.nn.BCELoss()
loss_fn(pred, target)

tensor(0.7844)