In [1]:
import torch
import torch.nn as nn
import numpy as np

In [2]:
torch.__version__

'2.3.1+cpu'

In [4]:
# PyTorch 类似 NumPy 框架
# NumPy 框架本身是一个数值运算(数学运算)的一个框架 --> 内部最核心的 ndarray --> 数组/矩阵
## NumPy常见的操作：创建、乘法、加法、指数、对数、均值、和......

## PyTorch 类似 sklearn 的模型学习的框架，基本操作类似Numpy语法
### 关注PyTorch中的网络的构造(算法结构)、损失函数、优化器

In [5]:
## 重点关注Tensor的创建、模型的创建、损失的创建、优化器的使用

### Tensor创建
Tensor对象是PyTorch中的基本对象，一般用来表示不需要进行参数更新的数据对象

##### 1. 随机创建Tensor对象

In [112]:
## PS: PyTorch中随机创建Tensor默认浮点型为float32，模型整型为int64；默认情况下数据所在设备均在CPU；
## 可以通过dtype给定数据类型、device给定运行设备
x = torch.randn(2, 5)  # 随机创建一个[2,5]的矩阵，满足X~N(0,1)的标准正态分布随机数
# x = torch.randn(2, 5, dtype=torch.float64)  # 随机创建一个[2,5]的矩阵，满足X~N(0,1)的标准正态分布随机数
print(x)
print(f"Shape形状为: {x.shape}")
print(f"数据的类型: {x.dtype}")
print(f"数据所在设备信息: {x.device}")
print(f"是否属于梯度更新参数: {x.requires_grad}")

tensor([[ 0.0678, -1.2220, -0.5441,  1.2008, -0.7029],
        [ 0.6055,  0.5489,  0.7728, -1.5179, -0.1129]])
Shape形状为: torch.Size([2, 5])
数据的类型: torch.float32
数据所在设备信息: cpu
是否属于梯度更新参数: False


In [113]:
torch.randint(0, 10, size=(10,)).dtype

torch.int64

In [116]:
print(torch.ones((2,3), dtype=torch.float64))

tensor([[1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)


In [117]:
print(torch.zeros((2,3)))

tensor([[0., 0., 0.],
        [0., 0., 0.]])


##### 2. 基于已有数据创建Tensor对象

In [119]:
## PS: 基于python类型数据可创建tensor对象，一般支持数字或者list数组；
## 创建时候默认会自动推断数据类型，浮点型为float32，整型为int64，设备默认为CPU
## 可以通过dtype给定数据类型、device给定运行设备
## NOTE: Tensor底层和python数据类型不共享内存，相当于是一个副本，更改互不影响
x_py = [1,2,3,4,5,6]
# x_py = 2
x = torch.tensor(x_py)  # python对象转Tensor对象
#x = torch.tensor(x_py, dtype=torch.int32)
xtolst = x.tolist()  # Tensor对象转换为list --> 仅在cpu设备上的tensor进行转换

print(x)
print(f"Shape形状为: {x.shape}")
print(f"数据的类型: {x.dtype}")
print(f"数据所在设备信息: {x.device}")
print(f"是否属于梯度更新参数: {x.requires_grad}")
if isinstance(x_py, list):
    x_py[0] = 100
    x[1] = 101
    print(f"更改后Python对象为: {x_py}")
    print(f"更改后Tensor对象为: {x}")
print(f"Tensor转换的Python列表对象为: {type(xtolst)} - {xtolst}")


tensor([1, 2, 3, 4, 5, 6])
Shape形状为: torch.Size([6])
数据的类型: torch.int64
数据所在设备信息: cpu
是否属于梯度更新参数: False
更改后Python对象为: [100, 2, 3, 4, 5, 6]
更改后Tensor对象为: tensor([  1, 101,   3,   4,   5,   6])
Tensor转换的Python列表对象为: <class 'list'> - [1, 2, 3, 4, 5, 6]


In [122]:
## PS: 基于Numpy类型数据可创建tensor对象，一般支持数字或者数组；
## 创建时候类型默认和所给定的Numpy类型一致，设备默认为CPU
## torch.tensor：可以通过dtype给定数据类型、device给定运行设备
x_np = np.asarray([1, 2, 3, 4, 5, 6])
# x = torch.tensor(x_np)  # Numpy对象转Tensor对象  不共享内存
x = torch.from_numpy(x_np)  # 直接基于Numpy对象的内存进行Tensor对象创建 -- 共享内存
xtonp = x.numpy()  # Tensor对象转换为Numpy对象（共享内存） --> 仅在cpu设备上的tensor进行转换

print(x)
print(f"Shape形状为: {x.shape}")
print(f"数据的类型: {x.dtype}")
print(f"数据所在设备信息: {x.device}")
print(f"是否属于梯度更新参数: {x.requires_grad}")
x_np[0] = 100
x[1] = 101
print(f"更改后NumPy对象为: {x_np}")
print(f"更改后Tensor对象为: {x}")
print(f"Tensor转换的NumPy列表对象为: {type(xtonp)} - {xtonp}")


tensor([1, 2, 3, 4, 5, 6], dtype=torch.int32)
Shape形状为: torch.Size([6])
数据的类型: torch.int32
数据所在设备信息: cpu
是否属于梯度更新参数: False
更改后NumPy对象为: [100 101   3   4   5   6]
更改后Tensor对象为: tensor([100, 101,   3,   4,   5,   6], dtype=torch.int32)
Tensor转换的NumPy列表对象为: <class 'numpy.ndarray'> - [100 101   3   4   5   6]


#### Tensor设备、类型、Shape转换

In [3]:
x = torch.randn(3, 6)
print(f"Shape形状为: {x.shape}")
print(f"数据的类型: {x.dtype}")
print(f"数据所在设备信息: {x.device}")
print(f"是否属于梯度更新参数: {x.requires_grad}")
print(x)

Shape形状为: torch.Size([3, 6])
数据的类型: torch.float32
数据所在设备信息: cpu
是否属于梯度更新参数: False
tensor([[ 1.8837, -0.9789,  0.0743, -1.0235, -0.7356,  0.6972],
        [-2.4609, -0.7360, -1.0982,  0.1817,  0.1530,  0.7673],
        [-0.8827, -0.2661, -2.0446,  1.1278, -0.5159,  1.2721]])


In [4]:
_x = torch.reshape(x, shape=(3, 2, -1))
#_x = x.reshape(shape=(3, 2, -1))
print("torch.reshape后结果为:")
print(f"Shape形状为: {_x.shape}")
print(f"数据的类型: {_x.dtype}")
print(f"数据所在设备信息: {_x.device}")
print(f"是否属于梯度更新参数: {_x.requires_grad}")
print(_x)

torch.reshape后结果为:
Shape形状为: torch.Size([3, 2, 3])
数据的类型: torch.float32
数据所在设备信息: cpu
是否属于梯度更新参数: False
tensor([[[ 1.8837, -0.9789,  0.0743],
         [-1.0235, -0.7356,  0.6972]],

        [[-2.4609, -0.7360, -1.0982],
         [ 0.1817,  0.1530,  0.7673]],

        [[-0.8827, -0.2661, -2.0446],
         [ 1.1278, -0.5159,  1.2721]]])


In [5]:
# 从效果上来讲，view和reshape都是更改tensor对象的shape形状，但是执行效率和内部逻辑是不一样的，view的效果更高一些，但是view要求tensor对象在内存中必须是连续空间上的值
_x = x.view(2, -1)
# _x = x.T.view(2, -1) # x.T x转置后，数据是不连续的，此时不可以使用view方法
print("Tensor.view后结果为:")
print(f"Shape形状为: {_x.shape}")
print(f"数据的类型: {_x.dtype}")
print(f"数据所在设备信息: {_x.device}")
print(f"是否属于梯度更新参数: {_x.requires_grad}")
print(_x)

Tensor.view后结果为:
Shape形状为: torch.Size([2, 9])
数据的类型: torch.float32
数据所在设备信息: cpu
是否属于梯度更新参数: False
tensor([[ 1.8837, -0.9789,  0.0743, -1.0235, -0.7356,  0.6972, -2.4609, -0.7360,
         -1.0982],
        [ 0.1817,  0.1530,  0.7673, -0.8827, -0.2661, -2.0446,  1.1278, -0.5159,
          1.2721]])


In [6]:
# 使用to命令进行类型或者设备信息的转换
_x = x.to(dtype=torch.float64)
print("to方法转换数据类型后:")
print(f"Shape形状为: {_x.shape}")
print(f"数据的类型: {_x.dtype}")
print(f"数据所在设备信息: {_x.device}")
print(f"是否属于梯度更新参数: {_x.requires_grad}")
print(_x)

to方法转换数据类型后:
Shape形状为: torch.Size([3, 6])
数据的类型: torch.float64
数据所在设备信息: cpu
是否属于梯度更新参数: False
tensor([[ 1.8837, -0.9789,  0.0743, -1.0235, -0.7356,  0.6972],
        [-2.4609, -0.7360, -1.0982,  0.1817,  0.1530,  0.7673],
        [-0.8827, -0.2661, -2.0446,  1.1278, -0.5159,  1.2721]],
       dtype=torch.float64)


In [7]:
# 当支持GPU的时候，使用cuda，否则使用cpu
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"当前设备为:{device}")
_x = x.to(device=device)
print("to方法转换设备信息后:")
print(f"Shape形状为: {_x.shape}")
print(f"数据的类型: {_x.dtype}")
print(f"数据所在设备信息: {_x.device}")
print(f"是否属于梯度更新参数: {_x.requires_grad}")
print(_x)
print(f"快捷转换到cpu方式:\n{_x.cpu()}")

当前设备为:cpu
to方法转换设备信息后:
Shape形状为: torch.Size([3, 6])
数据的类型: torch.float32
数据所在设备信息: cpu
是否属于梯度更新参数: False
tensor([[ 1.8837, -0.9789,  0.0743, -1.0235, -0.7356,  0.6972],
        [-2.4609, -0.7360, -1.0982,  0.1817,  0.1530,  0.7673],
        [-0.8827, -0.2661, -2.0446,  1.1278, -0.5159,  1.2721]])
快捷转换到cpu方式:
tensor([[ 1.8837, -0.9789,  0.0743, -1.0235, -0.7356,  0.6972],
        [-2.4609, -0.7360, -1.0982,  0.1817,  0.1530,  0.7673],
        [-0.8827, -0.2661, -2.0446,  1.1278, -0.5159,  1.2721]])


#### Tensor常见数值运算API
基本操作基本和NumPy里面的数值操作解决，主要区别就是：多tensor之间进行操作的时候，要求必须数据类型、数据所在设备信息均一样；某些封装好的特殊API除外。

In [22]:
# 加法
x = torch.randn(2, 3)
#y = 5
# y = torch.rand(3)
#y = torch.rand(2, 1)
y = torch.rand(2, 3)
print(x)
print(y)
print(x + y)

tensor([[ 0.5144, -0.2252, -0.3888],
        [ 0.9117, -1.2421, -0.7164]])
tensor([[0.1881, 0.7752, 0.1511],
        [0.4797, 0.7631, 0.6294]])
tensor([[ 0.7025,  0.5500, -0.2377],
        [ 1.3913, -0.4790, -0.0870]])


In [29]:
# 矩阵乘法
x = torch.rand(2, 3)
y = torch.randn(3, 2)
print(x @ y)
print(torch.matmul(x, y))

tensor([[0.9547, 0.0513],
        [1.9657, 0.2050]])
tensor([[0.9547, 0.0513],
        [1.9657, 0.2050]])


In [31]:
# 多维矩阵乘法
# 支持广播机制，实际上只有最后两个维度参与矩阵乘法，其它维度相当于遍历
x = torch.randn(2, 3, 2)
y = torch.randn(2, 2, 1)

print(x @ y)
print(torch.matmul(x, y))

for i in range(2):
    print(x[i] @ y[i])

tensor([[[-0.5291],
         [ 0.6880],
         [ 1.1998]],

        [[ 0.5508],
         [ 0.1603],
         [ 0.0309]]])
tensor([[[-0.5291],
         [ 0.6880],
         [ 1.1998]],

        [[ 0.5508],
         [ 0.1603],
         [ 0.0309]]])
tensor([[-0.5291],
        [ 0.6880],
        [ 1.1998]])
tensor([[0.5508],
        [0.1603],
        [0.0309]])


In [37]:
# 求均值
x = torch.randn(2, 3, 5)
print(torch.mean(x, dim=1))  # 按照维度1进行数据均值求解
print(x.mean(dim=1))  # 按照维度1进行数据均值求解
print((x[:, 0, :] + x[:, 1, :] + x[:, 2]) / 3.0)

tensor([[-0.0238,  0.2865,  0.5136,  0.2461, -0.4586],
        [-0.4214, -0.6863, -0.7808, -0.4715,  0.0568]])
tensor([[-0.0238,  0.2865,  0.5136,  0.2461, -0.4586],
        [-0.4214, -0.6863, -0.7808, -0.4715,  0.0568]])
tensor([[-0.0238,  0.2865,  0.5136,  0.2461, -0.4586],
        [-0.4214, -0.6863, -0.7808, -0.4715,  0.0568]])


In [44]:
# 求和
x = torch.randn(2, 3, 5)
print(x.sum(dim=2))  # 按照维度-1也就是维度2 进行数据和求解
print(x[..., 0] + x[..., 1] + x[:, :, 2] + x[:, :, 3] + x[:, :, 4])

tensor([[ 0.3973,  4.8920, -1.4553],
        [ 5.1417,  3.2435,  1.2985]])
tensor([[ 0.3973,  4.8920, -1.4553],
        [ 5.1417,  3.2435,  1.2985]])


In [45]:
# 均值对
x = torch.randn(5)
print(x)
print(torch.abs(x))

tensor([-1.5715,  0.3795,  2.1378, -0.6212, -0.9298])
tensor([1.5715, 0.3795, 2.1378, 0.6212, 0.9298])


In [47]:
# 最大数据做大的索引下标
x = torch.randn(2, 5)
print(x)
print(torch.argmax(x, dim=-1)) # 在最后一个维度中选择值最大的对应下标

tensor([[ 1.1428,  0.4531,  2.6241, -0.4645,  1.4920],
        [ 0.5055, -0.2768, -0.8597,  0.0029, -0.1022]])
tensor([2, 0])


In [48]:
# top k：选择前k个比较大的值以及对应的索引id
x = torch.randn(2, 5)
print(x)
print(torch.topk(x, k=3, dim=-1))

tensor([[-2.2148, -0.3187, -0.4539,  0.6437, -1.2966],
        [-0.8937, -0.1577, -0.5888, -0.5961,  0.2672]])
torch.return_types.topk(
values=tensor([[ 0.6437, -0.3187, -0.4539],
        [ 0.2672, -0.1577, -0.5888]]),
indices=tensor([[3, 1, 2],
        [4, 1, 2]]))


In [50]:
# 数据转置
x = torch.randn(2, 3)
print(x)
print(x.T)
print(torch.transpose(x, dim0=1, dim1=0))

tensor([[-1.2419,  0.6105,  0.5217],
        [ 0.0726,  0.7789, -0.0131]])
tensor([[-1.2419,  0.0726],
        [ 0.6105,  0.7789],
        [ 0.5217, -0.0131]])
tensor([[-1.2419,  0.0726],
        [ 0.6105,  0.7789],
        [ 0.5217, -0.0131]])


In [54]:
# 多维数据交换 对应numpy接口为: np.transpose
x = torch.randn(5, 3, 4, 10)
print(x.shape)
print(torch.permute(x, dims=(0, 3, 1, 2)).shape)

torch.Size([5, 3, 4, 10])
torch.Size([5, 10, 3, 4])


In [61]:
# tensor对象分割
x = torch.randn(2,6)
print(x)
# split中split_size_or_sections是给定分割后每个tensor对应维度的大小
print(torch.split(x, split_size_or_sections=3, dim=1))
# chunk中的chunks是预计将对应维度分割成几份
print(torch.chunk(x, chunks=3, dim=1))

tensor([[-1.7699, -0.9905, -1.1317, -0.5456,  3.3501, -0.1544],
        [ 1.1470, -0.5987, -0.4692,  0.1179,  0.1022, -1.4465]])
(tensor([[-1.7699, -0.9905, -1.1317],
        [ 1.1470, -0.5987, -0.4692]]), tensor([[-0.5456,  3.3501, -0.1544],
        [ 0.1179,  0.1022, -1.4465]]))
(tensor([[-1.7699, -0.9905],
        [ 1.1470, -0.5987]]), tensor([[-1.1317, -0.5456],
        [-0.4692,  0.1179]]), tensor([[ 3.3501, -0.1544],
        [ 0.1022, -1.4465]]))


In [62]:
# 数据合并
x1 = torch.rand(1,3)
x2 = torch.rand(3,3)
print("=" * 10)
print(x1)
print(x2)
print("=" * 10)
print(torch.cat([x1, x2], dim=0))

tensor([[0.0342, 0.4128, 0.0895]])
tensor([[0.8726, 0.8803, 0.7500],
        [0.6683, 0.6621, 0.1977],
        [0.5890, 0.6204, 0.6089]])
tensor([[0.0342, 0.4128, 0.0895],
        [0.8726, 0.8803, 0.7500],
        [0.6683, 0.6621, 0.1977],
        [0.5890, 0.6204, 0.6089]])


#### Parameter定义

In [66]:
w_tensor = torch.randn(2, 3)
# 除了 requires_grad 信息默认更改为True，其它的相当于没有变化
## requires_grad 用来标识是否需要进行参数更新(在反向传播中，会自动针对所有requires_grad为True的对象进行对应梯度的计算)
w_param = nn.Parameter(w_tensor)
print(f"Shape形状为: {w_tensor.shape} - {w_param.shape}")
print(f"数据的类型: {w_tensor.dtype} - {w_param.dtype}")
print(f"数据所在设备信息: {w_tensor.device} - {w_param.device}")
print(f"是否属于梯度更新参数: {w_tensor.requires_grad} - {w_param.requires_grad}")
print(w_tensor)
print(w_param)

Shape形状为: torch.Size([2, 3]) - torch.Size([2, 3])
数据的类型: torch.float32 - torch.float32
数据所在设备信息: cpu - cpu
是否属于梯度更新参数: False - True
tensor([[ 1.2765, -0.4361,  0.5606],
        [-1.9726,  2.3841, -1.1659]])
Parameter containing:
tensor([[ 1.2765, -0.4361,  0.5606],
        [-1.9726,  2.3841, -1.1659]], requires_grad=True)


In [67]:
w = nn.Parameter(torch.randn(2, 3))
x = torch.randn(1, 2)
# 当前序的执行节点上存在需要计算梯度的情况下，PyTorch默认会自动在当前算子上增加一个grad_fn用来计算相关梯度
print(x @ w)

tensor([[-2.0682, -1.3473,  0.2598]], grad_fn=<MmBackward0>)


In [71]:
w = nn.Parameter(torch.randn(2, 3))
x = torch.randn(1, 2)
print(x @ w) # 会有求梯度的函数自动添加
with torch.no_grad():
    # 当不需要计算梯度的时候，可以考虑使用np_grad 或者 detach
    print(x @ w) # 不会有梯度传递了
print((x @ w).detach()) # 不会有梯度传递了

tensor([[-1.1150, -0.8742,  0.1726]], grad_fn=<MmBackward0>)
tensor([[-1.1150, -0.8742,  0.1726]])
tensor([[-1.1150, -0.8742,  0.1726]])


#### 最基本的模块

In [76]:
linear = nn.Linear(in_features=2, out_features=3, bias=True) # 创建模块
for name, param in linear.named_parameters():
    print(f"参数名称: {name} -- 参数为:\n{param}\n")
#x = torch.randn(3, 1, 2) # 当前模块的输入数据， 支持多维数据的输入
x = torch.randn(1, 2) # 当前模块的输入数据， 支持多维数据的输入
r = linear(x) # 调用模块内部执行的方法
print(r)
print(x @ linear.weight.T + linear.bias) # Linear等价

参数名称: weight -- 参数为:
Parameter containing:
tensor([[-0.4570,  0.2157],
        [ 0.6735, -0.0248],
        [ 0.5459, -0.6490]], requires_grad=True)

参数名称: bias -- 参数为:
Parameter containing:
tensor([-0.1535,  0.3038, -0.1105], requires_grad=True)

tensor([[[-0.7925,  0.7259,  1.3464]],

        [[ 0.2429, -0.2416, -0.6356]],

        [[ 0.1576, -0.2699, -0.3283]]], grad_fn=<ViewBackward0>)
tensor([[[-0.7925,  0.7259,  1.3464]],

        [[ 0.2429, -0.2416, -0.6356]],

        [[ 0.1576, -0.2699, -0.3283]]], grad_fn=<AddBackward0>)


In [77]:
relu = nn.ReLU() # 激活模块
x = torch.randn(2, 3)
print(x)
print(relu(x))

tensor([[ 0.5360,  1.6281, -0.4169],
        [-0.1435,  0.8949, -0.2826]])
tensor([[0.5360, 1.6281, 0.0000],
        [0.0000, 0.8949, 0.0000]])


In [78]:
sigmoid = nn.Sigmoid() # 激活模块
x = torch.randn(2, 3)
print(x)
print(sigmoid(x))

tensor([[-0.5775,  0.1776,  1.0715],
        [-1.0094,  1.1908, -0.1650]])
tensor([[0.3595, 0.5443, 0.7449],
        [0.2671, 0.7669, 0.4589]])


In [81]:
# PyTorch封装好的序列模块，主要用来封装整个串行执行链路
## PS: 不允许使用普通python的集合列表对象，PyTorch无法识别
seq = nn.Sequential(
    nn.Linear(2, 3),
    nn.ReLU(),
    nn.Linear(3, 1)
)
for ch in seq.children():
    print(f"子模块 - {ch}")
x = torch.randn(2, 2)
r = seq(x)
print(r.shape)
print(r)

子模块 - Linear(in_features=2, out_features=3, bias=True)
子模块 - ReLU()
子模块 - Linear(in_features=3, out_features=1, bias=True)
torch.Size([2, 1])
tensor([[-0.2024],
        [-0.3114]], grad_fn=<AddmmBackward0>)


##### Softmax交叉熵损失函数

In [88]:
# 定义损失函数
loss_fn = nn.CrossEntropyLoss()

score = torch.randn(4, 5) # 4个样本，每个样本属于5个类别的置信度 -- 一般来源于网络的输出
target = torch.tensor([1, 3, 0, 0]) # 4个样本，每个样本对应的类别id 取值范围[0,5)+和类别数目有关

loss = loss_fn(score, target)
loss

tensor(2.0754)

In [89]:
# 定义损失函数
loss_fn = nn.CrossEntropyLoss()
linear = nn.Linear(3, 5)

x = torch.randn(4, 3)
score = linear(x) # 4个样本，每个样本属于5个类别的置信度 -- 一般来源于网络的输出
target = torch.tensor([1, 3, 0, 0]) # 4个样本，每个样本对应的类别id 取值范围[0,5)+和类别数目有关

loss = loss_fn(score, target)
loss

tensor(1.5173, grad_fn=<NllLossBackward0>)

In [96]:
# 定义损失函数
loss_fn = nn.CrossEntropyLoss(reduction='none')
linear = nn.Linear(3, 5)

x = torch.randn(4, 3)
score = linear(x) # 4个样本，每个样本属于5个类别的置信度 -- 一般来源于网络的输出
target = torch.tensor([1, 3, 0, 0]) # 4个样本，每个样本对应的类别id 取值范围[0,5)+和类别数目有关

loss = loss_fn(score, target)
print(f"直接损失值:\n{loss}\n")

# 按照softmax概率公式求解
proba = torch.softmax(score, dim=-1)
print(target)
print(proba)
print(-torch.log(proba))
# 获取对应位置
print(-torch.log(proba)[[0,1,2,3], target])

直接损失值:
tensor([2.2587, 1.0139, 1.8772, 1.0035], grad_fn=<NllLossBackward0>)

tensor([1, 3, 0, 0])
tensor([[0.5412, 0.1045, 0.1890, 0.1187, 0.0467],
        [0.1279, 0.3859, 0.0705, 0.3628, 0.0529],
        [0.1530, 0.1539, 0.2284, 0.2065, 0.2583],
        [0.3666, 0.3098, 0.0913, 0.1250, 0.1072]], grad_fn=<SoftmaxBackward0>)
tensor([[0.6139, 2.2587, 1.6662, 2.1315, 3.0647],
        [2.0564, 0.9523, 2.6516, 1.0139, 2.9394],
        [1.8772, 1.8718, 1.4768, 1.5775, 1.3537],
        [1.0035, 1.1718, 2.3934, 2.0792, 2.2326]], grad_fn=<NegBackward0>)
tensor([2.2587, 1.0139, 1.8772, 1.0035], grad_fn=<NegBackward0>)


##### Sigmoid交叉熵损失函数

In [103]:
# 定义损失函数
loss_fn = nn.BCEWithLogitsLoss()

score = torch.randn(4, 5) # 4个样本，每个样本属于5个类别的置信度 -- 一般来源于网络的输出
target = torch.tensor([
    [1, 1, 0, 0, 0],
    [0, 0, 0, 1, 0],
    [0, 0, 0, 0, 0],
    [1, 0, 0, 1, 0]
], dtype=torch.float32) # 4个样本，属于当前类别，标签为1，不属于标签为0

loss = loss_fn(score, target)
loss

tensor(0.8207)

In [104]:
# 定义损失函数
loss_fn = nn.BCEWithLogitsLoss(reduction='none')

score = torch.randn(4, 5) # 4个样本，每个样本属于5个类别的置信度 -- 一般来源于网络的输出
target = torch.tensor([
    [1, 1, 0, 0, 0],
    [0, 0, 0, 1, 0],
    [0, 0, 0, 0, 0],
    [1, 0, 0, 1, 0]
], dtype=torch.float32) # 4个样本，属于当前类别，标签为1，不属于标签为0

loss = loss_fn(score, target)
loss

tensor([[0.4822, 0.0562, 0.2954, 0.8588, 1.1241],
        [0.8763, 0.2808, 1.7110, 0.8424, 0.8038],
        [0.7429, 0.2060, 0.1710, 1.4765, 0.5028],
        [0.5495, 0.2177, 1.9942, 0.2941, 0.3373]])

In [106]:
# 按照sigmoid概率公式求解
proba = torch.sigmoid(score)
print(target)
print(proba)
print(-torch.log(proba))
print(-torch.log(1 - proba))
print(loss)


tensor([[1., 1., 0., 0., 0.],
        [0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0.],
        [1., 0., 0., 1., 0.]])
tensor([[0.6174, 0.9454, 0.2557, 0.5763, 0.6750],
        [0.5837, 0.2448, 0.8193, 0.4307, 0.5524],
        [0.5243, 0.1862, 0.1572, 0.7716, 0.3951],
        [0.5773, 0.1956, 0.8639, 0.7452, 0.2863]])
tensor([[0.4822, 0.0562, 1.3636, 0.5511, 0.3930],
        [0.5384, 1.4071, 0.1993, 0.8424, 0.5935],
        [0.6457, 1.6810, 1.8505, 0.2593, 0.9285],
        [0.5495, 1.6317, 0.1463, 0.2941, 1.2508]])
tensor([[0.9609, 2.9068, 0.2954, 0.8588, 1.1241],
        [0.8763, 0.2808, 1.7110, 0.5633, 0.8038],
        [0.7429, 0.2060, 0.1710, 1.4765, 0.5028],
        [0.8610, 0.2177, 1.9942, 1.3672, 0.3373]])
tensor([[0.4822, 0.0562, 0.2954, 0.8588, 1.1241],
        [0.8763, 0.2808, 1.7110, 0.8424, 0.8038],
        [0.7429, 0.2060, 0.1710, 1.4765, 0.5028],
        [0.5495, 0.2177, 1.9942, 0.2941, 0.3373]])
