In [29]:
import torch

<br>

### 全连接层（线性层）

In [30]:
# 指定输入以及输出神经元的数量，创建全连接层
linear = torch.nn.Linear(in_features=10, out_features=5)

In [31]:
# 创建好全连接层后，会自动初始化权重与偏置
linear.weight, linear.bias

(Parameter containing:
 tensor([[-0.2355,  0.2675, -0.2939,  0.2603, -0.0859, -0.1308, -0.0644, -0.0422,
          -0.1558,  0.1965],
         [-0.1766,  0.0329, -0.2180, -0.0748, -0.0264,  0.0452, -0.0379,  0.0619,
           0.0035,  0.2743],
         [ 0.1485,  0.2862, -0.2397, -0.0540, -0.0871,  0.1411,  0.1568, -0.1105,
           0.2351,  0.0308],
         [-0.0897, -0.1097, -0.2668, -0.0086,  0.1994, -0.0386, -0.0208,  0.1984,
          -0.2557, -0.1468],
         [ 0.1369,  0.3115,  0.2172,  0.1685, -0.0550,  0.1403,  0.2265,  0.0745,
          -0.2470,  0.2531]], requires_grad=True),
 Parameter containing:
 tensor([ 0.2688, -0.0651,  0.2951,  0.2930,  0.2708], requires_grad=True))

In [32]:
# 调用全连接层的正向传播方法（从输入到输出）
x = torch.arange(30, dtype=torch.float32).reshape(3, 10)    # 3 个样本，每个样本 10 个输入
output = linear(x)                                          # 通过调用 call 魔法方法即可实现正向传播，获取输出
print(output.shape)                                         # 分别得到 3 个样本的输出，每个样本对应 5 个输出

torch.Size([3, 5])


<br>

### ReLU层

In [33]:
# 直接创建 ReLU 层，不需要任何参数
relu = torch.nn.ReLU()

# 该层也没有任何模型参数，只是单纯的对输入的任何元素施加 ReLU 函数

In [34]:
# 调用 ReLU 层
x = torch.tensor([1, 2, -3, -0.5])
output = relu(x)                    # 也是通过调用 call 魔法方法来实现正向传播
print(output)

tensor([1., 2., 0., 0.])


<br>

### Sigmoid层

In [35]:
# 整体使用方法与 ReLU 层类似
sigmoid = torch.nn.Sigmoid()          # 创建 Sigmoid 层
x = torch.tensor([1, 2, -3, -0.5])    # 测试样本
output = sigmoid(x)                   # 通过调用 call 魔法方法实现正向传播
print(output)                         # 相当于对每一个输入元素调用 Sigmoid 函数

tensor([0.7311, 0.8808, 0.0474, 0.3775])


<br>

### Softmax层

In [36]:
# 指定应用 Softmax 函数的维度，并创建 Softmax 层
softmax = torch.nn.Softmax(dim=1)

# 一般认为一行表示一个样本，对每一行应用 Softmax 函数（dim = 1）
# 即最终各行元素之和均为 1

In [37]:
x = torch.randn(3, 6)    # 3 个样本，6 个输出（在分类任务中表示对 6 个类别的输出）
output = softmax(x)      # 在每一行元素上应用 Softmax 函数（得到对应 6 个类别的概率）
print(output)

tensor([[0.2039, 0.0245, 0.4770, 0.1043, 0.1092, 0.0811],
        [0.1341, 0.1709, 0.4744, 0.0226, 0.0254, 0.1726],
        [0.2263, 0.2155, 0.3269, 0.0577, 0.1165, 0.0571]])


In [38]:
output.sum(dim=1)      # 各行元素之和均为 1

tensor([1.0000, 1.0000, 1.0000])

<br>

### 卷积层

In [39]:
'''
卷积运算用的最多的是二维卷积（对图像进行处理）
其中输入、输出数据的维度顺序为 (N, C, H, W)

in_channels    -- 输入数据的通道数，也是核的通道数
out_channels   -- 输出数据的通道数，也是核的个数
kernel_size    -- 核的大小
stride         -- 卷积运算的步幅
padding        -- 对输入数据的填充
'''

# 通过指定卷积层的参数来创建卷积层
convolution = torch.nn.Conv2d(in_channels=3, out_channels=6, kernel_size=3, stride=1, padding=0)

In [40]:
# 创建好卷积层后，会自动初始化好模型参数（卷积核 和 偏置）
convolution.weight, convolution.bias

(Parameter containing:
 tensor([[[[ 0.1351, -0.1173,  0.0559],
           [ 0.0990,  0.0574,  0.0680],
           [-0.0063, -0.0274,  0.0987]],
 
          [[ 0.1488, -0.0757,  0.0924],
           [ 0.1281, -0.0803, -0.0116],
           [ 0.0384,  0.1266, -0.1306]],
 
          [[-0.0797, -0.0502,  0.0239],
           [ 0.1057,  0.0533, -0.1075],
           [-0.0707, -0.0815,  0.0532]]],
 
 
         [[[ 0.1221, -0.1029,  0.0693],
           [ 0.0113, -0.1001, -0.0091],
           [ 0.0993, -0.0327, -0.0429]],
 
          [[ 0.0732, -0.1477,  0.1337],
           [ 0.0099, -0.1304, -0.1820],
           [-0.1756,  0.0518, -0.1146]],
 
          [[ 0.0733,  0.0408,  0.0644],
           [-0.0865,  0.1839, -0.0496],
           [-0.1213, -0.0256, -0.0917]]],
 
 
         [[[ 0.1539, -0.1328, -0.0516],
           [-0.1097, -0.1562, -0.0303],
           [ 0.0979,  0.1096,  0.1317]],
 
          [[-0.0895,  0.0556,  0.1214],
           [-0.1729, -0.1597,  0.1682],
           [ 0.0849, -0.0089, 

In [41]:
x = torch.randn(1, 3, 32, 32)     # 模拟 1 个大小为 32 * 32 的 3 通道（RGB）彩色图像数据
output = convolution(x)           # 通过调用 call 魔法方法进行卷积层的正向传播
print(output.shape)               # 可以得到通道数等于核的个数的新数据

torch.Size([1, 6, 30, 30])


<br>

### （最大）池化层

In [42]:
'''
对二维卷积层输出数据进行池化的池化层也一定是二维的
其中输入、输出数据的维度顺序为 (N, C, H, W)
池化不会改变输入数据的通道数，只是精炼数据，缩小长与宽（在每个样本的每一个通道对应的特征图上分别进行精炼数据）

kernel_size    -- 池化运算的窗口大小
stride         -- 窗口移动的步幅
padding        -- 对输入数据的填充
'''
pool = torch.nn.MaxPool2d(kernel_size=2, stride=1, padding=0)

# 最大池化是提取窗口内的最大值（在图像处理上用的很多）
# 池化层也是没有模型参数的，像激活函数层一样，只是对输入数据做指定的运算操作

In [43]:
x = torch.randn(2, 2, 3, 3)   # 2 个大小为 3 * 3 、通道数为 2 的数据
x

tensor([[[[ 0.5825, -0.5555, -0.1655],
          [ 2.1773,  0.5176,  0.2473],
          [-2.0066,  0.7154,  1.1815]],

         [[-0.1344,  0.7696, -0.1264],
          [-0.8483,  0.6956, -0.3064],
          [-0.7610,  0.2390, -0.0809]]],


        [[[ 0.4137, -1.1263,  0.9501],
          [-0.5783,  0.0638,  0.7853],
          [ 1.0699, -1.7613, -0.0602]],

         [[-0.5682, -1.0803, -0.2424],
          [-0.6876,  1.2280, -1.7699],
          [ 1.1600,  0.5254, -0.0061]]]])

In [44]:
output = pool(x)       # 调用池化层的 call 魔法方法来进行正向传播
print(output.shape)    # 只调整数据的长宽，通道数和样本数是不变的
output

torch.Size([2, 2, 2, 2])


tensor([[[[2.1773, 0.5176],
          [2.1773, 1.1815]],

         [[0.7696, 0.7696],
          [0.6956, 0.6956]]],


        [[[0.4137, 0.9501],
          [1.0699, 0.7853]],

         [[1.2280, 1.2280],
          [1.2280, 1.2280]]]])

<br>

### 自适应平均池化层

In [45]:
# 通过指定输出数据的 H * W，内部会自动计算出合适的池化窗口大小和步幅
global_avg_pool = torch.nn.AdaptiveAvgPool2d((1, 1))

# 池化过程跟普通池化一样

In [46]:
x = torch.randn(2, 2, 2, 2)
output = global_avg_pool(x)   # 池化不改变样本数和通道数
print(output.shape)

torch.Size([2, 2, 1, 1])


<br>

### Flatten层

In [47]:
# 创建 Flatten 层
flatten = torch.nn.Flatten()

# 用于将每一个样本对应的数据拉平成一维数组
# 常用于对卷积层的输出数据作转换，输入到全连接层中

In [48]:
x = torch.randn(10, 3, 4, 4)
output = flatten(x)
print(output.shape)

torch.Size([10, 48])


<br>

### Dropout层

In [49]:
# 可以接受任意形状的输入，按照 p 概率对每一个位置的数据进行置零
# 然后对于保留下来的数据进行拉伸（除 1 - dropout），保持数据的期望
dropout = torch.nn.Dropout(p=0.5)

In [50]:
dropout.train()
x = torch.randn(2, 2, 2)
print(x)
print(dropout(x))

tensor([[[ 0.1443, -2.0384],
         [ 1.0388, -0.6286]],

        [[ 0.9508, -0.5222],
         [ 0.1518, -0.8859]]])
tensor([[[ 0.2887, -0.0000],
         [ 2.0777, -1.2572]],

        [[ 1.9016, -0.0000],
         [ 0.0000, -1.7718]]])


In [51]:
# 在训练时 Dropout 层处理如上
# 但在测试时，Dropout 层不做任何处理
dropout.eval()
print(x)
print(dropout(x))

tensor([[[ 0.1443, -2.0384],
         [ 1.0388, -0.6286]],

        [[ 0.9508, -0.5222],
         [ 0.1518, -0.8859]]])
tensor([[[ 0.1443, -2.0384],
         [ 1.0388, -0.6286]],

        [[ 0.9508, -0.5222],
         [ 0.1518, -0.8859]]])


<br>

### BatchNorm层

In [52]:
torch.nn.BatchNorm1d

torch.nn.modules.batchnorm.BatchNorm1d

<br>

### LayerNorm层

In [57]:
norm = torch.nn.LayerNorm(3)
x = torch.arange(24).reshape(2, 2, 2, 3).type(torch.float32)
print(x)
print(norm(x))

tensor([[[[ 0.,  1.,  2.],
          [ 3.,  4.,  5.]],

         [[ 6.,  7.,  8.],
          [ 9., 10., 11.]]],


        [[[12., 13., 14.],
          [15., 16., 17.]],

         [[18., 19., 20.],
          [21., 22., 23.]]]])
tensor([[[[-1.2247,  0.0000,  1.2247],
          [-1.2247,  0.0000,  1.2247]],

         [[-1.2247,  0.0000,  1.2247],
          [-1.2247,  0.0000,  1.2247]]],


        [[[-1.2247,  0.0000,  1.2247],
          [-1.2247,  0.0000,  1.2247]],

         [[-1.2247,  0.0000,  1.2247],
          [-1.2247,  0.0000,  1.2247]]]], grad_fn=<NativeLayerNormBackward0>)


<br>

### MSE损失层

In [53]:
# 创建 MSE 损失层
mseloss = torch.nn.MSELoss()

# 要求输入的预测数据与真实数据的形状一致
# 计算对应位置差的平方和
x = torch.randn(3, 4)
label = torch.rand(3, 4)

# 通过调用损失层的 call 魔法方法进行正向传播
loss = mseloss(x, label)
print(loss)

tensor(1.3262)


<br>

### 交叉熵损失层

In [54]:
# 创建交叉熵损失层（交叉熵损失在分类问题中使用的较多）
crossentropyloss = torch.nn.CrossEntropyLoss()

# 预测数据形状为 (N, M)，表示 N 个样本对应是 M 个类别的概率
x = torch.tensor([[0.1, 0.2, 0.7],
                  [0.3, 0.4, 0.3]], dtype=torch.float32)

# 真实数据形状为 (N,)，表示 N 个样本的真实类别是哪一个（编号从 0 到 M - 1）
label1 = torch.tensor([2, 1])

# 真实数据也可以是预测数据同样的形状，表示各个样本是各种类型的概率
label2 = torch.tensor([[0, 0, 1],
                       [0, 1, 0]], dtype=torch.float32)

# 通过调用损失层的 call 魔法方法进行正向传播
loss1 = crossentropyloss(x, label1)
loss2 = crossentropyloss(x, label2)
print(loss1, loss2)

# 注意：这个交叉熵损失层再内部是先对数据应用 Softmax 函数的，故使用时不需要额外在其前面添加 Softmax 层

tensor(0.9005) tensor(0.9005)
