# 2 模块

## 2.1 模块是什么

模块是PyTorch中用于组成神经网络的各个组件。在模块的`__init__`函数中，定义了各种参数；在模块的`forward`函数中，则定义了张量在该模块中的处理方法。

In [1]:
import torch
import torch.nn as nn
from rich import print

In [3]:
class LinearAdd(nn.Module):
    def __init__(self, a: float, b: float) -> None:
        super().__init__()
        self.a = a
        self.b = b
    

    def forward(self, x: torch.Tensor, y: torch.Tensor) -> torch.Tensor:
        return self.a * x + self.b * y

如上所示，我们定义好了一个叫做`LinearAdd`的模块。它通过继承`nn.Module`类获取其所有特性。在`__init__`函数中，我们将两个固定的参数`a`和`b`传入至模块中，保存为它们的属性；随后，我们在`forward`函数中定义了对两个向量的处理方法：将它们加权求和后返回。

当定义好这个模块之后，我们首先应当对模块实例化，以调用这个模块：

In [4]:
linear_add = LinearAdd(0.6, 0.4) # 调用__init__函数新建实例

x = torch.tensor([1, 2, 3])
y = torch.tensor([5, 6, 7])

随后，我们就可以通过调用实例来执行前向传播，获取结果：

In [5]:
z = linear_add(x, y) # 调用forward函数前向传播

print("张量z如下所示：")
print(z)

可以看到，经过这个模块得到的张量与我们所期望的一致。

## 2.2 常见的PyTorch预定义模块

### 全连接操作

在PyTorch中，负责全连接操作的模块为`torch.nn.Linear`。它接收2个参数：输入长度`in_features`和输出长度`out_features`，同时还有其它自定义参数。

In [7]:
demo_model = nn.Linear(24, 10) # 全连接层，形状变化设定为24->10

demo_input = torch.rand(16, 24) # 16为批大小，24为输入长度，与全连接层所对应

print("示例输入为：")
print(demo_input)
print("示例输入的形状为：")
print(demo_input.shape)

demo_output = demo_model(demo_input) # 经过全连接层后，形状会为[16, 10]

print("示例输出为：")
print(demo_output)
print("示例输出的形状为：")
print(demo_output.shape)

### 卷积操作

卷积也是PyTorch中常见的操作：将上一层的图像经过卷积（滤波）后得到这一层的图像。负责卷积操作的模块为`torch.nn.Conv1d`（一维卷积），`torch.nn.Conv2d`（二维卷积）和`torch.nn.Conv3d`（三维卷积）。每层接收比自己要卷积的维度多两维的张量（多出来的两个维度分别为批大小`B`和通道数`C`）。不同于全连接层的是，卷积第二维（通道维度）的大小变化由自己指定，后面维度的大小变化由所设定的卷积核、边界大小、步长等参数决定。

In [8]:
demo_model = nn.Conv2d(2, 8, kernel_size = 3, stride = 2, padding = 1)
# 卷积核为3x3，边界大小为1，步长为2，通道数由2变为64，因此图像大小会由[B, 2, H, W]变为[B, 8, H/2, W/2]

demo_input = torch.rand(8, 2, 32, 32) # 批大小为8，宽和高都为32，形状为[B = 8, 2, 32, 32]

print("示例输入的形状为：")
print(demo_input.shape)

demo_output = demo_model(demo_input) # 经过全连接层后，形状会为[B = 8, 8, 16, 16]

print("示例输出的形状为：")
print(demo_output.shape)

### 激活函数

激活函数用于过滤信息，常见的激活函数有ReLU、Sigmoid等。PyTorch中定义了多种多样的激活函数，可以直接使用：

In [9]:
demo_model = nn.ReLU()

demo_input = -1.0 + 2.0 * torch.rand(6)

print("示例输入为：")
print(demo_input)

demo_output = demo_model(demo_input)

print("示例输出为：")
print(demo_output)

In [10]:
demo_model = nn.Sigmoid()

demo_input = -1.0 + 2.0 * torch.rand(6)

print("示例输入为：")
print(demo_input)

demo_output = demo_model(demo_input)

print("示例输出为：")
print(demo_output)

### 组合拳

单靠定义一个一个的独立模块无法构建大的神经网络，因此，需要一个能够将所有神经网络的组成部分排列在一起的容器。在PyTorch中，用来扮演这一角色的是`nn.Sequential`。它接收多个参数，并将其排列为一张能按顺序执行下来的大型神经网络。

In [11]:
demo_model = nn.Sequential(
    nn.Flatten(), # 将图像展开成一个巨大的一维向量
    nn.Linear(28 * 28, 10),
    nn.ReLU()
)

demo_input = torch.rand(16, 28, 28) # 模拟MNIST数据集

print("示例输入的形状为：")
print(demo_input.shape)

demo_output = demo_model(demo_input)

print("示例输出为：")
print(demo_output)
print("示例输出的形状为：")
print(demo_output.shape)

## 2.3 模块的小技巧

### 可以在模块里声明模块

一个模块可以当做另一个模块的属性存在：

In [13]:
class Residual(nn.Module):
    def __init__(self, channel: int) -> None:
        super().__init__()
        self.conv1 = nn.Conv2d(channel, channel, kernel_size = 3, stride = 1, padding = 1)
        self.activaion1 = nn.ReLU()
        self.conv2 = nn.Conv2d(channel, channel, kernel_size = 3, stride = 1, padding = 1)
        self.activaion2 = nn.ReLU()
    

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        y = self.conv1(x)
        y = self.activaion1(y)
        y = self.conv2(y)
        y = self.activaion2(y)
        y = x + y
        return y


demo_model = Residual(3)

print("模型为：")
print(demo_model)

demo_input = torch.rand(16, 3, 28, 28)

print("示例输入的形状为：")
print(demo_input.shape)

demo_output = demo_model(demo_input)

print("示例输出的形状为：")
print(demo_output.shape)

### 可以自定义模块的打印

通过重载`extra_repr`方法，可以将模型中的自定义参数打印在控制台中：

In [14]:
class LinearAdd(nn.Module):
    def __init__(self, a: float, b: float) -> None:
        super().__init__()
        self.a = a
        self.b = b
    

    def extra_repr(self) -> str:
        return "a=%.3f, b=%.3f" % (self.a, self.b)
    

    def forward(self, x: torch.Tensor, y: torch.Tensor) -> torch.Tensor:
        return self.a * x + self.b * y

demo_model = LinearAdd(0.25, 0.75)
print(demo_model)

知道如何通过模块构造神经网络之后，我们就可以着手构造我们的神经网络了。然而，单单会构造还不够，为了使神经网络更好地满足我们的需求，我们还应该学会训练它。在下一部分，我们会讨论由PyTorch构建出的神经网络应该如何训练。