# Chapter05 Deep Learning Computation

## Layers and Blocks

在神经网络中，层（1）接受一组输入， （2）生成相应的输出， （3）由一组可调整参数描述。

在层之上，模型之下，还有块（block）的概念

> A block could describe a single layer, a component consisting of multiple layers, or the entire model itself! One benefit of working with the block abstraction is that they can be combined into larger artifacts, often recursively.

![](https://zh.d2l.ai/_images/blocks.svg)

以下的模型包含一个256个单元和ReLU激活函数的全连接隐藏层，然后是一个具有10个单元的全连接输出层。从输入和输出的角度而言，该模型接受20个输入，随后输出10个值。



In [1]:
import torch
from torch import nn
from torch.nn import functional as F

net = nn.Sequential(nn.Linear(20, 256), nn.ReLU(), nn.Linear(256, 10))

X = torch.rand(2, 20)  # 生成2x20的随机变量
net(X)

tensor([[ 0.0159,  0.1375, -0.0408,  0.0653,  0.0076, -0.1578,  0.0562,  0.1444,
          0.1755, -0.1096],
        [-0.0642,  0.1484, -0.0824,  0.0689, -0.0527, -0.2860,  0.0616,  0.1039,
          0.1616, -0.1140]], grad_fn=<AddmmBackward0>)

### A Custom Block

The basic functionality that each block must provide:

1. Ingest input data as arguments to its forward propagation function.

2. Generate an output by having the forward propagation function return a value. Note that the output may have a different shape from the input. For example, the first fully-connected layer in our model above ingests an input of dimension 20 but returns an output of dimension 256.

3. Calculate the gradient of its output with respect to its input, which can be accessed via its backpropagation function. Typically this happens automatically.

4. Store and provide access to those parameters necessary to execute the forward propagation computation.

5. Initialize model parameters as needed.

以下构建一个块，对应了一个MLP，包含一个具有256个隐藏单元的隐藏层和一个10维的输出层。换言之，是对上面使用nn.Sequential类实现的MLP的一个复刻。

输入X变量，返回该模型的输出


In [2]:
class MLP(nn.Module):
    # 用模型参数声明层。这里，我们声明两个全连接的层
    def __init__(self):
        # 调用MLP的父类Module的构造函数来执行必要的初始化。
        # 这样，在类实例化时也可以指定其他函数参数，例如模型参数params（稍后将介绍）
        super().__init__()
        self.hidden = nn.Linear(20, 256)  # 隐藏层存储在`hidden`变量
        self.out = nn.Linear(256, 10)  # 输出层存储在`out`变量

    # 定义模型的前向传播，即如何根据输入X返回所需的模型输出
    def forward(self, X):
        # 注意，这里我们使用ReLU的函数版本，其在nn.functional模块中定义。
        return self.out(F.relu(self.hidden(X)))

In [3]:
net = MLP()
net(X)

tensor([[-0.1810,  0.0155,  0.0203,  0.0334, -0.0949, -0.0509,  0.1669, -0.0060,
          0.0367, -0.0119],
        [-0.3329, -0.0183, -0.0604, -0.0246, -0.1749, -0.1821,  0.0909, -0.0308,
          0.0311,  0.0179]], grad_fn=<AddmmBackward0>)

### The Sequential Block

手动实现一个Sequential类。

其中输入的每一个module都存储在 `_modules` 这一个有序字典中，类似于一个存储列表。

随后，前向传播函数按顺序执行每个modules

In [4]:
class MySequential(nn.Module):
    def __init__(self, *args):
        super().__init__()
        for idx, module in enumerate(args):
            # Here, `module` is an instance of a `Module` subclass. We save it
            # in the member variable `_modules` of the `Module` class, and its
            # type is OrderedDict
            self._modules[str(idx)] = module

    def forward(self, X):
        # OrderedDict guarantees that members will be traversed in the order
        # they were added
        for block in self._modules.values():
            X = block(X)
        return X

使用 MySequential 构建上述的MLP，包含一个输入、隐藏层，激活函数和输出。

In [5]:
net = MySequential(nn.Linear(20, 256), nn.ReLU(), nn.Linear(256, 10))
net(X)

tensor([[-0.0155,  0.1048,  0.0261,  0.0893, -0.0437,  0.3351, -0.0884, -0.0573,
         -0.0702,  0.1365],
        [-0.0354, -0.0133,  0.0901,  0.1411,  0.0035,  0.2139, -0.0629, -0.0223,
         -0.1743,  0.2914]], grad_fn=<AddmmBackward0>)

### Exeecuting Code in the Forward Propagation Function

除了利用块简单组合各个神经网络的组件之外，我们还可以在块中进行各种数学运算和控制流操作。

以下实现一个FixedHiddenMLP类，通过在前向传播函数中的计算，输出一个常量



In [6]:
class FixedHiddenMLP(nn.Module):
    def __init__(self):
        super().__init__()
        # 构建一个不计算梯度的随机权重参数。因此其在训练期间保持不变
        self.rand_weight = torch.rand((20, 20), requires_grad=False)
        self.linear = nn.Linear(20, 20)

    def forward(self, X):
        X = self.linear(X)
        # 使用创建的常量参数以及relu和mm函数
        X = F.relu(torch.mm(X, self.rand_weight) + 1)
        # 复用全连接层。这相当于两个全连接层共享参数
        X = self.linear(X)
        # 控制流
        while X.abs().sum() > 1:
            X /= 2
        return X.sum()

此处，模型做了一些不寻常的事情： 它运行了一个while循环，在范数大于的条件下， 将输出向量除以2，直到它满足条件为止。 最后，模型返回了X中所有项的和.

In [7]:
net = FixedHiddenMLP()
net(X)

tensor(0.1973, grad_fn=<SumBackward0>)

我们还可以创建混合嵌套块。

这里注意的是，nn.Sequential接受module的输入，而NestMLP()和FixedHiddenMLP()都是Module的子类。因此，可以作为nn.Sequential的输入。

In [8]:
class NestMLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.net = nn.Sequential(nn.Linear(20, 64), nn.ReLU(),
                                 nn.Linear(64, 32), nn.ReLU())
        self.linear = nn.Linear(32, 16)

    def forward(self, X):
        return self.linear(self.net(X))

chimera = nn.Sequential(NestMLP(), nn.Linear(16, 20), FixedHiddenMLP())
chimera(X)

tensor(-0.2665, grad_fn=<SumBackward0>)

## 参数管理

参数管理相关的代码

对于一个单隐藏层的MLP


In [9]:
import torch
from torch import nn

net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(), nn.Linear(8, 1))
X = torch.rand(size=(2, 4)) # 生成2x4的随机矩阵
net(X)

tensor([[-0.1879],
        [-0.1612]], grad_fn=<AddmmBackward0>)

In [12]:
net

Sequential(
  (0): Linear(in_features=4, out_features=8, bias=True)
  (1): ReLU()
  (2): Linear(in_features=8, out_features=1, bias=True)
)

Sequential类可以看作一个列表，包含了3个元素。

### 参数访问

通过 `net[2].state_dict()` 可以访问输出层的参数，包括权重和偏置


In [10]:
print(net[2].state_dict())

OrderedDict([('weight', tensor([[-0.0985,  0.0370, -0.2010,  0.2683,  0.2943,  0.0443, -0.1458, -0.3514]])), ('bias', tensor([0.0249]))])


- 访问特定参数

通过 `.variable` 的方法可以访问特定参数。当前模型包含 `net` 和 `weight` 两个变量。 要注意 `net[2].bias.data` 才能访问到bias的数值，因为 `net[2].bias` 还包含了 grad 梯度。 

由于现在还没进行后向计算，所以梯度未None


In [17]:
print(type(net[2].bias))
print(net[2].bias)
print(net[2].bias.data)

<class 'torch.nn.parameter.Parameter'>
Parameter containing:
tensor([0.0249], requires_grad=True)
tensor([0.0249])


In [20]:
print(net[2].weight)
print(net[2].weight.data)
print(net[2].weight.grad)

Parameter containing:
tensor([[-0.0985,  0.0370, -0.2010,  0.2683,  0.2943,  0.0443, -0.1458, -0.3514]],
       requires_grad=True)
tensor([[-0.0985,  0.0370, -0.2010,  0.2683,  0.2943,  0.0443, -0.1458, -0.3514]])
None


- 访问所有参数

通过递归的方式访问每个模块的参数

`net[1]` 是激活函数 ReLU() 并不包含参数。


In [21]:
print(*[(name, param.shape) for name, param in net[0].named_parameters()])
print(*[(name, param.shape) for name, param in net.named_parameters()])

('weight', torch.Size([8, 4])) ('bias', torch.Size([8]))
('0.weight', torch.Size([8, 4])) ('0.bias', torch.Size([8])) ('2.weight', torch.Size([1, 8])) ('2.bias', torch.Size([1]))


对每层都有唯一的参数命名，如输出层的bias为 `2.bias`。 所以，我们可以通过参数的名字访问该参数


In [22]:
net.state_dict()['2.bias'].data

tensor([0.0249])

### 从嵌套块中访问参数

我们可以看看当多个块相互嵌套，需要如何访问参数

首先定义块


In [23]:
def block1():
    return nn.Sequential(nn.Linear(4, 8), nn.ReLU(),
                         nn.Linear(8, 4), nn.ReLU())  

def block2():
    net = nn.Sequential()
    for i in range(4):
        # 在这里嵌套
        net.add_module(f'block {i}', block1()) # `f'block {i}'` 作用相当于传入block id
    return net

rgnet = nn.Sequential(block2(), nn.Linear(4, 1))
rgnet(X)

tensor([[-0.2003],
        [-0.2003]], grad_fn=<AddmmBackward0>)

In [24]:
print(rgnet)

Sequential(
  (0): Sequential(
    (block 0): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 1): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 2): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 3): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
  )
  (1): Linear(in_features=4, out_features=1, bias=True)
)


因为层是分层嵌套的，所以我们也可以像通过嵌套列表索引一样访问它们。 下面，我们访问第一个主要的块中、第二个子块的第一层的偏置项。

In [25]:
rgnet[0][1][0].bias.data

tensor([ 0.0802,  0.4245, -0.2623,  0.1656, -0.0973,  0.4199, -0.0201,  0.2378])

### 参数初始化

- 内置初始化

让我们首先调用内置的初始化器。 下面的代码将所有权重参数初始化为标准差为0.01的高斯随机变量， 且将偏置参数设置为0

In [28]:
def init_normal(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, mean=0, std=0.01)
        nn.init.zeros_(m.bias)
net.apply(init_normal) # apply递归整个网络中的参数执行 `init_normal`
net[0].weight.data[0], net[0].bias.data[0]

(tensor([-0.0155, -0.0071,  0.0015, -0.0058]), tensor(0.))

或者都初始化权重为常数1

In [27]:
def init_constant(m):
    if type(m) == nn.Linear:
        nn.init.constant_(m.weight, 1)
        nn.init.zeros_(m.bias)
net.apply(init_constant)
net[0].weight.data[0], net[0].bias.data[0]

(tensor([1., 1., 1., 1.]), tensor(0.))

或者对不同的块执行不同的初始化

例如，下面我们使用Xavier初始化方法初始化第一个神经网络层， 然后将第三个神经网络层初始化为常量值42。

In [29]:
def xavier(m):
    if type(m) == nn.Linear:
        nn.init.xavier_uniform_(m.weight)
def init_42(m):
    if type(m) == nn.Linear:
        nn.init.constant_(m.weight, 42)

net[0].apply(xavier)
net[2].apply(init_42)
print(net[0].weight.data[0]) # 只打印第一个元素
print(net[2].weight.data)

tensor([-0.7008, -0.1801, -0.1880,  0.5484])
tensor([[42., 42., 42., 42., 42., 42., 42., 42.]])


- 自定义初始化

下面自定义一个初始化函数。首先，它会打印初始化哪个层的哪个参数的信息。随后，随机从均一分布中抽取初始权重值。然后，保留大于等于5的权重值，将剩余的值设为0

In [31]:
def my_init(m):
    if type(m) == nn.Linear:
        print("Init", *[(name, param.shape)
                        for name, param in m.named_parameters()][0])
        nn.init.uniform_(m.weight, -10, 10)
        m.weight.data *= m.weight.data.abs() >= 5

net.apply(my_init)
net[0].weight[:2]

Init weight torch.Size([8, 4])
Init weight torch.Size([1, 8])


tensor([[ 5.3258,  0.0000, -9.9274,  5.0150],
        [-0.0000,  9.1049, -9.4709, -9.4527]], grad_fn=<SliceBackward0>)

此外，通过访问、赋值的方式，我们还可以直接设置参数值。

In [32]:
net[0].weight.data[:] += 1
net[0].weight.data[0, 0] = 42
net[0].weight.data[0]

tensor([42.0000,  1.0000, -8.9274,  6.0150])

### 参数绑定

有时我们希望在多个层间共享参数： 我们可以定义一个稠密层 （dense layer），然后使用它的参数来设置另一个层的参数。


In [33]:
# 我们需要给共享层一个名称，以便可以引用它的参数
shared = nn.Linear(8, 8)
net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(),
                    shared, nn.ReLU(),
                    shared, nn.ReLU(),
                    nn.Linear(8, 1))
net(X)
# 检查参数是否相同
print(net[2].weight.data[0] == net[4].weight.data[0])
net[2].weight.data[0, 0] = 100 # 改变第二层的参数会同时改变第三层
# 确保它们实际上是同一个对象，而不只是有相同的值
print(net[2].weight.data[0] == net[4].weight.data[0])

tensor([True, True, True, True, True, True, True, True])
tensor([True, True, True, True, True, True, True, True])


## 自定义层

### 不带参数的层

首先，我们构造一个没有任何参数的自定义层。下面的CenteredLayer类要从其输入中减去均值。 要构建它，我们只需继承基础层类（init）并实现前向传播功能（forward）。


In [34]:
import torch
import torch.nn.functional as F
from torch import nn


class CenteredLayer(nn.Module):
    def __init__(self):
        super().__init__()

    def forward(self, X):
        return X - X.mean()

In [35]:
layer = CenteredLayer()
layer(torch.FloatTensor([1, 2, 3, 4, 5]))

tensor([-2., -1.,  0.,  1.,  2.])

In [37]:
net = nn.Sequential(nn.Linear(8, 128), CenteredLayer())
Y = net(torch.rand(4, 8))
Y.mean() # 均值应该是0，但由于存储精度，会返回很小的非零值

tensor(-1.8626e-09, grad_fn=<MeanBackward0>)

### 带参数的层

现在，让我们实现自定义版本的全连接层。 回想一下，该层需要两个参数，一个用于表示权重，另一个用于表示偏置项。这里利用 nn.Parameter 类实现

该层需要输入参数：in_units和units，分别表示输入数和输出数。

In [38]:
class MyLinear(nn.Module):
    def __init__(self, in_units, units):
        super().__init__()
        self.weight = nn.Parameter(torch.randn(in_units, units))
        self.bias = nn.Parameter(torch.randn(units,))
    def forward(self, X):
        linear = torch.matmul(X, self.weight.data) + self.bias.data
        return F.relu(linear) # 使用ReLU作为激活函数

In [39]:
# 创建一个单线性层
linear = MyLinear(5, 3)
linear.weight

Parameter containing:
tensor([[-0.7595,  0.1646, -0.2728],
        [-1.2000,  0.2022, -0.2345],
        [-1.4211,  0.1634, -0.2554],
        [-0.6991,  0.5870,  1.7453],
        [-1.4708, -1.7918,  0.8820]], requires_grad=True)

In [40]:
# 输入一个2*5的矩阵，利用该线性层进行计算
linear(torch.rand(2, 5))

tensor([[0.0000, 0.0000, 0.6572],
        [0.0000, 0.0000, 1.5790]])

In [41]:
# 利用自定义层构建一个模型
net = nn.Sequential(MyLinear(64, 8), MyLinear(8, 1))
net(torch.rand(2, 64))

tensor([[6.7428],
        [5.2207]])

## 读写文件

### 加载和保存张量



In [42]:
import torch
from torch import nn
from torch.nn import functional as F

# 存储标量
x = torch.arange(4)
torch.save(x, 'x-file')
x2 = torch.load('x-file')
x2

tensor([0, 1, 2, 3])

In [43]:
# 存储列表
y = torch.zeros(4)
torch.save([x, y],'x-files')
x2, y2 = torch.load('x-files')
(x2, y2)

(tensor([0, 1, 2, 3]), tensor([0., 0., 0., 0.]))

In [44]:
# 存储字典
mydict = {'x': x, 'y': y}
torch.save(mydict, 'mydict')
mydict2 = torch.load('mydict')
mydict2

{'x': tensor([0, 1, 2, 3]), 'y': tensor([0., 0., 0., 0.])}

### 加载和保存模型参数

对pytorch而言，如果我们想保存模型，我们只能通过保存模型参数和模型函数定义的方法实现。

首先，生成一个MLP作为示例

In [45]:
class MLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.hidden = nn.Linear(20, 256)
        self.output = nn.Linear(256, 10)

    def forward(self, x):
        return self.output(F.relu(self.hidden(x)))

net = MLP()
X = torch.randn(size=(2, 20))
Y = net(X)

In [46]:
# 保存模型参数到 "mlp.params"
torch.save(net.state_dict(), 'mlp.params')

In [47]:
clone = MLP() # 如果脱离当前环境，我们需要重新定义 `MLP()`
clone.load_state_dict(torch.load('mlp.params'))
clone.eval() # “起始模型训练”

MLP(
  (hidden): Linear(in_features=20, out_features=256, bias=True)
  (output): Linear(in_features=256, out_features=10, bias=True)
)

In [48]:
# 比较两个模型的输出
Y_clone = clone(X)
Y_clone == Y

tensor([[True, True, True, True, True, True, True, True, True, True],
        [True, True, True, True, True, True, True, True, True, True]])