#### 除了庞⼤的数据集和强⼤的硬件，优秀的软件⼯具在深度学习的快速发展中发挥了不可或缺的作⽤。从2007年发布的开创性的Theano库开始，灵活的开源⼯具使研究⼈员能够快速开发模型原型，避免了我们使⽤标准组件时的重复⼯作，同时仍然保持了我们进⾏底层修改的能⼒。随着时间的推移，深度学习库已经演变成提供越来越粗糙的抽象。就像半导体设计师从指定晶体管到逻辑电路再到编写代码⼀样，神经⽹络研究⼈员已经从考虑单个⼈⼯神经元的⾏为转变为从层的⻆度构思⽹络，通常设计架构时考虑的是更粗糙的块（block）。
#### 之前我们已经介绍了⼀些基本的机器学习概念，并慢慢介绍了功能⻬全的深度学习模型。在上⼀章中，我们从零开始实现了多层感知机的每个组件，然后展⽰了如何利⽤⾼级API轻松地实现相同的模型。为了易于学习，我们调⽤了深度学习库，但是跳过了它们⼯作的细节。在本章中，我们将深⼊探索深度学习计算的关键组件，即模型构建、参数访问与初始化、设计⾃定义层和块、将模型读写到磁盘，以及利⽤GPU实现显著的加速。这些知识将使读者从深度学习“基础⽤⼾”变为“⾼级⽤⼾”。虽然本章不介绍任何新的模型或数据集，但后⾯的⾼级模型章节在很⼤程度上依赖于本章的知识。

## 层和块

#### 之前⾸次介绍神经⽹络时，我们关注的是具有单⼀输出的线性模型。在这⾥，整个模型只有⼀个输出。注意，单个神经⽹络（1）接受⼀些输⼊；（2）⽣成相应的标量输出；（3）具有⼀组相关 参数（parameters），更新这些参数可以优化某⽬标函数。
#### 然后，当考虑具有多个输出的⽹络时，我们利⽤⽮量化算法来描述整层神经元。像单个神经元⼀样，层（1）接受⼀组输⼊，（2）⽣成相应的输出，（3）由⼀组可调整参数描述。当我们使⽤softmax回归时，⼀个单层本⾝就是模型。然⽽，即使我们随后引⼊了多层感知机，我们仍然可以认为该模型保留了上⾯所说的基本架构。
#### 对于多层感知机⽽⾔，整个模型及其组成层都是这种架构。整个模型接受原始输⼊（特征），⽣成输出（预测），并包含⼀些参数（所有组成层的参数集合）。同样，每个单独的层接收输⼊（由前⼀层提供），⽣成输出（到下⼀层的输⼊），并且具有⼀组可调参数，这些参数根据从下⼀层反向传播的信号进⾏更新。
#### 事实证明，研究讨论“⽐单个层⼤”但“⽐整个模型⼩”的组件更有价值。例如，在计算机视觉中⼴泛流⾏的ResNet-152架构就有数百层，这些层是由层组（groups of layers）的重复模式组成。这个ResNet架构赢得了2015年ImageNet和COCO计算机视觉⽐赛的识别和检测任务 (He et al., 2016)。⽬前ResNet架构仍然是许多视觉任务的⾸选架构。在其他的领域，如⾃然语⾔处理和语⾳，层组以各种重复模式排列的类似架构现在也是普遍存在。
#### 为了实现这些复杂的⽹络，我们引⼊了神经⽹络块的概念。块（block）可以描述单个层、由多个层组成的组件或整个模型本⾝。使⽤块进⾏抽象的⼀个好处是可以将⼀些块组合成更⼤的组件，这⼀过程通常是递归的，如 图5.1.1所⽰。通过定义代码来按需⽣成任意复杂度的块，我们可以通过简洁的代码实现复杂的神经⽹络。
#### 从编程的⻆度来看，块由类（class）表⽰。它的任何⼦类都必须定义⼀个将其输⼊转换为输出的前向传播函数，并且必须存储任何必需的参数。注意，有些块不需要任何参数。最后，为了计算梯度，块必须具有反向传播函数。在定义我们⾃⼰的块时，由于⾃动微分（在 2.5节 中引⼊）提供了⼀些后端实现，我们只需要考虑前向传播函数和必需的参数。

In [1]:
# 在构造⾃定义块之前，我们先回顾⼀下多层感知机（4.3节 ）的代码。下⾯的代码⽣成⼀个⽹络，其中包含⼀
# 个具有256个单元和ReLU激活函数的全连接隐藏层，然后是⼀个具有10个隐藏单元且不带激活函数的全连接
# 输出层。
import torch
from torch import nn
from torch.nn import functional as F

In [2]:
net = nn.Sequential(nn.Linear(20, 256), nn.ReLU(), nn.Linear(256, 10))

In [2]:
X = torch.rand(2, 20)

In [6]:
net(X)

tensor([[ 0.1629,  0.0528,  0.1263, -0.0825, -0.0173, -0.0205, -0.1303,  0.0878,
          0.1023,  0.2288],
        [ 0.2429,  0.0656,  0.1165,  0.0331, -0.0324, -0.0383, -0.2615,  0.0872,
          0.0744,  0.0513]], grad_fn=<AddmmBackward0>)

#### 在这个例⼦中，我们通过实例化nn.Sequential来构建我们的模型，层的执⾏顺序是作为参数传递的。简⽽⾔之，nn.Sequential定义了⼀种特殊的Module，即在PyTorch中表⽰⼀个块的类，它维护了⼀个由Module组成的有序列表。注意，两个全连接层都是Linear类的实例，Linear类本⾝就是Module的⼦类。另外，到⽬前为⽌，我们⼀直在通过net(X)调⽤我们的模型来获得模型的输出。这实际上是net.__call__(X)的简写。这个前向传播函数⾮常简单：它将列表中的每个块连接在⼀起，将每个块的输出作为下⼀个块的输⼊。

### 自定义块

#### 要想直观地了解块是如何⼯作的，最简单的⽅法就是⾃⼰实现⼀个。在实现我们⾃定义块之前，我们简要总结⼀下每个块必须提供的基本功能。
1. 将输⼊数据作为其前向传播函数的参数。
2. 通过前向传播函数来⽣成输出。请注意，输出的形状可能与输⼊的形状不同。例如，我们上⾯模型中的第⼀个全连接的层接收⼀个20维的输⼊，但是返回⼀个维度为256的输出。
3. 计算其输出关于输⼊的梯度，可通过其反向传播函数进⾏访问。通常这是⾃动发⽣的。
4. 存储和访问前向传播计算所需的参数。
5. 根据需要初始化模型参数。

In [7]:
# 在下⾯的代码⽚段中，我们从零开始编写⼀个块。它包含⼀个多层感知机，其具有256个隐藏单元的隐藏层和⼀
# 个10维输出层。注意，下⾯的MLP类继承了表⽰块的类。我们的实现只需要提供我们⾃⼰的构造函数（Python中
# 的__init__函数）和前向传播函数。

In [10]:
class MLP(nn.Module):
    # 用模型参数声明层。这里，我们声明两个 全连接的层
    def __init__(self):
        # 调用MLP的父类Module的构造函数来执行必要的初始化。
        # 这样，在类实例化时也可以指定其他函数参数，例如模型参数params（稍后介绍）
        super().__init__()
        self.hidden = nn.Linear(20, 256) # 隐藏层
        self.out = nn.Linear(256, 10) # 输出层
        
    # 定义模型的前向传播。即如何根据输入X返回所需的模型输出
    
    def forward(self, X):
        # 注意，这里我们使用ReLU的函数版本，其在nn.functional模块中定义。
        return self.out(F.relu(self.hidden(X)))

我们⾸先看⼀下前向传播函数，它以X作为输⼊，计算带有激活函数的隐藏表⽰，并输出其未规范化的输出
值。在这个MLP实现中，两个层都是实例变量。要了解这为什么是合理的，可以想象实例化两个多层感知机
（net1和net2），并根据不同的数据对它们进⾏训练。当然，我们希望它们学到两种不同的模型。
接着我们实例化多层感知机的层，然后在每次调⽤前向传播函数时调⽤这些层。注意⼀些关键细节：⾸先，
我们定制的__init__函数通过super().__init__() 调⽤⽗类的__init__函数，省去了重复编写模版代码的痛
苦。然后，我们实例化两个全连接层，分别为self.hidden和self.out。注意，除⾮我们实现⼀个新的运算符，
否则我们不必担⼼反向传播函数或参数初始化，系统将⾃动⽣成这些。

In [14]:
# 我们来试一下这个函数
net = MLP()
net(X)

tensor([[ 0.0199,  0.1006,  0.1785, -0.1151, -0.0417, -0.1980,  0.0734,  0.0792,
          0.1782,  0.0126],
        [-0.0683,  0.0773,  0.2611, -0.0648,  0.0915,  0.0072,  0.1318,  0.0646,
          0.1385, -0.1536]], grad_fn=<AddmmBackward0>)

块的⼀个主要优点是它的多功能性。我们可以⼦类化块以创建层（如全连接层的类）、整个模型（如上⾯
的MLP类）或具有中等复杂度的各种组件。我们在接下来的章节中充分利⽤了这种多功能性，⽐如在处理卷积
神经⽹络时。

### 顺序块

现在我们可以更仔细地看看Sequential类是如何⼯作的，回想⼀下Sequential的设计是为了把其他模块串起
来。为了构建我们⾃⼰的简化的MySequential，我们只需要定义两个关键函数：
1. ⼀种将块逐个追加到列表中的函数；
2. ⼀种前向传播函数，⽤于将输⼊按追加块的顺序传递给块组成的“链条”。

In [15]:
# 下⾯的MySequential类提供了与默认Sequential类相同的功能。

In [10]:
class MySequential(nn.Module):
    def __init__(self, *args):
        super().__init__()
        for idx, module in enumerate(args):
            # 这里，lodule是Module子类的一个实例。我们把它保存在‘Module’类的成员
            # 变量_modules中。_module的类型是OrderedDict
            self._modules[str(idx)] = module
    
    def forward(self, X):
        # OrderedDict保证了按照成员添加的顺序遍历它们
        for block in self._modules.values():
            X = block(X)
        return X

__init__函数将每个模块逐个添加到有序字典_modules中。读者可能会好奇为什么每个Module都有⼀
个_modules属性？以及为什么我们使⽤它⽽不是⾃⼰定义⼀个Python列表？简⽽⾔之，_modules的主要优
点是：在模块的参数初始化过程中，系统知道在_modules字典中查找需要初始化参数的⼦块。

In [22]:
# 当MySequential的前向传播函数被调⽤时，每个添加的块都按照它们被添加的顺序执⾏。现在可以使⽤我们
# 的MySequential类重新实现多层感知机。

In [11]:
net = MySequential(nn.Linear(20, 256), nn.ReLU(), nn.Linear(256, 10))
net(X)

tensor([[ 0.0915, -0.2571,  0.0454, -0.1096, -0.1486,  0.2023,  0.2695, -0.1501,
          0.2316, -0.1766],
        [ 0.0841, -0.4435,  0.1338, -0.1704, -0.0719,  0.0711,  0.1856, -0.0833,
          0.1959, -0.1043]], grad_fn=<AddmmBackward0>)

请注意，MySequential的⽤法与之前为Sequential类编写的代码相同

In [24]:
nn.Sequential??

### 在前向传播函数中执行代码

Sequential类使模型构造变得简单，允许我们组合新的架构，⽽不必定义⾃⼰的类。然⽽，并不是所有的架
构都是简单的顺序架构。当需要更强的灵活性时，我们需要定义⾃⼰的块。例如，我们可能希望在前向传播
函数中执⾏Python的控制流。此外，我们可能希望执⾏任意的数学运算，⽽不是简单地依赖预定义的神经⽹
络层。
到⽬前为⽌，我们⽹络中的所有操作都对⽹络的激活值及⽹络的参数起作⽤。然⽽，有时我们可能希望合并
既不是上⼀层的结果也不是可更新参数的项，我们称之为常数参数（constant parameter）。例如，我们需要
⼀个计算函数 f(x,w) = c · w ⊤ x的层，其中x是输⼊，w是参数，c是某个在优化过程中没有更新的指定常量。
因此我们实现了⼀个FixedHiddenMLP类，如下所⽰：

In [28]:
class FixedHiddenMLP(nn.Module):
    def __init__(self):
        super().__init__()
        # 不计算梯度的随机权重参数。因此其在训练期间保持不变
        self.rand_weight = torch.rand((20, 20), requires_grad=False)
        self.linear = nn.Linear(20, 20)
        
    def forward(self, X):
        X = self.linear(X)
        # 使用创建的常量参数以及relu和mm函数
        X = F.relu(torch.mm(X, self.rand_weight) + 1)
        # 复用全连接层。这相当于两个全连接层共享参数
        X = self.linear(X)
        # 控制流
        while X.abs().sum() > 1:
            X /= 2
        return X.sum()

在这个FixedHiddenMLP模型中，我们实现了⼀个隐藏层，其权重（self.rand_weight）在实例化时被随机初
始化，之后为常量。这个权重不是⼀个模型参数，因此它永远不会被反向传播更新。然后，神经⽹络将这个
固定层的输出通过⼀个全连接层。
注意，在返回输出之前，模型做了⼀些不寻常的事情：它运⾏了⼀个while循环，在L 1 范数⼤于1的条件下，将
输出向量除以2，直到它满⾜条件为⽌。最后，模型返回了X中所有项的和。注意，此操作可能不会常⽤于在
任何实际任务中，我们只展⽰如何将任意代码集成到神经⽹络计算的流程中。

In [31]:
net = FixedHiddenMLP()
net(X)

tensor(0.0674, grad_fn=<SumBackward0>)

我们可以混合搭配各种组合块的⽅法。在下⾯的例⼦中，我们以⼀些想到的⽅法嵌套块。

In [32]:
class NestMLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.net = nn.Sequential(nn.Linear(20, 64), nn.ReLU(),
                                 nn.Linear(64, 32), nn.ReLU())
        self.linear = nn.Linear(32, 16)
        
    def forward(self, X):
        return self.linear(self.net(X))

In [33]:
chimera = nn.Sequential(NestMLP(), nn.Linear(16, 20), FixedHiddenMLP())
chimera(X)

tensor(0.1504, grad_fn=<SumBackward0>)

### 效率

读者可能会开始担⼼操作效率的问题。毕竟，我们在⼀个⾼性能的深度学习库中进⾏了⼤量的字典查找、代
码执⾏和许多其他的Python代码。Python的问题全局解释器锁 74 是众所周知的。在深度学习环境中，我们担
⼼速度极快的GPU可能要等到CPU运⾏Python代码后才能运⾏另⼀个作业。

#### ⼩结
#### • ⼀个块可以由许多层组成；⼀个块可以由许多块组成。
#### • 块可以包含代码。
#### • 块负责⼤量的内部处理，包括参数初始化和反向传播。
#### • 层和块的顺序连接由Sequential块处理。

## 参数管理

在选择了架构并设置了超参数后，我们就进⼊了训练阶段。此时，我们的⽬标是找到使损失函数最⼩化的模
型参数值。经过训练后，我们将需要使⽤这些参数来做出未来的预测。此外，有时我们希望提取参数，以便
在其他环境中复⽤它们，将模型保存下来，以便它可以在其他软件中执⾏，或者为了获得科学的理解⽽进⾏
检查。

In [12]:
# 之前的介绍中，我们只依靠深度学习框架来完成训练的⼯作，⽽忽略了操作参数的具体细节。本节，我们将
# 介绍以下内容：
# • 访问参数，⽤于调试、诊断和可视化；
# • 参数初始化；
# • 在不同模型组件间共享参数。

In [13]:
# 我们首先看一下具有单隐藏层的多层感知机

In [14]:
import torch
from torch import nn

In [60]:
net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(), nn.Linear(8, 1))

In [16]:
X = torch.rand(size=(2, 4))
net(X)

tensor([[-0.5347],
        [-0.5828]], grad_fn=<AddmmBackward0>)

In [17]:
for param in net.parameters():
    print(param,'\n')

Parameter containing:
tensor([[-0.0348,  0.1169, -0.3291,  0.3643],
        [-0.2644,  0.2261, -0.1297, -0.3382],
        [ 0.2559,  0.3994,  0.3491,  0.4221],
        [ 0.2369,  0.0537,  0.4896, -0.4014],
        [-0.0256, -0.0565,  0.3536,  0.2313],
        [-0.1666,  0.4166,  0.4641,  0.1851],
        [-0.4867,  0.1929,  0.1933,  0.3025],
        [-0.0065, -0.4634, -0.2116,  0.3637]], requires_grad=True) 

Parameter containing:
tensor([ 0.2605,  0.0017,  0.1807, -0.2038, -0.1748,  0.0182, -0.2155,  0.3706],
       requires_grad=True) 

Parameter containing:
tensor([[-0.3456,  0.3054, -0.0845, -0.2194,  0.2525,  0.0572, -0.0034, -0.0644]],
       requires_grad=True) 

Parameter containing:
tensor([-0.3408], requires_grad=True) 



### 参数访问

我们从已有模型中访问参数。当通过Sequential类定义模型时，我们可以通过索引来访问模型的任意层。这
就像模型是⼀个列表⼀样，每层的参数都在其属性中。

In [18]:
# 如下所⽰，我们可以检查第⼆个全连接层的参数。
print(net[2].state_dict())

OrderedDict([('weight', tensor([[-0.3456,  0.3054, -0.0845, -0.2194,  0.2525,  0.0572, -0.0034, -0.0644]])), ('bias', tensor([-0.3408]))])


In [19]:
# 输出的结果告诉我们⼀些重要的事情：⾸先，这个全连接层包含两个参数，分别是该层的权重和偏置。两者
# 都存储为单精度浮点数（float32）。注意，参数名称允许唯⼀标识每个参数，即使在包含数百个层的⽹络中也
# 是如此。

#### 目标参数

注意，每个参数都表⽰为参数类的⼀个实例。要对参数执⾏任何操作，⾸先我们需要访问底层的数值。有⼏
种⽅法可以做到这⼀点。有些⽐较简单，⽽另⼀些则⽐较通⽤。

In [20]:
# 下面的代码从第二个全连接层（即第三个神经网络）提取偏置，提取后返回的是一个参数类实例
# 并进一步访问该参数的值

In [21]:
print(type(net[2].bias))
print(net[2].bias)
print(net[2].bias.data)

<class 'torch.nn.parameter.Parameter'>
Parameter containing:
tensor([-0.3408], requires_grad=True)
tensor([-0.3408])


In [22]:
torch.tensor([-0.3408]).item()

-0.3407999873161316

参数是复合的对象，包含值、梯度和额外信息。这就是我们需要显式参数值的原因。除了值之外，我们还可
以访问每个参数的梯度。在上⾯这个⽹络中，由于我们还没有调⽤反向传播，所以参数的梯度处于初始状态。

In [23]:
net[2].weight.grad == None

True

#### 一次性访问所有参数

当我们需要对所有参数执⾏操作时，逐个访问它们可能会很⿇烦。当我们处理更复杂的块（例如，嵌套块）
时，情况可能会变得特别复杂，因为我们需要递归整个树来提取每个⼦块的参数。

In [24]:
# 下面，我们将通过演示来比较访问第一个全连接层的参数和访问所有层

In [25]:
print(*[(name, param.shape) for name, param in net[0].named_parameters()])
print(*[(name, param.shape) for name, param in net.named_parameters()])

('weight', torch.Size([8, 4])) ('bias', torch.Size([8]))
('0.weight', torch.Size([8, 4])) ('0.bias', torch.Size([8])) ('2.weight', torch.Size([1, 8])) ('2.bias', torch.Size([1]))


In [26]:
net.state_dict()['2.bias'].data

tensor([-0.3408])

#### 从嵌套块收集参数

让我们看看，如果我们将多个块相互嵌套，参数命名约定是如何⼯作的。我们⾸先定义⼀个⽣成块的函数（可
以说是“块⼯⼚”），然后将这些块组合到更⼤的块中。

In [27]:
def block1():
    return nn.Sequential(nn.Linear(4, 8), nn.ReLU(),
                         nn.Linear(8, 4), nn.ReLU())

def block2():
    net = nn.Sequential()
    for i in range(4):
        # 在这里嵌套
        net.add_module(f'block {i}', block1())
    return net

In [32]:
rgnet = nn.Sequential(block2(), nn.Linear(4, 1))
rgnet(X)

tensor([[-0.0203],
        [-0.0203]], grad_fn=<AddmmBackward0>)

In [31]:
X

tensor([[0.3713, 0.8467, 0.4685, 0.7125],
        [0.1119, 0.5407, 0.0647, 0.6226]])

In [29]:
# 设计了网络后，我们看看它是如何工作的
print(rgnet)

Sequential(
  (0): Sequential(
    (block 0): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 1): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 2): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 3): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
  )
  (1): Linear(in_features=4, out_features=1, bias=True)
)


In [33]:
# 因为层是分层嵌套的，所以我们也可以像通过嵌套列表索引⼀样访问它们。下⾯，我们访问第⼀个主要的块
# 中、第⼆个⼦块的第⼀层的偏置项。
rgnet[0][1][0].bias.data

tensor([ 0.2785,  0.2795, -0.0178, -0.3389,  0.4371, -0.1207, -0.2399, -0.4504])

### 参数初始化

知道了如何访问参数后，现在我们看看如何正确地初始化参数。我们在 4.8节中讨论了良好初始化的必要性。
深度学习框架提供默认随机初始化，也允许我们创建⾃定义初始化⽅法，满⾜我们通过其他规则实现初始化
权重。

默认情况下，PyTorch会根据⼀个范围均匀地初始化权重和偏置矩阵，这个范围是根据输⼊和输出维度计算
出的。PyTorch的nn.init模块提供了多种预置初始化⽅法。

#### 内置初始化

In [34]:
# 让我们首先调用内置的初始化器。下面的代码将所有权重参数初始化为标准差为0.01的高斯随机变量
# 且将偏置参数设置为0

In [39]:
def init_normal(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, mean=0, std=0.01)
        nn.init.zeros_(m.bias)

In [40]:
net.apply(init_normal)
net[0].weight.data[0], net[0].bias.data[0]

(tensor([-0.0150,  0.0036, -0.0181,  0.0102]), tensor(0.))

我们还可以将所有参数初始化为给定的常数，比如初始化为1

In [46]:
def init_constant(m):
    if type(m) == nn.Linear:
        nn.init.constant_(m.weight, 1)
        nn.init.zeros_(m.bias)

In [47]:
net.apply(init_constant)
net[0].weight.data[0], net[0].bias.data[0]

(tensor([1., 1., 1., 1.]), tensor(0.))

In [49]:
# 我们还可以对某些块应⽤不同的初始化⽅法。例如，下⾯我们使⽤Xavier初始化⽅法初始化第⼀个神经⽹络
# 层，然后将第三个神经⽹络层初始化为常量值42。

In [50]:
def init_xavier(m):
    if type(m) == nn.Linear:
        nn.init.xavier_uniform_(m.weight)
def init_42(m):
    if type(m) == nn.Linear:
        nn.init.constant_(m.weight, 42)


In [51]:
net[0].apply(init_xavier)
net[2].apply(init_42)
print(net[0].weight.data[0])
print(net[2].weight.data)

tensor([ 0.0845, -0.3894, -0.5212,  0.2934])
tensor([[42., 42., 42., 42., 42., 42., 42., 42.]])


#### 自定义初始化

有时，深度学习框架没有提供我们需要的初始化⽅法。在下⾯的例⼦中，我们使⽤以下的分布为任意权重参数w定义初始化⽅法：
w~{U(5, 10)->1/4,0->1/2, U(-10, -5)->1/4}

In [58]:
# 同样，我们实现了一个my_init函数来应用到net
def my_init(m):
    if type(m) == nn.Linear:
        print('Init', *[(name, param.shape) for name, param in m.named_parameters()][0])
    nn.init.uniform_(m.weight, -10, 10)
    m.weight.data *= m.weight.data.abs() >= 5

In [64]:
net[0].apply(my_init)
net[2].apply(my_init)
net[0].weight[:2]

Init weight torch.Size([8, 4])
Init weight torch.Size([1, 8])


tensor([[ 0.0000,  0.0000,  0.0000, -6.9978],
        [-7.1051, -6.3310, -8.6520, -9.5645]], grad_fn=<SliceBackward0>)

In [65]:
# 注意，我们始终可以直接设置参数
net[0].weight.data[:] += 1
net[0].weight.data[0, 0] = 42
net[0].weight.data[0]

tensor([42.0000,  1.0000,  1.0000, -5.9978])

### 参数绑定

有时我们希望在多个层间共享参数：我们可以定义⼀个稠密层，然后使⽤它的参数来设置另⼀个层的参数。

In [66]:
# 我们需要给共享层一个名称，以便可以引用它的参数
shared = nn.Linear(8, 8)
net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(),
                    shared, nn.ReLU(), 
                    shared, nn.ReLU(),
                    nn.Linear(8, 1))

In [67]:
net(X)
# 检查参数是否相同
print(net[2].weight.data[0] == net[4].weight.data[0])
net[2].weight.data[0, 0] = 100
# 确保它们实际上是同一个对象，而不只有相同的值
print(net[2].weight.data[0] == net[4].weight.data[0])

tensor([True, True, True, True, True, True, True, True])
tensor([True, True, True, True, True, True, True, True])


这个例⼦表明第三个和第五个神经⽹络层的参数是绑定的。它们不仅值相等，⽽且由相同的张量表⽰。因此，
如果我们改变其中⼀个参数，另⼀个参数也会改变。这⾥有⼀个问题：当参数绑定时，梯度会发⽣什么情况？
答案是由于模型参数包含梯度，因此在反向传播期间第⼆个隐藏层（即第三个神经⽹络层）和第三个隐藏层
（即第五个神经⽹络层）的梯度会加在⼀起。

#### ⼩结
#### • 我们有⼏种⽅法可以访问、初始化和绑定模型参数。
#### • 我们可以使⽤⾃定义初始化⽅法。