这一章主要是讲用torch来构建网络的基础知识，一些补充也可以在http://www.feiguyunai.com/index.php/2019/09/11/pytorch-char03/找到

这里提前讲一个知识点，绝大部分的网络都可以用nn.module和functional来定义，比如linear啥的，那这两个有啥区别呢？
1. module本质上是一个类，像sequential这种，其实是module的一个特殊形式，也就是按照线性来定义的
2. functional就是单纯的函数，输入数值然后输出数值，比如说linear、relu这些，都是函数
3. 其实看上面的解释可以发现，我们用functional也能自己定义一个网络，但是为啥通常会用nn.module呢？（比如用sequential或者说继承nn.module）
4. 因为nn.module在调用其他torch的功能的时候，会被自动识别成一个网络，从而从里面调用模型参数进行学习，如果你的一个layer里面没有要学习的参数，那用functional也可以
5. 像卷积层、全连接层、dropout层等因含有可学习参数，一般使用nn.Module，而激活函数、池化层不含可学习参数，可以使用nn.functional中对应的函数

首先来回顾一下，我们是如何来定义最基础的MLP的

In [41]:
import torch
from torch import nn
from torch.nn import functional as F
# 下面就会看到functional这个函数的作用

net = nn.Sequential(nn.Linear(20, 256), nn.ReLU(), nn.Linear(256, 10))
# Sequential其实就是定义了一个特殊的module

X = torch.rand(2, 20)
net(X)

tensor([[ 0.0488,  0.1996, -0.1387,  0.0555, -0.0276,  0.0814,  0.0288,  0.1629,
          0.1726, -0.0925],
        [ 0.1967,  0.2781, -0.0738,  0.1407, -0.0484,  0.0274, -0.0601,  0.2262,
          0.2643, -0.1804]], grad_fn=<AddmmBackward0>)

接下来，我们可以自己来定义一个MLP，所谓module，其实是torch里面的一个大概念

* 任何层或者是神经网络都应该是module的一个子类

In [42]:
class MLP(nn.Module):
    # 用模型参数声明层。这里，我们声明两个全连接的层
    def __init__(self):
        # 调用MLP的父类Module的构造函数来执行必要的初始化。
        # 这样，在类实例化时也可以指定其他函数参数，例如模型参数params（稍后将介绍）
        super().__init__()
        self.hidden = nn.Linear(20, 256)  # 隐藏层
        self.out = nn.Linear(256, 10)  # 输出层

    # 定义模型的前向传播，即如何根据输入X返回所需的模型输出
    def forward(self, X):
        # 注意，这里我们使用ReLU的函数版本，其在nn.functional模块中定义。
        return self.out(F.relu(self.hidden(X)))

上面这个和我们之前的实现有啥区别呢？其实最重要的一个区别就是，以前我们其实是把relu看做一个层，用nn.relu来实现，但是relu这个东西其实没有啥可以学习的参数，所以我们也可以像现在这样，把relu看做一个最最基础的函数，调用F.relu来实现
* 可以发现，下面我们直接实例化上面这个MLP类，然后像用torch简洁实现一样直接传入X就可以得到输出了
* 这就是继承nn.module的好处，除非你把forward改名了，不然只要你定义好了forward咋计算，torch都会自动的帮你做好前向、反向计算，并且还会帮你初始化参数（注意到没，我们这里参数也是没有人为初始化的）

In [43]:
net = MLP()
net(X)

tensor([[-0.1730,  0.1119,  0.1492, -0.1584,  0.0970, -0.0985,  0.0426,  0.2538,
          0.2080, -0.2662],
        [-0.2393, -0.0190,  0.0690, -0.1050,  0.0063, -0.1243,  0.1089,  0.1883,
          0.2814, -0.2472]], grad_fn=<AddmmBackward0>)

同样的，我们也可以定义一个Sequential类

In [44]:
class MySequential(nn.Module):
    # 传了一个位置可变参数进去
    def __init__(self, *args):
        super().__init__()
        for idx, module in enumerate(args):
            # 这里，module是Module子类的一个实例。我们把它保存在'Module'类的成员
            # 变量_modules中。_module的类型是OrderedDict
            self._modules[str(idx)] = module
            # 之前看了一篇下划线的使用方法，这个其实就是建议只在内部访问

    def forward(self, X):
        # OrderedDict保证了按照成员添加的顺序遍历它们
        # self._modules也是torch里面定义好的一个特殊容器，torch会识别出这是我需要的层
        for block in self._modules.values():
            X = block(X)
        return X

In [45]:
net = MySequential(nn.Linear(20, 256), nn.ReLU(), nn.Linear(256, 10))
# 这里也可以体现出，nn.ReLU()是一个module
net(X)

tensor([[ 0.2739, -0.1290,  0.0439, -0.0018,  0.0289,  0.0832, -0.1338,  0.2361,
          0.0380, -0.1618],
        [ 0.1484, -0.0299,  0.0605,  0.1552,  0.0201,  0.0500, -0.2112,  0.1546,
          0.0314, -0.1664]], grad_fn=<AddmmBackward0>)

为啥要自己构造自己的module呢？其实就是为了在init与forward函数里面可以做大量的自定义运算

In [46]:
class FixedHiddenMLP(nn.Module):
    def __init__(self):
        super().__init__()
        # 不计算梯度的随机权重参数。因此其在训练期间保持不变
        # 等于就是一个参数从头用到尾
        self.rand_weight = torch.rand((20, 20), requires_grad=False)
        self.linear = nn.Linear(20, 20)

    def forward(self, X):
        X = self.linear(X)
        # 使用创建的常量参数以及relu和mm函数
        X = F.relu(torch.mm(X, self.rand_weight) + 1)
        # 复用全连接层。这相当于两个全连接层共享参数
        X = self.linear(X)
        # 控制流
        while X.abs().sum() > 1:
            X /= 2
        return X.sum()

* 这里其实我们实现的是一个用来计算f(x)=cwx的一个函数，这里的c是一个常数，也就是我们所定义的那个rand_weight，而w则是线性层的参数
* 当然在不断训练过程中，w是会发生改变的，但是c始终不变
* 如下面所示，因为我们自己定义的同样是module子类，所以可以各种嵌套使用

In [47]:
class NestMLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.net = nn.Sequential(nn.Linear(20, 64), nn.ReLU(),
                                 nn.Linear(64, 32), nn.ReLU())
        self.linear = nn.Linear(32, 16)

    def forward(self, X):
        return self.linear(self.net(X))

chimera = nn.Sequential(NestMLP(), nn.Linear(16, 20), FixedHiddenMLP())
chimera(X)

tensor(-0.2162, grad_fn=<SumBackward0>)

接下来，我们看看对于一个已经定义好的模型来说，我们该怎么管理参数？

In [48]:
import torch
from torch import nn

net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(), nn.Linear(8, 1))
X = torch.rand(size=(2, 4))
net(X)

tensor([[-0.2259],
        [-0.3190]], grad_fn=<AddmmBackward0>)

对于一个sequential类来说，可以直接通过类似列表索引的方式来进行访问，如果这里改成net[1]会发现返回一个空的OrderedDict，这也证明了nn.ReLU()是一个没有参数的层

In [49]:
print(net[2].state_dict())

OrderedDict([('weight', tensor([[ 0.3235, -0.0994,  0.1186, -0.0055,  0.1792,  0.1361, -0.1403, -0.0150]])), ('bias', tensor([-0.2251]))])


In [50]:
print(type(net[2].bias))
# 可以发现，这里返回的会告诉你是一个Parameter，这也就是告诉torch说，这玩意是需要被反向传播更新的
print(net[2].bias)
print(net[2].bias.data) # data其实就是访问值，不加data还会有一些状态信息，比如requires_grad

<class 'torch.nn.parameter.Parameter'>
Parameter containing:
tensor([-0.2251], requires_grad=True)
tensor([-0.2251])


In [51]:
net[2].weight.grad == None
# 当然我们没有反向传播过，所以这里肯定是none

True

通过named_parameters()，我们可以访问网络中的所有参数

In [52]:
print(*[(name, param.shape) for name, param in net[0].named_parameters()])
print(*[(name, param.shape) for name, param in net.named_parameters()])

('weight', torch.Size([8, 4])) ('bias', torch.Size([8]))
('0.weight', torch.Size([8, 4])) ('0.bias', torch.Size([8])) ('2.weight', torch.Size([1, 8])) ('2.bias', torch.Size([1]))


In [53]:
# state_dict这个大字典，所以也可以通过2.bias这样来访问
net.state_dict()['2.bias'].data

tensor([-0.2251])

当我们有一个很复杂、互相嵌套的网络的时候，参数命名也会相应的发生一些变化

In [54]:
def block1():
    return nn.Sequential(nn.Linear(4, 8), nn.ReLU(),
                         nn.Linear(8, 4), nn.ReLU())

def block2():
    net = nn.Sequential()
    for i in range(4):
        # 在这里嵌套
        net.add_module(f'block {i}', block1())
        # 这里就是对module用了一个add_module函数，第一个参数是增加的module名字，第二个是module
    return net

rgnet = nn.Sequential(block2(), nn.Linear(4, 1))
rgnet(X)

tensor([[-0.1847],
        [-0.1847]], grad_fn=<AddmmBackward0>)

In [55]:
print(rgnet) # 查看网络的结构

Sequential(
  (0): Sequential(
    (block 0): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 1): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 2): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 3): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
  )
  (1): Linear(in_features=4, out_features=1, bias=True)
)


In [56]:
rgnet[0][1][0].bias.data # 其实和一个大列表的索引访问是一样的

tensor([ 0.0475,  0.3554,  0.3612,  0.0861, -0.0428, -0.0043,  0.4379, -0.4931])

对于参数来说，我们有时候也需要手动进行初始化（虽然torch会自动进行）

In [57]:
# 这里的m其实就是module的意思，也就是对网络中的每个module进行遍历
def init_normal(m):
    if type(m) == nn.Linear:
        # 就是从nn中调用init模块的函数，这个模块专门用来进行初始化
        nn.init.normal_(m.weight, mean=0, std=0.01)
        # 下划线在后面其实是torch里面一个约定俗成的写法，也就是进行更改
        nn.init.zeros_(m.bias)
net.apply(init_normal)
net[0].weight.data[0], net[0].bias.data[0]

(tensor([ 0.0061,  0.0168,  0.0026, -0.0076]), tensor(0.))

In [58]:
def init_constant(m):
    if type(m) == nn.Linear:
        nn.init.constant_(m.weight, 1)
        nn.init.zeros_(m.bias)
net.apply(init_constant)
net[0].weight.data[0], net[0].bias.data[0]
# 初始化为全部常量也是可以的（虽然这样可能深层网络会有点问题，可以但是不建议，你的梯度可能会想不开自杀）

(tensor([1., 1., 1., 1.]), tensor(0.))

In [59]:
def init_xavier(m):
    if type(m) == nn.Linear:
        nn.init.xavier_uniform_(m.weight)
def init_42(m):
    if type(m) == nn.Linear:
        nn.init.constant_(m.weight, 42)

net[0].apply(init_xavier)
net[2].apply(init_42)
print(net[0].weight.data[0])
print(net[2].weight.data)
# 当然这个apply函数是很自由的，其实和R里面完全一样，几乎所有编程语言都是这样，你也可以对某个layer进行apply操作

tensor([ 0.1145,  0.3202, -0.6203,  0.3967])
tensor([[42., 42., 42., 42., 42., 42., 42., 42.]])


当然，init函数也是可以完全自定义的，只要用apply这个函数来遍历应用一下就好

In [60]:
def my_init(m):
    if type(m) == nn.Linear:
        print("Init", *[(name, param.shape)
                        for name, param in m.named_parameters()][0])
        nn.init.uniform_(m.weight, -10, 10)
        m.weight.data *= m.weight.data.abs() >= 5

net.apply(my_init)
net[0].weight[:2]

Init weight torch.Size([8, 4])
Init weight torch.Size([1, 8])


tensor([[-0.0000, 0.0000, 7.9556, 0.0000],
        [0.0000, -0.0000, 7.6825, 8.9277]], grad_fn=<SliceBackward0>)

最为简单暴力的，可以直接索引替换

In [61]:
net[0].weight.data[:] += 1
net[0].weight.data[0, 0] = 42
net[0].weight.data[0]

tensor([42.0000,  1.0000,  8.9556,  1.0000])

有时候，我们想要在多个层之间来共享参数，我们也可以参考下面的做法（共享参数具有一定的好处）

In [62]:
# 我们需要给共享层一个名称，以便可以引用它的参数
shared = nn.Linear(8, 8)
# 这里其实很简单，我们实例化了一个需要共享的层，在网络构建的时候多次调用这玩意，那么他们的权重肯定是相同的，因为是同样的层
net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(),
                    shared, nn.ReLU(),
                    shared, nn.ReLU(),
                    nn.Linear(8, 1))
net(X)
# 检查参数是否相同
print(net[2].weight.data[0] == net[4].weight.data[0])
net[2].weight.data[0, 0] = 100
# 确保它们实际上是同一个对象，而不只是有相同的值
print(net[2].weight.data[0] == net[4].weight.data[0])

tensor([True, True, True, True, True, True, True, True])
tensor([True, True, True, True, True, True, True, True])


共享参数通常可以节省内存，并在以下方面具有特定的好处：
* 对于图像识别中的CNN，共享参数使网络能够在图像中的任何地方而不是仅在某个区域中查找给定的功能。
* 对于RNN，它在序列的各个时间步之间共享参数，因此可以很好地推广到不同序列长度的示例。
* 对于自动编码器，编码器和解码器共享参数。 在具有线性激活的单层自动编码器中，共享权重会在权重矩阵的不同隐藏层之间强制正交。

上面我们讨论的其实都是怎么来自定义一个net，下面我们更进一步，看一下怎么自定义一个layer
* 其实这个和上面是没有本质区别的，因为net和layer始终都是nn.module的一个子类

In [63]:
import torch
import torch.nn.functional as F
from torch import nn


# 这里我们定义了一个完全没有参数的层
class CenteredLayer(nn.Module):
    def __init__(self):
        super().__init__()

    def forward(self, X):
        return X - X.mean()

In [64]:
layer = CenteredLayer()
layer(torch.FloatTensor([1, 2, 3, 4, 5]))

tensor([-2., -1.,  0.,  1.,  2.])

In [65]:
net = nn.Sequential(nn.Linear(8, 128), CenteredLayer())

In [66]:
Y = net(torch.rand(4, 8))
Y.mean()

tensor(-1.8626e-09, grad_fn=<MeanBackward0>)

因为同样是module的子类，所以和别的torch自带的东西合并起来完全是OK的

接下来我们定义了一个带有参数的层，注意这里由于带有参数需要进行更新，所以我们需要用nn.Parameter来告诉torch，这里是需要进行参数更新的参数

In [67]:
class MyLinear(nn.Module):
    def __init__(self, in_units, units): # 这里由于参数初始化的需要，所以需要加入输入输出的维度
        super().__init__()
        self.weight = nn.Parameter(torch.randn(in_units, units))
        self.bias = nn.Parameter(torch.randn(units,))
    def forward(self, X):
        linear = torch.matmul(X, self.weight.data) + self.bias.data
        return F.relu(linear)

In [68]:
linear = MyLinear(5, 3)
linear.weight

Parameter containing:
tensor([[-0.3488, -0.6798, -1.7272],
        [-0.0993, -0.8064,  0.8881],
        [-0.6091,  0.6938, -0.5610],
        [-0.8375,  1.0793, -0.2363],
        [-0.9239,  0.1665, -0.8825]], requires_grad=True)

In [69]:
linear(torch.rand(2, 5))
# 这里直接调用了前向传播

tensor([[0., 0., 0.],
        [0., 0., 0.]])

In [70]:
net = nn.Sequential(MyLinear(64, 8), MyLinear(8, 1))
net(torch.rand(2, 64))

tensor([[8.6813],
        [5.0099]])

最后来看一下，咋读写文件

In [71]:
import torch
from torch import nn
from torch.nn import functional as F

x = torch.arange(4)
torch.save(x, 'x-file')

In [72]:
x2 = torch.load('x-file')
x2

tensor([0, 1, 2, 3])

In [73]:
y = torch.zeros(4)
torch.save([x, y],'x-files')
x2, y2 = torch.load('x-files')
(x2, y2)

(tensor([0, 1, 2, 3]), tensor([0., 0., 0., 0.]))

In [74]:
mydict = {'x': x, 'y': y}
torch.save(mydict, 'mydict')
mydict2 = torch.load('mydict')
mydict2

{'x': tensor([0, 1, 2, 3]), 'y': tensor([0., 0., 0., 0.])}

上面这些操作其实都是很常规的操作，和pikle的基本相似

接下来我们研究一下咋储存读取一个torch构建的网络
* torch有个缺点，不像tf或者mxnet那样，torch不是很方便储存整个网络
* 所以用torch一般是储存参数

In [75]:
class MLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.hidden = nn.Linear(20, 256)
        self.output = nn.Linear(256, 10)

    def forward(self, x):
        return self.output(F.relu(self.hidden(x)))

net = MLP()
X = torch.randn(size=(2, 20))
Y = net(X)

这里就是用state_dict()读取所有的参数，然后存起来

In [76]:
torch.save(net.state_dict(), 'mlp.params')

In [77]:
# 这里注意，我们需要再次实例化MLP来读取我们的网络结构，只是这里我们不需要再初始化、训练参数，下面直接load进来
clone = MLP()
clone.load_state_dict(torch.load('mlp.params'))
# load_state_dict会返回一个<All keys matched successfully>
clone.eval() # 其实加不加这个都可以
# 加了会有MLP(
#   (hidden): Linear(in_features=20, out_features=256, bias=True)
#   (output): Linear(in_features=256, out_features=10, bias=True)
# ) 也就是告诉你，这个模型大概啥样子

MLP(
  (hidden): Linear(in_features=20, out_features=256, bias=True)
  (output): Linear(in_features=256, out_features=10, bias=True)
)

In [78]:
# 原来的Y和我们用新的网络计算得到的Y_clone是一样的，因为参数是一样的
Y_clone = clone(X)
Y_clone == Y

tensor([[True, True, True, True, True, True, True, True, True, True],
        [True, True, True, True, True, True, True, True, True, True]])