## 1.模型构造

### 1.1 继承Module类来构造模型

* 可以基于``Sequential类``构造模型
* 也可以基于``Module类``构造模型

``Module``类是``nn``模块里提供的一个模型构造类,是所有神经网络结构的``基类``.通过继承这个基类来定义我们想要的模型.

这里定义的MLP类``重载``了Module类的``__init__``函数和``forward``函数.分别用于``初始化模型参数``和定义``前向计算``.

In [1]:
import torch
from torch import nn

In [2]:
class MLP(nn.Module):
    def __init__(self, **kwargs):
        # 调用MLP父类Module的构造函数来进行必要的初始化.
        # 使用**kwargs定义参数时，kwargs将会接收一个positional argument后所有关键词参数的字典。
        super(MLP, self).__init__(**kwargs)
        self.hidden = nn.Linear(784, 256) # 隐藏层
        self.act = nn.ReLU()
        self.output = nn.Linear(256, 10) # 输出层
    
    # 定义前向计算
    # 目的是根据输入x计算模型输出.
    def forward(self, x):
        a = self.act(self.hidden(x))
        return self.output(a)
    

MLP类中无需定义反向传播函数.系统通过自动求梯度而``自动生成``反向传播所需的``backward``函数.

可通过``实例化MLP类``得到模型变量net.  
net(x)会调用继承自Module类的__call__函数,这个函数将调用MLP类定义的forward函数完成前向计算.  

也即,实例化之后,MLP类中的``前向计算会自动完成``.

In [3]:
X = torch.rand(2, 784)
net = MLP()
print(net)
net(X)

MLP(
  (hidden): Linear(in_features=784, out_features=256, bias=True)
  (act): ReLU()
  (output): Linear(in_features=256, out_features=10, bias=True)
)


tensor([[-0.0675, -0.1139, -0.0486, -0.2151, -0.0018, -0.0563, -0.0357,  0.1635,
         -0.2710,  0.0487],
        [-0.1617,  0.0408, -0.0064, -0.0279, -0.0036, -0.0329,  0.0648,  0.1680,
         -0.1194,  0.2270]], grad_fn=<AddmmBackward>)

Module类是一个可供自由组建的部件.它的子类既可以是一个层(如Linear类),又可以是一个模型(如上面的MLP类),或者是模型的一个部分.

### 1.2 Module的子类

继承自Module类的一些可以方便的构造模型的类还有:  
* Sequential类  
* ModuleList类  
* ModuleDict类

#### (1) Sequential类  
以更简单的方式定义模型．它``接受``一个子模块的``有序字典``，或者，一系列子模块作为参数逐一添加``Ｍodule的实例``.在前向计算时就是将这些实例按添加顺序逐一计算.

#### (2) ModuleList类  
``接收``一个``子模块的列表``作为输入,然后也可以类似List那样进行append和extend操作.  

In [4]:
# net = nn.ModuleList([nn.Linear(784, 256), nn.ReLU()])
# net.append(nn.Linear(256, 10)) # # 类似List的append操作
# print(net[-1])  # 类似List的索引访问
# print(net)


#### Questions:  
a) ``Sequential``和``MoudleList``的区别?  

ModuleList仅仅储存各种模块的列表,模块之间没有联系,没有顺序,而且没有实现forward.  
Sequential内的模块需要按照顺序排列,且要保证邻层的输入输出大小相匹配,内部forward功能已经实现.  

b) ``ModuleList``的出现有什么作用?  

让网络定义前向传播时更加灵活.  
另外,加入到ModuleList中的模块会自动添加到网络中,看下面代码中的例子对比.

In [5]:
class Module_ModuleList(nn.Module):
    def __init__(self):
        super(Module_ModuleList, self).__init__()
        # 加入到ModuleList中的模块自动添加到网络中.
        self.linears = nn.ModuleList([nn.Linear(10, 10)])

class Module_List(nn.Module):
    def __init__(self):
        super(Module_List, self).__init__()
        # 这个线性层没有出现在网络结构中.
        self.linears = [nn.Linear(10, 10)]

net1 = Module_ModuleList()
net2 = Module_List()

print("net1:")
for p in net1.parameters():
    print(p.size())

print("net2:")
for p in net2.parameters():
    print(p)

print(net1)
print("=========")
print(net2)


net1:
torch.Size([10, 10])
torch.Size([10])
net2:
Module_ModuleList(
  (linears): ModuleList(
    (0): Linear(in_features=10, out_features=10, bias=True)
  )
)
Module_List()


#### (3) ModuleDict类  
``接受``一个子模块的``字典``作为输入,然后可以类似字典那样进行添加和访问操作.  
与ModuleList一样,仅仅存放了一个字典,forward函数需要自己实现,同时,ModuleDict里的模块也会自动添加到整个网络中.

In [6]:
# 以字典作为输入
net = nn.ModuleDict({
    'Linear':nn.Linear(784, 256),
    'act':nn.ReLU(),
})
# 添加
net['output'] = nn.Linear(256, 10)
print(net)

ModuleDict(
  (Linear): Linear(in_features=784, out_features=256, bias=True)
  (act): ReLU()
  (output): Linear(in_features=256, out_features=10, bias=True)
)


### 1.3 构造复杂的模型

#### (1)一个复杂一点的``FancyMLP``网络.  
* 通过``get_constant``函数创建训练中不被迭代的参数,即``常数参数``.
* 前向计算中,使用``Tensor``函数和Python的``控制流``,并多次``调用相同的层``.

In [20]:
class FancyMLP(nn.Module):
    def __init__(self, **kwargs):
        super(FancyMLP, self).__init__(**kwargs)

        self.rand_weight = torch.rand((20, 20), requires_grad=False) # 不可训练参数(常数参数)
        self.linear = nn.Linear(20, 20)

    def forward(self, x):
        x = self.linear(x)

        # 使用创建的常数参数,以及nn.functional中的relu函数和mm函数
        x = nn.functional.relu(torch.mm(x, self.rand_weight.data) + 1)

        # 复用全连接层.等价于两个全连接层共享参数
        x = self.linear(x)

        # print("++++")
        # print(x.shape) #(2, 20)
        # print(x.norm())
        # print(x.norm().item())
        while x.norm().item() > 1:
            x /= 2
        if x.norm().item() < 0.8:
            x *= 10
        return x.sum()

X = torch.rand(2, 20)
net = FancyMLP()
print(net)
net(X)


# 从结果看出,网络结构中只定义了一个linear层,但是前向计算中可以对linear层进行多次调用.




FancyMLP(
  (linear): Linear(in_features=20, out_features=20, bias=True)
)


tensor(3.9904, grad_fn=<SumBackward0>)

#### (2)定义多个继承自nn.Module的模块还可以作为Sequential的输入.

* 继承自Module类的模块可以作为``模型的一部分``,每个部分定义了``各自的前向计算过程``.每个部分可以作为Sequential的输入组合到一起,构成整个网络.

* 印证前文所述:继承自Module类的子类是一个可供自由组建的部件.它可以是一个层,可以是一个模型,也可以是模型的一部分

In [21]:
class NestMLP(nn.Module):
    def __init__(self, **kwargs):
        super(NestMLP, self).__init__(**kwargs)
        self.net = nn.Sequential(nn.Linear(40, 30), nn.ReLU())
    
    def forward(self, x):
        return self.net(x)
    
net = nn.Sequential(NestMLP(), nn.Linear(30, 20), FancyMLP())

X = torch.rand(2, 40)
print(net)
net(X)


Sequential(
  (0): NestMLP(
    (net): Sequential(
      (0): Linear(in_features=40, out_features=30, bias=True)
      (1): ReLU()
    )
  )
  (1): Linear(in_features=30, out_features=20, bias=True)
  (2): FancyMLP(
    (linear): Linear(in_features=20, out_features=20, bias=True)
  )
)


tensor(-0.4560, grad_fn=<SumBackward0>)

## 2.模型参数的访问,初始化与共享

 ### 2.1 访问模型参数

In [1]:
# nn中的init模块包含了多种模型初始化方法.

import torch
from torch import nn
from torch.nn import init

In [2]:
net = nn.Sequential(nn.Linear(4, 3), nn.ReLU(), nn.Linear(3, 1))

print(net)
X = torch.rand(2, 4)
print(net(X))
Y = net(X).sum()

Sequential(
  (0): Linear(in_features=4, out_features=3, bias=True)
  (1): ReLU()
  (2): Linear(in_features=3, out_features=1, bias=True)
)
tensor([[0.3848],
        [0.3733]], grad_fn=<AddmmBackward>)


#### (1) 对于``Sequential实例中``含模型参数的层,可以通过Module类的``parameters()``或者``named_parameters方法``来``访问``所有参数(``迭代器``的方式).

In [3]:
print(type(net.named_parameters()))
for name, param in net.named_parameters():
    print(name, param.size())

<class 'generator'>
0.weight torch.Size([3, 4])
0.bias torch.Size([3])
2.weight torch.Size([1, 3])
2.bias torch.Size([1])


In [4]:
# 通过迭代器返回的参数名字自动加上了层数的索引作为前缀.
# 通过索引可以对net中单层的参数进行访问

for name, param in net[0].named_parameters():
    print(name, param.size(), type(param))


weight torch.Size([3, 4]) <class 'torch.nn.parameter.Parameter'>
bias torch.Size([3]) <class 'torch.nn.parameter.Parameter'>


#### (2) 如果一个``Tensor是Parameter``,那么它会``自动被添加到模型的参数列表里``.  

可见param的type为``torch.nn.parameter.Parameter``,它是``Tensor的子类``.

In [7]:
class MyModel(nn.Module):
    def __init__(self, **kwargs):
        super(MyModel, self).__init__(**kwargs)
        
        # 一个Tensor是Parameter
        self.weight1 = nn.Parameter(torch.rand(20, 20))
        # 一个Tensor不是Parameter
        self.weight2 = torch.rand(20, 20)
        
    def forward(self, x):
        pass
n = MyModel()
for name, param in n.named_parameters():
    print(name) # 只有weight1,而weight2未出现在参数列表中.

weight1


#### (3) 既然Parameter是一个Tensor,那么Tensor有的``属性``它都有.  
可以根据``data``来范文参数数值,用``grad``访问参数梯度.

In [9]:
weight_0 = list(net[0].parameters())[0]
print(weight_0.data)
print(weight_0.grad) # 输出None,反向传播前梯度为None
Y.backward()
print(weight_0.grad)

tensor([[ 0.1286, -0.3000, -0.2277,  0.4783],
        [ 0.1060, -0.1807, -0.2375,  0.3358],
        [ 0.0597,  0.2626, -0.4754, -0.3147]])
None
tensor([[-0.1139, -0.0493, -0.1180, -0.1265],
        [-0.4102, -0.1776, -0.4249, -0.4556],
        [ 0.0000,  0.0000,  0.0000,  0.0000]])


### 2.2 初始化模型参数

In [10]:
# 将权重参数初始化成均值为0,标准差为0.01的正态分布随机数,并将偏差参数清0.
for name, param in net.named_parameters():
    if 'weight' in name:

        init.normal_(param, mean=0, std=0.01)
        
        print(name, param.data)

0.weight tensor([[-0.0126,  0.0147,  0.0057, -0.0053],
        [-0.0026, -0.0098, -0.0060, -0.0025],
        [ 0.0175, -0.0090, -0.0030, -0.0013]])
2.weight tensor([[0.0081, 0.0103, 0.0040]])


### 2.3 自定义初始化方法
对于init模块中没有提供的初始化方法,可以自行实现一个初始化方法.

Pytorch是如何实现初始化方法的.  
``torch.nn.init.normal_``
* 这个过程``不记录梯度``.
* 这就是一个``inplace改变Tensor值``的函数.

#### ``in-place operation``:  
在pytorch中这是指,在改变一个tensor的值的时候,不经过复制操作,直接``在原来的内存上改变它的值``.可以理解为``原地操作符``.  
在pytorch中,通常``加后缀"_"来表示``原地in-place operation.  
python里面的+=, *= 也是in-place operation.

#### 补充知识:
nn.ReLU(inplace=True) #inplace为True, 默认为False.  
其含义是:是否将计算得到的值直接覆盖之间的值(原地操作).  
例如:x = x + 1   
a) 原地操作,对原值进行加1操作后得到的值,直接赋值给x.  
b) 中间变量操作, 先找一个中间变量y,y=x+1, 然后y = x.    
原地操作,能够节省运算内存,不用多存储其他变量.

In [None]:
def normal_(tensor, mean=0, std=1):
    with torch.no_grad():
        return tensor.normal_(mean, std)

* 类似的,实现一个自定义的初始化方法.  
初始化方法:令权重有一半概率初始化为0,有另一半概率初始化为\[-10,-5\]和\[5, 10\]两个区间.

In [11]:
def init_weight_(tensor):
    with torch.no_grad():
        tensor.uniform_(-10, 10)
        tensor *= (tensor.abs() >= 5).float()

for name, param in net.named_parameters():
    if 'weight' in name:
        init_weight_(param)
        print(name, param.data)

0.weight tensor([[-0.0000,  0.0000,  0.0000, -9.4369],
        [-0.0000,  0.0000, -7.8316,  0.0000],
        [ 8.8992,  5.4346, -8.3286, -0.0000]])
2.weight tensor([[-5.8922,  8.0111, -5.4810]])


### 2.4 共享模型参数
有些情况下,希望在多个层之间共享模型参数.  
* Module类的forward函数多次调用一个层,是共享参数的.  
* 传入Sequential的模块是同一个Module实例的话,参数是共享的.

In [13]:
linear = nn.Linear(1, 1, bias=False)
net = nn.Sequential(linear, linear)
print(net)

for name, param in net.named_parameters():
    init.constant_(param, val=3)
    print(name, param.data)

Sequential(
  (0): Linear(in_features=1, out_features=1, bias=False)
  (1): Linear(in_features=1, out_features=1, bias=False)
)
0.weight tensor([[3.]])


在结果中,只返回了第0层的参数?  
在``内存中``,这两个线性层其实是``一个对象``.

In [14]:
print(id(net[0]) == id(net[1]))
print(id(net[0].weight) == id(net[1].weight))

True
True


## 3.模型参数的延后初始化

## 4.自定义层