In [4]:
#继承Module类来构造模型
import torch
from torch import nn
class MLP(nn.Module):
    #初始化
    def __init__(self,**kwargs):
        super(MLP,self).__init__(**kwargs)
        self.hidden = nn.Linear(784,256)#隐藏层
        self.act = nn.ReLU()
        self.output = nn.Linear(256,10)
    #定义前向传播
    def forward(self,x):
        a = self.act(self.hidden(x))
        return self.output(a)

上面的MLP类不用定义反向传播函数，系统会自动求梯度生成backward函数

In [5]:
#实例化模型
net = MLP()
#先随机出来数据
X = torch.rand(2,784)#两个样本
print(net)
net(X)

MLP(
  (hidden): Linear(in_features=784, out_features=256, bias=True)
  (act): ReLU()
  (output): Linear(in_features=256, out_features=10, bias=True)
)


tensor([[ 0.0147,  0.0826, -0.1975, -0.2949,  0.0288,  0.0641,  0.1135,  0.1165,
          0.0629,  0.1263],
        [ 0.0563,  0.0860, -0.1646, -0.0885, -0.1241, -0.0061,  0.0612,  0.1403,
          0.0048,  0.2065]], grad_fn=<AddmmBackward0>)

上面没有吧Module类命名维Layer或者Model之类的名字，是因为该类是一个可供自由组建的部件。  
它的子类既可以是一个层，也可以是一个模型

In [6]:
#Module的子类
#Sequential，ModuleList，ModuleDict

In [10]:
#MySequential类的实现，帮助更好的理解Sequential类
#Sequential可以接受一个子模块的有序字典，或者时一些列子模块作为参数注意添加Module的实例
# 类似于块，就是按照内部的顺序进行前向传播
class MySequential(nn.Module):
    from collections import OrderedDict
    #用来处理有序字典输入
    def __init__(self,*args):
        #*args允许接受任意数量的参数
        super(MySequential,self).__init__()
        if len(args) == 1 and isinstance(args[0],OrderedDict):
            #接受有序字典，当输入是有序字典时遍历字典
            for key ,module in args[0].items():
                self.add_module(key,module)
                #通过add_module方法添加子模块
                #每个模块会以字典的键作为名称
        else:
            #当输入是多个模块时
            for idx,module in enumerate(args):#以索引作为模块名添加
                self.add_module(str(idx),module)
    def forward(self,input):#前向传播方式
        for module in self._modules.values():
            input = module(input)#遍历所有添加的模块，奖赏一个模块的输出作为下一个模块的输入
        return input

In [11]:
#利用上面的MySequential类来实现MLP类
net = MySequential(
    nn.Linear(784,256),
    nn.ReLU(),
    nn.Linear(256,10)
)
print(net)
net(X)

MySequential(
  (0): Linear(in_features=784, out_features=256, bias=True)
  (1): ReLU()
  (2): Linear(in_features=256, out_features=10, bias=True)
)


tensor([[ 0.0896, -0.0396,  0.0170, -0.0694, -0.3118,  0.2313,  0.0015,  0.0560,
         -0.0804,  0.0816],
        [ 0.2583, -0.0871,  0.0865, -0.2219, -0.2481,  0.2406, -0.0589,  0.1787,
         -0.0500, -0.0734]], grad_fn=<AddmmBackward0>)

In [13]:
#ModuleList类接受一个子模块的列表作为输入，也可以类似List那样进行append和extend操作
net = nn.ModuleList([nn.Linear(784,256),nn.ReLU()])
net.append(nn.Linear(256,10))
print(net[-1])
#这样创建的net实例就类似于一个列表，可以用索引拿出来
print(net)

Linear(in_features=256, out_features=10, bias=True)
ModuleList(
  (0): Linear(in_features=784, out_features=256, bias=True)
  (1): ReLU()
  (2): Linear(in_features=256, out_features=10, bias=True)
)


可以根据上面两个net的输出看出Sequential和ModuleList都可以列表化构建网络。  
ModuleList仅仅是一个存储各种模块的列表，这些模块之间没有联系没有顺序，而且没有实现forward功能  
所以不能运行net(x)
Sequential内部的模块是实现了顺序的排列（上面的字典一直强调是有序字典），而且内部的forward功能已经实现  
所以上面的net(x)没有报错


In [14]:
#ModuleList是为了让网络的前向传播更加灵活
class MyModule(nn.Module):
    def __init__(self):
        super(MyModule,self).__init__()
        self.linears = nn.ModuleList([nn.Linear(10,10) for i in range(10)])
        #创建了一个ModuleList实例linears放10个10*10的全连接层
        #用于需要多个相似的层时
    def forward(self,x):
        for i,l in enumerate(self.linears):#i是索引，l是线性层对象
            x = self.linears[i//2](x)+l(x)#i是0~9，这里前面的linears用到的层分别是001122334，后面的l(x)分别是遍历到的线性层
        return x

In [21]:
#ModuleList不同于list，加入到ModuleList里面的所有模块的参数会被自动添加到整个网络中
class Module_ModuleList(nn.Module):
    def __init__(self):
        super(Module_ModuleList,self).__init__()
        self.linears = nn.ModuleList([nn.Linear(10,10)])
class Module_List(nn.Module):
    def __init__(self):
        super(Module_List,self).__init__()
        self.linears = [nn.Linear(10,10)]
net1 = Module_ModuleList()
net2 = Module_List()

print("net1:")
for p in net1.parameters():
    print(p.size())
print("net2:")
for p in net2.parameters():
    print(p)

net1:
torch.Size([10, 10])
torch.Size([10])
net2:


In [24]:
#ModuleDict接受一个子模块的字典作为输入，也可以类似与字典那样进行添加和访问操作
net = nn.ModuleDict({
    'linear':nn.Linear(784,256),
    'act':nn.ReLU(),
})
net['output'] = nn.Linear(256,10)
print(net)
print(net['linear'])
print(net.output)

ModuleDict(
  (linear): Linear(in_features=784, out_features=256, bias=True)
  (act): ReLU()
  (output): Linear(in_features=256, out_features=10, bias=True)
)
Linear(in_features=784, out_features=256, bias=True)
Linear(in_features=256, out_features=10, bias=True)


和ModuleList一样MOduleDict只是存放模块的字典，并没有实现forward功能，但是添加进去的模块的参数有添加到网路中

In [29]:
#构架一些复杂的网络，利用上面
class FancyMLP(nn.Module):
    def __init__(self,**kwargs):
        super(FancyMLP,self).__init__(**kwargs)
        self.rand_weight = torch.rand((20,20),requires_grad =False)
        #常数权重，不是可训练的模型参数
        self.linear = nn.Linear(20,20)
    def forward(self,x):
        x = self.linear(x)
        x = nn.functional.relu(torch.mm(x,self.rand_weight.data)+1)
        x = self .linear(x)
        #对x进行归一化操作之后返回元素之和
        #主要是将张量的norm（范数）控制在特定的范围内
        while x.norm().item() > 1:
            x /= 2
        if x.norm().item() < 0.8:
            x *= 10
        return x.sum()
        
        

In [30]:
#测试该模型的前向计算
X = torch.rand(2,20)
net = FancyMLP()
print(net)
net(X)

FancyMLP(
  (linear): Linear(in_features=20, out_features=20, bias=True)
)


tensor(-0.1121, grad_fn=<SumBackward0>)

In [31]:
#因为FancyMLP和Sequential都是Module的子类，所以可以嵌套调用
class NestMLP(nn.Module):
    def __init__(self,**kwargs):
        super(NestMLP,self).__init__(**kwargs)
        self.net = nn.Sequential(nn.Linear(40,30),nn.ReLU())
    def forward(self,x):
        return self.net(x)

In [33]:
net = nn.Sequential(
    NestMLP(),
    nn.Linear(30,20),
    FancyMLP()
)
X = torch.rand(2,40)
print(net)
net(X)

Sequential(
  (0): NestMLP(
    (net): Sequential(
      (0): Linear(in_features=40, out_features=30, bias=True)
      (1): ReLU()
    )
  )
  (1): Linear(in_features=30, out_features=20, bias=True)
  (2): FancyMLP(
    (linear): Linear(in_features=20, out_features=20, bias=True)
  )
)


tensor(-0.9751, grad_fn=<SumBackward0>)

总结：  
本节介绍了Module构建模型的使用以及三种子类的使用  
Sequential，ModuleList，ModuleDict三种子类的使用。