In [14]:
import torch
from torch import nn

![image.png](attachment:image.png)

In [15]:
class MLP(nn.Module):
    #声名带有模型参数的层，这里声明了两个全连接层
    #参数，如“模型参数的访问，初始化和共享”一节将介绍的模型参数params
    def __init__(self,**kwargs):
        #调用MLP父类Module的构造函数来进行必要的初始化，这样在构造实例时还可以指定其他的函数
        #参数，如“模型参数的访问，初始化和共享”一节将介绍的模型参数params
        super(MLP,self).__init__(**kwargs)
        self.hidden=nn.Linear(784,256)#输入层->隐藏层
        self.act=nn.ReLU()#激活函数
        self.output=nn.Linear(256,10)#隐藏层->输出层
    #定义前向计算，即就是如何根据输入x返回所需要的模型输出
    def forward(self,x):
        a =self.act(self.hidden(x))
        return self.output(a)
    

以上的MLP类中无须定义反向传播函数。系统将通过自动求梯度而自动生成反向传播所需的backward函数。

我们可以实例化MLP类得到模型变量net。下面的代码初始化net并传入输入数据X做一次前向计算。其中，net(X)会调用MLP继承自Module类的$__call__$函数，这个函数将调用MLP类定义的forward函数来完成前向计算。

In [16]:
X = torch.rand(2, 784)#制造了两个784的元素
net = MLP()
print(net)
net(X)


MLP(
  (hidden): Linear(in_features=784, out_features=256, bias=True)
  (act): ReLU()
  (output): Linear(in_features=256, out_features=10, bias=True)
)


tensor([[-0.0246,  0.0425, -0.0919,  0.1151,  0.2708,  0.2215,  0.2986,  0.0811,
         -0.1780,  0.2193],
        [-0.0497,  0.1711, -0.1092,  0.0769,  0.2738,  0.1648,  0.1355,  0.1942,
         -0.2021,  0.0973]], grad_fn=<AddmmBackward>)

## Module的子类  
我们刚刚提到，Module类是一个通用的部件。事实上，PyTorch还实现了继承自Module的可以方便构建模型的类: 如Sequential、ModuleList和ModuleDict等等。

### Sequential类  
当模型的前向计算为简单串联各个层的计算时，Sequential类可以通过更加简单的方式定义模型。这正是Sequential类的目的：它可以接收一个子模块的有序字典（OrderedDict）或者一系列子模块作为参数来逐一添加Module的实例，而模型的前向计算就是将这些实例按添加的顺序逐一计算。

In [24]:

class MySequential(nn.Module):
    from collections import OrderedDict
    def __init__(self,*args):
        super(MySequential,self).__init__()
        # 如果传入的是一个OrderedDict
        if len(args)==1 and isinstance(args[0],OrderedDict):
            for key,module in args[0].items():
                # add_module方法会将module添加进self._modules(一个OrderedDict)
                self.add_module(key,module)
        else:#传入的是一些Module
            #enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，
            #同时列出数据和数据下标，一般用在 for 循环当中。
            for idx,module in enumerate(args):
                self.add_module(str(idx),module)
    def forward(self,input):
         # self._modules返回一个 OrderedDict，
         #保证会按照成员添加时的顺序遍历成员
        for module in self._modules.values():
            input = module(input)
        return input

In [26]:
net = MySequential(
        nn.Linear(784, 256),
        nn.ReLU(),
        nn.Linear(256, 10), 
        )
print(net)
net(X)

MySequential(
  (0): Linear(in_features=784, out_features=256, bias=True)
  (1): ReLU()
  (2): Linear(in_features=256, out_features=10, bias=True)
)


tensor([[ 0.1339, -0.1138, -0.1539, -0.1032,  0.1039, -0.1316, -0.2132, -0.1719,
         -0.1277, -0.0343],
        [ 0.1091, -0.1045, -0.2449, -0.1977,  0.1368, -0.0381, -0.0921, -0.1367,
         -0.2747, -0.1317]], grad_fn=<AddmmBackward>)

### ModuleList类

ModuleList接收一个子模块的列表作为输入，然后也可以类似List那样进行append和extend操作:

In [28]:
net = nn.ModuleList([nn.Linear(784,256),nn.ReLU()])
net.append(nn.Linear(256,10))# 类似List的append操作
print(net[-1]) # 类似List的索引访问
print(net)
# net(torch.zeros(1, 784)) # 会报NotImplementedError


Linear(in_features=256, out_features=10, bias=True)
ModuleList(
  (0): Linear(in_features=784, out_features=256, bias=True)
  (1): ReLU()
  (2): Linear(in_features=256, out_features=10, bias=True)
)


![image.png](attachment:image.png)

In [32]:
class MyModule(nn.Module):
    def __init__(self):
        super(MyModule,self).__init__() 
        self.linears = nn.ModuleList([nn.Linear(10,10) for i in range(10)])
    def forward(self,x):
        for i,l in enumerate(self.linears):
            x = self.linears[i//2](x)+l(x)
        return x

In [33]:
class Module_ModuleList(nn.Module):
    def __init__(self):
        super(Module_ModuleList,self).__init__()
        self.linears =nn.ModuleList([nn.Linear(10,10)])

In [34]:
class Module_List(nn.Module):
    def __init__(self):
        super(Module_List, self).__init__()
        self.linears = [nn.Linear(10, 10)]

In [35]:
net1 = Module_ModuleList()
net2 = Module_List()
print("net1:")
for p in net1.parameters():
    print(p.size())

print("net2:")
for p in net2.parameters():
    print(p)

net1:
torch.Size([10, 10])
torch.Size([10])
net2:


### ModuleDict类

In [36]:
net = nn.ModuleDict({
    'linear': nn.Linear(784, 256),
    'act': nn.ReLU(),
})
net['output'] = nn.Linear(256, 10) # 添加
print(net['linear']) # 访问
print(net.output)
print(net)
# net(torch.zeros(1, 784)) # 会报NotImplementedError


Linear(in_features=784, out_features=256, bias=True)
Linear(in_features=256, out_features=10, bias=True)
ModuleDict(
  (act): ReLU()
  (linear): Linear(in_features=784, out_features=256, bias=True)
  (output): Linear(in_features=256, out_features=10, bias=True)
)


## 构造复杂的模型 

In [37]:
class FancyMLP(nn.Module):
    def __init__(self,**kwargs):
        super(FancyMLP,self).__init__(**kwargs)
        self.rand_weight = torch.rand((20, 20), requires_grad=False) # 不可训练参数（常数参数）
        self.linear = nn.Linear(20, 20)
    def forward(self,x):
        x=self.linear(x)
        # 使用创建的常数参数，以及nn.functional中的relu函数和mm函数
        x = nn.functional.relu(torch.mm(x, self.rand_weight.data) + 1)
        # 复用全连接层。等价于两个全连接层共享参数
        x = self.linear(x)
        # 控制流，这里我们需要调用item函数来返回标量进行比较
        while x.norm().item() > 1:
            x /= 2
        if x.norm().item() < 0.8:
            x *= 10
        return x.sum()

In [40]:
X = torch.rand(2, 20)
net = FancyMLP()
print(net)
net(X)


FancyMLP(
  (linear): Linear(in_features=20, out_features=20, bias=True)
)


tensor(3.8001, grad_fn=<SumBackward0>)

In [44]:
class NestMLP(nn.Module):
    def __init__(self,**kwargs):
        super(NestMLP,self).__init__(**kwargs)
        self.net = nn.Sequential(nn.Linear(40,30),nn.ReLU())
    def forward(self,x):
        return self.net(X)
    

In [45]:
net = nn.Sequential(NestMLP(), nn.Linear(30, 20), FancyMLP())

In [46]:
X = torch.rand(2, 40)
print(net)
net(X)

Sequential(
  (0): NestMLP(
    (net): Sequential(
      (0): Linear(in_features=40, out_features=30, bias=True)
      (1): ReLU()
    )
  )
  (1): Linear(in_features=30, out_features=20, bias=True)
  (2): FancyMLP(
    (linear): Linear(in_features=20, out_features=20, bias=True)
  )
)


tensor(-4.3575, grad_fn=<SumBackward0>)