#### 单个神经网络 （1）接受一些输入； （2）生成相应的标量输出； （3）具有一组相关 参数（parameters），更新这些参数可以优化某目标函数。

In [7]:
import torch
from torch import nn
from torch.nn import functional as F

# 生成一个网络，其中包含一个具有256个单元和ReLU激活函数的全连接隐藏层， 
# 然后是一个具有10个隐藏单元且不带激活函数的全连接输出层。
net = nn.Sequential(nn.Linear(20,256),
                   nn.ReLU(),
                   nn.Linear(256,10))

# nn.Sequential定义了一种特殊的Module， 即在PyTorch中表示一个块的类， 
# 它维护了一个由Module组成的有序列表
X=torch.rand(2,20)
print('X:\n',X)
print(net)
net(X)
net.__call__(X) # 等价于net（X） 它将列表中的每个块连接在一起，将每个块的输出作为下一个块的输入。

X:
 tensor([[0.0953, 0.6667, 0.8204, 0.6101, 0.1762, 0.4341, 0.7488, 0.6280, 0.3098,
         0.0705, 0.1566, 0.5482, 0.2047, 0.1799, 0.4280, 0.6639, 0.8038, 0.9063,
         0.1340, 0.0692],
        [0.5574, 0.9293, 0.3582, 0.7216, 0.3751, 0.5074, 0.3384, 0.9024, 0.0916,
         0.1738, 0.5816, 0.1524, 0.2381, 0.6329, 0.3661, 0.0359, 0.4315, 0.0630,
         0.3457, 0.5530]])
Sequential(
  (0): Linear(in_features=20, out_features=256, bias=True)
  (1): ReLU()
  (2): Linear(in_features=256, out_features=10, bias=True)
)


tensor([[ 0.0238,  0.1644, -0.0494, -0.2460, -0.0078,  0.1611, -0.2197,  0.1671,
         -0.0697,  0.1329],
        [ 0.0751,  0.2071, -0.0103, -0.2214, -0.0429,  0.1264, -0.1132,  0.2032,
          0.0999, -0.0709]], grad_fn=<AddmmBackward0>)

In [12]:
# 自定义块

class MLP(nn.Module):
    # 用模型参数声明层。这里，我们声明两个全连接的层
    def __init__(self):
        # 调用MLP的父类Module的构造函数来执行必要的初始化。
        # 这样，在类实例化时也可以指定其他函数参数，例如模型参数params（稍后将介绍）
        super().__init__()
        self.hidden = nn.Linear(20, 256)  # 隐藏层
        self.relu=nn.ReLU()
        self.out = nn.Linear(256, 10)  # 输出层

    # 定义模型的前向传播，即如何根据输入X返回所需的模型输出
    def forward(self, X):
        # 注意，这里我们使用ReLU的函数版本，其在nn.functional模块中定义。
        return self.out(F.relu(self.hidden(X)))

net=MLP()
print(net)
net(X)

MLP(
  (hidden): Linear(in_features=20, out_features=256, bias=True)
  (relu): ReLU()
  (out): Linear(in_features=256, out_features=10, bias=True)
)


tensor([[-0.1110, -0.1417, -0.1161,  0.1328, -0.0016,  0.0264, -0.2174, -0.2400,
          0.0388,  0.0599],
        [-0.0816, -0.1997,  0.0352,  0.0932, -0.0291, -0.0831, -0.0345, -0.0403,
         -0.0572,  0.0630]], grad_fn=<AddmmBackward0>)

In [10]:
# 顺序块

class MySequential(nn.Module):
    def __init__(self, *args):
        super().__init__()
        for idx, module in enumerate(args):
            # 这里，module是Module子类的一个实例。我们把它保存在'Module'类的成员
            # 变量_modules中。_module的类型是OrderedDict
            self._modules[str(idx)] = module

    def forward(self, X):
        # OrderedDict保证了按照成员添加的顺序遍历它们
        for block in self._modules.values():
            X = block(X)
        return X

net = MySequential(nn.Linear(20, 256), nn.ReLU(), nn.Linear(256, 10))
print(net)
net(X)

MySequential(
  (0): Linear(in_features=20, out_features=256, bias=True)
  (1): ReLU()
  (2): Linear(in_features=256, out_features=10, bias=True)
)


tensor([[ 0.2492,  0.0092,  0.0392, -0.0341, -0.1914, -0.0339, -0.0016, -0.1108,
          0.1734,  0.0344],
        [ 0.2744,  0.1119, -0.0821, -0.0062, -0.1286,  0.0606, -0.0576, -0.0497,
          0.0824, -0.0460]], grad_fn=<AddmmBackward0>)

In [13]:
# 现了一个隐藏层， 其权重（self.rand_weight）在实例化时被随机初始化，之后为常量。 
# 这个权重不是一个模型参数，因此它永远不会被反向传播更新。 然后，神经网络将这个固定层的输出通过一个全连接层。
class FixedHiddenMLP(nn.Module):
    def __init__(self):
        super().__init__()
        # 不计算梯度的随机权重参数。因此其在训练期间保持不变
        self.rand_weight = torch.rand((20, 20), requires_grad=False)
        self.linear = nn.Linear(20, 20)

    def forward(self, X):
        X = self.linear(X)
        # 使用创建的常量参数以及relu和mm函数
        X = F.relu(torch.mm(X, self.rand_weight) + 1)
        # 复用全连接层。这相当于两个全连接层共享参数
        X = self.linear(X)
        # 控制流
        while X.abs().sum() > 1:
            X /= 2
        return X.sum()
    
net = FixedHiddenMLP()
print(net)
net(X)    

FixedHiddenMLP(
  (linear): Linear(in_features=20, out_features=20, bias=True)
)


tensor(0.1118, grad_fn=<SumBackward0>)

In [14]:
#混合
class NestMLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.net = nn.Sequential(nn.Linear(20, 64), nn.ReLU(),
                                 nn.Linear(64, 32), nn.ReLU())
        self.linear = nn.Linear(32, 16)

    def forward(self, X):
        return self.linear(self.net(X))

chimera = nn.Sequential(NestMLP(), 
                        nn.Linear(16, 20), 
                        FixedHiddenMLP())
print(chimera)
chimera(X)

Sequential(
  (0): NestMLP(
    (net): Sequential(
      (0): Linear(in_features=20, out_features=64, bias=True)
      (1): ReLU()
      (2): Linear(in_features=64, out_features=32, bias=True)
      (3): ReLU()
    )
    (linear): Linear(in_features=32, out_features=16, bias=True)
  )
  (1): Linear(in_features=16, out_features=20, bias=True)
  (2): FixedHiddenMLP(
    (linear): Linear(in_features=20, out_features=20, bias=True)
  )
)


tensor(-0.0298, grad_fn=<SumBackward0>)

- 一个块可以由许多层组成；一个块可以由许多块组成。

- 块可以包含代码。

- 块负责大量的内部处理，包括参数初始化和反向传播。

- 层和块的顺序连接由Sequential块处理。

#### 5.2参数管理

In [39]:
# 单层隐藏的MLP

net = nn.Sequential(nn.Linear(4,8),
                   nn.ReLU(),
                   nn.Linear(8,1)
                   )
X=torch.rand(2,4)
print('X:\n',X)
print(net)
net(X)

X:
 tensor([[0.4982, 0.4627, 0.4973, 0.3981],
        [0.7209, 0.7760, 0.4737, 0.1656]])
Sequential(
  (0): Linear(in_features=4, out_features=8, bias=True)
  (1): ReLU()
  (2): Linear(in_features=8, out_features=1, bias=True)
)


tensor([[0.1725],
        [0.1149]], grad_fn=<AddmmBackward0>)

In [43]:
# 参数访问
# 通过索引来访问模型的任意层。 这就像模型是一个列表一样，每层的参数都在其属性中。
# 这个全连接层包含两个参数，分别是该层的权重和偏置。 两者都存储为单精度浮点数（float32）。
print(net[2].state_dict())

OrderedDict([('weight', tensor([[-0.0020,  0.1918, -0.3216,  0.0881, -0.1480, -0.1401,  0.1077,  0.2406]])), ('bias', tensor([0.0588]))])


In [49]:
# 目标参数

print(type(net[2].bias))

print(net[2].bias)

print(net[2].bias.data)

print(net[2].weight)

print(net[2].weight.grad)

# 参数是复合的对象，包含值、梯度和额外信息。 这就是我们需要显式参数值的原因。 
# 还可以访问每个参数的梯度。 在上面这个网络中，由于我们还没有调用反向传播，所以参数的梯度处于初始状态
net[2].weight.grad==None

<class 'torch.nn.parameter.Parameter'>
Parameter containing:
tensor([0.0588], requires_grad=True)
tensor([0.0588])
Parameter containing:
tensor([[-0.0020,  0.1918, -0.3216,  0.0881, -0.1480, -0.1401,  0.1077,  0.2406]],
       requires_grad=True)
None


True

In [55]:
# 一次性访问所有 参数
print(*[(name,param.shape) for name,param in net[0].named_parameters()])
print(*[(name,param.shape) for name,param in net.named_parameters()])

net.state_dict()['2.bias'].data

('weight', torch.Size([8, 4])) ('bias', torch.Size([8]))
('0.weight', torch.Size([8, 4])) ('0.bias', torch.Size([8])) ('2.weight', torch.Size([1, 8])) ('2.bias', torch.Size([1]))


tensor([0.0588])

In [57]:
net.state_dict()['0.weight'].data

tensor([[-0.1482,  0.2590, -0.4488,  0.3266],
        [-0.2021, -0.3671,  0.3030, -0.2204],
        [-0.4761, -0.1170, -0.2478, -0.0526],
        [ 0.3807, -0.0631, -0.3186, -0.1683],
        [ 0.0377,  0.0895,  0.1627, -0.4664],
        [-0.3386,  0.0997,  0.0383,  0.0738],
        [-0.3315,  0.0724,  0.4479,  0.3165],
        [-0.4685, -0.2520,  0.4976,  0.4568]])

In [66]:
# 嵌套块

def block1():
    return nn.Sequential(nn.Linear(4,8),
                        nn.ReLU(),
                        nn.Linear(8,4),
                        nn.ReLU()
                        )

def block2():
    net =nn.Sequential()
    for i in range(4):
        # 嵌套四层
        net.add_module(f'block{i}',block1())
    return net

mnet=nn.Sequential(block2(),  # 一个四层嵌套的一号块
                  nn.Linear(4,1)  #二号块 仅一层
                  )
mnet(X)
print(mnet)

Sequential(
  (0): Sequential(
    (block0): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block1): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block2): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block3): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
  )
  (1): Linear(in_features=4, out_features=1, bias=True)
)


In [69]:
# 访问第一个主要的块中、第二个子块的第一层的偏置项。
mnet[0][1][0].bias

Parameter containing:
tensor([-0.1251, -0.1369, -0.0213,  0.4186,  0.0520, -0.3110,  0.4742,  0.4635],
       requires_grad=True)

In [72]:
# 参数初始化  内置初始化
# 将所有权重参数初始化为标准差为0.01的高斯随机变量， 且将偏置参数设置为0。
def init_normal(m):
    if type(m)==nn.Linear:
        nn.init.normal_(m.weight,mean=0,std=0.01)
        nn.init.zeros_(m.bias)
        
net.apply(init_normal)
print(net)
net[0].bias.data # 偏置为0

Sequential(
  (0): Linear(in_features=4, out_features=8, bias=True)
  (1): ReLU()
  (2): Linear(in_features=8, out_features=1, bias=True)
)


tensor([0., 0., 0., 0., 0., 0., 0., 0.])

In [73]:
net[0].weight.data

tensor([[-4.1750e-03, -1.9324e-02, -9.3516e-03,  9.2029e-03],
        [ 3.8475e-03, -1.6744e-03,  1.4794e-03, -2.6204e-03],
        [-1.5931e-02, -1.6734e-03,  1.1294e-02, -8.4666e-03],
        [-9.0231e-04, -9.0943e-03, -8.0805e-03, -5.0911e-03],
        [-1.0957e-05, -5.1908e-03, -2.0363e-03, -1.4145e-02],
        [-1.9736e-02, -2.5984e-03, -5.2965e-03,  7.7533e-03],
        [-8.7172e-03, -1.2843e-02,  4.8050e-03,  1.2975e-04],
        [ 9.7099e-03, -2.3270e-03, -5.8970e-03,  1.6640e-03]])

In [75]:
# 还可以将所有参数初始化为给定的常数，比如初始化为1。
def init_constant(m):
    if type(m)==nn.Linear:
        nn.init.constant_(m.weight,1)
        nn.init.zeros_(m.bias)
net.apply(init_constant)
print(net)
net[0].weight

Sequential(
  (0): Linear(in_features=4, out_features=8, bias=True)
  (1): ReLU()
  (2): Linear(in_features=8, out_features=1, bias=True)
)


Parameter containing:
tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]], requires_grad=True)

In [76]:
# 使用Xavier初始化方法初始化第一个神经网络层， 然后将第三个神经网络层初始化为常量值42。
def init_xavier(m):
    if type(m)==nn.Linear:
        nn.init.xavier_uniform_(m.weight)

def init_42(m):
    if type(m)==nn.Linear:
        nn.init.constant_(m.weight,42)
           
print(net)    
net[0].apply(init_xavier)
net[2].apply(init_42)

Sequential(
  (0): Linear(in_features=4, out_features=8, bias=True)
  (1): ReLU()
  (2): Linear(in_features=8, out_features=1, bias=True)
)


Linear(in_features=8, out_features=1, bias=True)

In [77]:
net[0].weight

Parameter containing:
tensor([[-0.6790,  0.1048, -0.0592,  0.4223],
        [ 0.1797, -0.0943,  0.0594, -0.6053],
        [ 0.5692, -0.0439, -0.4474, -0.6623],
        [-0.2262,  0.1571,  0.0949,  0.2654],
        [-0.4595,  0.2230,  0.4786, -0.4682],
        [ 0.5714,  0.4970, -0.3600,  0.2391],
        [ 0.2287, -0.1324,  0.5787, -0.3958],
        [-0.2618, -0.3813, -0.6119, -0.5108]], requires_grad=True)

In [78]:
net[2].weight

Parameter containing:
tensor([[42., 42., 42., 42., 42., 42., 42., 42.]], requires_grad=True)