# 模型构造

## 层和块

## 回顾一下多层感知机

In [3]:
#回顾一下多层感知机
import torch
from torch import nn
from torch.nn import functional as F

#nn.Sequential定义了一个特殊的Module
net=nn.Sequential(nn.Linear(20,256),nn.ReLU(),nn.Linear(256,10))

#随机生成一个2*20的矩阵，满足均匀分布
X=torch.rand(2,20)
net(X)

tensor([[-0.1894, -0.0263,  0.1651, -0.0563, -0.1680, -0.2232, -0.0469, -0.0507,
          0.1376,  0.2211],
        [-0.1639,  0.0142,  0.1997,  0.0057, -0.0349, -0.1787, -0.0469,  0.0455,
          0.1480,  0.1851]], grad_fn=<AddmmBackward>)

## 自定义MLP

In [4]:
#任何一个层和神经网络都是Module的子类
#自定义一个MLP
#MLP就可以继承Module中很多的函数

class MLP(nn.Module):
    #这个函数就用来定义一些参数和类
    #网络中调用的所有层都在这个函数里面
    def __init__(self):
        #调用父类，把一些内部参数全部设置好，这样在初始化weight可以全部弄好
        super().__init__()
        self.hidden=nn.Linear(20,256)
        self.out=nn.Linear(256,10)
    #前向计算
    def forward(self,X):
        return self.out(F.relu(self.hidden(X)))

#实例化多层感知机的层，每次调用正向传播函数时调用这些层
net=MLP()
net(X)

tensor([[ 0.1470, -0.1755,  0.1342, -0.2123, -0.0479, -0.1716,  0.0633, -0.2490,
         -0.0471,  0.1435],
        [ 0.0724, -0.0842,  0.1266, -0.1585, -0.0415, -0.2796,  0.0993, -0.1747,
         -0.0793,  0.1534]], grad_fn=<AddmmBackward>)

## 实现nn.Sequential

#实现nn.Sequential
class MySequential(nn.Module):
    def __init__(self,*args):#args里面存放各个层
        super().__init__()
        for block in args:
            #做成一个字典
            self._modules[block]=block
            
    def forward(self,X):
        #把各个层取出来，输入X得到一个输出，不断按顺序经过每一层
        for block in self._modules.values():
            X=block(X)
            #print(self._modules)
            #print(self._modules.values())
        return X
    
net=MySequential(nn.Linear(20,256),nn.ReLU(),nn.Linear(256,10))
net(X)

## 在正向传播函数中执行代码

In [5]:
#在正向传播函数中执行代码
class FixedHiddenMLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear=nn.Linear(20,20)
        #因为设置的是False，所以是不参与求导的，不参与训练的
        self.rand_weight=torch.rand((20,20),requires_grad=False)
        
    def forward(self,X):
        X=self.linear(X)
        X=F.relu(torch.mm(X,self.rand_weight)+1)
        X=self.linear(X)
        while X.abs().sum() > 1:
            X/=2
        
        return X.sum()
    
net=FixedHiddenMLP()
net(X)

tensor(-0.0970, grad_fn=<SumBackward0>)

## 混合搭配各种组合块的方法

In [6]:
class NestMLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.net=nn.Sequential(nn.Linear(20,64),nn.ReLU(),nn.Linear(64,32),nn.ReLU())
        self.linear=nn.Linear(32,16)
        
    def forward(self,X):
        X=self.net(X)
        X=self.linear(X)
        
        return X   
net=nn.Sequential(NestMLP(),nn.Linear(16,20),FixedHiddenMLP())
net(X)      

tensor(0.3440, grad_fn=<SumBackward0>)

# 参数管理

## 首先关注具有单隐藏层的多层感知机

In [7]:
import torch
from torch import nn

net=nn.Sequential(nn.Linear(4,8),nn.ReLU(),nn.Linear(8,1))
X=torch.rand(2,4)
net(X)

tensor([[0.1797],
        [0.1988]], grad_fn=<AddmmBackward>)

## 参数访问

In [8]:
#把每一层里面的那个权重拿出来
#nn.Sequential可以简单的理解为python的一个list
#这是拿到的最后一层的参数即权重和偏置nn.Linear(8,1)
#全连接层的参数就是权重和偏置
print(net[2].state_dict())
print(net.state_dict())

OrderedDict([('weight', tensor([[ 0.2941,  0.2297,  0.2031, -0.3107,  0.1994, -0.1032,  0.2746, -0.0718]])), ('bias', tensor([0.2866]))])
OrderedDict([('0.weight', tensor([[ 0.1941, -0.2631,  0.4697, -0.1283],
        [ 0.3978, -0.0353, -0.1617, -0.4579],
        [ 0.3626, -0.3508,  0.0534, -0.3789],
        [ 0.4527,  0.4131, -0.2868, -0.4685],
        [-0.4962, -0.4026,  0.4060, -0.1589],
        [ 0.0138,  0.0305, -0.4418,  0.0507],
        [ 0.0321,  0.4760, -0.2706, -0.1939],
        [ 0.1384,  0.4468,  0.1653, -0.4860]])), ('0.bias', tensor([ 0.0052,  0.4538, -0.3367,  0.2529,  0.1838,  0.1869, -0.2166,  0.1582])), ('2.weight', tensor([[ 0.2941,  0.2297,  0.2031, -0.3107,  0.1994, -0.1032,  0.2746, -0.0718]])), ('2.bias', tensor([0.2866]))])


In [9]:
#可以访问一些具体的参数
#访问偏置的内容
print(net[2].bias)
#访问偏置的值
print(net[2].bias.data)
#访问权重的梯度
print(net[2].bias.grad)
#查看bias的数据类型
print(type(net[2].bias))

Parameter containing:
tensor([0.2866], requires_grad=True)
tensor([0.2866])
None
<class 'torch.nn.parameter.Parameter'>


In [10]:
#访问权重的梯度
#因为还么有反向训练，所以是None
print(net[2].weight.grad)

None


### 一次性访问所有参数

In [22]:
#一次性访问所有参数
#relu没有参数，所以拿不出来
#named_parameters()是访问所有的参数
for name,param in net.named_parameters():
    print(name)
    print(param)
    print(param.shape)

#访问第0层的所有参数
for name,param in net[0].named_parameters():
    print(name)
    print(param)
    print(param.shape)

0.weight
Parameter containing:
tensor([[-5.9244, -6.1343,  6.1429,  0.0000],
        [ 0.0000,  0.0000, -7.9209,  9.7815],
        [-9.4067,  9.5231,  9.2864, -0.0000],
        [-6.7020, -0.0000, -0.0000, -0.0000],
        [-0.0000,  0.0000, -9.8263,  0.0000],
        [-8.3893,  0.0000, -9.2670, -5.3232],
        [-7.6139, -5.4609,  7.5534, -0.0000],
        [ 9.2938, -0.0000, -9.1196, -0.0000]], requires_grad=True)
torch.Size([8, 4])
0.bias
Parameter containing:
tensor([0., 0., 0., 0., 0., 0., 0., 0.], requires_grad=True)
torch.Size([8])
2.weight
Parameter containing:
tensor([[0.0000, 0.0000, -0.0000, 0.0000, -0.0000, -0.0000, -0.0000, 5.8519]],
       requires_grad=True)
torch.Size([1, 8])
2.bias
Parameter containing:
tensor([0.], requires_grad=True)
torch.Size([1])
weight
Parameter containing:
tensor([[-5.9244, -6.1343,  6.1429,  0.0000],
        [ 0.0000,  0.0000, -7.9209,  9.7815],
        [-9.4067,  9.5231,  9.2864, -0.0000],
        [-6.7020, -0.0000, -0.0000, -0.0000],
        

### 根据名字访问指定的参数

In [12]:
#由上一步输出所有参数的名字，我们可以根据名字来获取指定的参数
net.state_dict()['2.bias'].data

tensor([0.2866])

### 从嵌套块收集参数

In [13]:
def block1():
    return nn.Sequential(nn.Linear(4, 8), nn.ReLU(), nn.Linear(8, 4),
                         nn.ReLU())

def block2():
    net = nn.Sequential()
    for i in range(4):
        #这里add_module的好处是说，可以写字符进去f'block {i}'，可以自己命名块的名字
        net.add_module(f'block {i}', block1())
    return net

rgnet = nn.Sequential(block2(), nn.Linear(4, 1))
print(rgnet(X))
print(X.shape)

tensor([[0.4549],
        [0.4549]], grad_fn=<AddmmBackward>)
torch.Size([2, 4])


## 通过print（net)大致了解这个网络内部什么样子

In [14]:
#可以通过print（net)大致了解这个网络内部什么样子
#三个Sequential
print(rgnet)

Sequential(
  (0): Sequential(
    (block 0): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 1): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 2): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 3): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
  )
  (1): Linear(in_features=4, out_features=1, bias=True)
)


## 内置初始化

In [15]:
#如何去修改默认的初始函数，这里主要是修改了初始的权重和偏置
#m is Module
#nn.init里面写了很多初始化的函数
def init_normal(m):
    if type(m)==nn.Linear:
        #下划线是指不返回一个值，而是用这个值直接去改写权重，满足一个均值为0，方差为0.01的正态分布
        nn.init.normal_(m.weight,mean=0,std=0.01)
        nn.init.zeros_(m.bias)

#这个apply相当于一个循环，把init_normal初始化函数应用到net里面每一个layer
net.apply(init_normal)
print(net[0].weight.data[0],net[0].bias.data[0])

#如果data不加0的话，那第0层有很多权重和偏置，就都会输出来，加0只是输出第一个
print(net[0].weight.data,net[0].bias.data)

def init_constant(m):
    if type(m)==nn.Linear:
        #下划线是指不返回一个值，而是用这个值直接去改写权重，满足一个均值为0，方差为0.01的正态分布
        #constant是指一个固定值
        nn.init.constant_(m.weight,1)
        nn.init.zeros_(m.bias)
        
net.apply(init_normal)
print(net[0].weight.data[0],net[0].bias.data[0]) 
print(net[0].weight.shape,net[0].bias.shape) 

tensor([ 0.0053, -0.0048, -0.0011,  0.0006]) tensor(0.)
tensor([[ 0.0053, -0.0048, -0.0011,  0.0006],
        [-0.0023,  0.0040, -0.0052, -0.0011],
        [-0.0051,  0.0030, -0.0173, -0.0058],
        [-0.0103,  0.0102, -0.0024,  0.0027],
        [-0.0079, -0.0044, -0.0049,  0.0022],
        [-0.0067,  0.0151,  0.0070,  0.0021],
        [-0.0147,  0.0077, -0.0129, -0.0159],
        [-0.0068,  0.0009, -0.0069, -0.0021]]) tensor([0., 0., 0., 0., 0., 0., 0., 0.])
tensor([0.0147, 0.0057, 0.0254, 0.0312]) tensor(0.)
torch.Size([8, 4]) torch.Size([8])


### 对某些块应用不同的初始化方法

In [16]:
#用的是vavier的uniform distribution(均匀分布)初始化
def xavier(m):
    if type(m)==nn.Linear:
        nn.init.xavier_uniform_(m.weight)

#固定值42
def init_42(m):
    if type(m)==nn.Linear:
        nn.init.constant_(m.weight,42)
        
#net可以调用apply,那么net的每一层也都可以单独调用        
net[0].apply(xavier)
net[2].apply(init_42)
print(net[0].weight.data[0])
print(net[2].weight.data)

tensor([-0.6618,  0.0305, -0.3702, -0.2544])
tensor([[42., 42., 42., 42., 42., 42., 42., 42.]])


## 自定义初始化

In [23]:
def my_init(m):
    if type(m) == nn.Linear:
        for name,params in m.named_parameters():
            print(name)
            print(params)
            print(params.shape)
        #print( "Init",*[(name, param.shape) for name, param in m.named_parameters()][0])
        nn.init.uniform_(m.weight, -10, 10)
        m.weight.data *= m.weight.data.abs() >= 5

net.apply(my_init)
net[0].weight[:2]
#grad_fn=<SliceBackward>这个参数指明是如何进行指导求导的。程序反向切片，从给出的某一个目标点，获取所有到达该目标点的路径。

weight
Parameter containing:
tensor([[-5.9244, -6.1343,  6.1429,  0.0000],
        [ 0.0000,  0.0000, -7.9209,  9.7815],
        [-9.4067,  9.5231,  9.2864, -0.0000],
        [-6.7020, -0.0000, -0.0000, -0.0000],
        [-0.0000,  0.0000, -9.8263,  0.0000],
        [-8.3893,  0.0000, -9.2670, -5.3232],
        [-7.6139, -5.4609,  7.5534, -0.0000],
        [ 9.2938, -0.0000, -9.1196, -0.0000]], requires_grad=True)
torch.Size([8, 4])
bias
Parameter containing:
tensor([0., 0., 0., 0., 0., 0., 0., 0.], requires_grad=True)
torch.Size([8])
weight
Parameter containing:
tensor([[0.0000, 0.0000, -0.0000, 0.0000, -0.0000, -0.0000, -0.0000, 5.8519]],
       requires_grad=True)
torch.Size([1, 8])
bias
Parameter containing:
tensor([0.], requires_grad=True)
torch.Size([1])


tensor([[ 5.6825, -6.3561, -0.0000,  0.0000],
        [-0.0000,  7.3559, -0.0000, -0.0000]], grad_fn=<SliceBackward>)

In [24]:
#直接给某些参数赋值
net[0].weight.data[:] += 1
net[0].weight.data[0, 0] = 42
net[0].weight.data[0]

tensor([42.0000, -5.3561,  1.0000,  1.0000])

## 参数绑定（不同层之间权重共享）

In [25]:
#不同层之间权重共享
shared = nn.Linear(8, 8)
#不管网络如何变化，第2层和第4层的网络参数是一样的
net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(), shared, nn.ReLU(), shared,nn.ReLU(), nn.Linear(8, 1))
net(X)
print(net[2].weight.data[0] == net[4].weight.data[0])
net[2].weight.data[0, 0] = 100
print(net[2].weight.data[0] == net[4].weight.data[0])

tensor([True, True, True, True, True, True, True, True])
tensor([True, True, True, True, True, True, True, True])


# 自定义层

In [26]:
#构造一个没有任何参数的自定义层
import torch
import torch.nn.functional as F
from torch import nn

class CenteredLayer(nn.Module):
    def __init__(self):
        super().__init__()

    def forward(self, X):
        return X - X.mean()

#定义一个类的实例
layer=CenteredLayer()
layer(torch.FloatTensor([1,2,3,4,5]))

tensor([-2., -1.,  0.,  1.,  2.])

## 将层作为组件合并到构建更复杂的模型

In [27]:
net=nn.Sequential(nn.Linear(8,128),CenteredLayer())

X=torch.rand(4,8)
net(X).mean()


tensor(4.6566e-09, grad_fn=<MeanBackward0>)

## 带参数的自定义线性层

In [36]:
#我们知道线性层有两个参数，一个是输入维度，一个是输出维度
#要定义自带参数的话，要放到nn.Parameter中
class MyLinear(nn.Module):
    def __init__(self,in_units,units):
        super().__init__()
        #我们知道之前weight和bias都在parameter里面。随机生成一个矩阵放到这里面，那weight的名称和梯度就都有了
        self.weight=nn.Parameter(torch.randn(in_units,units))
        self.bias=nn.Parameter(torch.randn(units))
        
    def forward(self,X):
        linear=torch.matmul(X,self.weight.data)+ self.bias.data
        return F.relu(linear)
    
dense=MyLinear(5,3)
dense.weight

Parameter containing:
tensor([[-0.0597,  0.8627,  2.0964],
        [ 0.7405, -2.7173,  1.0936],
        [ 0.6236,  0.1603,  0.6659],
        [ 0.5242, -1.1551,  0.1931],
        [ 0.2098,  0.2911, -0.5977]], requires_grad=True)

## 使用自定义曾直接执行正向传播计算

In [37]:
dense(torch.rand(2,5))

tensor([[0.5242, 0.0000, 2.5220],
        [0.9152, 0.0000, 3.7823]])

## 使用自定义层构建模型

In [38]:
net=nn.Sequential(nn.Linear(64,8),MyLinear(8,1))
net(torch.rand(2,64))

tensor([[0.],
        [0.]], grad_fn=<ReluBackward0>)

# 读写文件

## 加载和保存张量

In [39]:
#加载和保存张量
import torch
from torch import nn
from torch.nn import functional as F

x=torch.arange(4)
torch.save(x,'x-file')

x2=torch.load('x-file')
x2

tensor([0, 1, 2, 3])

## 存储list

In [41]:
#存储list
y=torch.zeros(4)
torch.save([x,y],'x-file')
x2,y2=torch.load('x-file')
(x2,y2)

(tensor([0, 1, 2, 3]), tensor([0., 0., 0., 0.]))

## 存储字典

In [43]:
#存储字典
mydict={'x':x,'y':y}
torch.save(mydict,'mydict')
mydict2=torch.load('mydict')

mydict2

{'x': tensor([0, 1, 2, 3]), 'y': tensor([0., 0., 0., 0.])}

## 加载和保存模型参数

In [50]:
class MLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.hidden = nn.Linear(20, 256)
        self.output = nn.Linear(256, 10)

    def forward(self, x):
        return self.output(F.relu(self.hidden(x)))

net = MLP()
X = torch.randn(size=(2, 20))
Y = net(X)

#将模型的参数存储为一个叫做”mlp.params"的文件
#把整个MLP的参数存储成一个字典，从名字到后面的根映射
torch.save(net.state_dict(),'mlp.params')

In [51]:
#如何load回来呢
#不仅要把这个参数带走，还要把MLP这个定义给带走
#
clone = MLP()
#把参数从磁盘上的文件中读取到网络中
clone.load_state_dict(torch.load('mlp.params'))
clone.eval()

MLP(
  (hidden): Linear(in_features=20, out_features=256, bias=True)
  (output): Linear(in_features=256, out_features=10, bias=True)
)

In [54]:
#如何验证这个网络呢
#输到克隆的这个模型
Y_clone=clone(X)
Y_clone==Y
#来自同一个类的实例，理论上参数和计算都是一样的，所以两次结果都是一样的

tensor([[True, True, True, True, True, True, True, True, True, True],
        [True, True, True, True, True, True, True, True, True, True]])

In [55]:
#至此 实现了模型到磁盘的存取，再读回来的一个操作

# 答疑

+ MLP的层数和每一层的单元数，这个每一层的单元数的设置，就有点像编码器，解码器那样，要逐渐减少，逐渐增多，inputsize->inputsize/2->inputsize/4。
+ 主要是靠经验
+ forward函数就是那个神经网络架构，根据paper里面的来的
+ 初始化主要是使得模型在一开始的时候每一层的输入输出的大小在一个尺度上，不要说越往后越大会越小，炸掉。
+ 创建好网络之后torch会按一定规则给参数初始化，这个是什么？查一下
+ 几乎找不出来不可导的函数，很多函数不是处处可导，但是我们都是数值运算，碰到不可导点概率很小，或者碰到了随便给个值，0，都是离散的点
+ 模型可以类似多元函数