# 5.3.延后初始化


:label:`sec_deferred_init`

到目前为止，我们忽略建立网络时考虑以下这些事情：

* 我们定义了网络架构，但没有指定输入维度。
* 我们添加层时没有指定前一层的输出维度。
* 我们在初始化参数时，甚至没有足够的信息来确定模型应该包含多少参数。

你可能会对我们的代码能运行感到惊讶。
毕竟，深度学习框架无法判断网络的输入维度是什么。
这里的诀窍是框架的**延后初始化建立网络**（defers initialization），
即直到数据第一次通过模型传递时，框架才会动态地推断出每个层的大小。

在以后，当使用卷积神经网络时，
由于输入维度（即图像的分辨率）将影响每个后续层的维数，
有了该技术将更加方便(动态推出每一层的大小)。
现在我们在编写代码时无须知道维度是什么就可以设置参数，
这种能力可以大大简化定义和修改模型的任务。
接下来，我们将更深入地研究初始化机制。

## 5.3.1.实例化网络

首先，让我们实例化一个多层感知机。

此时，因为输入维数是未知的，所以网络不可能知道输入层权重的维数。
因此，框架尚未初始化任何参数，我们通过尝试访问以下参数进行确认。

接下来让我们将数据通过网络，最终使框架初始化。


参考链接：https://blog.csdn.net/wangwangstone/article/details/89815661

nn模块介绍：https://blog.csdn.net/qq_38816432/article/details/119279907

nn.module模块官网说明：https://pytorch.org/docs/stable/generated/torch.nn.Module.html#torch.nn.Module

nn.sequential方法说明：https://pytorch.org/docs/stable/_modules/torch/nn/modules/container.html#Sequential

有序字典：按照字典中元素输入的顺序输出

nn.lazyLinear():https://pytorch.org/docs/stable/generated/torch.nn.LazyLinear.html?highlight=lazylinear#torch.nn.LazyLinear

y=XW+b

![image-2.png](attachment:image-2.png)

In [None]:
"""A sequential container.
    Modules will be added to it in the order they are passed in the
    constructor. Alternatively, an ``OrderedDict`` of modules can be
    passed in. The ``forward()`` method of ``Sequential`` accepts any
    input and forwards it to the first module it contains. It then
    "chains" outputs to inputs sequentially for each subsequent module,
    finally returning the output of the last module.

    The value a ``Sequential`` provides over manually calling a sequence
    of modules is that it allows treating the whole container as a
    single module, such that performing a transformation on the
    ``Sequential`` applies to each of the modules it stores (which are
    each a registered submodule of the ``Sequential``).

    What's the difference between a ``Sequential`` and a
    :class:`torch.nn.ModuleList`? A ``ModuleList`` is exactly what it
    sounds like--a list for storing ``Module`` s! On the other hand,
    the layers in a ``Sequential`` are connected in a cascading way.

    Example::

        # Using Sequential to create a small model. When `model` is run,
        # input will first be passed to `Conv2d(1,20,5)`. The output of
        # `Conv2d(1,20,5)` will be used as the input to the first
        # `ReLU`; the output of the first `ReLU` will become the input
        # for `Conv2d(20,64,5)`. Finally, the output of
        # `Conv2d(20,64,5)` will be used as input to the second `ReLU`
        model = nn.Sequential(
                  nn.Conv2d(1,20,5),
                  nn.ReLU(),
                  nn.Conv2d(20,64,5),
                  nn.ReLU()
                )

        # Using Sequential with OrderedDict. This is functionally the
        # same as the above code
        model = nn.Sequential(OrderedDict([
                  ('conv1', nn.Conv2d(1,20,5)),
                  ('relu1', nn.ReLU()),
                  ('conv2', nn.Conv2d(20,64,5)),
                  ('relu2', nn.ReLU())
                ]))
    """


In [None]:
#创建有序字典

model = nn.Sequential(OrderedDict([
                  ('conv1', nn.Conv2d(1,20,5)),
                  ('relu1', nn.ReLU()),
                  ('conv2', nn.Conv2d(20,64,5)),
                  ('relu2', nn.ReLU())
                ]))

In [None]:
@torch.no_grad()
def init_weights(m):
    print(m)
    if type(m) == nn.Linear:#m的类型是module类型并且是Linear class(线性类型)
        m.weight.fill_(1.0)
        print(m.weight)
net = nn.Sequential(nn.Linear(2, 2), nn.Linear(2, 2))#两个子模块，并且都是module的子模块
net.apply(init_weights)#作用所有两个子模块进行初始化，因为nn.Linear=type(m)

In [3]:
import torch
#Pytorch nn模块提供了创建和训练神经网络的各种工具，其专门为深度学习设计，核心的数据结构是Module。
from torch import nn#从torch里面导入nn模块

"""延后初始化"""

#定义了两层的神经网络
#nn.Sequential是一个Sequential容器，模块将按照构造函数中传递的顺序添加到模块中。那么前一个函数的输出作为后边一个函数的输入，依次进行
#nn.LazyLinear类似于nn.Linear()只是没有输入的维数，只需要输出。是一个线性神经网络，y=WX+b，其中W，b是按照均匀分布进行随机初始化赋值的
net = nn.Sequential(nn.LazyLinear(256), nn.ReLU(), nn.LazyLinear(10))
#print(type(net))
print(net) # 尚未初始化

X = torch.rand(2, 20)#生成[0,1]上的均匀分布
#数据第一次通过模型传递时，框架才会动态地推断出每个层的大小。
net(X)
print(net)
#print(net[0].weight.data)#输出第一层的权重的值，都是随机初始化
#print(net[0].bias.data[0])#输出第一层的偏执 
#warning:使用 torch.nn.LazyLinear，但是PyTorch的这个功能正处于开发阶段
#z注意：API或功能的变化随时可能发生。
#API应用程序编程接口

Sequential(
  (0): LazyLinear(in_features=0, out_features=256, bias=True)
  (1): ReLU()
  (2): LazyLinear(in_features=0, out_features=10, bias=True)
)
Sequential(
  (0): Linear(in_features=20, out_features=256, bias=True)
  (1): ReLU()
  (2): Linear(in_features=256, out_features=10, bias=True)
)


Object `torch.nn` not found.


一旦我们知道输入维数是20，框架可以通过代入值20来识别第一层权重矩阵的形状。
识别出第一层的形状后，框架处理第二层，依此类推，直到所有形状都已知为止。
注意，在这种情况下，只有第一层需要延迟初始化，但是框架仍是按顺序初始化的。
等到知道了所有的参数形状，框架就可以初始化参数。

## 5.3.2.小结

* 延后初始化使框架能够自动推断参数形状，使修改模型架构变得容易，避免了一些常见的错误。
* 我们可以通过模型传递数据，使框架最终初始化参数。

## 5.3.3.练习

1. 如果你指定了第一层的输入尺寸，但没有指定后续层的尺寸，会发生什么？是否立即进行初始化？
1. 如果指定了不匹配的维度会发生什么？
1. 如果输入具有不同的维度，你需要做什么？提示：查看参数绑定的相关内容。


In [7]:
#1,可以正常运行。第一层会立即初始化,但其他层同样是直到数据第一次通过模型传递才会初始化
net = nn.Sequential(
    nn.Linear(20, 256), nn.ReLU(),
    nn.LazyLinear(128), nn.ReLU(),
    nn.LazyLinear(10))
print(net)
X=torch.rand(2,20)
net(X)
print(net)
#print(net[2].weight.data)


Sequential(
  (0): Linear(in_features=20, out_features=256, bias=True)
  (1): ReLU()
  (2): LazyLinear(in_features=0, out_features=128, bias=True)
  (3): ReLU()
  (4): LazyLinear(in_features=0, out_features=10, bias=True)
)
Sequential(
  (0): Linear(in_features=20, out_features=256, bias=True)
  (1): ReLU()
  (2): Linear(in_features=256, out_features=128, bias=True)
  (3): ReLU()
  (4): Linear(in_features=128, out_features=10, bias=True)
)


In [6]:
#2: 会由于矩阵乘法的维度不匹配而报错

X = torch.rand(2, 10)
net(X)
#mat1 and mat2 shapes cannot be multiplied (2x10 and 20x256)

RuntimeError: mat1 and mat2 shapes cannot be multiplied (2x10 and 20x256)

## python基础：面向对象

实例属性：修饰对象的属性，定义在魔法方法__init__的里面，定义方法：self.XX。并且每一个对象拥有的单独的属性 访问方法：对象名.属性,不能用类进行访问

类属性：修饰类的属性， 直接在类的内部进行定义。访问方式:类和对象都可以访问，类名.属性，对象名.属性

实例方法：修饰对象的方法：定义在类的内部，直接通过**函数**进行定义，访问方式：对象名.方法

类方法：修饰类的方法：定义类的内部需要添加装饰器定义@classmethod通过函数定义，访问：类，对象都可以访问

__init__()是魔法方法，是特殊的实例方法，作用是初始化对象。


In [28]:
#定义类，创建对象和实例化
class 类名():
    姓名='zhang' #类属性。类属性就相当与全局变量，实例对象共有的属性。在实例属性中调用的方式：self.XX
    年龄=0
    def __init__(self):
        #在实例方法中定义的变量称实例属性
        self.实例属性=1
    def 实例方法(self):
        print(f'你的名字是{self.姓名}')
        print(f'你的年龄是{self.年龄}')
    def 实例方法1(self,x):
        return x
对象名=类名()#创建对象
对象名.实例方法()#实例化
print(对象名.实例方法1(2))#实例化
#调用类属性
print(对象名.姓名)
print(类名.姓名)
#调用实例属性
print(对象名.实例属性)
#print(类名.实例属性)#报错，无法通过类名访问实例属性

你的名字是zhang
你的年龄是0
2
zhang
zhang
1


In [2]:
#魔法方法__init__()
class 类名():#定义类
    姓名='z' #类属性。类属性就相当与全局变量，实例对象共有的属性。在实例属性中调用的方式：self.XX
    年龄=0
    def __init__(self,姓名,年龄):#是一种魔法方法，又称构造函数（特殊的实例方法）在创建对象时自动调用，不需要手动调用，__init__作用是初始化参数
        self.姓名=self.姓名#左边定义的self.XX是实例属性，实例属性为实例对象自己私有，右边的是类属性也就是上面的姓名。
        self.姓名1=姓名#左边定义的self.XX是实例属性，右边的是init魔法方法中传入的参数
        self.年龄=年龄
    def 实例方法(self):
        print(f'你的名字是{self.姓名}')
        print(f'你的名字是{self.姓名1}')
        print(f'你的年龄是{self.年龄}')
        
对象名=类名('zhang',2)#创建对象的方法
对象名.实例方法()#实例化
print(对象名.姓名)

你的名字是z
你的名字是zhang
你的年龄是2
z


In [2]:
#创建多个对象
class 类名():#定义类
    def __init__(self,姓名,年龄):
        self.姓名=姓名 #self.姓名是指对象名字，后面是输入的参数
        self.年龄=年龄
    def 实例方法(self):
        print(f'你的名字是{self.姓名}')
        print(f'你的年龄是{self.年龄}')

#一个类可以创建多个对象，但不同对象存储的地址不同。
#当对象1=类名时，那么self就是对象1，也就是对象1.姓名=张辰，对象1.Nianliang=22
#之后self=对象2，以此类推
对象名1=类名('z','22')#创建对象
对象名1.实例方法()#实例化

对象名2=类名('w','16')
对象名2.实例方法()

你的名字是z
你的年龄是22
你的名字是w
你的年龄是16


In [7]:
#继承：子类拥有父类当中所有属性和方法的使用权
#单继承
#在Python中，所有的类默认继承object类，object类是顶级类或者基类；其他的子类叫做派生类
class 小头爸爸(object):#父类
    age=12#类属性
    def __init__(self):
        #我们将在实例方法中定义的变量成为实例属性
        self.年龄=30#创建了实例属性
    def 实例方法(self):
        print(f'小头爸爸的年龄是{self.年龄}')
class 大头儿子(小头爸爸):#将小头儿子代替object就说明小头爸爸是父类，大头儿子是子类，子类拥有父类当中所有属性和方法的使用权
    pass #占位符，没有就会报错


对象名1=小头爸爸()#创建了父类对象
对象名1.实例方法()#父类中的实例方法，调用类中的实例方法的方法

对象名=大头儿子()#创建子类对象，self=对象名
对象名.实例方法()#这里是父类中的实例方法
print(对象名.age)
print(对象名.年龄)

小头爸爸的年龄是30
小头爸爸的年龄是30
12
30


In [22]:
#面向对象：多继承（子类继承了多个父类），当一个子类有多个父类的时候默认使用第一个父类同名的属性和方法
class 父类1(object):
    def __init__(self):
        self.姓名='z'
        self.年龄=12
        
    def 实例方法1(self):
        print(f'姓名{self.姓名}')

class 父类2(object):
    def __init__(self):
        self.年龄=11
        
    def 实例方法2(self):
        print(f'年龄{self.年龄}')

class 子类(父类1,父类2):
    pass
对象=子类()
对象.实例方法2()
对象.实例方法1()
#如果不在父类1中加入self.年龄=12，就会出错,因为在多继承的时候两个父类都有__init__方法，所以默认使用第一个的，那么需要加上self.年龄=12

年龄12
姓名z


In [26]:
#子类与父类拥有同名的属性和方法，默认使用子类的同名属性和方法
#子类->父类1，父类2（同级）->object
class 父类1(object):
    def __init__(self):
        self.姓名='zhang'
        
    def 实例方法(self):
        print(f'名字{sself.姓名}')

class 父类2(object):
    def __init__(self):
        self.年龄=11
        
    def 实例方法(self):
        print(f'姓名{self.年龄}')

class 子类(父类1,父类2):
    def __init__(self):
        self.时间=22
        
    def 实例方法(self):
        print(f'时间{self.时间}')
对象=子类()
对象.实例方法()


时间22


In [18]:
#当子类中有与父类相同的属性和方法的时候使用super()调用父类的属性和方法
#super()用来调用父类(基类)的方法，__init__()是类的构造方法，
#super().__init__() 就是调用父类的init方法， 同样可以使用super()去调用父类的其他方法。
#大宝->张辰->李小龙->叶问->object
class 叶问(object):
    def __init__(self):
        self.功夫='咏春'
        
    def 实例方法(self):
        print(f'使用{self.功夫}')

class 李小龙(叶问):
    def __init__(self):
        self.功夫='截拳道'
        
    def 实例方法(self):
        print(f'使用{self.功夫}')
        #下面说明利用superr()在李小龙中调用其父类叶问的实例方法
        #如果叶问上面还有父类，我们想继续调用其父类的实例方法可以继续在叶问的实例方法中加入super()函数
        super().__init__()
        super().实例方法()

class 张辰(李小龙):
    def __init__(self):
        self.功夫='健身'
        
    def 实例方法(self):
        self.__init__()
        print(f'使用{self.功夫}')
        
    def 叶问_实例方法(self):
        叶问.__init__(self)
        叶问.实例方法(self)
    def 李小龙_实例方法(self):
        李小龙.__init__(self)
        李小龙.实例方法(self)
    
    def 李小龙和叶问的实例方法(self):
        #下面说明利用superr()在张辰中调用其父类李小龙的实例方法
        super().__init__()
        super().实例方法()

对象=张辰()
对象.李小龙和叶问的实例方法()

使用截拳道
使用咏春


# 5.4自定义层 
**回顾：**
**层**
（1）接受一组输入，

（2）生成相应的输出，

（3）由一组可调整参数描述。

对于多层感知机而言，整个模型及其组成层都是这种架构：
整个模型接受原始输入（特征），生成输出（预测），
并包含一些参数（所有组成层的参数集合）。
同样，每个单独的层接收输入（由前一层提供），
生成输出（到下一层的输入），并且具有一组可调参数，
这些参数根据从下一层反向传播的信号进行更新。

5.1节学到的块，*块*（block）可以描述**单个层、由多个层组成的组件或整个模型本身。
使用块进行抽象的一个好处是可以将一些块组合成更大的组件，
这一过程通常是递归（一个过程或函数在其定义或说明中有直接或间接调用自身的一种方法，它通常把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解，递归策略只需少量的程序就可描述出解题过程所需要的多次重复计算，大大地减少了程序的代码量）。从编程的角度来看，块由类（class）表示。 它的任何子类都必须定义一个将其输入转换为输出的前向传播函数， 并且必须存储任何必需的参数。 注意，有些块不需要任何参数。 最后，为了计算梯度，块必须具有反向传播函数。 在定义我们自己的块时，由于自动微分（在 2.5节 中引入） 提供了一些后端实现，我们只需要考虑前向传播函数和必需的参数。**，如 下图所示所示。
通过定义代码来按需生成任意复杂度的块，
我们可以通过简洁的代码实现复杂的神经网络。
![image.png](attachment:image.png)
![多个层被组合成块，形成更大的模型]


**总结每个块所必需提供的基本功能**：

1，将输入数据作为其前向传播函数的参数

2，通过前向传播函数来生成输出。

3，计算输出关于输入的梯度，可以通过反向传播函数进行访问。通常这是自动发生的。

4，储存和访问前向传播计算所需的参数。

5，根据需要初始化模型参数。

深度学习成功背后的一个因素是神经网络的灵活性：
我们可以用创造性的方式组合不同的层，从而设计出适用于各种任务的架构。
例如，研究人员发明了专门用于处理图像、文本、序列数据和执行动态规划的层。
未来，你会遇到或要自己发明一个现在在深度学习框架中还不存在的层。
在这些情况下，你必须构建自定义层。在本节中，我们将向你展示如何构建。

层和块的构造类似，之间并且没有明显的界限,都是需要继承nn.module模块的类。从编程的角度来看，块由类（class）表示。 它的任何子类都必须定义一个将其输入转换为输出的前向传播函数， 并且必须存储任何必需的参数。 注意，有些块不需要任何参数。 最后，为了计算梯度，块必须具有反向传播函数。 在定义我们自己的块时，由于自动微分（在 2.5节 中引入） 提供了一些后端实现，我们只需要考虑前向传播函数和必需的参数。



## 5.4.1.不带参数的层



首先，我们(**构造一个没有任何参数的自定义层**)。
如果你还记得我们在 5.1节对块的介绍，
这应该看起来很眼熟。
下面的`CenteredLayer`类要从其输入中减去均值。
要构建它，我们只需继承基础层类并实现前向传播功能。

**基础类nn.module**:

nn.Module----pytorch 中的重要模块化接口

torch.nn 是专门为神经网络设计的模块化接口，nn构建于autgrad之上，可以用来定义和运行神经网络

nn.Module 是nn中重要的类，其包含网络各层的定义函数，即、__init__(self)，以及前向传递函数def forward(self,x)

**对于自己定义的网络，需要注意以下几点**

1）需要继承nn.Module类，并实现forward方法，只要在nn.Module的子类中定义forward方法，backward函数就会被自动实现（利用autograd机制）

2）一般把网络中可学习参数的层放在构造函数中__init__()，没有可学习参数的层如Relu层可以放在构造函数中，也可以不放在构造函数中（建议全部放在构造函数中进行定义）

**注意**：一个具有256个单元和ReLU激活函数称为一个全连接隐藏层， 然后是一个具有10个隐藏单元且不带激活函数称为全连接输出层

。


In [29]:
import torch
#包含 torch.nn 库中所有函数，同时包含大量损失和激活函数
import torch.nn.functional as F
from torch import nn
class CenteredLayer(nn.Module):#定义了一个Centeredlaye类它的父类是nn.Module
    #不定义__init__魔法方法后面运行也不会报错，那么为什么要定义呢？可能是为了让我们定义的层更加完整
    def __init__(self):
        #继承父类的__init__函数，可以省去重复编写代码的痛苦，没有就会报错
    
    def forward(self,x):#定义向前传播函数
        return x-x.mean()



In [31]:
#让我们向该层提供一些数据，验证它是否能按预期工作。
layer=CenteredLayer()#创建对象
layer(torch.FloatTensor([1,2,3,4,5]))#浮点型的张量，实例化对象
#没用layer.forward(torch.FloatTensor([1,2,3,4,5]))的原因:
#在继承了nn.Module类之后，模型训练时，不需要调用forward这个函数，只需要在实例化一个对象中传入对应的参数就可以自动调用 forward 函数。
   #原因：https://zhuanlan.zhihu.com/p/356059224


tensor([-2., -1.,  0.,  1.,  2.])

在pytorch在nn.Module中，使用了 __call__ 方法，而在__call__方法中调用了forward函数：

![image.png](attachment:image.png)

**call方法的介绍**

__call__() 方法可以用来将类实例变成为可调用对象,。看起来就是_call_让类在使用这个函数的时候跟普通函数一样，直接用“对象名（）”就可以，不需要再写”对象名.__call__()”，__call__实例方法不只可以调用forward，有的时候需要封装其他功能进去。这样使用主要是为了方便。

In [None]:

class CLanguage:
    # 定义__call__方法
    def __call__(self,name,add):#特殊的实例方法
        print("调用__call__()方法",name,add)

clangs = CLanguage()#创建对象
clangs("C语言中文网","http://c.biancheng.net")#实例化方法，一般调用实例方法需要clangs.__call__("C语言中文网","http://c.biancheng.net"),这个实例方法可以直接像函数一样调用

现在，我们可以[**将层作为组件合并到更复杂的模型中**]。就是将我们创建的层组合成块

In [60]:
net=nn.Sequential(nn.Linear(8,128),CenteredLayer())
#print(net[0].weight.data[0])#这里的权重的随机初始化的

tensor([-0.2233, -0.0843,  0.1847,  0.0977,  0.2494, -0.3333,  0.0099,  0.0663])


作为额外的健全性检查，我们可以在向该网络发送随机数据后，检查均值是否为0。
由于我们处理的是浮点数，因为存储精度的原因，我们仍然可能会看到一个非常小的非零数。
​

In [32]:
Y=net(torch.rand(4,8))
Y.mean()

NameError: name 'net' is not defined

## 5.4.2.[**带参数的层**]

以上我们知道了如何定义简单的层，下面我们继续定义具有参数的层，
这些参数可以通过训练进行调整。
我们可以使用内置函数来创建参数，这些函数提供一些基本的管理功能。
比如管理访问、初始化、共享、保存和加载模型参数。
这样做的好处之一是：我们不需要为每个自定义层编写自定义的序列化程序。

现在，让我们实现自定义版本的全连接层。
回想一下，该层需要两个参数，一个用于表示权重，另一个用于表示偏置项。
在此实现中，我们使用修正线性单元作为激活函数。
该层需要输入参数：`in_units`和`units`，分别表示输入数和输出数。

**我们定义了一个简单的层，该层相当于一个含有激活函数ReLU的隐藏层，并且还有层的输入数和输出数**


In [44]:
class MyLinear(nn.Module):# MyLinear的父类是nn.Modul
    def __init__(self,in_units,units):#in_units,units是两个输入参数
        super().__init__()#继承父类的__init__
        #没有nn.Parameter，linear.weight结果中就没有梯度无法进行反向传播计算
        self.weight=nn.Parameter(torch.randn(in_units,units))#生成了in_units*units的服从正态分布的随机数
        #偏置，但一般将偏置设为0,我们这里只是为了举个例子，并没有实际意义
        self.bias=nn.Parameter(torch.randn(units,))##生成了长度为units的服从正态分布的随机向量

    def forward(self,x):
        linear=torch.matmul(x,self.weight.data)+self.bias.data#去掉了梯度，如果直接是elf.weight那么包含了梯度
        return F.relu(linear)#调用激活函数，类似于带有激活函数RelLU的隐藏层
    
print(torch.randn(2,).shape)

torch.Size([2])


### nn.Parameters()函数的简单介绍
**首先可以把这个函数理解为类型转换函数，将一个不可训练的类型Tensor转换成可以训练的类型parameter并将这个parameter绑定到这个module里面(会对传入的参数torch.randn(in_units,units)自动加上梯度，那么就可以通过反向传播函数进行更新参数，实现训练目的)**(net.parameter()中就有这个绑定的parameter，所以在参数优化的时候可以进行优化的)，所以经过类型转换这个self.v变成了模型的一部分，成为了模型中根据训练可以改动的参数了。使用这个函数的目的也是想让某些变量在学习的过程中不断的修改其值以达到最优化。

作者：VanJordan
链接：https://www.jianshu.com/p/d8b77cc02410
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

接下来，我们实例化`MyLinear`类并访问其模型参数

In [45]:
linear=MyLinear(5,3)#类中的self看作linear,in_units=5,unites=3
linear.weight#访问实例属性

Parameter containing:
tensor([[-0.5228, -0.5033, -0.4612],
        [ 0.2245, -0.8379, -0.6778],
        [ 0.3348,  1.5999, -2.0881],
        [ 1.1930, -1.1433,  0.6474],
        [ 1.4391,  2.6016, -0.3857]], requires_grad=True)

我们可以[**使用自定义层直接执行前向传播计算**]。


In [65]:
linear(torch.rand(2,5))

tensor([[0.0000, 0.0000, 0.0000],
        [0.0000, 0.9597, 0.6545]])

我们还可以(**使用自定义层构建模型**)，就像使用内置的全连接层(nn.Linear)一样使用自定义层。


In [68]:
net=nn.Sequential(MyLinear(64,8),MyLinear(8,1))
net(torch.rand(2,64))

tensor([[8.1854],
        [9.9163]])

## 小结

* 我们可以通过基本层类设计自定义层。这允许我们定义灵活的新层，其行为与深度学习框架中的任何现有层不同。
* 在自定义层定义完成后，我们就可以在任意环境和网络架构中调用该自定义层。
* 层可以有局部参数，这些参数可以通过内置函数创建。

## 练习

1. 设计一个接受输入并计算张量降维的层，它返回$y_k = \sum_{i, j} W_{ijk} x_i x_j$。
1. 设计一个返回输入数据的傅立叶系数前半部分的层。

In [5]:
import torch
from torch import nn
class DimensionReduction(nn.Module):
    def __init__(self, i, j, k):
        super(DimensionReduction, self).__init__()
        self.net = nn.Conv2d(in_channels=1, out_channels=k, kernel_size=(i, j))

    def forward(self, X, Y):
        # 先用X和Y做矩阵乘法构成i*j矩阵，
        # 再用卷积层快捷地实现计算功能
        matrix = torch.bmm(x, torch.transpose(y, 1, 2))
        matrix = matrix.unsqueeze(1)  # B*1*i*j
        return self.net(matrix)  # B*5*i*j


myNet1 = DimensionReduction(2, 3, 5)
x = torch.ones(1, 2, 1)  # B*i*1
y = torch.rand(1, 3, 1)  # B*j*1
print(myNet1(x, y))
#题2
class HalfFFT(nn.Module):
    def __init__(self):
        super(HalfFFT, self).__init__()

    def forward(self, X):
        """
        Compute FFT and return half of it
        :param X: size = B*L
        :return: size = B*round(L/2)
        """
        half_len = round(X.shape[1]/2)
        X_f = torch.fft.fft(X)
        return X_f[:, :half_len]


myNet2 = HalfFFT()
print(myNet2(torch.rand(2, 3)))

tensor([[[[ 0.8282]],

         [[ 0.1740]],

         [[-0.2050]],

         [[ 0.0250]],

         [[-0.2783]]]], grad_fn=<ConvolutionBackward0>)
tensor([[ 0.2017+0.0000j, -0.0765+0.0977j],
        [ 1.9076+0.0000j, -0.1396+0.4170j]])
