In [5]:
%config ZMQInteractiveShell.ast_node_interactivity = "all"
%pprint

Pretty printing has been turned OFF


## 继承MODULE类来构造模型

`Module`是nn模块中提供的一个模型构建类，也是所有神经网络的基类

模板：
```
class ModelName(nn.Module):
    def __init__(self):
        super(ModelName, self).__init__():
        self.layer = nn.Sequential(
            nn.Linear(784, 256),
            nn.ReLU(),
            nn.Dropout(0.2),
            nn.Linear(256, 10)
        )
        
    def forward(self, x):
        return self.layer(x)
```
定义模型
```
net = ModelName()
# 传入参数
net(x)
```

在实例化MLP---> net后，参数会得到初始化（pytorch会根据不同的层来初始化），传入x进行向前传播，此时`net(x)`会调用`MLP`继承自`Module`类的`__call__`函数，这个函数将调用`MLP`类定义的`forward`函数来完成向前传播

## MODULE的子类

`Module`类是一个通用的部件，此外，pytorch还实现了继承自`Module`的可以方便构建模型的类：像`Sequential`/`ModuleList`/`ModuleDict`

### Sequential

可以用来简单串联各层的计算
- 可以接受一个子模块的有序字典(OrderedDict)
- 也可以接受一系列子模块（像nn.Linear等）

#### OrderedDict

它也是一个字典，但是是有序的

创建方式：
- 使用OrderedDict([(key1, value1), (key2, value2), ...])
- 使用OrderedDict({key1: value1, key2: value2})
- 先定义一个OrderedDict，再进行赋值
    - a = OrderedDict()
    - a["b"] = 2

In [6]:
import torch
import torch.nn as nn
from collections import OrderedDict

In [7]:
# 使用[(key, value), ([key, value]), ...]
a = OrderedDict([("a", [1]), ("b", 2)])
a

OrderedDict([('a', [1]), ('b', 2)])

In [8]:
a = OrderedDict({
    "a": [1], 
    "b": 2},
)
a

OrderedDict([('a', [1]), ('b', 2)])

In [9]:
a = OrderedDict()
a["a"] = [1]
a["b"] = 2
a

OrderedDict([('a', [1]), ('b', 2)])

#### self._modules属性

In [10]:
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.layer = nn.Sequential(
            nn.Linear(784, 256),
            nn.ReLU(),
            nn.Linear(256, 10),
        )
        
    def forward(self, x):
        return self.layer(x)
    
    def print_module(self):
        print(self._modules)

In [11]:
net = Net()
print(net)
net.print_module()

Net(
  (layer): Sequential(
    (0): Linear(in_features=784, out_features=256, bias=True)
    (1): ReLU()
    (2): Linear(in_features=256, out_features=10, bias=True)
  )
)
OrderedDict([('layer', Sequential(
  (0): Linear(in_features=784, out_features=256, bias=True)
  (1): ReLU()
  (2): Linear(in_features=256, out_features=10, bias=True)
))])


可以看见`self._modules`返回的是一个有序字典

#### add_module

可以使用`add_module`添加Module

In [12]:
net.add_module("layer2", nn.Sequential(
    nn.Dropout(0.2),
    nn.Linear(10, 10),
))

print(net)

Net(
  (layer): Sequential(
    (0): Linear(in_features=784, out_features=256, bias=True)
    (1): ReLU()
    (2): Linear(in_features=256, out_features=10, bias=True)
  )
  (layer2): Sequential(
    (0): Dropout(p=0.2, inplace=False)
    (1): Linear(in_features=10, out_features=10, bias=True)
  )
)


In [13]:
net.add_module("relu", nn.ReLU())
print(net)

Net(
  (layer): Sequential(
    (0): Linear(in_features=784, out_features=256, bias=True)
    (1): ReLU()
    (2): Linear(in_features=256, out_features=10, bias=True)
  )
  (layer2): Sequential(
    (0): Dropout(p=0.2, inplace=False)
    (1): Linear(in_features=10, out_features=10, bias=True)
  )
  (relu): ReLU()
)


#### Sequential原理

- 可以接受一个有序的字典
- 也可以传入一些Module

In [16]:
# 自定义一个模拟Sequential行为的类，其也是基于Module的
class MySequential(nn.Module):
    from collections import OrderedDict
    # OrderedDict创建一个有序的字典
    # args传进后会以元组表示，*args表示将元组解压
    def __init__(self, *args):
        super(MySequential, self).__init__()
        # 如果是一个OrderedDict
        if len(args) == 1 and isinstance(*args, OrderedDict):
            for key, value in args[0].items():
                self.add_module(key, value)
        else:
            # 传入的一些Module
            for idx, module in enumerate(args):
                # idx要传入字符串
                self.add_module(str(idx), module)
                
    def forward(self, input):
        # 使用self._modules返回一个有序的字典，使得成员能够按照顺序遍历
        for module in self._modules.values():
            input = module(input)
        return input

In [17]:
# 传入的是moduel
net = MySequential(
    nn.Linear(784, 256),
    nn.ReLU(),
    nn.Linear(256, 10),
)

print(net)

MySequential(
  (0): Linear(in_features=784, out_features=256, bias=True)
  (1): ReLU()
  (2): Linear(in_features=256, out_features=10, bias=True)
)


In [18]:
# 前向传播
x = torch.rand(256, 784)
net(x)
net(x).shape

tensor([[ 0.0567,  0.0820, -0.0574,  ...,  0.2821,  0.0181, -0.3027],
        [ 0.1462,  0.1129, -0.0375,  ...,  0.3956,  0.0942, -0.0992],
        [ 0.1322, -0.0088, -0.0306,  ...,  0.4194,  0.1091, -0.2038],
        ...,
        [ 0.1811,  0.0881, -0.0141,  ...,  0.3552,  0.1496, -0.2456],
        [ 0.1376,  0.1857,  0.0965,  ...,  0.3348,  0.1213, -0.1311],
        [ 0.2055,  0.0972, -0.0441,  ...,  0.3078,  0.1898, -0.2231]],
       grad_fn=<AddmmBackward>)

torch.Size([256, 10])

In [19]:
# 传入的是OrderedDict
net = MySequential(
    OrderedDict({
        "linear1": nn.Linear(784, 256),
        "relu": nn.ReLU(),
        "linear2": nn.Linear(256, 10)
    })
)

# 向前传播
x = torch.rand(256, 784)
net(x)
net(x).shape

tensor([[-0.1651,  0.0609,  0.1220,  ..., -0.0687,  0.0242,  0.0490],
        [-0.1672, -0.0228,  0.0726,  ..., -0.1520, -0.0485,  0.1081],
        [-0.1326,  0.0356,  0.2017,  ..., -0.2820,  0.0073,  0.1017],
        ...,
        [-0.1498,  0.1202,  0.0870,  ..., -0.2101,  0.0692,  0.1829],
        [-0.2243, -0.0015,  0.1774,  ..., -0.1841, -0.0783,  0.0442],
        [-0.2135,  0.1082, -0.0158,  ..., -0.1506,  0.0029,  0.1712]],
       grad_fn=<AddmmBackward>)

torch.Size([256, 10])

### ModuleList

`ModuleList`接受一个子模块的列表作为输入
- 可以像list一样进行append和extend操作

In [20]:
net = nn.ModuleList([nn.Linear(784, 256), nn.ReLU()])
_ = net.append(nn.Linear(256, 10))
print(net)
print(net[-1])

ModuleList(
  (0): Linear(in_features=784, out_features=256, bias=True)
  (1): ReLU()
  (2): Linear(in_features=256, out_features=10, bias=True)
)
Linear(in_features=256, out_features=10, bias=True)


### ModuleDict

ModuleDict可以接受一个子模块字典作为输入，也可以像字典一样进行访问操作

In [21]:
net = nn.ModuleDict({
    "linear": nn.Linear(784, 256),
    "act": nn.ReLU(),
})

net["output"] = nn.Linear(256, 10)
print(net)

ModuleDict(
  (act): ReLU()
  (linear): Linear(in_features=784, out_features=256, bias=True)
  (output): Linear(in_features=256, out_features=10, bias=True)
)


## 构建复杂的模型

直接继承`Module`可以极大扩展模型构建的灵活性，也可以构建其他复杂的网络
- 可以创建训练中不被迭代的参数，即常数参数
- 使用`Tensor`的函数和python的控制流，并多次调用相同的层
- 复用层（参数共享）

In [22]:
class FancyMLP(nn.Module):
    def __init__(self, **kwargs):
        super(FancyMLP, self).__init__(**kwargs)
        # 不可训练的参数（即常数参数）
        self.rand_weight = torch.rand(20, 20, requires_grad=False)
        self.linear = nn.Linear(20, 20)
        
    def forward(self, x):
        x = self.linear(x)
        # 使用创建的常数参数和nn.functional的relu函数和mm函数
        x = nn.functional.relu(torch.mm(x, self.rand_weight.data) + 1)
        
        # 复用全连接层，等价于两个全连接层是参数共享的
        x = self.linear(x)
        # 控制流
        while x.norm().item() > 1:
            x /= 2
        if x.norm().item() < 0.8:
            x *= 10
        return x.sum()

In [23]:
x = torch.rand(2, 20)
net = FancyMLP()
print(net)
net(x)

FancyMLP(
  (linear): Linear(in_features=20, out_features=20, bias=True)
)


tensor(-2.0512, grad_fn=<SumBackward0>)

`FancyMLP`和`Sequential`类都是`Module`类的子类，所以我们可以嵌套使用它们

In [24]:
class NestMLP(nn.Module):
    def __init__(self, **kwargs):
        super(NestMLP, self).__init__(**kwargs)
        self.net = nn.Sequential(nn.Linear(40, 30), nn.ReLU())
        
    def forward(self, x):
        return self.net(x)
    
net = nn.Sequential(NestMLP(), nn.Linear(30, 20), FancyMLP())
# net = nn.ModuleList([NestMLP(), nn.Linear(30, 20), FancyMLP()]) 
# 使用ModuleList和ModuleDict似乎都不行

# 初始化
x = torch.rand(2, 40)
print(net)
net(x)

Sequential(
  (0): NestMLP(
    (net): Sequential(
      (0): Linear(in_features=40, out_features=30, bias=True)
      (1): ReLU()
    )
  )
  (1): Linear(in_features=30, out_features=20, bias=True)
  (2): FancyMLP(
    (linear): Linear(in_features=20, out_features=20, bias=True)
  )
)


tensor(0.4770, grad_fn=<SumBackward0>)

小结:
- 可以继承`Module`来构建模型
- `Sequential`/`ModuleList`/`ModuleDict`类都继承`Module`类
- 虽然`Sequential`等类可以使模型构建更加简单,但是继承Module类可以极大地扩展模型构建的灵活性

## 模型参数访问/初始化和共享

In [25]:
# 默认来说pytorch已经根据不同的层来合理的初始化
net = nn.Sequential()
net.add_module("linear1", nn.Linear(4, 3))
net.add_module("relu", nn.ReLU())
net.add_module("linear2", nn.Linear(3, 1))

print(net)
x = torch.rand(2, 4)
y = net(x).sum()
print(y)

Sequential(
  (linear1): Linear(in_features=4, out_features=3, bias=True)
  (relu): ReLU()
  (linear2): Linear(in_features=3, out_features=1, bias=True)
)
tensor(0.5399, grad_fn=<SumBackward0>)


### 访问模型参数

可以使用`Module`类中的`parameters()`和`named_parameters()`来访问模型的参数
- 后者的返回参数`Tensor`的同时,也会返回它的名字

In [26]:
# 本质上来说parameters和named_parameters都是生成器
print(type(net.named_parameters()))
print(type(net.parameters()))

for name, params in net.named_parameters():
    print(name)
    print(params)

<class 'generator'>
<class 'generator'>
linear1.weight
Parameter containing:
tensor([[ 0.4247, -0.3197,  0.3450, -0.1388],
        [ 0.4142,  0.2788,  0.0364,  0.0051],
        [ 0.3108,  0.0935,  0.2756,  0.2643]], requires_grad=True)
linear1.bias
Parameter containing:
tensor([0.0068, 0.2701, 0.0269], requires_grad=True)
linear2.weight
Parameter containing:
tensor([[-0.3602, -0.4727,  0.5209]], requires_grad=True)
linear2.bias
Parameter containing:
tensor([0.4158], requires_grad=True)


使用`named_parameters`的时候,有名字的用名字,没有名字的就是用层数+weight/bias(例如1.weight)来命名

In [27]:
# 使用下标来访问单层的参数
for name, param in net[0].named_parameters():
    print(name)
    print(param)
    print(type(param))

weight
Parameter containing:
tensor([[ 0.4247, -0.3197,  0.3450, -0.1388],
        [ 0.4142,  0.2788,  0.0364,  0.0051],
        [ 0.3108,  0.0935,  0.2756,  0.2643]], requires_grad=True)
<class 'torch.nn.parameter.Parameter'>
bias
Parameter containing:
tensor([0.0068, 0.2701, 0.0269], requires_grad=True)
<class 'torch.nn.parameter.Parameter'>


而单层的时候,名字就不加层数前缀了
- 这里的`param`属于'torch.nn.parameter.Parameter',是tensor的一个子类

In [28]:
# 可以通过nn.Parameters来自动添加到模型的列表
class MyModel(nn.Module):
    def __init__(self, **kwargs):
        super(MyModel, self).__init__(**kwargs)
        self.weight1 = nn.Parameter(torch.rand(10, 10))
        self.weihgt2 = torch.rand(10, 10)
        
    def forward(self, x):
        pass
    
    
n = MyModel()
print(n)
for name, param in n.named_parameters():
    print(name)
    print(param)

MyModel()
weight1
Parameter containing:
tensor([[0.5875, 0.9530, 0.5149, 0.1770, 0.9609, 0.0769, 0.9802, 0.8526, 0.9440,
         0.5968],
        [0.9072, 0.1953, 0.9882, 0.9008, 0.8533, 0.1344, 0.3937, 0.0173, 0.5558,
         0.2318],
        [0.3763, 0.3459, 0.4883, 0.5732, 0.6462, 0.6204, 0.7309, 0.1122, 0.8888,
         0.6764],
        [0.9210, 0.7918, 0.6728, 0.5531, 0.3551, 0.6973, 0.0889, 0.3689, 0.1221,
         0.2333],
        [0.5374, 0.0720, 0.1262, 0.4361, 0.2105, 0.7629, 0.8946, 0.5489, 0.1397,
         0.6722],
        [0.7122, 0.5171, 0.6399, 0.7598, 0.0164, 0.1319, 0.0181, 0.1996, 0.2620,
         0.2098],
        [0.0432, 0.9111, 0.0874, 0.8975, 0.5694, 0.1937, 0.3560, 0.0923, 0.4043,
         0.2997],
        [0.6806, 0.8412, 0.6316, 0.6189, 0.3345, 0.0320, 0.1041, 0.9006, 0.8425,
         0.9322],
        [0.4916, 0.9815, 0.1425, 0.5754, 0.5289, 0.4450, 0.2661, 0.6241, 0.2262,
         0.0359],
        [0.7182, 0.1769, 0.8166, 0.3817, 0.9852, 0.9972, 0.2121, 0.58

虽然上面的模型没有定义层数,但是参数还是自动添加到模型的参数列表中
- 而weight2不是`Parameter`,所以没有被添加到模型参数列表中
- 因为`Parameter`是`Tensor`,所以`Tensor`拥有的属性它都有,比如可以根据`data`访问参数数值,也可以用`grad`来访问梯度

In [29]:
print(net)
weight0 = list(net[0].parameters())[0]
print(weight0)
print(weight0.data)
print(weight0.grad)
print(weight0.grad_fn)

y.backward()
print(weight0.grad)
# 因为是叶子节点,所以没有grad_fn
print(weight0.grad_fn)

Sequential(
  (linear1): Linear(in_features=4, out_features=3, bias=True)
  (relu): ReLU()
  (linear2): Linear(in_features=3, out_features=1, bias=True)
)
Parameter containing:
tensor([[ 0.4247, -0.3197,  0.3450, -0.1388],
        [ 0.4142,  0.2788,  0.0364,  0.0051],
        [ 0.3108,  0.0935,  0.2756,  0.2643]], requires_grad=True)
tensor([[ 0.4247, -0.3197,  0.3450, -0.1388],
        [ 0.4142,  0.2788,  0.0364,  0.0051],
        [ 0.3108,  0.0935,  0.2756,  0.2643]])
None
None
tensor([[-0.2958, -0.4023, -0.4977, -0.1075],
        [-0.3882, -0.5280, -0.6533, -0.1411],
        [ 0.4277,  0.5818,  0.7198,  0.1554]])
None


### 初始化模型参数

Pytorch中的`nn.Module`模块参数都采取了较为合理的初始化策略
- 也可以使用torch.nn.init提供的初始化参数的方式来初始化模型

In [30]:
import torch.nn.init as init

In [31]:
for name, param in net[0].named_parameters():
    if "weight" in name:
        # 权重初始化为正态分布
        init.normal_(param, 0, 0.01)
    else:
        # 偏置项初始化为0
        init.constant_(param, 0)
    print(name)
    print(param)

Parameter containing:
tensor([[-0.0008, -0.0094,  0.0033,  0.0004],
        [ 0.0050,  0.0203, -0.0207, -0.0129],
        [-0.0077,  0.0118,  0.0036,  0.0021]], requires_grad=True)

weight
Parameter containing:
tensor([[-0.0008, -0.0094,  0.0033,  0.0004],
        [ 0.0050,  0.0203, -0.0207, -0.0129],
        [-0.0077,  0.0118,  0.0036,  0.0021]], requires_grad=True)


Parameter containing:
tensor([0., 0., 0.], requires_grad=True)

bias
Parameter containing:
tensor([0., 0., 0.], requires_grad=True)


如果只想对某个特定的参数进行初始化,可以使用`Parameter`类中`initialize`函数,它和`Block`类提供的`initialize`函数的使用方法一样

### 自定义初始化方法

有时我们需要初始化的方法在`init`中没有提供,可以实现一个初始化的方法

#### pytorch中实现初始化的方法

In [32]:
def normal_(tensor, mean=0, std=1):
    # 拿掉梯度
    with torch.no_grad:
        # 使用inplace的方式来进行初始化,这个过程也不记录梯度
        return tensor.normal_(mean, std)

自定义一个初始化方法:
- 有一半权重的概率初始化为0
- 有另一半的概率初始化为[-10, -5]和[5, 10]两个区间里均匀分布的随机数

In [33]:
def init_weight_(tensor):
    # 不记录梯度
    with torch.no_grad():
        # 以in_place的方式初始化张量为uniform的形式
        tensor.uniform_(-10, 10)
        # 将(-5, 5)的向量变成0,等号右边的部分是0/1组成的矩阵
        tensor *= (tensor.abs() >= 5).float()
        
        
for name, para in net[0].named_parameters():
    if "weight" in name:
        init_weight_(param)
        print(name, param.data)

weight tensor([6.7310, 0.0000, 6.2424])


In [34]:
# 通过`data`改变模型参数值同时不会影响梯度
for name, param in net.named_parameters():
    if "bias" in name:
        param.data += 1
        print(name, param.data)

linear1.bias tensor([7.7310, 1.0000, 7.2424])
linear2.bias tensor([1.4158])


### 共享模型参数

如果希望在多个层之间共享模型参苏
- 可以在`Module`类中forward函数中多次调用同一个层
- 如果我们传入的`Sequential`模块是同一个`Module`实例,那参数也是共享的

In [35]:
# 使用bias为False来去掉偏置项,不过在我们定义模型的时候,偏置项还是要保留的,不然模型能力会大大降低
linear = nn.Linear(1, 1, bias=False)
# 传入的是同一个实例时,参数也是共享的
net = nn.Sequential(linear, linear)
# 模型中存储了两层,参数只打印了一层
print(net)

# 可以看到只是打印了一个tensor,这是因为第1层的权重也是共享的
for name, param in net.named_parameters():
    _ = init.constant_(param, val=3)
    print(name, param.data)

Sequential(
  (0): Linear(in_features=1, out_features=1, bias=False)
  (1): Linear(in_features=1, out_features=1, bias=False)
)
0.weight tensor([[3.]])


在内存中,上述模型中的两个线性层其实时一个对象

In [36]:
print(id(net[0]) == id(net[1]))
print(id(net[0].weight) == id(net[1].weight))

True
True


因为模型参数包含了梯度,所以在反向传播计算的时候,这些共享参数的梯度是累加的

In [37]:
x = torch.ones(1, 1)
y = net(x).sum()

print(y)
# 反向传播
y.backward()
# 单次的梯度应该是3,但是因为梯度累加的作用,两个梯度变成6
print(net[0].weight.grad)

tensor(9., grad_fn=<SumBackward0>)
tensor([[6.]])


小结:
- 有多种方法来访问/初始化和共享模型的参数,也可以自定义初始化的方法

## 自定义层

### 不含参数模型的自定义层

In [38]:
class CenteredLayer(nn.Module):
    def __init__(self, **kwargs):
        super(CenteredLayer, self).__init__(**kwargs)
        
    def forward(self, x):
        return x - x.mean()

In [39]:
layer = CenteredLayer()
layer(torch.tensor([1, 2, 3, 4, 5], dtype=torch.float))

tensor([-2., -1.,  0.,  1.,  2.])

In [40]:
# 使用上述的不含参数模型的自定义层来定义更加复杂的模型
net = nn.Sequential(nn.Linear(8, 128), CenteredLayer())

# Linear层后变成4*128,然后自定义层中心化4*128
y = net(torch.rand(4, 8))
y.mean().item()

0.0

### 含有参数模型的自定义层

`Parameter`类是`Tensor`的子类,如果一个`Tensor`是`Parameter`,它就会被自动添加模型的参数列表中
- 所以在自定义含有参数模型的层时,我们应该将参数定义成`Parameter`
- 其实也可以使用`ParameterList`和`ParameterDict`分别定义参数的列表和字典

#### ParameterList

接受一个`Parameter`实例的列表作为输入得到参数列表,使用的时候可以使用索引来访问这个参数
- 像列表一样,可以使用append/extend等方法来新增参数

In [41]:
class MyListDense(nn.Module):
    def __init__(self):
        super(MyListDense, self).__init__()
        # 自定义参数
        # 如果直接用nn.Parameter来定义,打印的时候其实是不会有显示的
        self.params = nn.ParameterList([nn.Parameter(torch.randn(4, 4)) 
                                       for i in range(3)])
        self.params.append(nn.Parameter(torch.randn(4, 1)))
        
    def forward(self, x):
        # 在前向传播中,使用输入和自定义参数来进行计算
        for i in range(len(self.params)):
            x = torch.mm(x, self.params[i])
        return x
    
    
net = MyListDense()
print(net)

MyListDense(
  (params): ParameterList(
      (0): Parameter containing: [torch.FloatTensor of size 4x4]
      (1): Parameter containing: [torch.FloatTensor of size 4x4]
      (2): Parameter containing: [torch.FloatTensor of size 4x4]
      (3): Parameter containing: [torch.FloatTensor of size 4x1]
  )
)


#### ParameterDict

`ParameterDict`接收一个`Parameter`实例的字典作为输入然后得到一个参数字典
- 可以向字典一样使用,像使用`update()`新增参数, 使用`keys()`返回所有键值,使用`items()`来返回所有的键值对


In [42]:
class MyDictDense(nn.Module):
    def __init__(self):
        super(MyDictDense, self).__init__()
        self.params = nn.ParameterDict({
            "linear1": nn.Parameter(torch.randn(4, 4)),
            "linear2": nn.Parameter(torch.randn(4, 1)),
        })
        
        self.params.update({
            "linear3": nn.Parameter(torch.randn(4, 2))
        })
        
    def forward(self, x, choice="linear1"):
        return torch.mm(x, self.params[choice])
    
net = MyDictDense()
print(net)

MyDictDense(
  (params): ParameterDict(
      (linear1): Parameter containing: [torch.FloatTensor of size 4x4]
      (linear2): Parameter containing: [torch.FloatTensor of size 4x1]
      (linear3): Parameter containing: [torch.FloatTensor of size 4x2]
  )
)


In [43]:
x = torch.rand(1, 4)
net(x, "linear1")
net(x, "linear2")
net(x, "linear3")

tensor([[ 0.0152,  0.5102, -0.2263,  0.3058]], grad_fn=<MmBackward>)

tensor([[-0.7763]], grad_fn=<MmBackward>)

tensor([[-0.1749, -0.4352]], grad_fn=<MmBackward>)

#### 使用自定义层来构建模型

In [44]:
net = nn.Sequential(
    MyDictDense(),
    MyListDense(),
)

print(net)
print(net(x))

Sequential(
  (0): MyDictDense(
    (params): ParameterDict(
        (linear1): Parameter containing: [torch.FloatTensor of size 4x4]
        (linear2): Parameter containing: [torch.FloatTensor of size 4x1]
        (linear3): Parameter containing: [torch.FloatTensor of size 4x2]
    )
  )
  (1): MyListDense(
    (params): ParameterList(
        (0): Parameter containing: [torch.FloatTensor of size 4x4]
        (1): Parameter containing: [torch.FloatTensor of size 4x4]
        (2): Parameter containing: [torch.FloatTensor of size 4x4]
        (3): Parameter containing: [torch.FloatTensor of size 4x1]
    )
  )
)
tensor([[-1.4527]], grad_fn=<MmBackward>)


## 模型读取和存储

可以直接使用`save`和`load`函数分别存储和读取`Tensor`
- `save`是使用了python的pickle对实例对象进行序列化,然后将序列化对象保存到disk中
- 使用`save`可以保存各种对象(模型/张量/字典)
- `load`使用pickle的unpickle工具将pickle的对象文件反序列化为内存

命名时建议命名成`.pt`格式的文件

### tensor/tensor列表/tensor字典

In [45]:
import os
if not os.path.exists("./file"):
    os.mkdir("./file")
    
x = torch.ones(3)
# 保存文件
torch.save(x, "./file/x.pt")

In [46]:
# 将数据从文件中读回到内存中
x2 = torch.load("./file/x.pt")
x2

tensor([1., 1., 1.])

In [47]:
# 将tensor列表存储和读取
y = torch.zeros(4)
torch.save([x, y], "./file/xy.pt")
xy_list = torch.load("./file/xy.pt")
xy_list

[tensor([1., 1., 1.]), tensor([0., 0., 0., 0.])]

In [48]:
# 存储tensor字典
torch.save({"x": x, "y": y}, "./file/xy_dict.pt")
xy = torch.load("./file/xy_dict.pt")
xy

{'x': tensor([1., 1., 1.]), 'y': tensor([0., 0., 0., 0.])}

### 读写模型

`state_dict`是一个参数名称映射到模型参数的字典对象

In [49]:
class MLP(nn.Module):
    def __init__(self):
        super(MLP, self).__init__()
        self.layer = nn.Sequential(
            nn.Linear(4, 3),
            nn.ReLU(),
            nn.Linear(3, 1)
        )
        
    def forward(self, x):
        return self.layer(x)

In [50]:
net = MLP()
# 使用state_dict会返回一个参数的有序字典
net.state_dict()

OrderedDict([('layer.0.weight', tensor([[-0.4958,  0.1084, -0.4380, -0.4480],
        [-0.2386,  0.0387,  0.3148, -0.3404],
        [-0.2728,  0.2810,  0.0195, -0.1575]])), ('layer.0.bias', tensor([-0.2769, -0.3658, -0.4286])), ('layer.2.weight', tensor([[-0.3411, -0.4762,  0.0986]])), ('layer.2.bias', tensor([0.2685]))])

不过只有具有可学习参数的层(像卷积层/线性层等)才有`state_dict`
- 优化器(optim)中也有一个`state_dict`,它包含了优化器的状态和它所使用的超参数信息

In [51]:
optimizer = torch.optim.SGD(net.parameters(), lr=0.01, momentum=0.9)
optimizer.state_dict()

{'state': {}, 'param_groups': [{'lr': 0.01, 'momentum': 0.9, 'dampening': 0, 'weight_decay': 0, 'nesterov': False, 'params': [0, 1, 2, 3]}]}

### 保存和加载模型

pytorch中保存和加载模型的常见方式:
- 仅仅保存和加载模型参数(state_dict)
- 保存和加载整个模型

#### 使用state_dict保存参数

模板:
```
# 保存
# 使用.pt或者.pth文件格式命名
torch.save(model.state_dict(), path)


# 加载
# 先定义一个模型
model = ModelName(*args, **kwargs)
model.load_state_dict(torch.load(path))
```

#### 保存和加载整个模型

模板:
```
# 保存
torch.save(model, path)


# 加载
model = torch.load(path)
```

## GPU计算

### gpu信息

In [52]:
# 查看显卡信息
!nvidia-smi

Fri Oct  9 12:37:02 2020       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.82       Driver Version: 440.82       CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|   0  GeForce MX250       Off  | 00000000:01:00.0 Off |                  N/A |
| N/A   57C    P0    N/A /  N/A |    159MiB /  2002MiB |      9%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage    

In [53]:
# 动态显示显卡信息(terminal中运行比较好)
# watch -n 10 nvidia-smi

In [54]:
# 查看有那些进程占用gpu
!fuser /dev/nvidia*

# 可以使用kill -9 pid强制杀死进程

/dev/nvidia0:         7343
/dev/nvidiactl:       7343
/dev/nvidia-uvm:      7343


不过由于Pytorch有缓存分配器,所以`nvidia-smi`的显存显示可能不太准

In [64]:
# 查看tensor的占用情况
torch.cuda.memory_allocated()
torch.cuda.max_memory_allocated()

1024

1024

In [65]:
# 查看缓存分配器的占用情况
torch.cuda.memory_reserved()
torch.cuda.max_memory_reserved()

2097152

2097152

In [57]:
# 清除不同的gpu缓存,但是正在占用gpu的tensor无法释放
torch.cuda.empty_cache()

In [58]:
# 看gpu是否可用
torch.cuda.is_available()

True

In [59]:
# 查看gpu数量
torch.cuda.device_count()

1

In [60]:
# 查看gpu索引号
torch.cuda.current_device()

0

In [61]:
# 根据索引号看gpu的名字
torch.cuda.get_device_name(0)

'GeForce MX250'

### gpu计算

In [63]:
x = torch.tensor([1, 2, 3])
x

# 转到cuda(有几种方式)
device = torch.device("cuda")
x.to(device)
x

x.to("cpu")
x.cuda(0) # 和x.cuda()等价

x = torch.tensor([1, 2, 3], device="cuda:0")
x

tensor([1, 2, 3])

tensor([1, 2, 3], device='cuda:0')

tensor([1, 2, 3])

tensor([1, 2, 3])

tensor([1, 2, 3], device='cuda:0')

tensor([1, 2, 3], device='cuda:0')

值的注意的是,cpu和gpu之间,各gpu之间不能直接进行运算,使用`.device`属性来获取tensor在哪里

另外,传到gpu后,该tensor就不再是位于叶子节点了,这时梯度回传时,就没有梯度,要使用retain_grad才能拿得到

In [94]:
x = torch.tensor([1., 2., 3.], requires_grad=True)
# cuda之后就变成了非叶子节点,直接用grad是拿不到梯度的
# 但是在模型训练的时候,通常来说我们想要的是weight的梯度,同时把输入x传到gpu,
# 在梯度回传的时候weight仍然是叶子节点, 并且我们并不需要x的梯度
x = x.cuda()
# x = x.to(device)

z = x.sum()
z.backward()
print(x.grad)
# print(x.retain_grad)

None


  print(x.grad)


In [88]:
x = torch.tensor([1., 2., 3.])

In [84]:
# 直接在gpu上生成tensor,就能有梯度在回传时
x = torch.tensor([1., 2., 3.], requires_grad=True, device="cuda")
y = x.sum()
y.backward()
print(x.grad)

tensor([1., 1., 1.], device='cuda:0')
