In [1]:
import torch
import torch.nn as nn
from torch.utils.data import Dataset,DataLoader

## 1 模型的数据并行训练

### 1.超参数

In [None]:
# 参数和数据加载
input_size = 5
output_size = 2

batch_size = 30
data_size = 100

### 2.伪数据集

In [None]:
class RandomDataset(Dataset):
    def __init__(self,size,length):
        self.length=length
        self.data=torch.randn(length,size)
        
    def __getitem__(self,index):
        return self.data[index]
    
    def __len__(self):
        return self.length

### 3.加载数据集

In [None]:
myDataset=RandomDataset(input_size, data_size)
rand_loader = DataLoader(dataset=myDataset,
                         batch_size=batch_size, shuffle=True)

### 4.简单模型

In [None]:
class Model(nn.Module):
    
    def __init__(self,input_size,output_size):
        super(Model,self).__init__()
        self.fc=nn.Linear(input_size,output_size)
        
    def forward(self,input):
        output=self.fc(input)
        print(" In Model:input size:",input.size(),
                 "output size", output.size())
        return output

### 5.创建模型和 DataParallel

In [None]:
model = Model(input_size, output_size)
model = nn.DataParallel(model)
model = model.cuda()

修改： 
- 基于对实验结果的观察， 多卡训练的基本过程是（可能不严谨）：
    - 首先将模型加载到一个指定设备上作为 controller, 然后将模型**浅复制**到多个设备中，将**大batch 数据**也**等分**到不同设备中， 每个设备分配到不同的数据，然后将所有设备计算得到**梯度合并**用以更新 controller 模型的参数。

- 我们需要修改两个地方：

    - **model = nn.DataParallel(model)**会将模型**浅复制** 到**所有**可用的显卡中（如果是我实验室的服务器，就是复制到 8 张卡中）,我们希望只占用显卡 1 和 3, 所以需要传入参数 device_ids=[1,3]
    - **model = model.cuda()**会将模型加载到 0 号显卡并作为 controller. 但是我们并不打算使用 0 号显卡。所以需要修改为:**model = model.cuda(device_ids[0])**, 即我们将模型加载 1 号显卡并作为 controller。
    
综上，上面这段代码修改为：

In [None]:
model = Model(input_size, output_size)
model = nn.DataParallel(model,device_ids=[1,3])#将model浅拷贝到device_ids指定的显卡中
model = model.cuda(device_ids[0])#将model加载到cuda(...)指定的显卡，并作为controller，cuda():默认0号显卡

### 6.运行模型

In [None]:
for data in rand_loader:
    #将batsize份数据加载到cuda(...)指定的显卡中
    input_var=data.cuda()
    print("Outside: input size", input_var.size(),
          "output_size", output.size())
    

修改：

这里也有一个大坑。input_var = Variable(data.cuda()) 会将整个 batch 数据加载到 0 号卡，显然需要修改。但是应该加载到哪呢 ？ 上面我们已经把模型加载到 1 号卡并且作为 controller ,  如果再把整个batch 的数据加载到 1 号卡，照理讲显存应该不够啊。一张卡不能同时放下模型和大batch的数据，这是在文首说明的进行多卡训练的动机啊。

于是我将数据加载到 3 号卡， 但是在前向传播时报错了：

**all tensors should be in device[0]**

也就是说我们需要先将数据加载到 1 号卡（起码在代码层是这样的，物理层就不清楚了）。

综上，将代码修改为：

In [None]:
for data in rand_loader:
    if torch.cuda.is_available():
        input_var = data.cuda(device[0])
    else:
        input_var = data
    output = model(input_var)
    print("Outside: input size", input_var.size(),
          "output_size", output.size())

### 6.结果

```
In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
#-----------------------------------------------------------------------------------------
  In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

#-----------------------------------------------------------------------------------------
  In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
#-----------------------------------------------------------------------------------------
  In Model: input size torch.Size([5, 5]) output size torch.Size([5, 2])
  In Model: input size torch.Size([5, 5]) output size torch.Size([5, 2])
Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])
#-----------------------------------------------------------------------------------------
```

- 在 逻辑层:
    - 100 个数据被分成  4 批, 每批包含的样本数为 [30, 30, 30, 10]， 不妨记为 batch0,  batch1,  batch2,  batch3
- 在 物理层:
    - batch0 的数据在前向传播时， 被 等分 到显卡 1 和 3上， 不妨记为 batch00,  batch01,   包含的样本数均为 30 ÷ 2 = 15
    - batch1 的数据在前向传播时， 被 等分 到显卡 1 和 3上， 不妨记为 batch10,  batch11,   包含的样本数均为 30 ÷ 2 = 15
    - batch2 的数据在前向传播时， 被 等分 到显卡 1 和 3上， 不妨记为 batch20,  batch21,   包含的样本数均为 30 ÷ 2 = 15
    - batch3 的数据在前向传播时， 被 等分 到显卡 1 和 3上， 不妨记为 batch30,  batch31,   包含的样本数均为 10 ÷ 2 = 5.


## 2 多GPU运行保存加载恢复checkpoint的几个关键

## 第一部分：认识多GPU的DataParalle model

### 第1层：认识model本身

#### 类型1：
如果是cpu model或单GPU model
- **2种形式(sequential model和sequential&OrderedDict model)**
    - 一种是sequential model如下，引用具体层的方式是model[index]，因为sequential会自动对layers编号，可类似于list切片方式调用
    ```
    Sequential(
          (0): Conv2d(1, 20, kernel_size=(5, 5), stride=(1, 1))
          (1): ReLU()
          (2): Conv2d(20, 64, kernel_size=(5, 5), stride=(1, 1))
          (3): ReLU())

    ```
    - 另一种是sequential&OrderedDict model，引用引用方式是model.conv1，因为sequential针对ordereddict进行了优化可以直接通过.来调用层
    ```
    Sequential(
          (conv1): Conv2d(1, 20, kernel_size=(5, 5), stride=(1, 1))
          (relu1): ReLU()
          (conv2): Conv2d(20, 64, kernel_size=(5, 5), stride=(1, 1))
          (relu2): ReLU())

    ```

### example:

In [2]:
import torch.nn.functional as F
class TheModelClass(nn.Module):
    def __init__(self):
        super(TheModelClass,self).__init__()
        self.conv1=nn.Conv2d(3,6,5)
        self.pool=nn.MaxPool2d(2,2)
        self.conv2=nn.Conv2d(6,16,5)
        self.fc1=nn.Linear(16*5*5,120)
        self.fc2=nn.Linear(120,84)
        self.fc3=nn.Linear(84,10)
    def farward(self,x):
        x=self.pool(F.relu(self.conv1(x)))
        x=self.pool(F.relu(self.conv2(x)))
        x=x.view(-1,16*5*5)
        x=F.relu(self.fc1(x))
        x=F.relu(self.fc2(x))
        x=self.fc3(x)
        return x
# Initialize model
model=TheModelClass()
print(model)

TheModelClass(
  (conv1): Conv2d(3, 6, kernel_size=(5, 5), stride=(1, 1))
  (pool): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=400, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)


#### 类型2：

**如果是data paralle model：可以看到是在原model基础上wrap了一个module外壳如下**

引用方式类似OrderedDict model的嵌套：
- model.module就是引用内部的真实模型
- model.module.name就是引用具体层(前提是sequential内包含了OrderedDict)
- model.module[index]也是引用具体层(前提是sequential内不包含OrderedDict)

```
DataParallel(
      (module): ResNet(
        (conv1): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        …))

```

### 第2层：认识checkpoint文件

通过torch.save(name, dir)保存的就叫checkpoint文件，可以存一个dict或存一个state_dict (OrderedDict)。一般的dict文件用来保存模型运行的状态信息和参数，state_dict用来保存参数是dict的一部分。如下是一个典型的checkpoint数据结构
```
{meta: dict
state_dict: OrderedDict
optimizer: dict}
```

### 第3层：认识state_dict字典
- state_dict必然是一个OrderedDict数据类型，保存的内容就是所有深度学习需要优化的参数。

- **如果是Data paralle model在模型的state_dict中保存的内容会额外增加以module作为开头**

```
odict_keys(['module.features.0.weight', 
		      'module.features.0.bias', 
		      'module.features.3.weight', 
		      'module.features.3.bias', 
		      'module.classifier.0.weight', 
	             'module.classifier.0.bias', 
		      'module.classifier.2.weight', 
		      'module.classifier.2.bias', 
		      'module.classifier.4.weight', 
		      'module.classifier.4.bias'])

```

## 第二部分：处理模型的保存和加载的流程

### 1.save:

- 通过torch.save(name, dir)完成，先组合checkpoint, 然后保存

- 方案1：直接save state_dict(OrderedDict)，且只save state_dict，后边只是用于inference。这样就会有2种形式state_dict存在，一种不带module前缀，一种带module前缀。
注：state_dict需要先.cpu()

- 方案2：直接save state_dict(OrderedDict)，且只save state_dict，后边只是后边用于inference。**但state_dict格式都统一成不带module的形式。**
注：torch.save(model.state_dict, filepath) 此时保存的是OrderedDict，但可能有两种形式
**注：torch.save(model.module.state_dict, filepath)此时保存的也是state_dict，但data paralle不会再带有module前缀**

- 方案3：间接save整个training status(dict)，**不只save state_dict，还save epoch/iter/optimizer state_dict等状态参数，后边用于回复训练，这个dict需要自己组合**

- **方案3是最常用的方案，因为他适用范围更广，不但可以training也可以inference**

### example:

In [None]:
#gpus：[0,1,,2,3]
#将model浅拷贝到gpus
#将model加载到0号显卡，并作为controller
model = nn.DataParallel(model, device_ids=gpus).cuda()

In [None]:
optimizer = torch.optim.SGD([{'params':
                                          filter(lambda p: p.requires_grad,#只更新requires_grad=True的参数
                                                 model.parameters()),
                              'lr': config.TRAIN.LR}],#0.01
                            lr=config.TRAIN.LR,#0.01
                            momentum=config.TRAIN.MOMENTUM,#0.9
                            weight_decay=config.TRAIN.WD,#0.0005
                            nesterov=config.TRAIN.NESTEROV,#False
                            )

In [None]:
#将模型和optimizer的state_dict等信息(指定key:value)保存到checkpoint.pth.tar文件
torch.save({
            'epoch': epoch + 1,
            'best_mIoU': best_mIoU,
            'state_dict': model.module.state_dict(),
            'optimizer': optimizer.state_dict(),
        }, os.path.join(final_output_dir, 'checkpoint.pth.tar'))

### 2. load checkpoint：

- 通过torch.load(checkpoint, map_location)完成

    - 通过map_location控制加载位置：
        - 可以加载到cpu： map_location = lambda storage, loc: storage
        - 可以加载到GPU: map_location = lambda storage, loc: storage.cuda(0)

### example:

In [None]:
#保存了模型和optimizer的state_dict等信息的文件:checkpoint.pth.tar
model_state_file = os.path.join(final_output_dir,'checkpoint.pth.tar')
checkpoint = torch.load(model_state_file)

### 3. 获得state_dict：

(1)获得checkpoint后需要对checkpoint判断后处理获得state_dict：

- 如果checkpoint是OrderedDict，那么可以直接得到state_dict
- 如果checkpoint是dict，那么可以从字典中获得state_dict
- 如果state_dict包含module前缀，那么需要先去除module前缀，下面是一种处理前缀方式

```
if list(state_dict.keys())[0].startswith('module.'):
    state_dict = {k[7:]: v for k, v in checkpoint['state_dict'].items()}

```
核心原因：saving DataParallel wrapped model can cause problems when the model_state_dict is loaded into an unwrapped model. 保存了wrapped model然后加载到unwrapped model所以必然出错。(**我们上面的代码model.module.state_dict不会再带有module前缀,通过model.module.load_state_dict()获取)

### 4. load state dict：

- 通过load_state_dict(model， state_dict)完成

- (1)模型加载state_dict前需要对model判断处理：
    - 如果是不带module的model，则加载不带module的state_dict：load_state_dict(model, state_dict)
    - 如果是带module的model，则取内层model(相当于去掉module)然后加载不带module的state_dict，如下：load_state_dict(model.module， state_dict)

关键：**带module wrap的model，可以直接加载带module前缀的state_dict，此时model和state_dict都不需要做去module化处理，model.load_state_dict(state_dict_w/_module)即可**；当然也可以model和state_dict同时做去module化处理，model.module.load_state_dict(state_dict_w/o_module)

### example:

In [None]:
#加载模型保存的state_dict,指定key
model.module.load_state_dict(checkpoint['state_dict'])
optimizer.load_state_dict(checkpoint['optimizer'])