In [19]:
import collections
import os
import shutil
import tqdm

import numpy as np
import PIL.Image
import torch
import torchvision

### 1. Basic config
(1) check pytorch version

In [18]:
print("PyTorch version: {0:}".format(torch.__version__))
# print("Corresponding CUDA version: {0:}".format(torch.version.cuda))
# print("Corresponding cuDNN version: {0:}".format(torch.backends.cudnn.version()))
# print("GPU type: {0:}".format(torch.cuda.get_device_name(0)))

PyTorch version: 1.0.1.post2


（2）更新PyTorch:PyTorch将被安装在anaconda3/lib/python3.7/site-packages/torch/目录下。

In [20]:
# ! conda update pytorch torchvision -c pytorch

(3) 固定随机种子

In [21]:
torch.manual_seed(0)
# torch.cuda.manual_seed_all(0)

<torch._C.Generator at 0x7ff140862190>

(4)指定程序运行在特定GPU卡上

In [22]:
# 在命令行指定环境变量
# CUDA_VISIBLE_DEVICES=0,1 python train.py

# 或在代码中指定
# os.environ['CUDA_VISIBLE_DEVICES'] = '0,1'

(5) 判断是否有CUDA支持

In [23]:
torch.cuda.is_available()

False

(6) 设置为cuDNN benchmark模式    
Benchmark模式会提升计算速度，但是由于计算中有随机性，每次网络前馈结果略有差异。

In [24]:
# torch.backends.cudnn.benchmark = True

如果想要避免这种结果波动，设置

In [None]:
# torch.backends.cudnn.deterministic = True

(7) 清除GPU存储    
有时Control-C中止运行后GPU存储没有及时释放，需要手动清空。在PyTorch内部可以

In [25]:
torch.cuda.empty_cache()

或在命令行可以先使用ps找到程序的PID，再使用kill结束该进程

In [None]:
# ps aux | grep python
# kill -9 [pid]

In [None]:
# 或者直接重置没有被清空的GPU
# nvidia-smi --gpu-reset -i [gpu_id]

### 3. Model define

##### (1) 卷积层
最常用的卷积层配置是

In [7]:
def conv1x1(in_channels, out_channels):
    return torch.nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=1, padding=0, bias=True)

def conv3x3(in_channels, out_channels):
    return torch.nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=True)

In [8]:
conv1 = conv1x1(32, 64)
conv2 = conv3x3(64, 128)

如果卷积层配置比较复杂，不方便计算输出大小时，可以利用如下可视化工具辅助: https://ezyang.github.io/convolution-visualizer/index.html

##### (2) GAP（Global average pooling）层

In [13]:
gap = torch.nn.AdaptiveAvgPool2d(output_size=1)

In [9]:
model = torchvision.models.resnet18(pretrained=True)

##### （3） 多卡同步 BN
当使用torch.nn.DataParallel将代码运行在多张GPU卡上时，PyTorch的BN层默认操作是各卡上数据独立地计算均值和标准差，
同步BN使用所有卡上的数据一起计算BN层的均值和标准差，缓解了当批量大小（batch size）比较小时对均值和标准差估计不准的情况，
是在目标检测等任务中一个有效的提升性能的技巧。
参见网址 https://github.com/vacancy/Synchronized-BatchNorm-PyTorch

#### （4） 计算模型整体参数量

In [None]:
import functools
import operator
num_parameters = sum(functools.reduce(operator.mul, parameter.size(), 1)
                     for parameter in model.parameters())

类似Keras的model.summary()输出模型信息：https://github.com/sksq96/pytorch-summary

##### （5） 模型权值初始化

In [11]:
# 注意model.modules()和model.children()的区别：model.modules()会迭代地遍历模型的所有子层，而model.children()只会遍历模型下的一层。
# Common practise for initialization.
for layer in model.modules():
    if isinstance(layer, torch.nn.Conv2d):
        torch.nn.init.kaiming_normal_(layer.weight, mode='fan_out',
                                      nonlinearity='relu')
        if layer.bias is not None:
            torch.nn.init.constant_(layer.bias, val=0.0)
    elif isinstance(layer, torch.nn.BatchNorm2d):
        torch.nn.init.constant_(layer.weight, val=1.0)
        torch.nn.init.constant_(layer.bias, val=0.0)
    elif isinstance(layer, torch.nn.Linear):
        torch.nn.init.xavier_normal_(layer.weight)
        if layer.bias is not None:
            torch.nn.init.constant_(layer.bias, val=0.0)

# Initialization with given tensor.
# layer.weight = torch.nn.Parameter(tensor)

##### （6） 模型的保存和加载
注意如果保存的模型是 `torch.nn.DataParalle`l，则当前的模型也需要是`torch.nn.DataParallel`。`torch.nn.DataParallel(model).module == model`。
   `model.load_state_dict(torch.load('model,pth'), strict=False)`

将在GPU保存的模型加载到CPU
   `model.load_state_dict(torch.load('model,pth', map_location='cpu'))`

##### (7) 神经网络网络的可视化

##### （8） Flops 计算

### 模型训练

#### （1） 训练和验证集的预处理

In [17]:
train_transform = torchvision.transforms.Compose([
    torchvision.transforms.RandomResizedCrop(size=224,
                                             scale=(0.08, 1.0)),
    torchvision.transforms.RandomHorizontalFlip(),
    torchvision.transforms.ToTensor(),
    torchvision.transforms.Normalize(mean=(0.485, 0.456, 0.406),
                                     std=(0.229, 0.224, 0.225)),
 ])
val_transform = torchvision.transforms.Compose([
    torchvision.transforms.Resize(224),
    torchvision.transforms.CenterCrop(224),
    torchvision.transforms.ToTensor(),
    torchvision.transforms.Normalize(mean=(0.485, 0.456, 0.406),
                                     std=(0.229, 0.224, 0.225)),
])
# 使用：：：

##### （2） 可视化训练过程

#### （3） Saving and Loading Models