# 12.3 自动并行

In [1]:
import torch
from d2l import torch as d2l


## 12.3.1. 基于GPU的并行计算

In [2]:
devices = d2l.try_all_gpus()
def run(x):
    return [x.mm(x) for _ in range(50)]

x_gpu1 = torch.rand(size=(4000, 4000), device=devices[0])
x_gpu2 = torch.rand(size=(4000, 4000), device=devices[1])

In [3]:
# 通过在测量之前预热设备（对设备执行一次传递）来确保缓存的作用不影响最终的结果。
# torch.cuda.synchronize() 函数将会等待一个 CUDA 设备上的所有流中的所有核心的计算完成。
# 函数接受一个device 参数，代表是哪个设备需要同步。
# 如果device参数是 None（默认值），它将使用 current_device() 找出的当前设备。
run(x_gpu1)
run(x_gpu2)  # 预热设备
torch.cuda.synchronize(devices[0])
torch.cuda.synchronize(devices[1])

with d2l.Benchmark('GPU1 time'):
    run(x_gpu1)
    torch.cuda.synchronize(devices[0])

with d2l.Benchmark('GPU2 time'):
    run(x_gpu2)
    torch.cuda.synchronize(devices[1])

GPU1 time: 0.5015 sec
GPU2 time: 0.5064 sec


In [4]:
# 删除两个任务之间的 synchronize 语句，系统就可以在两个设备上自动实现并行计算。
with d2l.Benchmark('GPU1 & GPU2'):
    run(x_gpu1)
    run(x_gpu2)
    torch.cuda.synchronize()

GPU1 & GPU2: 0.5204 sec


## 12.3.2. 并行计算与通信

In [5]:
def copy_to_cpu(x, non_blocking=False):
    return [y.to('cpu', non_blocking=non_blocking) for y in x]

with d2l.Benchmark('在GPU1上运行'):
    y = run(x_gpu1)
    torch.cuda.synchronize()

with d2l.Benchmark('复制到CPU'):
    y_cpu = copy_to_cpu(y)
    torch.cuda.synchronize()

在GPU1上运行: 0.5697 sec
复制到CPU: 1.9280 sec


In [6]:
with d2l.Benchmark('在GPU1上运行并复制到CPU'):
    y = run(x_gpu1)
    y_cpu = copy_to_cpu(y, True)
    torch.cuda.synchronize()

在GPU1上运行并复制到CPU: 1.4775 sec


## 12.3.3 小结

* 现代系统拥有多种设备，如多个 GPU 和多个 CPU，还可以并行地、异步地使用它们。
* 现代系统还拥有各种通信资源，如PCI Express、存储（通常是固态硬盘或网络存储）和网络带宽，为了达到最高效率可以并行使用它们。
* 后端可以通过自动化地并行计算和通信来提高性能。