In [4]:
%matplotlib inline


多GPU样例
==================

数据并行是当我们将小批量的样品分割成更小的小批量，并行地运行每一个更小的小批量的计算。

数据并行是使用``torch.nn.DataParallel``。
你可以把一个模块包装在``DataParallel``里面，它将在批处理的维度上并行使用多个gpu。

数据并行
-------------



In [5]:
import torch
import torch.nn as nn


class DataParallelModel(nn.Module):

    def __init__(self):
        super().__init__()
        self.block1 = nn.Linear(10, 20)

        # wrap block2 in DataParallel
        self.block2 = nn.Linear(20, 20)
        self.block2 = nn.DataParallel(self.block2)

        self.block3 = nn.Linear(20, 20)

    def forward(self, x):
        x = self.block1(x)
        x = self.block2(x)
        x = self.block3(x)
        return x

代码不需要在CPU-mode中进行更改。
DataParallel的文档<http://pytorch.org/docs/nn.html#dataparallel>

**DataParallel实现的基元：**


通常Pytorch的`nn.parallel`基元可以独立使用
已经实现了简单的MPI-like基元：

- replicate: 在多个设备上复制一个模块
- scatter: 在第一维中分配输入
- gather: 收集并连接第一维的输入
- parallel\_apply: 将一组已经分布的输入应用到一组已经分布的模型中

为了让大家更清楚，函数``data_parallel``使用这些集合做成。



In [6]:
def data_parallel(module, input, device_ids, output_device=None):
    if not device_ids:
        return module(input)

    if output_device is None:
        output_device = device_ids[0]

    replicas = nn.parallel.replicate(module, device_ids)
    inputs = nn.parallel.scatter(input, device_ids)
    replicas = replicas[:len(inputs)]
    outputs = nn.parallel.parallel_apply(replicas, inputs)
    return nn.parallel.gather(outputs, output_device)

CPU上模型的一部分和GPU上模型的一部分
--------------------------------------------

让我们来看一个实现网络的小例子，它的一部分在CPU上，一部分在GPU上



In [7]:
device = torch.device("cuda:0")

class DistributedModel(nn.Module):

    def __init__(self):
        super().__init__(
            embedding=nn.Embedding(1000, 10),
            rnn=nn.Linear(10, 10).to(device),
        )

    def forward(self, x):
        # Compute embedding on CPU
        x = self.embedding(x)

        # Transfer to GPU
        x = x.to(device)

        # Compute RNN on GPU
        x = self.rnn(x)
        return x