使用单个GPU，然后是如何使用多个GPU和多个服务器（具有多个GPU）。

In [1]:
!nvidia-smi

Thu Jun  3 14:26:50 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  GeForce RTX 3090    Off  | 00000000:18:00.0 Off |                  N/A |
| 30%   26C    P8     4W / 350W |  16373MiB / 24268MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  GeForce RTX 3090    Off  | 00000000:3B:00.0 Off |                  N/A |
| 30%   26C    P8     8W / 350W |   3066MiB / 24268MiB |      0%      Defaul

## 1、计算设备

在PyTorch中，CPU和GPU可以用torch.device('cpu')和torch.cuda.device('cuda')表示。应该注意的是，cpu设备意味着所有物理CPU和内存。这意味着PyTorch的计算将尝试使用所有CPU核心。然而，gpu设备只代表一个卡和相应的显存。如果有多个GPU，我们使用torch.cuda.device(f'cuda:{i}')来表示第 i 块GPU（ i 从0开始）。另外，gpu:0和gpu是等价的。

In [2]:
import torch
from torch import nn

In [3]:
torch.device('cpu'), torch.cuda.device('cuda'), torch.cuda.device('cuda:1')

(device(type='cpu'),
 <torch.cuda.device at 0x7f425b434350>,
 <torch.cuda.device at 0x7f4258159050>)

In [11]:
torch.cuda.device_count()

3

In [34]:
def try_gpu(i=0):  #@save
    """如果存在，则返回gpu(i)，否则返回cpu()。"""
    if torch.cuda.device_count() >= i + 1:
        return torch.device(f'cuda:{i}')
    return torch.device('cpu')

def try_all_gpus():  #@save
    """返回所有可用的GPU，如果没有GPU，则返回[cpu(),]。"""
    devices = [
        torch.device(f'cuda:{i}') for i in range(torch.cuda.device_count())]
    return devices if devices else [torch.device('cpu')]

try_gpu(), try_gpu(10), try_all_gpus()

(device(type='cuda', index=0),
 device(type='cpu'),
 [device(type='cuda', index=0),
  device(type='cuda', index=1),
  device(type='cuda', index=2)])

## 2、张量与gpu
默认情况下，张量是在CPU上创建的。我们可以查询张量所在的设备。

无论何时我们要对多个项进行操作，它们都必须在同一个设备上。例如，如果我们对两个张量求和，我们需要确保两个张量都位于同一个设备上，否则框架将不知道在哪里存储结果，甚至不知道在哪里执行计算。

In [37]:
X = torch.tensor([1, 2, 3])
X.device

device(type='cpu')

### 存储在GPU上

In [38]:
import sys
sys.path.append('../../CommonFunctions/tools/')
import common_tools

In [40]:
X = torch.ones(2, 3, device=common_tools.try_gpu())
X

tensor([[1., 1., 1.],
        [1., 1., 1.]], device='cuda:0')

In [41]:
Y = torch.rand(2, 3, device=common_tools.try_gpu(1))
Y

tensor([[0.6854, 0.6706, 0.0489],
        [0.6955, 0.6751, 0.0351]], device='cuda:1')

In [42]:
# 复制数据在同一设备执行操作
Z = X.cuda(1)
print(X)
print(Z)

tensor([[1., 1., 1.],
        [1., 1., 1.]], device='cuda:0')
tensor([[1., 1., 1.],
        [1., 1., 1.]], device='cuda:1')


In [43]:
Y + Z

tensor([[1.6854, 1.6706, 1.0489],
        [1.6955, 1.6751, 1.0351]], device='cuda:1')

In [45]:
Z.cuda(1) is Z

True

在设备（CPU、GPU和其他机器）之间传输数据比计算慢得多。这也使得并行化变得更加困难，因为我们必须等待数据被发送（或者接收），然后才能继续进行更多的操作。

根据经验，多个小操作比一个大操作糟糕得多。

最后，当我们打印张量或将张量转换为NumPy格式时。如果数据不在内存中，框架会首先将其复制到内存中，这会导致额外的传输开销。更糟糕的是，它现在受制于可怕的全局解释器锁，这使得一切都得等待Python完成。

## 3、神经网络与GPU

In [46]:
net = nn.Sequential(nn.Linear(3, 1))
net = net.to(device=try_gpu())

In [47]:
net(X)

tensor([[-0.7290],
        [-0.7290]], device='cuda:0', grad_fn=<AddmmBackward>)

In [48]:
net[0].weight.data.device

device(type='cuda', index=0)