## 查询张量所在设备

In [73]:
import torch
import torch.nn as nn

In [74]:
torch.cuda.device('cuda')

<torch.cuda.device at 0x20a58eef2e0>

In [75]:
torch.cuda.device_count() # 返回 gpu 的个数

1

In [76]:
# 返回第 0 号 gpu 设备的抽象表示
torch.device('cuda:0')

device(type='cuda', index=0)

In [77]:
# torch.device('device_name') 只是用来获取设备的抽象表示

X_cpu = torch.ones(2, 3, device=torch.device('cpu'))
X_gpu = torch.ones(2, 3, device=torch.device('cuda'))
X_gpu_0 = torch.ones(2, 3, device=torch.device('cuda:0'))
# 如果要执行计算，那么创建的所有参与同一个计算的张量应该在同一个 cpu 或者 gpu 上
# 那么运算的结果也会存储在参与运算所在的张量的设备上
# 在 gpu 和 cpu 之间移动数据是非常慢的
# 所以框架不支持多设备之间移动数据进行计算
# 默认创建在 gpu 0 上
X_cpu.device, X_gpu.device, X_gpu_0.device # 放在了 index=0 就是第 0 号 cpu 上

(device(type='cpu'),
 device(type='cuda', index=0),
 device(type='cuda', index=0))

In [78]:
X_cpu.cuda(0) # 从 cpu 上拷贝一份数据到 0 号 gpu 中

tensor([[1., 1., 1.],
        [1., 1., 1.]], device='cuda:0')

In [79]:
# 如果一个数据本身就在 gpu 上了，
# 那么使用 cuda 方法拷贝到其他 gpu 中是不会执行的,
# 还是返回当前数据所在的 gpu 的数据，
# 返回自己：出于性能的考虑
X_gpu.cuda(0) is X_gpu

True

## 神经网络与 gpu

In [80]:
net = nn.Sequential(
    nn.Linear(3, 1)
)

# 把神经网络移动到 gpu 中
net = net.to(device=torch.device('cuda'))
res = net(X_gpu)
res # 可以发现 res 也存储在了 gpu 上

tensor([[1.1155],
        [1.1155]], device='cuda:0', grad_fn=<AddmmBackward0>)

确认模型参数存储在同一个 GPU 上

In [81]:
# 访问神经网络的第 0 层的权重
# 权重的张量也存储在 gpu 上边
net[0].weight.data.device

device(type='cuda', index=0)