### 层和块

In [2]:
import torch
from torch import nn
from torch.nn import functional as F
net = nn.Sequential(nn.Linear(20, 256), nn.ReLU(), nn.Linear(256, 10))
X = torch.rand(2, 20)
net(X)

tensor([[ 0.1012,  0.0972, -0.0388,  0.0266, -0.2380,  0.0629,  0.1755,  0.2577,
         -0.0185,  0.1239],
        [ 0.1381,  0.1186, -0.0504,  0.0056, -0.1989,  0.1217,  0.0847,  0.1536,
         -0.0947,  0.0509]], grad_fn=<AddmmBackward0>)

In [None]:
# torch.rand 的实际参数结构：
# torch.rand(
#     *size,           # 可变位置参数：形状维度
#     *,               # 分隔符
#     out=None,        # 后面这些都必须用关键字指定
#     dtype=None, 
#     device=None,
#     requires_grad=False
# )

# # 正确用法：
# torch.rand(2, 3)                            # 只传位置参数
# torch.rand(2, 3, dtype=torch.float32)       # 混合使用
# torch.rand(2, 3, device='cuda')             # 混合使用

# # 错误用法：
# torch.rand(2, 3, torch.float32)             # 错误！dtype必须用关键字

In [2]:
class MLP(nn.Module):
 # 用模型参数声明层。这里，我们声明两个全连接的层
    def __init__(self):
        # 调用MLP的父类Module的构造函数来执行必要的初始化。
        # 这样，在类实例化时也可以指定其他函数参数，例如模型参数params（稍后将介绍）
        super().__init__()
        self.hidden = nn.Linear(20, 256) # 隐藏层
        self.out = nn.Linear(256, 10) # 输出层
    # 定义模型的前向传播，即如何根据输入X返回所需的模型输出
    def forward(self, X):
        # 注意，这里我们使用ReLU的函数版本，其在nn.functional模块中定义。
        return self.out(F.relu(self.hidden(X)))

## GPU


In [3]:
torch.cuda.device_count()

1

In [4]:
def try_gpu(i=0): #@save
    """如果存在，则返回gpu(i)，否则返回cpu()"""
    if torch.cuda.device_count() >= i + 1:
        return torch.device(f'cuda:{i}')
    return torch.device('cpu')
def try_all_gpus(): #@save
    """返回所有可用的GPU，如果没有GPU，则返回[cpu(),]"""
    devices = [torch.device(f'cuda:{i}')
        for i in range(torch.cuda.device_count())]
    return devices if devices else [torch.device('cpu')]


try_gpu(), try_gpu(10), try_all_gpus()

(device(type='cuda', index=0),
 device(type='cpu'),
 [device(type='cuda', index=0)])