# Build the Neural Network 构建神经网络

神经网络由对数据执行操作的层/模块组成。[torch.nn](https://pytorch.org/docs/stable/nn.html)命名空间提供了构建您自己的神经网络所需的所有构建块。在PyTorch 中，每个模块都是[nn.Module 的](https://pytorch.org/docs/stable/generated/torch.nn.Module.html)子类。神经网络本身就是一个模块，由其他模块（层）组成。这种嵌套结构允许轻松构建和管理复杂的架构。

在以下部分中，我们将构建一个神经网络，来对 FashionMNIST 数据集中的图像进行分类。

In [1]:
import os
import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets, transforms

# Get Device for training 获取训练设备

我们希望能够在 GPU 或 MPS 等硬件加速器（如果可用）上训练我们的模型。让我们检查一下[torch.cuda](https://pytorch.org/docs/stable/notes/cuda.html) 或[torch.backends.mps](https://pytorch.org/docs/stable/notes/mps.html)是否可用，否则我们使用 CPU。

In [2]:
device = (
    "cuda"
    if torch.cuda.is_available()
    else "mps"
    if torch.backends.mps.is_available()
    else "cpu"
)
print(f"Using {device} device")

Using cuda device


# Define the Class 定义类

我们通过子类化`nn.Module`来定义我们的神经网络。在`__init__`中，初始化神经网络层。每个`nn.Module`子类都在`forward`方法中实现对输入数据的操作。

In [3]:
class NeuralNetwork(nn.Module):
    def __init__(self):
        super().__init__()
        self.flatten = nn.Flatten()
        self.linear_relu_stack = nn.Sequential(
            nn.Linear(28*28, 512),
            nn.ReLU(),
            nn.Linear(512, 512),
            nn.ReLU(),
            nn.Linear(512, 10),
        )

    def forward(self, x):
        x = self.flatten(x)
        logits = self.linear_relu_stack(x)
        return logits

我们创建`NeuralNetwork` 的一个实例，并将其移动到`device`，并打印其结构。

In [4]:
model = NeuralNetwork().to(device)
print(model)

NeuralNetwork(
  (flatten): Flatten(start_dim=1, end_dim=-1)
  (linear_relu_stack): Sequential(
    (0): Linear(in_features=784, out_features=512, bias=True)
    (1): ReLU()
    (2): Linear(in_features=512, out_features=512, bias=True)
    (3): ReLU()
    (4): Linear(in_features=512, out_features=10, bias=True)
  )
)


为了使用该model，我们将输入数据传递给它。这将执行model的`forward`以及一些[background operations](https://github.com/pytorch/pytorch/blob/270111b7b611d174967ed204776985cefca9c144/torch/nn/modules/module.py#L866)。不要直接调用`model.forward()`！

在输入上调用model会返回一个二维张量，其中 dim=0 对应于每个类的 10 个原始predicted values的每个输出，dim=1 对应于每个输出的各个值。我们通过，将它传递给`nn.Softmax`模块的实例，来获得prediction probabilities。率。

In [7]:
X = torch.rand(1, 28, 28, device = device)
logits = model(X)
pred_probab = nn.Softmax(dim = 1)(logits)
y_pred = pred_probab.argmax(1)
print(f"Predicted class: {y_pred}")

Predicted class: tensor([6], device='cuda:0')


# Model Layers 模型层

让我们分解 FashionMNIST model中的layers。为了说明这一点，我们将采用 3 张大小为 28x28 的图像的小批量样本，看看当我们将其传递到网络时会发生什么。

In [9]:
input_image = torch.rand(3, 28, 28)
print(input_image.size())

torch.Size([3, 28, 28])


## nn.Flatten

我们初始化[nn.Flatten](https://pytorch.org/docs/stable/generated/torch.nn.Flatten.html)  layer，将每个 2D 28x28 图像转换为 784 个像素值的连续数组（维持小批量维度（在 dim=0 时））。

In [11]:
flatten = nn.Flatten()
flat_image = flatten(input_image)
print(flat_image.size())

torch.Size([3, 784])


## nn.Linear

 [linear layer](https://pytorch.org/docs/stable/generated/torch.nn.Linear.html)是一个使用其存储的权重和偏差对输入应用线性变换的模块。

In [12]:
layer1 = nn.Linear(in_features = 28 * 28, out_features = 20)
hidden1 = layer1(flat_image)
print(hidden1.size())

torch.Size([3, 20])


## nn.ReLU

非线性激活是在模型的输入和输出之间创建复杂映射的原因。它们在线性变换后应用以引入*非线性*，帮助神经网络学习各种现象。

在此模型中，我们在线性层之间使用[nn.ReLU](https://pytorch.org/docs/stable/generated/torch.nn.ReLU.html)，但还有其他激活可以在模型中引入非线性。

In [13]:
print(f"Before ReLU: {hidden1}\n\n")
hidden1 = nn.ReLU()(hidden1)
print(f"After ReLU: {hidden1}")

Before ReLU: tensor([[-0.0849, -0.2937, -0.1301,  0.1010,  0.4920, -0.1128,  0.0920,  0.3483,
          0.4119,  0.1577,  0.0206,  0.0750,  0.2249, -0.1985,  0.2594,  0.1426,
         -0.4594, -0.6375, -0.5798,  0.0857],
        [ 0.2831,  0.1627, -0.2540, -0.0552,  0.6057, -0.2226,  0.0899, -0.0428,
          0.3267,  0.0741,  0.0259,  0.3355,  0.0722, -0.1432,  0.0922,  0.1353,
         -0.0928, -0.5571, -0.6916, -0.2952],
        [-0.0133, -0.1773, -0.1851,  0.2068,  0.4804,  0.0631, -0.1117, -0.1130,
          0.1828,  0.2359, -0.0267,  0.1468, -0.3564, -0.2823,  0.2737,  0.0896,
         -0.8043, -0.5257, -0.8898, -0.0979]], grad_fn=<AddmmBackward0>)


After ReLU: tensor([[0.0000, 0.0000, 0.0000, 0.1010, 0.4920, 0.0000, 0.0920, 0.3483, 0.4119,
         0.1577, 0.0206, 0.0750, 0.2249, 0.0000, 0.2594, 0.1426, 0.0000, 0.0000,
         0.0000, 0.0857],
        [0.2831, 0.1627, 0.0000, 0.0000, 0.6057, 0.0000, 0.0899, 0.0000, 0.3267,
         0.0741, 0.0259, 0.3355, 0.0722, 0.0000, 0.09

## nn.Sequential

[nn.Sequential](https://pytorch.org/docs/stable/generated/torch.nn.Sequential.html)是模块的有序容器。数据按照定义的相同顺序传递通过所有模块。您可以使用顺序容器来组合一个快速网络，例如`seq_modules`.

In [15]:
seq_modules = nn.Sequential(
    flatten,
    layer1,
    nn.ReLU(),
    nn.Linear(20, 10)
)
input_image = torch.rand(3, 28, 28)
logits = seq_modules(input_image)

## nn.Softmax

神经网络的最后一个线性层返回logits （ [-infty, infty] 中的原始值）被传递到 [nn.Softmax](https://pytorch.org/docs/stable/generated/torch.nn.Softmax.html)模块。Logits 缩放为值 [0, 1]，表示模型对每个类别的预测概率。`dim`参数指示维度，沿该维度值的总和必须为 1。

In [16]:
softmax = nn.Softmax(dim = 1)
pred_probab = softmax(logits)

# Model Parameters 模型参数

神经网络内的许多层都是*参数化的*。在训练期间，优化的相关权重和偏差。子类化`nn.Module`会自动跟踪模型对象中定义的所有字段，并使所有参数都可以使用模型`parameters()`或`named_parameters()`方法进行访问。

在此示例中，我们迭代每个参数，并打印其大小及其值的预览。

In [18]:
print(f"Model structure: {model}\n\n")
for name, param in model.named_parameters():
    print(f"Layer: {name} | Size: {param.size()} | Values: {param[:2]} \n")

Model structure: NeuralNetwork(
  (flatten): Flatten(start_dim=1, end_dim=-1)
  (linear_relu_stack): Sequential(
    (0): Linear(in_features=784, out_features=512, bias=True)
    (1): ReLU()
    (2): Linear(in_features=512, out_features=512, bias=True)
    (3): ReLU()
    (4): Linear(in_features=512, out_features=10, bias=True)
  )
)


Layer: linear_relu_stack.0.weight | Size: torch.Size([512, 784]) | Values: tensor([[-0.0337,  0.0320,  0.0072,  ..., -0.0061, -0.0181,  0.0175],
        [ 0.0285,  0.0009,  0.0083,  ...,  0.0137, -0.0123,  0.0303]],
       device='cuda:0', grad_fn=<SliceBackward0>) 

Layer: linear_relu_stack.0.bias | Size: torch.Size([512]) | Values: tensor([-0.0018, -0.0297], device='cuda:0', grad_fn=<SliceBackward0>) 

Layer: linear_relu_stack.2.weight | Size: torch.Size([512, 512]) | Values: tensor([[-0.0172,  0.0179,  0.0206,  ..., -0.0175, -0.0417,  0.0410],
        [ 0.0051, -0.0359,  0.0321,  ...,  0.0005,  0.0167,  0.0055]],
       device='cuda:0', grad_fn=<Slice

# Further Reading 进一步阅读

- [torch.nn API](https://pytorch.org/docs/stable/nn.html)

# References 参考资料

Build the Neural Network — PyTorch Tutorials 2.2.0+cu121 documentation

[Build the Neural Network — PyTorch Tutorials 2.2.0+cu121 documentation](https://pytorch.org/tutorials/beginner/basics/buildmodel_tutorial.html#further-reading)

# Github

storm-ice/Get_started_with_PyTorch

[storm-ice/Get_started_with_PyTorch](https://github.com/storm-ice/Get_started_with_PyTorch)