## 4.3 PyTorch

这是放一个简单的目录
- 4.3.1 PyTorch介绍
- 4.3.2 Pytorch安装（略）
- 4.3.3 张量Tensor
- 4.3.4 自动求导
- 4.3.5 PyTorch核心模块

### **4.3.1 PyTorch介绍**

PyTorch 是一个开源的深度学习框架，由 Meta(原Facebook) 的人工智能研究小组（FAIR）开发。它提供了一种灵活且高效的方式来构建和训练深度学习模型，广泛应用于学术研究和工业界。

PyTorch简介
- 简洁易用。PyTorch 的核心设计目标之一是简洁性和灵活性。它提供了易于理解的 API 和简单的模型构建方式，允许开发者快速实现和修改深度学习模型。
- 动态图（Dynamic Computational Graph）。PyTorch 的最大特色之一是其动态图机制（Eager Execution），即每次执行操作时都会动态构建计算图。这使得调试和修改模型变得更加方便，特别适合研究和原型开发。
- 自动求导（Autograd）。PyTorch 内置的自动求导系统（autograd）可以自动计算梯度，简化了神经网络训练中的反向传播过程。开发者无需手动计算导数，PyTorch 会自动完成这一过程。
- GPU加速。PyTorch 支持通过 CUDA 提供 GPU 加速，可以显著提高大规模数据训练的速度。它允许将张量（Tensor）移动到 GPU 上进行高效计算，减少了训练时间。
- 强大的社区和生态系统。PyTorch 拥有一个活跃的开发者社区，提供大量的文档、教程和示例代码。同时，PyTorch 还与其他深度学习工具如 TensorFlow、Keras、ONNX 等兼容，促进了框架间的互操作性。
- 与 Python 无缝集成。PyTorch 与 Python 的集成非常紧密，允许开发者使用 Python 的所有特性，如 NumPy、SciPy 等，方便进行数据处理、可视化和数值计算。
- 广泛的应用。PyTorch 被广泛应用于计算机视觉、自然语言处理、强化学习、生成对抗网络（GAN）等多个领域，并且支持各种现代深度学习算法。
- 模型部署与优化。除了训练，PyTorch 还提供了模型优化和部署的工具，如 TorchScript、TensorRT 和 ONNX，用于将训练好的模型高效部署到生产环境中。

### 4.3.2 Torch安装（略，见书）

### **4.3.3 张量Tensor**

Tensor是PyTorch中的一个数据类型（类），亦是其最基本的数据结构之一。在PyTorch中，Tensor是所有操作的基础类型，用于表示多维数组，类似于NumPy的数组（ndarray），但是张量可以在GPU上进行高效的计算，这使得PyTorch能够充分利用GPU加速进行深度学习任务。

张量的特点：
- 多维性：PyTorch的张量可以是标量（0维）、向量（1维）、矩阵（2维），也可以是更高维度的数据。
- 支持自动求导：张量是PyTorch中进行自动微分的基本单元，可以设置requires_grad=True来追踪对张量的操作，进而计算梯度。
- 支持GPU计算：张量可以在CPU或GPU上进行计算，PyTorch会自动进行硬件加速。


常用的Tensor操作示例。首先需要import语句导入torch

In [None]:
import torch

创建张量

可以先查看一下创建Tensor的常用函数torch.tensor()的简介。

In [None]:
# ?torch.tensor()
# # ?torch.tensor

torch.tensor()是一个函数，用于从现有的Python对象（如列表、NumPy数组等）创建一个张量（Tensor）。它是用来生成PyTorch张量的最常见方法，可以指定张量的数据类型（dtype）和设备（device）。快速创建一个张量还有其他的方法，以下是一些常用的快速创建张量的示例：

In [None]:
# 创建一个随机的张量，维度为(2, 1)
tensor_random = torch.rand(2, 1)
print(f"{tensor_random=}")
# tensor_random=tensor([[0.6416], [0.2740]])

# 创建一个全为0的张量，维度为(1, 2)
tensor_zeros = torch.zeros(1, 2)
print(f"{tensor_zeros=}")
# tensor_zeros=tensor([[0., 0.]])

# 创建一个全为1的张量，维度为(1, 1)
tensor_ones = torch.ones(1, 1)
print(f"{tensor_ones=}")
# tensor_ones=tensor([[1.]])

# 从Python列表创建张量
tensor_from_list = torch.tensor([[1, 4], [2, 8]])
print(f"{tensor_from_list=}")
# tensor_from_list=tensor([[1, 4],[2, 8]])

# 创建一个与现有张量相同形状的新张量
tensor_like = torch.ones_like(tensor_random)
print(f"{tensor_like=}")
# tensor_like=tensor([[1.],[1.]])

# 创建一个与现有张量相同形状的新张量
tensor_empty = torch.empty(1, 3)
print(f"{tensor_empty=}")
# tensor_empty=tensor([[0.0000, 1.7854, 0.0000]])

simple_list_ = torch.arange(0, 3, 1)
print(f"{simple_list_=}")  # sample_list_=tensor([0, 1, 2])


`Tensor`的常用属性有`dtype`和`device`，以及`layout`和`memory_format`。`torch.dtype`是一个表示`torch.Tensor`数据类型的对象，PyTorch有12种不同的数据类型：
![image.png](attachment:image.png)

创建tensor并用dtype指定类型。注意类型要匹配

In [None]:
tensor_a = torch.tensor(2.0, dtype=torch.float)
tensor_b = torch.tensor(2, dtype=torch.long)
# tensor_c = torch.tensor(2.0, dtype=torch.int32)
print(f"{tensor_a=}")  # tensor_a=tensor(2.)
print(f"{tensor_b=}")  # tensor_b=tensor(2)
# print(f"{tensor_c=}")  # tensor_c=tensor(2, dtype=torch.int32)  # DeprecationWarning


使用指定类型函数随机初始化指定大小的Tensor

In [None]:
tens_d = torch.FloatTensor(1,2)
tens_e = torch.IntTensor(3)
tens_f = torch.IntTensor([1,2,4])  # python定义好的数据结构可以直接转换
print(f"{tens_d=}")  # tens_d=tensor([[2.3694e-38, 3.6013e-43]])
print(f"{tens_e=}")  # tens_e=tensor([6, 0, 1], dtype=torch.int32)
print(f"{tens_f=}")  # tens_f=tensor([1, 2, 4], dtype=torch.int32)

Tensor与numpy adarray之间的相互转换

In [None]:
import numpy as np

a = np.array([1,2])
ts_a = torch.tensor(a)
print(f"{ts_a=}")  # ts_a=tensor([1, 2])

ts_ary_a = torch.from_numpy(a)
# ts_ary_a = torch.as_tensor(a)
print(f"{ts_ary_a=}")  # ts_ary_a=tensor([1, 2])

ary_ts_a = ts_a.numpy()
print(f"{ary_ts_a=}")  # ary_ts_a=array([1, 2])

>注意：torch.tensor创建得到的张量和原数据是不共享内存的，张量对应的变量是独立变量。  
而torch.from_numpy()和torch.as_tensor()从numpy array创建得到的张量和原数据是共享内存的，张量对应的变量不是独立变量，修改numpy array会导致对应tensor的改变。

查看Tensor的维度信息

In [None]:
ts = torch.rand(1,2)
# 查看tensor的维度信息（两种方式）
print(ts.shape)  # torch.Size([1, 2])
print(ts.size())  # torch.Size([1, 2])

查看张量的dtype属性

In [None]:
int_tensor = torch.ones(1, dtype=torch.int)
(int_tensor + 5).dtype   # torch.int32

In [None]:
int_tensor = torch.ones(1, dtype=torch.int)
float_tensor = torch.ones(1, dtype=torch.float)
double_tensor = torch.ones(1, dtype=torch.double)
complex_float_tensor = torch.ones(1, dtype=torch.complex64)
complex_double_tensor = torch.ones(1, dtype=torch.complex128)
long_tensor = torch.ones(1, dtype=torch.long)
uint_tensor = torch.ones(1, dtype=torch.uint8)
double_tensor = torch.ones(1, dtype=torch.double)
bool_tensor = torch.ones(1, dtype=torch.bool)
long_zerodim = torch.tensor(1, dtype=torch.long)
int_zerodim = torch.tensor(1, dtype=torch.int)

# (int_tensor + 5).dtype   # torch.int32
# torch.add(5, 5).dtype   # torch.int64
# (int_tensor + long_zerodim).dtype  # torch.int32
# (long_tensor + int_tensor).dtype  # torch.int64
# (bool_tensor + long_tensor).dtype  # torch.int64
# (bool_tensor + uint_tensor).dtype  # torch.uint8
# (float_tensor + double_tensor).dtype  # torch.float64
# (complex_float_tensor + complex_double_tensor).dtype  # torch.complex128
# (bool_tensor + int_tensor).dtype  # torch.int32
# torch.add(long_tensor, float_tensor).dtype  # torch.float32

张量的device属性

In [None]:
# 将张量移到GPU
tensor_a = torch.arange(0,2,1)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tensor_device = tensor_a.to(device)
print("张量所在设备：", tensor_device.device)  # 张量所在设备： cpu

# torch.device('cuda:0')  # device(type='cuda', index=0)

# torch.device('cpu')   # device(type='cpu')

# torch.device('cuda')  # current cuda device
# device(type='cuda')

Tensor的运算

张量的加法、减法、乘法、除法： PyTorch支持对张量进行各种数学操作。我们可以直接使用操作符，如+、-、*、/等，也可以使用专门的函数。

In [None]:
# 加法
tensor_a = torch.tensor([[1, 2], [3, 4]])
tensor_b = torch.tensor([[5, 6], [7, 8]])
result_add = tensor_a + tensor_b
print(result_add)  # tensor([[ 6,  8], [10, 12]])

# 乘法（元素级乘法）
result_mul = tensor_a * tensor_b
print(result_mul)   # tensor([[ 5, 12], [21, 32]])

# 矩阵乘法（点积）
result_matmul = torch.matmul(tensor_a, tensor_b.T)
print(result_matmul)   # tensor([[17, 23],[39, 53]])

# 除法
result_div = tensor_a / tensor_b
print(result_div) # tensor([[0.2000, 0.3333],[0.4286, 0.5000]])


张量的形状操作，张量的形状可以通过.shape或.size()查看，张量的形状可以进行重塑、转置等操作。

In [None]:
# 重塑张量
tensor_a= torch.arange(0,6)
reshaped_tensor = tensor_a.view(3, -1)
print(reshaped_tensor)  # tensor([[0, 1],[2, 3],[4, 5]])

# 转置张量
transposed_tensor = tensor_a.T
print(transposed_tensor) # tensor([0, 1, 2, 3, 4, 5])

拓展张量的维度unsqueeze, 压缩张量的squeeze

In [None]:
uns = torch.arange(0,3)
print(uns)  # tensor([0, 1, 2])
print(uns.shape)  # torch.Size([3])
uns_x = uns.unsqueeze(1)  # 1 uns_x.shape[1], 0 uns_x.shape[0]
print(uns_x)  # tensor([[0],[1],[2]])
print(uns_x.shape)  # torch.Size([3, 1])

uns_y = uns_x.squeeze(1)  # 1 uns_x.shape[1], 0 uns_x.shape[0]
print(uns_y)  # tensor([0, 1, 2])
print(uns_y.size())  # torch.Size([3])

需要注意张量的广播机制

In [None]:
ts_p = torch.arange(0, 2).view(1, 2)
print(ts_p)  # tensor([[0, 1]])
ts_q = torch.arange(1, 4).view(-1, 1)
print(ts_q)  # tensor([[1],[2],[3]])
print(ts_p + ts_q)  # tensor([[1, 2],[2, 3],[3, 4]])

# 也就是说张量可以与标量进行操作
scarlar_add = ts_p + 2
print(scarlar_add)  # tensor([[2, 3]])

### **4.3.4 自动微分**

现在以函数$y=4x_1+3x_2$为例说明一下PyTorch的自动求导过程

在PyTorch中，自动求导的核心组件是autograd。autograd会追踪所有的操作，并根据计算图来自动计算梯度。
我们首先需要定义自变量（即模型中的输入），并告诉PyTorch需要对这些张量进行梯度计算。通过将张量的requires_grad属性设置为True，PyTorch会记录对该张量进行的所有操作，并在计算完成后自动计算其梯度。然后我们定义函数$y=4x_1+3x_2$。在这个过程中，PyTorch会自动构建计算图，并为每个操作保留梯度信息。


In [None]:
x1 = torch.tensor(1.1, requires_grad=True)
x2 = torch.tensor(2.2, requires_grad=True)

y = 4*x1 + 3*x2
print(f"{y=}")  # y=tensor(11., grad_fn=<AddBackward0>)

查看一下各变量是否需要求导

In [None]:
print(f"{x1.requires_grad=}")
print(f"{x2.requires_grad=}")
print(f"{y.requires_grad=}")

现在并没有进行反向传播，变量还没有计算导数，变量的导数是NoneType，现在查看变量的导数会报错AttributeError。

In [None]:
print(f"{x1.grad.data=}")  # NoneType
# AttributeError: 'NoneType' object has no attribute 'data'
# print(f"{x2.grad.data=}")
# print(f"{y.grad.data=}")

反向传播是通过调用张量的.backward()方法来实现的。PyTorch会自动计算损失函数相对于输入的梯度。我们可以通过.grad属性来访问计算出的梯度。

In [None]:
y = 4*x1 + 3*x2
y.backward()
print(f"{x1.grad.data=}") # x1.grad.data=tensor(4.)
print(f"{x2.grad.data=}") # x1.grad.data=tensor(4.)
# print(f"{y.grad.data=}")  # NoneType

导数是会累积的，重复执行相同的指令，梯度grad会增加

In [None]:
y = 4*x1 + 3*x2
y.backward()
print(f"{x1.grad.data=}")  # x1.grad.data=tensor(8.)
print(f"{x2.grad.data=}")  # x2.grad.data=tensor(6.)

y = 4*x1 + 3*x2
y.backward()
print(f"{x1.grad.data=}")  # x1.grad.data=tensor(12.)
print(f"{x2.grad.data=}")  # x2.grad.data=tensor(9.)

所以每次计算梯度的是时候需要避免梯度累积，消除梯度累积，或者说梯度清零是通过PyTorch的Optimizer做到的。

如果requires_grad=False，

In [None]:
x1 = torch.tensor(1.1, requires_grad=False)
x2 = torch.tensor(2.2, requires_grad=False)
y = 4*x1 + 3*x2
# y.backward()  # RuntimeError 
# print(f"{x1.grad.data=}")  
# print(f"{x2.grad.data=}")  

### **4.3.5 PyTorch核心模块**

torch.nn 是 PyTorch 中用于构建和训练神经网络的核心模块。它提供了丰富的层（layers）、激活函数（activation functions）、损失函数（loss functions）以及优化器（optimizers），使得开发者能够高效地搭建各种深度学习模型。

**神经网络层**

**Linear(全连接层)**

 nn.Linear 是最基本的全连接层，用于实现线性变换。它将输入张量通过权重矩阵和偏置向量进行线性组合。

 ```python
 nn.Linear(in_features, out_features, bias=True)
 ```
    参数说明
    in_features：输入特征的数量。
    out_features：输出特征的数量。
    bias：是否包含偏置项，默认 True。

In [None]:
import torch
import torch.nn as nn 

# 定义一个输入维度为5，输出维度为2的全连接层
linear = nn.Linear(in_features=5, out_features=2)

# 示例输入
input = torch.randn(2, 5)  # batch_size=2
output = linear(input)
print(output.shape)  # torch.Size([2, 2])

**Conv2d(二维卷积层)**

nn.Conv2d 用于处理图像数据，通过卷积操作提取特征。适用于计算机视觉任务，如图像分类、目标检测等。

```python
nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, bias=True)
```

    in_channels：输入通道数。
    out_channels：输出通道数。
    kernel_size：卷积核大小，可以是单个整数或元组。
    stride：步幅，默认 1。
    padding：填充，默认 0。
    bias：是否包含偏置项，默认 True。

In [None]:
# 定义一个输入通道为3，输出通道为9，卷积核大小为3的卷积层
conv = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3, stride=1, padding=1)

# 示例输入（batch_size=1, channels=3, height=32, width=32）
input = torch.randn(1, 3, 32, 32)
output = conv(input)
print(output.shape)  # 输出形状: torch.Size([1, 9, 32, 32])


batchnorm(批量归一化)<br>
 nn.BatchNorm 层用于对网络的中间层输出进行归一化处理，加速训练并稳定模型性能。它通过标准化每个小批量的数据，减少内部协变量偏移（Internal Covariate Shift）。

BatchNorm1d（用于1D数据，如全连接层的输出）<br>
```python
nn.BatchNorm1d(num_features, eps=1e-5, momentum=0.1, affine=True, track_running_stats=True)
```

BatchNorm2d（用于2D数据，如卷积层的输出）<br>
```python
nn.BatchNorm2d(num_features, eps=1e-5, momentum=0.1, affine=True, track_running_stats=True)
```

BatchNorm3d（用于3D数据，如3D卷积层的输出）<br>
```python
nn.BatchNorm3d(num_features, eps=1e-5, momentum=0.1, affine=True, track_running_stats=True)
```

    num_features：待归一化的特征数。
    eps：为了数值稳定性，添加到分母中的一个小常数，默认 1e-5。
    momentum：用于运行均值和方差的动量，默认 0.1。
    affine：如果为 True，则会学习一个可变的缩放和偏移参数，默认 True。
    track_running_stats：如果为 True，则追踪运行均值和方差，默认 True。


In [None]:
# 定义一个 BatchNorm2d 层
batch_norm = nn.BatchNorm2d(num_features=16)

# 示例输入（batch_size=1, channels=16, height=32, width=32）
input = torch.randn(1, 16, 32, 32)
output = batch_norm(input)
print(output.shape)  # 输出形状: torch.Size([1, 16, 32, 32])

池化层Pooling，也可以理解成“汇聚”层。

MaxPool（最大池化）<br>
 nn.MaxPool 层用于下采样特征图，通过取局部区域内的最大值来减少空间尺寸，提取主要特征。


MaxPool1d（用于1D数据）<br>
```python
nn.MaxPool1d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)
```

MaxPool2d（用于2D数据）<br>
```python
nn.MaxPool2d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)
```

MaxPool3d（用于3D数据）<br>
```python
nn.MaxPool3d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)
```

    kernel_size：池化窗口的大小。
    stride：窗口的步幅，默认与 kernel_size 相同。
    padding：在输入的每一边添加的零的数量，默认 0。
    dilation：扩张率，默认 1。
    return_indices：如果为 True，则返回池化操作中选定的元素的位置。
    ceil_mode：如果为 True，则在计算输出尺寸时使用向上取整，默认 False。

In [None]:
# 定义一个 MaxPool2d 层
max_pool = nn.MaxPool2d(kernel_size=2, stride=2)

# 示例输入（batch_size=1, channels=16, height=32, width=32）
input = torch.randn(1, 16, 32, 32)
output = max_pool(input)
print(output.shape)  # 输出形状: torch.Size([1, 16, 16, 16])


AvgPool（平均池化）<br>
nn.AvgPool 层用于下采样特征图，通过取局部区域内的平均值来减少空间尺寸，平滑特征图。

AvgPool1d（用于1D数据）<br>
```python
nn.AvgPool1d(kernel_size, stride=None, padding=0, ceil_mode=False, count_include_pad=True)
```

AvgPool2d（用于2D数据）<br>
```python
nn.AvgPool2d(kernel_size, stride=None, padding=0, ceil_mode=False, count_include_pad=True)
```

AvgPool3d（用于3D数据）<br>
```python
nn.AvgPool3d(kernel_size, stride=None, padding=0, ceil_mode=False, count_include_pad=True)
```

    kernel_size：池化窗口的大小。
    stride：窗口的步幅，默认与 kernel_size 相同。
    padding：在输入的每一边添加的零的数量，默认 0。
    ceil_mode：如果为 True，则在计算输出尺寸时使用向上取整，默认 False。
    count_include_pad：是否在计算平均值时包含填充的零，默认 True。


In [None]:
# 定义一个 AvgPool2d 层
avg_pool = nn.AvgPool2d(kernel_size=2, stride=2)

# 示例输入（batch_size=1, channels=16, height=32, width=32）
input = torch.randn(1, 16, 32, 32)
output = avg_pool(input)
print(output.shape)  # 输出形状: torch.Size([1, 16, 16, 16])

Dropout<br>
 nn.Dropout 层用于在训练过程中随机将一定比例的神经元输出设为零，以防止过拟合。它通过在训练时随机“丢弃”一部分神经元，强迫网络依赖于不同的特征组合，从而提高模型的泛化能力。
 ```python
 nn.Dropout(p=0.5, inplace=False)
```

    p：要丢弃的概率，默认 0.5。
    inplace：是否进行原地操作，默认为 False。

In [None]:
# 定义一个 Dropout 层，丢弃概率为0.5
dropout = nn.Dropout(p=0.5)

# 示例输入
input = torch.randn(2, 3)
output = dropout(input)
print(output.size())  # torch.Size([2, 3])

**LSTM(长短期记忆网络层)**

nn.LSTM 是一种循环神经网络（RNN）层，适用于处理序列数据，如自然语言处理中的文本序列。

```python
nn.LSTM(input_size, hidden_size, num_layers=1, bias=True, batch_first=False, dropout=0, bidirectional=False)
```

    input_size：输入特征的维度。
    hidden_size：隐藏状态的维度。
    num_layers：堆叠的 LSTM 层数，默认 1。
    bias：是否包含偏置项，默认 True。
    batch_first：是否将 batch size 放在第一维，默认 False。
    dropout：是否在 LSTM 层之间添加 dropout，默认 0。
    bidirectional：是否使用双向 LSTM，默认 False。

In [None]:
# 定义一个输入特征为10，隐藏状态为20的单层 LSTM
lstm = nn.LSTM(input_size=10, hidden_size=20, num_layers=1, batch_first=True)

# 示例输入（batch_size=3, seq_length=7, input_size=10）
input = torch.randn(3, 7, 10)
output, (hn, cn) = lstm(input)
print(output.shape)  # 输出形状: torch.Size([3, 7, 20])
print(hn.shape, cn.shape)  
# 隐藏状态和细胞状态形状: torch.Size([1, 3, 20]) torch.Size([1, 3, 20])


**Transformer层**

nn.Transformer 实现了 Transformer 模型的基本架构，广泛应用于自然语言处理任务，如机器翻译、文本生成等。

```python
nn.Transformer(d_model, nhead, num_encoder_layers=6, num_decoder_layers=6, dim_feedforward=2048, dropout=0.1)
```

    d_model：特征维度。
    nhead：多头注意力机制的头数。
    num_encoder_layers：编码器层数，默认 6。
    num_decoder_layers：解码器层数，默认 6。
    dim_feedforward：前馈网络的维度，默认 2048。
    dropout：dropout 概率，默认 0.1。

In [None]:
# 定义一个 Transformer 模型
transformer = nn.Transformer(d_model=512, nhead=8, num_encoder_layers=6, num_decoder_layers=6)

# 示例输入
src = torch.rand((10, 32, 512))  # (source sequence length, batch size, feature number)
tgt = torch.rand((20, 32, 512))  # (target sequence length, batch size, feature number)

output = transformer(src, tgt)
print(output.shape)  # 输出形状: torch.Size([20, 32, 512])


**激活函数**
激活函数引入非线性，使得神经网络能够拟合复杂的函数关系。PyTorch 提供了多种常用的激活函数，如ReLU、Tanh、LeakReLU以及Sosftmax等。
下面的代码可以绘制 ReLU、Tanh 和 LeakyReLU 激活函数的曲线。

In [None]:
# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
import matplotlib

# 配置 Matplotlib 以支持中文显示
import matplotlib.font_manager as fm

# 检查系统中可用的中文字体
available_fonts = [f.name for f in fm.fontManager.ttflist if 'SimHei' in f.name or 'Microsoft YaHei' in f.name or 'Noto Sans CJK' in f.name]
print("可用的中文字体:", available_fonts)

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 如果没有 SimHei，可以换成其他中文字体
plt.rcParams['axes.unicode_minus'] = False    # 解决负号显示问题

# 定义输入范围
x = np.linspace(-5, 5, 400)

# 定义激活函数
def relu(x):
    return np.maximum(0, x)

def tanh(x):
    return np.tanh(x)

def leaky_relu(x, alpha=0.01):
    return np.where(x > 0, x, alpha * x)

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# 计算激活函数的输出
y_relu = relu(x)
y_tanh = tanh(x)
y_leaky_relu = leaky_relu(x)
y_sigmoid = sigmoid(x)

# 绘制激活函数的曲线
plt.figure(figsize=(10, 6))
plt.plot(x, y_relu, label='ReLU', color='blue')
plt.plot(x, y_tanh, label='Tanh', color='green')
plt.plot(x, y_leaky_relu, label='LeakyReLU', color='red')
plt.plot(x, y_sigmoid, label='Sigmoid', color='purple')
plt.title('四种激活函数的曲线对比', fontsize=16)  # 标题
plt.xlabel('输入值 x', fontsize=14)        # x轴标签
plt.ylabel('激活值', fontsize=14)          # y轴标签
plt.legend(fontsize=12)
plt.grid(True)
plt.axhline(0, color='black', linewidth=0.5)
plt.axvline(0, color='black', linewidth=0.5)
plt.show()


ReLU（Rectified Linear Unit）

ReLU 是最常用的激活函数，将输入中的负值设为0，正值保持不变，能够加速收敛。

$$
\text{ReLU}(x) = \max(0, x)
$$


 ```python
 nn.ReLU(inplace=False)
 ```

    inplace：是否进行原地操作，默认为 False。

In [None]:
relu = nn.ReLU()
input = torch.randn(1, 2)
output = relu(input)
print(output)  # tensor([[0.1583, 0.0000]])
print(output.size())  # torch.Size([1, 2])

Sigmoid

 Sigmoid 将输入压缩到 (0,1) 区间，常用于二分类任务的输出层。

$$
sigma(x) = \frac{1}{1 + e^{-x}}
$$

```python
nn.Sigmoid()
```

In [None]:
sigmoid = nn.Sigmoid()
input = torch.randn(1, 2)
output = sigmoid(input)
print(output)  # tensor([[0.2178, 0.7830]])


Tanh

Tanh 将输入压缩到 (-1,1) 区间，相较于 Sigmoid，中间值对称于0，有助于缓解梯度消失问题。


$$
\tanh(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}}
$$

```python
nn.Tanh()
```

In [None]:
tanh = nn.Tanh()
input = torch.randn(1, 2)
output = tanh(input)
print(output)

LeakyReLU

LeakyReLU 允许输入中的负值有一个小的斜率，避免 ReLU 中“死亡”神经元的问题。

$$
\text{LeakyReLU}(x) =
\begin{cases}
x & \text{if } x > 0 \\
\alpha x & \text{otherwise}
\end{cases}
$$


```python
nn.LeakyReLU(negative_slope=0.01, inplace=False)
```

    negative_slope：负值部分的斜率，默认 0.01。
    inplace：是否进行原地操作，默认为 False。

In [None]:
leaky_relu = nn.LeakyReLU()
input = torch.randn(1, 2)
output = leaky_relu(input)
print(output)

Softmax <br>
Softmax 函数 是一种常用于多分类任务的激活函数。它将一个实数向量转换为一个概率分布，使得输出的每个元素都在 (0, 1) 之间，且所有输出元素的和为 1。Softmax 函数通常用于神经网络的输出层，以便模型能够为每个类别生成一个概率预测。


数学定义

给定一个输入向量 **z**，Softmax 函数的输出向量 **σ(z)** 定义为：

$$
\sigma(z)_i = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}} \quad \text{for } i = 1, 2, \dots, K
$$

其中：
- \( z_i \) 是输入向量 **z** 的第 \( i \) 个元素。
- \( K \) 是类别的总数。

示例

假设有三个类别，其对应的 logits 为 \([2.0, 1.0, 0.1]\)。应用 Softmax 函数后的概率分布如下：

$$
\sigma(z)_1 = \frac{e^{2.0}}{e^{2.0} + e^{1.0} + e^{0.1}} \approx 0.659
$$

$$
\sigma(z)_2 = \frac{e^{1.0}}{e^{2.0} + e^{1.0} + e^{0.1}} \approx 0.242
$$

$$
\sigma(z)_3 = \frac{e^{0.1}}{e^{2.0} + e^{1.0} + e^{0.1}} \approx 0.099
$$

因此，输出概率分布为 \([0.659, 0.242, 0.099]\)，表示第一个类别具有最高的预测概率。


In [None]:
# 示例的代码实现
import torch.nn.functional as F
logits = torch.tensor([2,1,0.1])
# print(logits.size()) # torch.Size([3]) 
F.softmax(logits, dim=0)

用numpy来实现softmax，代码大致如下（为了数值稳定性，通常会减去输入向量的最大值。）：

In [None]:
import numpy as np

def softmaxNP(z):
    # 为了数值稳定性，减去最大值
    z_max = np.max(z)
    exp_z = np.exp(z - z_max)
    return exp_z / np.sum(exp_z)

# 定义 logits
logits = np.array([2.0, 1.0, 0.1])

# 计算 Softmax
softmax_probs = softmaxNP(logits)

print("Logits:", logits)  # Logits: [2.  1.  0.1]
print("Softmax Probabilities:", softmax_probs)
# Softmax Probabilities: [0.65900114 0.24243297 0.09856589]


下面的代码可以绘制出Softmax的行为图

In [None]:
# 导入必要的库
import torch
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np

# 定义 Softmax 函数
def softmax(x):
    return F.softmax(x, dim=0)

# 生成输入范围
x_values = np.linspace(-10, 10, 100)
p1 = []
p2 = []

for x in x_values:
    z = torch.tensor([x, 0.0])
    probs = softmax(z)
    p1.append(probs[0].item())
    p2.append(probs[1].item())

# 绘制 Softmax 输出概率
plt.figure(figsize=(8, 6))
plt.plot(x_values, p1, label='P(class 1)', color='blue')
plt.plot(x_values, p2, label='P(class 2)', color='orange')
plt.title('Softmax Function Visualization')
plt.xlabel('Input value x for class 1 (class 2 is fixed at 0)')
plt.ylabel('Probability')
plt.legend()
plt.grid(True)
plt.show()


运行结果
运行上述代码后，将生成如图示图表。

    图表解读
        x 轴：类 1 的输入值 x，范围从 -10 到 10。
        y 轴：类 1 和类 2 的预测概率。
    P(class 1)：
        当 x 较大时，P(class 1) 接近 1，P(class 2) 接近 0。
        当 x 较小时，P(class 1) 接近 0，P(class 2) 接近 1。
    P(class 2)：
        与 P(class 1) 成反比关系。

多类别 Softmax。<br>
对于多于两个类别的情况，Softmax 函数同样适用。下面是一个三类别的示例：

In [None]:
# 定义 Softmax 函数
def softmax_multi(z):
    return F.softmax(z, dim=0)

# 生成输入范围
x_values = np.linspace(-10, 10, 100)
p1 = []
p2 = []
p3 = []

for x in x_values:
    z = torch.tensor([x, 0.0, -x])
    probs = softmax_multi(z)
    p1.append(probs[0].item())
    p2.append(probs[1].item())
    p3.append(probs[2].item())

# 绘制 Softmax 输出概率
plt.figure(figsize=(8, 6))
plt.plot(x_values, p1, label='P(class 1)', color='blue')
plt.plot(x_values, p2, label='P(class 2)', color='orange')
plt.plot(x_values, p3, label='P(class 3)', color='green')
plt.title('Softmax Function Visualization for Three Classes')
plt.xlabel('Input value x for class 1 (class 2 is fixed at 0, class 3 at -x)')
plt.ylabel('Probability')
plt.legend()
plt.grid(True)
plt.show()


运行结果
运行上述代码后，将生成一个三类别的 Softmax 可视化图表：

图表解读
    类 1 的输入值 x 增加时，P(class 1) 增加，P(class 3) 减少。
    类 3 的输入值 -x 增加时，P(class 3) 增加，P(class 1) 减少。


损失函数

损失函数用于衡量模型预测值与真实值之间的差距，是模型训练的优化目标。

**CrossEntropyLoss（交叉熵损失）**

定义：
$$
\text{CrossEntropyLoss}(x, \text{class}) = -\log\left(\frac{e^{x[\text{class}]}}{\sum_{j} e^{x[j]}}\right)
$$
**其中：**
- \( x \) 是未经过 softmax 的模型输出（logits）。
- \( \text{class} \) 是目标类别的索引。


适用于多分类问题，结合了 Softmax 和负对数似然损失。

```python
nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean')
```

In [None]:
criterion = nn.CrossEntropyLoss()
# 假设有3个类别，批量大小为2
output = torch.randn(2, 3, requires_grad=True)  # 未经过 Softmax 的 logits
target = torch.tensor([0, 2])  # 真实标签
loss = criterion(output, target)
print(loss)

**MSELoss（均方误差损失）**
定义：

$$
\text{MSELoss}(y_{\text{pred}}, y_{\text{true}}) = \frac{1}{n} \sum_{i=1}^{n} (y_{\text{pred},i} - y_{\text{true},i})^2
$$

 适用于回归问题，计算预测值与真实值的均方误差。
 ```python
 nn.MSELoss(reduction='mean')
```



In [None]:
criterion = nn.MSELoss()
output = torch.randn(2, 3, requires_grad=True)
target = torch.randn(2, 3)
loss = criterion(output, target)
print(loss)

**BinaryCrossEntropyLoss（二元交叉熵损失）**

适用于二分类问题，计算预测概率与真实标签之间的交叉熵。
```python
nn.BCELoss(weight=None, size_average=None, reduce=None, reduction='mean')
```



In [None]:
criterion = nn.BCELoss()
output = torch.sigmoid(torch.randn(2, 3, requires_grad=True))  # 经过 Sigmoid 的概率
target = torch.ones(2, 3)  # 真实标签
loss = criterion(output, target)
print(loss)

**优化器**<br>
优化器用于更新模型参数，基于计算出的梯度最小化损失函数。

SGD（随机梯度下降）<br>
基础的梯度下降优化算法，适用于大多数任务。
```python
torch.optim.SGD(params, lr=0.01, momentum=0, dampening=0, weight_decay=0, nesterov=False)
```

    params：待优化的参数。
    lr：学习率。
    momentum：动量因子，默认 0。
    其他参数用于控制优化过程。

In [None]:
model = nn.Linear(9, 5)
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
print("初始model:", model.state_dict())
# 示例训练步骤
optimizer.zero_grad()
output = model(torch.randn(2, 9))
loss = nn.MSELoss()(output, torch.randn(2, 5))
loss.backward()
optimizer.step()
print("model更新:", model.state_dict())


**Adam（自适应矩估计）**<br>
Adam (Adaptive Moment Estimation)结合了动量和自适应学习率的优化器，适用于复杂模型和大规模数据。

```python
torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)
```

    params：待优化的参数。
    lr：学习率。
    betas：一阶和二阶矩估计的衰减率。
    其他参数用于控制优化过程。

In [None]:
model = nn.Linear(9, 5)
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
print("初始model:", model.state_dict())

# 示例训练步骤
optimizer.zero_grad()
output = model(torch.randn(2, 9))
loss = nn.MSELoss()(output, torch.randn(2, 5))
loss.backward()
optimizer.step()
print("model更新:", model.state_dict())

其他优化器：如RMSprop、Adagrad等，根据具体需求选择合适的优化器。

**构建模型**<br>
在 PyTorch 中，可以通过多种方式构建模型，包括使用 nn.Sequential、nn.ModuleList 和自定义继承 nn.Module 的类。

nn.Sequential<br>
nn.Sequential 是一个有序容器，按顺序将多个层组合起来，适用于简单的前馈神经网络。

In [None]:
model = nn.Sequential(
    nn.Linear(10, 20),
    nn.ReLU(),
    nn.Linear(20, 3)
)

# 示例输入
input = torch.randn(2, 10)
output = model(input)
print(output.size())  # torch.Size([2, 3])

In [None]:
print(type(model))  
# <class 'torch.nn.modules.container.Sequential'>

自定义nn.Module<br>
自定义模型的基类，通过继承 nn.Module，可以自定义复杂的模型结构，适用于需要更高灵活性的情况。

In [None]:
class CustomModel(nn.Module):
    def __init__(self):
        super(CustomModel, self).__init__()
        self.conv1 = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3, padding=1)
        self.bn1 = nn.BatchNorm2d(16)
        self.relu = nn.ReLU()
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2)
        self.fc1 = nn.Linear(16 * 16 * 16, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(self.relu(self.bn1(self.conv1(x))))
        x = x.view(-1, 16 * 16 * 16)  # 展平
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.fc3(x)
        return x

model = CustomModel()
input = torch.randn(4, 3, 32, 32)  # batch_size=4
output = model(input)
print(output.shape)  # 输出形状: torch.Size([4, 10])

nn.ModuleList<br>
nn.ModuleList 是一个有序容器，用于存储子模块，适合需要动态添加层的情况。

In [None]:
class MyModel(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, output_size):
        super(MyModel, self).__init__()
        self.layers = nn.ModuleList()
        self.layers.append(nn.Linear(input_size, hidden_size))
        for _ in range(num_layers - 1):
            self.layers.append(nn.Linear(hidden_size, hidden_size))
        self.output_layer = nn.Linear(hidden_size, output_size)
        self.relu = nn.ReLU()

    def forward(self, x):
        for layer in self.layers:
            x = self.relu(layer(x))
        x = self.output_layer(x)
        return x

model = MyModel(input_size=10, hidden_size=50, num_layers=3, output_size=5)
input = torch.randn(2, 10)
output = model(input)
print(output)

在 PyTorch 中定义一个模型后，你可以访问到多种信息，这些信息有助于理解模型的结构、参数以及状态。以下是主要的几类信息及其访问方法：

模型结构（Architecture）<br>
模型的层级结构，包括所有的子模块（如卷积层、线性层、激活函数等）;每个子模块的类型和配置参数。
常用方法:print(model) 或 str(model)

In [None]:
import torch.nn as nn

class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.conv = nn.Conv2d(3, 16, kernel_size=3, padding=1)
        self.relu = nn.ReLU()
        self.fc = nn.Linear(16 * 32 * 32, 10)
    
    def forward(self, x):
        x = self.conv(x)
        x = self.relu(x)
        x = x.view(x.size(0), -1)
        x = self.fc(x)
        return x

model = SimpleModel()
# str(model)
print(model)  # 更加直观
# SimpleModel(
#   (conv): Conv2d(3,16,kernel_size=(3,3),stride=(1,1),padding=(1,1))
#   (relu): ReLU()
#   (fc): Linear(in_features=16384, out_features=10, bias=True)
# )


model.children() 和 model.modules()：迭代访问模型的子模块。

In [None]:
for child in model.children(): print(child)

# for child in model.modules(): print(child)

模型参数（Parameters）:模型的可训练参数（权重和偏置）;每个参数的名称、形状和值。
常用方法: model.parameters(),返回模型中所有可训练参数的迭代器。

In [None]:
for param in model.parameters():
    print(param.size())


model.named_parameters()：用途,返回模型中所有可训练参数的名称和参数本身的迭代器。

In [None]:
for name, param in model.named_parameters():
    print(f"Layer: {name}, Size: {param.size()}")


model.state_dict()：返回一个包含模型所有参数（包括缓冲区）的有序字典。

In [None]:
state_dict = model.state_dict()
for key, value in state_dict.items():
    print(f"{key}: {value.size()}")
# model.state_dict  ## model的state_dict属性

 缓冲区（Buffers）:模型中不需要梯度更新的状态，例如批量归一化层的均值和方差;可以通过 state_dict 访问。
 常用方法：model.buffers() 和 model.named_buffers()

In [None]:
model.state_dict

In [None]:
for buffer in model.buffers():
    print(buffer.size())

for name, buffer in model.named_buffers():
    print(f"Buffer: {name}, Size: {buffer.size()}")

模型状态（State）.模型的训练状态，例如是否在训练模式或评估模式。影响某些层（如 Dropout、BatchNorm）的行为。
常用方法: model.train() 和 model.eval(),切换模型的训练模式和评估模式。

In [None]:
model.train()  # 设置为训练模式
# 训练代码
model.eval()   # 设置为评估模式
# 评估代码


model.training:检查模型当前是否处于训练模式。

In [None]:
print(model.training)  # 输出: True 或 False

设备信息（Device Information）.模型所在的计算设备（CPU 或 GPU）,确保模型和输入数据在同一设备上，以避免计算错误。
常用方法：next(model.parameters()).device,获取模型中第一个参数所在的设备。

In [None]:
device = next(model.parameters()).device
print(f"Model is on device: {device}")


model.to(device):将模型移动到指定设备（如 GPU）。

In [None]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

 其他有用的方法.
 model.forward(input) 或 model(input)

In [None]:
input = torch.randn(1, 3, 32, 32)
output = model(input)
# output = model.forward(input)
print(output)

model.apply(fn)：递归地应用函数 fn 到模型的每个子模块.

In [None]:
def init_weights(m):
    if isinstance(m, nn.Linear):
        nn.init.xavier_uniform_(m.weight)
        if m.bias is not None:
            nn.init.zeros_(m.bias)

model.apply(init_weights)


model.zero_grad(),将模型中所有参数的梯度清零，通常在每个训练迭代开始时使用。

In [None]:
optimizer.zero_grad()

model.named_children() 和 model.named_modules()：返回模型中所有子模块的名称和模块本身的迭代器。

In [None]:
for name, module in model.named_children():
    print(f"Child Module: {name}, Module: {module}")

In [None]:
for name, module in model.named_modules():
    print(f"Child Module: {name}, Module: {module}")

以下是一些在 PyTorch 中访问和操作模型信息的常用方法及其简要说明：

|方法名称|	功能描述|	示例用途|
|---|---|---|
|print(model)|	打印模型的结构及子模块	|查看模型的整体架构|
|model.parameters()|	获取模型的所有可训练参数|	传递给优化器进行参数更新|
|model.named_parameters()|	获取模型参数的名称和内容|	选择性冻结某些层的参数|
|model.state_dict()|	获取模型的参数和缓冲区的有序字典|	保存和加载模型状态|
|model.train()|	设置模型为训练模式|	启用 Dropout 和 BatchNorm 的训练行为|
|model.eval()|	设置模型为评估模式	|禁用 Dropout 和使用运行时 BatchNorm 参数|
|model.to(device)|	将模型移动到指定设备（CPU/GPU）	|加速训练或推理|
|model.zero_grad()|	将模型中所有参数的梯度清零	|开始新一轮的梯度计算|
|model.forward(input)|	执行模型的前向传播	|获取模型的输出|
|model.apply(fn)|	递归地将函数 fn 应用于模型的每个子模块|	初始化模型参数|
|model.named_children()|	获取模型子模块的名称和内容	|逐层检查或修改子模块|
|model.buffers()|	获取模型中的缓冲区（如 BatchNorm 的均值和方差）|	分析模型的运行统计信息|
|model.named_buffers()|	获取模型缓冲区的名称和内容	|监控和调试模型状态|

**模型的保存与加载**

在深度学习项目中，保存和加载模型是至关重要的步骤。它不仅允许你在训练后保存模型以供推理使用，还支持在训练过程中保存模型状态以便后续恢复训练。PyTorch 提供了多种方式来保存和加载模型，以下将详细介绍这些方法。


首先，我们定义一个简单的神经网络模型，用于演示保存与加载的过程。

In [None]:
import torch
import torch.nn as nn

class SimpleModel(nn.Module):
    def __init__(self, input_size=10, hidden_size=50, output_size=5):
        super(SimpleModel, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(hidden_size, output_size)
    
    def forward(self, x):
        out = self.relu(self.fc1(x))
        out = self.fc2(out)
        return out

# 实例化模型
model4Save_load = SimpleModel()


保存模型的状态字典为 .pth 文件。以 字典 形式保存模型通常仅包含模型的参数 (state_dict)。这种方法灵活且推荐用于大多数场景。

In [None]:
# 定义保存路径
save_path = 'model4Save_load_state.pth'
# 保存模型的 state_dict
torch.save(model4Save_load.state_dict(), save_path)
print(f"模型的 state_dict 已保存到 {save_path}")

加载模型的 state_dict

加载前需要先定义与保存时相同的模型结构，然后将 state_dict 加载到模型中（这个过程可以理解为Python中字典的值更新）。

In [None]:
model_pth = torch.load(save_path, map_location='cpu')
model_load = SimpleModel()
model_load.load_state_dict(model_pth)


.pth 文件不仅可以保存模型的 state_dict，还可以保存其他训练相关的信息，如当前的 epoch 数、优化器状态等。这在需要恢复训练时非常有用。

In [None]:
import torch.optim as optim

# 定义优化器
optimizer = optim.Adam(model4Save_load.parameters(), lr=0.001)

# 假设当前训练到第 5 个 epoch
epoch_now = 5

# 创建保存的字典
checkpoint = {
    'epoch_now': epoch_now,
    'model_state_dict': model4Save_load.state_dict(),
    'optimizer_state_dict': optimizer.state_dict(),
    'loss': 0.1234  # 示例损失值
}

# 保存 checkpoint
save_path_checkpoint = 'model4Save_load_checkpoint.pth'
torch.save(checkpoint, save_path_checkpoint)
print(f"模型及训练状态已保存到 {save_path_checkpoint}")

加载包含训练状态的 checkpoint，可以恢复训练进度。

In [None]:
# 实例化模型和优化器
loaded_model = SimpleModel()
optimizer = optim.Adam(loaded_model.parameters(), lr=0.001)

# 加载 checkpoint
checkpoint = torch.load(save_path_checkpoint)

# 加载模型和优化器状态
loaded_model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])

# 恢复 epoch 数和损失值
epoch_now = checkpoint['epoch_now']
loss = checkpoint['loss']

# 设置模型为训练模式（如果需要继续训练）
loaded_model.train()

print(f"已恢复到 epoch {epoch_now}，损失值为 {loss}")


注意事项：
确保在加载 state_dict 前，模型的结构与保存时一致。
保存和加载时，建议使用绝对路径或确保当前工作目录正确。

以模型对象保存为 .pt 文件。这种方法简单，但不够灵活，推荐仅在模型结构不需要更改且在同一环境中使用时使用。
保存整个模型

In [None]:
# 定义保存路径
save_path_model = 'model4Save_load_complete.pt'

# 保存整个模型
torch.save(model4Save_load, save_path_model)
print(f"整个模型已保存到 {save_path_model}")


加载整个模型

In [None]:
# 加载整个模型
loaded_model_complete = torch.load(save_path_model)

# 设置为评估模式（如果用于推理）
loaded_model_complete.eval()

print("整个模型已加载并设置为评估模式。")


注意事项：
直接保存和加载模型对象依赖于代码的具体实现。如果模型的定义发生变化，加载可能失败。
在不同的环境或不同的代码版本之间迁移模型时，建议使用 state_dict 方式保存。

TorchScript：torch.jit.trace 与 torch.jit.script

TorchScript 是 PyTorch 提供的一种将模型转换为中间表示（IR）的方法，使其可以在不依赖 Python 解释器的环境中运行，如 C++ 服务器或移动设备。TorchScript 支持优化和部署。

torch.jit.trace 通过跟踪模型的执行路径生成 TorchScript 模型，适用于没有复杂控制流的模型。
保存 Traced 模型

In [None]:
# 定义示例输入
example_input = torch.randn(1, 10)

# 使用 trace 生成 TorchScript 模型
traced_model = torch.jit.trace(model4Save_load, example_input)

# 保存 Traced 模型
traced_save_path = 'model4Save_load_traced.pt'
traced_model.save(traced_save_path)
print(f"Traced 模型已保存到 {traced_save_path}")


加载 Traced 模型

In [None]:
# 加载 Traced 模型
loaded_traced_model = torch.jit.load(traced_save_path)

# 设置为评估模式
loaded_traced_model.eval()

print("Traced 模型已加载并设置为评估模式。")


In [None]:
print(loaded_traced_model)

torch.jit.script 通过脚本化模型的源代码生成 TorchScript 模型，支持复杂的控制流和动态结构。

保存 Scripted 模型

In [None]:
# 使用 script 生成 TorchScript 模型
scripted_model = torch.jit.script(model4Save_load)

# 保存 Scripted 模型
scripted_save_path = 'model4Save_load_scripted.pt'
scripted_model.save(scripted_save_path)
print(f"Scripted 模型已保存到 {scripted_save_path}")

加载 Scripted 模型

In [None]:
# 加载 Scripted 模型
loaded_scripted_model = torch.jit.load(scripted_save_path)

# 设置为评估模式
loaded_scripted_model.eval()

print("Scripted 模型已加载并设置为评估模式。")


从其他开源仓库加载模型。
某些开源项目可能使用自定义的模型保存格式或提供特定的加载方法。在这种情况下，需参考相应项目的文档进行加载。
注意：不同项目的模型加载方法可能不同，需仔细阅读相关文档。

>这里简单介绍一下序列化和反序列化这两个概念<br>
**序列化**（Serialization）：序列化是将对象（如深度学习模型）的状态转换为可存储或传输的格式的过程。序列化后的数据通常以文件的形式保存，便于后续的加载和使用。<br>
用途：
- 模型保存：在训练过程中定期保存模型，以便后续恢复训练或部署。
- 模型共享：将训练好的模型分享给他人或在不同环境中使用。
- 部署：将模型导出为适合部署的平台格式。
>常见用法：
- PyTorch：使用 torch.save 保存 state_dict 或整个模型。
- TensorFlow：使用 tf.saved_model API 保存模型。

>**反序列化**（Deserialization）：反序列化是将序列化后的数据恢复为原始对象（如深度学习模型）的过程。反序列化后，可以继续使用模型进行训练或推理。<br>
用途：
- 恢复训练：从保存的模型状态继续训练。
- 模型加载：在推理阶段加载训练好的模型进行预测。
- 迁移学习：加载预训练模型并在新任务上进行微调。
>常见用法：
- PyTorch：使用 torch.load 加载 state_dict 或整个模型。
- TensorFlow：使用 tf.saved_model.load 加载模型。