# 保存与加载

[![下载Notebook](https://gitee.com/mindspore/docs/raw/tutorials-develop/resource/_static/logo_notebook.png)](https://obs.dualstack.cn-north-4.myhuaweicloud.com/mindspore-website/notebook/tutorials-develop/tutorials/zh_cn/mindspore_save_load.ipynb)&emsp;[![下载样例代码](https://gitee.com/mindspore/docs/raw/tutorials-develop/resource/_static/logo_download_code.png)](https://obs.dualstack.cn-north-4.myhuaweicloud.com/mindspore-website/notebook/tutorials-develop/tutorials/zh_cn/mindspore_save_load.py)&emsp;[![查看源文件](https://gitee.com/mindspore/docs/raw/tutorials-develop/resource/_static/logo_source.png)](https://gitee.com/mindspore/docs/blob/tutorials-develop/tutorials/source_zh_cn/beginner/save_load.ipynb)

上一章节的内容里面主要是介绍了如何调整超参数，并进行网络模型训练。训练网络模型的过程中，实际上我们希望保存中间和最后的结果，用于微调（fine-tune）和后续的模型部署和推理，现在开始学习如何设置超参和优化模型参数。

## 模型训练

下面是网络模型训练的基本步骤和代码，其示例代码如下：

In [None]:
import mindspore.nn as nn
from mindspore.train import Model

from mindvision.classification.dataset import Mnist
from mindvision.classification.models import lenet
from mindvision.engine.callback import LossMonitor

epochs = 1

# 1. 构建数据集
download_train = Mnist(path="./mnist", split="train", batch_size=32, repeat_num=1, shuffle=True, resize=32, download=True)
dataset_train = download_train.run()

# 2. 定义神经网络
network = lenet(num_classes=10, pretrained=False)
# 3.1 定义损失函数
net_loss = nn.SoftmaxCrossEntropyWithLogits(sparse=True, reduction='mean')
# 3.2 定义优化器函数
net_opt = nn.Momentum(network.trainable_params(), learning_rate=0.01, momentum=0.9)
# 3.3 初始化模型参数
model = Model(network, loss_fn=net_loss, optimizer=net_opt, metrics={'acc'})

# 4. 对神经网络执行训练
model.train(epochs, dataset_train, callbacks=[LossMonitor(125)])

```text
Epoch:[  0/  1],   step:[ 1856/ 1875],  loss:[0.131/1.448],  time:7.942,  lr:125.00000.
Epoch:[  0/  1],   step:[ 1857/ 1875],  loss:[0.018/1.447],  time:8.058,  lr:125.00000.
...
Epoch:[  0/  1],   step:[ 1858/ 1875],  loss:[0.025/1.446],  time:8.029,  lr:125.00000.
Epoch:[  0/  1],   step:[ 1859/ 1875],  loss:[0.023/1.445],  time:7.952,  lr:125.00000.
Epoch:[  0/  1],   step:[ 1860/ 1875],  loss:[0.133/1.445],  time:8.030,  lr:125.00000.

```

## 保存模型

在训练完网络完成后，下面将会讲述下如何保存和加载模型，保存模型的接口有主要2种方式：

一种是简单的对网络模型进行保存，可以在训练前后进行保存，优点是接口简单易用，但是只保留执行命令时候的网络模型状态；

另外一种是在网络模型训练中进行保存，MindSpore在网络模型训练的过程中，自动保存训练时候设定好的epoch数和step数的参数，也就是把模型训练过程中产生的中间权重参数也保存下来，方便进行网络微调和停止训练。

### 直接保存模型

使用MindSpore提供的save_checkpoint保存模型，传入网络和保存路径：

In [25]:
import mindspore as ms

# 定义的网络模型为net，一般在训练前或者训练后使用
ms.save_checkpoint(network, "./MyNet.ckpt")

其中，`net`为训练网络，定义方法可参考[创建网络](https://www.mindspore.cn/tutorials/zh-CN/master/beginner/model.html)。

### 训练过程中保存模型

在模型训练的过程中，使用`model.train`里面的`callbacks`参数传入保存模型的对象 `ModelCheckpoint`，可以保存模型参数，生成CheckPoint(简称ckpt)文件。
其中，`epoch_num`为训练轮次，定义方法可参考[模型训练](https://www.mindspore.cn/tutorials/zh-CN/master/beginner/train.html)。`dataset`为加载的数据集，定义方法可参考[数据加载及处理](https://www.mindspore.cn/tutorials/zh-CN/master/beginner/dataset.html)。

用户可以根据具体需求对CheckPoint策略进行配置。具体用法如下：

In [26]:
from mindspore.train.callback import ModelCheckpoint, CheckpointConfig

# 设置epoch_num数量
epoch_num = 1

# 设置模型保存参数
config_ck = CheckpointConfig(save_checkpoint_steps=1875, keep_checkpoint_max=10)

# 应用模型保存参数
ckpoint = ModelCheckpoint(prefix="lenet", directory="./lenet", config=config_ck)
model.train(epoch_num, dataset_train, callbacks=ckpoint)

上述代码中，首先需要初始化一个`CheckpointConfig`类对象，用来设置保存策略。

- `save_checkpoint_steps`表示每隔多少个step保存一次。
- `keep_checkpoint_max`表示最多保留CheckPoint文件的数量。
- `prefix`表示生成CheckPoint文件的前缀名。
- `directory`表示存放文件的目录。

创建一个`ModelCheckpoint`对象把它传递给`model.train`方法，就可以在训练过程中使用CheckPoint功能了。

生成的CheckPoint文件如下：

```text
lenet-graph.meta # 编译后的计算图
lenet-1_1875.ckpt  # CheckPoint文件后缀名为'.ckpt'
lenet-2_1875.ckpt  # 文件的命名方式表示保存参数所在的epoch和step数
lenet-3_1875.ckpt  # 表示保存的是第3个epoch的第1875个step的模型参数
...
```

如果用户使用相同的前缀名，运行多次训练脚本，可能会生成同名CheckPoint文件。MindSpore为方便用户区分每次生成的文件，会在用户定义的前缀后添加"_"和数字加以区分。如果想要删除`.ckpt`文件时，请同步删除`.meta` 文件。

例：`lenet_3-2_1875.ckpt` 表示运行第3次脚本生成的第2个epoch的第1875个step的CheckPoint文件。

## 加载模型

要加载模型权重，需要先创建相同模型的实例，然后使用`load_checkpoint`和`load_param_into_net`方法加载参数。

示例代码如下：

In [None]:
from mindspore import load_checkpoint, load_param_into_net

from mindvision.classification.dataset import Mnist
from mindvision.classification.models import lenet

# 将模型参数存入parameter的字典中，这里加载的是上面训练过程中保存的模型参数
param_dict = load_checkpoint("./lenet/lenet-1_1875.ckpt")

# 将参数加载到网络中
load_param_into_net(network, param_dict)
model = Model(network, net_loss, metrics={"accuracy"})

- `load_checkpoint`方法会把参数文件中的网络参数加载到字典`param_dict`中。
- `load_param_into_net`方法会把字典`param_dict`中的参数加载到网络或者优化器中，加载后，网络中的参数就是CheckPoint保存的。

### 模型验证

在上述模块把参数加载到网络中之后，针对推理场景，可以调用`eval`函数进行推理验证。示例代码如下：

In [28]:
# 调用eval()进行推理
download_eval = Mnist(path="./mnist", split="test", batch_size=32, resize=32, download=True)
dataset_eval = download_eval.run()
acc = model.eval(dataset_eval)

print("{}".format(acc))

{'accuracy': 0.9857772435897436}


### 用于迁移学习

针对任务中断再训练及微调（Fine-tuning）场景，可以调用`train`函数进行迁移学习。示例代码如下：

In [29]:
# 定义训练数据集
download_train = Mnist(path="./mnist", split="train", batch_size=32, repeat_num=1, shuffle=True, resize=32, download=True)
dataset_train = download_train.run()

# 调用train()进行训练
model.train(epoch_num, dataset_train, dataset_sink_mode=False)

```text
Epoch:[  0/  1],   step:[ 1856/ 1875],  loss:[0.131/1.448],  time:7.942,  lr:125.00000.
Epoch:[  0/  1],   step:[ 1857/ 1875],  loss:[0.018/1.447],  time:8.058,  lr:125.00000.
...
Epoch:[  0/  1],   step:[ 1858/ 1875],  loss:[0.025/1.446],  time:8.029,  lr:125.00000.
Epoch:[  0/  1],   step:[ 1859/ 1875],  loss:[0.023/1.445],  time:7.952,  lr:125.00000.
Epoch:[  0/  1],   step:[ 1860/ 1875],  loss:[0.133/1.445],  time:8.030,  lr:125.00000.

```