### 读取文件
到目前为止，我们讨论了如何处理数据， 以及如何构建、训练和测试深度学习模型。 然而，有时我们希望保存训练的模型， 以备将来在各种环境中使用（比如在部署中进行预测）。 此外，当运行一个耗时较长的训练过程时， 最佳的做法是定期保存中间结果， 以确保在服务器电源被不小心断掉时，我们不会损失几天的计算结果。 因此，现在是时候学习如何加载和存储权重向量和整个模型了.

#### 加载和保存张量
对于单个张量，我们可以直接调用load和save函数分别读写它们。 这两个函数都要求我们提供一个名称，save要求将要保存的变量作为输入.

In [13]:
import torch
from torch import nn
from torch.nn import functional as F

X = torch.arange(4)
torch.save(X, "x-file")  # 这里把tensor存储在一个x-file文件里面去了

In [14]:
X2 = torch.load("x-file")
X2

tensor([0, 1, 2, 3])

我们可以存储一个张量列表，然后把它们读回内存.

In [15]:
y = torch.zeros(4)
torch.save([X, y], 'x-files')
x2, y2 = torch.load('x-files')
(x2, y2)

(tensor([0, 1, 2, 3]), tensor([0., 0., 0., 0.]))

我们甚至可以写入或读取从字符串映射到张量的字典。 当我们要读取或写入模型中的所有权重时，这很方便.

In [16]:
mydict = {'x': X, 'y': y}
torch.save(mydict, 'mydict')
mydict2 = torch.load('mydict')
mydict2

{'x': tensor([0, 1, 2, 3]), 'y': tensor([0., 0., 0., 0.])}

### 加载和保存模型参数
保存单个权重向量（或其他张量）确实有用， 但是如果我们想保存整个模型，并在以后加载它们， 单独保存每个向量则会变得很麻烦。 毕竟，我们可能有数百个参数散布在各处。 因此，深度学习框架提供了内置函数来保存和加载整个网络。 需要注意的一个重要细节是，这将保存模型的参数而不是保存整个模型。 例如，如果我们有一个3层多层感知机，我们需要单独指定架构。 因为模型本身可以包含任意代码，所以模型本身难以序列化。 因此，为了恢复模型，我们需要用代码生成架构， 然后从磁盘加载参数。 让我们从熟悉的多层感知机开始尝试一下.

In [18]:
class MLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.hidden = nn.Linear(20, 256)
        self.output = nn.Linear(256, 10)

    def forward(self, x):
        return self.output(F.relu(self.hidden(x)))


net = MLP()
X = torch.randn(size=(2, 20))
Y = net(X)
Y

tensor([[-0.1085,  0.1417,  0.2134,  0.2068, -0.2014, -0.3325,  0.2564, -0.5923,
          0.4699,  0.4347],
        [ 0.2589,  0.2976,  0.0605,  0.0982,  0.0279,  0.0738,  0.5542, -0.2274,
         -0.3917,  0.2662]], grad_fn=<AddmmBackward0>)

In [21]:
torch.save(net.state_dict(), 'mlp.params')

OrderedDict([('hidden.weight', tensor([[-0.1014,  0.1417, -0.0447,  ...,  0.0135, -0.1956,  0.1955],
        [ 0.1148,  0.2112,  0.1328,  ..., -0.1867,  0.1975,  0.1691],
        [ 0.1829,  0.0598, -0.1995,  ...,  0.2206, -0.0421, -0.1358],
        ...,
        [ 0.1249, -0.1580,  0.1091,  ..., -0.0683, -0.1282,  0.0350],
        [ 0.0046,  0.1626,  0.0397,  ..., -0.0745, -0.1028, -0.0781],
        [-0.0239,  0.1306, -0.0634,  ..., -0.0030, -0.0672,  0.0437]])), ('hidden.bias', tensor([-0.2118,  0.1263, -0.1646, -0.0561,  0.1569, -0.1508,  0.1469,  0.1548,
        -0.1512,  0.0367,  0.0783, -0.0448, -0.0299,  0.0290, -0.0511,  0.0187,
         0.1260,  0.1338,  0.0521,  0.0623,  0.2113, -0.1623,  0.0331,  0.0414,
        -0.1237, -0.1799,  0.1858, -0.0786,  0.0405, -0.1113, -0.2020, -0.1152,
         0.2016,  0.1969, -0.0233,  0.0775,  0.1428, -0.2088, -0.1377,  0.1641,
         0.0493, -0.2212,  0.1530,  0.0355,  0.1827,  0.1306,  0.1763,  0.0499,
         0.1425,  0.0370, -0.0386, -0

为了恢复模型，我们实例化了原始多层感知机模型的一个备份。 这里我们不需要随机初始化模型参数，而是直接读取文件中存储的参数.

In [22]:
clone = MLP()
clone.load_state_dict(torch.load('mlp.params'))
clone.eval()

MLP(
  (hidden): Linear(in_features=20, out_features=256, bias=True)
  (output): Linear(in_features=256, out_features=10, bias=True)
)

由于两个实例具有相同的模型参数，在输入相同的X时， 两个实例的计算结果应该相同。 让我们来验证一下.

In [23]:
Y_clone = clone(X)
Y_clone == Y

tensor([[True, True, True, True, True, True, True, True, True, True],
        [True, True, True, True, True, True, True, True, True, True]])