# 모델 저장하고 불러오기

In [2]:
import torch
import torchvision.models as models
from torchsummary import summary

## 모델 가중치 저장하고 불러오기
* PyTorch 모델은 학습한 매개변수를 <code>state_dict</code>라고 불리는 내부 상태 사전(internal state dictionary)에 저장
* 이 상태 값들은 <code>torch.save</code>메소드를 사용하여 저장(persist)할 수 있음
* <code>state_dict</code>는 모델의 각 레이어를 해당 Parameter Tensor와 매핑하는 Python Dictionary 객체이다.
* <code>.pt</code>와 <code>.pth</code>는 본질적으로 차이가 없다.

In [3]:
model = models.vgg16(weights='IMAGENET1K_V1')
torch.save(model.state_dict(), 'model_weights.pth')

Downloading: "https://download.pytorch.org/models/vgg16-397923af.pth" to C:\Users\user/.cache\torch\hub\checkpoints\vgg16-397923af.pth
100%|███████████████████████████████████████████████████████████████████████████████| 528M/528M [01:02<00:00, 8.89MB/s]


In [4]:
for param in model.state_dict():
    print(param)

features.0.weight
features.0.bias
features.2.weight
features.2.bias
features.5.weight
features.5.bias
features.7.weight
features.7.bias
features.10.weight
features.10.bias
features.12.weight
features.12.bias
features.14.weight
features.14.bias
features.17.weight
features.17.bias
features.19.weight
features.19.bias
features.21.weight
features.21.bias
features.24.weight
features.24.bias
features.26.weight
features.26.bias
features.28.weight
features.28.bias
classifier.0.weight
classifier.0.bias
classifier.3.weight
classifier.3.bias
classifier.6.weight
classifier.6.bias


* PyTorch에서는 모델의 가중치를 가져오려면, 해당 모델의 Instance(객체)를 생성해야 한다.
* 즉, 모델의 틀은 사용자가 가지고 있어야 한다.
* 그래서 생성한 다음에 <code>load_state_dict()</code>으로 메소드를 사용하여 매개변수들을 불러온다.
* 아래에서 <code>model.eval()</code>을 호출하는 이유는 Dropout과 Batch Normalization을 <b>Evaluation Mode(평가 모드)</b>로 바꾸어야 한다.
* 그렇지 않으면 일관성 없는 추론 결과가 생성된다.

In [5]:
model = models.vgg16() # weight를 지정하지 않았으므로, 학습되지 않은 모델을 생성한다.
model.load_state_dict(torch.load('model_weights.pth'))
model.eval()

VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (3): ReLU(inplace=True)
    (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (5): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (6): ReLU(inplace=True)
    (7): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (8): ReLU(inplace=True)
    (9): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (10): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): ReLU(inplace=True)
    (12): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (13): ReLU(inplace=True)
    (14): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (15): ReLU(inplace=True)
    (16): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1

## 모델의 형태를 포함하여 저장하고 불러오기
* 모델의 가중치를 불러올 때, 신경망의 구조를 정의하기 위해 모델 클래스를 먼저 생성해야했다.
* 이 클래스의 구조를 모델과 함께 저장하고 싶으면, <code>model.state_dict()</code>가 아닌 <code>model</code>을 저장 함수에 전달한다.

In [15]:
torch.save(model, 'model.pth')
model = torch.load('model.pth')

In [25]:
summary(model, input_size=(3, 224, 224))

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
            Conv2d-1         [-1, 64, 224, 224]           1,792
              ReLU-2         [-1, 64, 224, 224]               0
            Conv2d-3         [-1, 64, 224, 224]          36,928
              ReLU-4         [-1, 64, 224, 224]               0
         MaxPool2d-5         [-1, 64, 112, 112]               0
            Conv2d-6        [-1, 128, 112, 112]          73,856
              ReLU-7        [-1, 128, 112, 112]               0
            Conv2d-8        [-1, 128, 112, 112]         147,584
              ReLU-9        [-1, 128, 112, 112]               0
        MaxPool2d-10          [-1, 128, 56, 56]               0
           Conv2d-11          [-1, 256, 56, 56]         295,168
             ReLU-12          [-1, 256, 56, 56]               0
           Conv2d-13          [-1, 256, 56, 56]         590,080
             ReLU-14          [-1, 256,

## Summary
* 모델은 <code>torch.save()</code>와 <code>torch.load()</code>를 통해서 저장하거나, 불러올 수 있다.
* 모델을 저장하거나 가중치를 저장할 수 있다.
### 1) 확장자 .pt, .pth
* 둘 중 하나로 관리되며 둘의 차이는 없다.
* 가중치든 모델이든 같은 확장자를 갖는다.
* 모델이라고 해서 어떤 확장자, 가중치라고 해서 어떤 확장자든 상관없다.
### 2) 가중치 save 및 load
* <code>model.state_dict()</code>를 통해서 현재 모델의 가중치를 받아온다.
* <code>torch.save(model.state_dict, PATH)</code>로 저장
* 그리고, 불러올 때는 해당 모델에 <b>가중치</b>를 불러오는 것이기 때문에 모델의 객체가 instaniate이 되어있어야 한다.
* <code>torch.load()</code>를 통해서 가져오며, 가중치를 모델에 넣는 법은 <code>model.load_state_dict()</code>를 사용한다.
* <code>model.load_state_dict(torch.load(PATH))</code>
### 3) 모델 save 및 load
* <code>torch.load(PATH)</code>를 통해서 모델을 가져온다.
* 모델을 통째로 저장할 때는 picke 모듈을 사용하여 직렬화시킨다.
### 4) Dropout, Batch Normalization 사용시 주의할 점
* 추론을 할 때는 이를 사용하기 위해서 <code>model.eval()</code>을 호출하여 Evaluation Mode를 켜주어야 한다.
* 켜주지 않으면, 일관성 없는 결과가 나온다.

# Appendix (CheckPoint)
## 개요
* 추론 또는 학습의 재개를 위해 Checkpoint 모델을 저장하고 불러오는 것은 마지막으로 저장했던 부분을 선택하는데 도움을 줄 수 있다.
* 체크포인트를 저장할 때는 단순히 모델의 <code>state_dict</code> 이상의 것을 저장해야 한다.
* 모델 학습 중에 갱신되는 버퍼와 매개변수들을 포함하는 옵티마이저(Optimizer)의 state_dict를 함께 저장하는 것이 중요하다.
    * optimizer가 저장할 게 있나?
    * learning rate말고 뭘 저장하지? -> .grad같은 속성은 이미 각 Tensor가 갖고있는데
    * learning rate도 아닌 듯하다. 내부 정보에 무언가 있다.
* 이 외에도 중단 시점의 Epoch, 마지막으로 기록된 training loss, 외부 <code>torch.nn.Embedding</code> 계층 등, 알고리즘에 따라 저장하고 싶은 항목들이 있을 것이다.

In [27]:
from torch import nn

In [30]:
class MyNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
        self.relu = nn.ReLU()

    def forward(self, x):
        x = self.pool(self.relu(self.conv1(x)))
        x = self.pool(self.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.fc3(x)
        return x

In [31]:
model = MyNet()
summary(model, (3, 32, 32))

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
            Conv2d-1            [-1, 6, 28, 28]             456
              ReLU-2            [-1, 6, 28, 28]               0
         MaxPool2d-3            [-1, 6, 14, 14]               0
            Conv2d-4           [-1, 16, 10, 10]           2,416
              ReLU-5           [-1, 16, 10, 10]               0
         MaxPool2d-6             [-1, 16, 5, 5]               0
            Linear-7                  [-1, 120]          48,120
              ReLU-8                  [-1, 120]               0
            Linear-9                   [-1, 84]          10,164
             ReLU-10                   [-1, 84]               0
           Linear-11                   [-1, 10]             850
Total params: 62,006
Trainable params: 62,006
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.01
Forward/ba

In [33]:
from torch import optim

optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)

In [34]:
# 추가 정보
EPOCH = 5
PATH = 'model.pt'
LOSS = 0.4

torch.save({
    'epoch': EPOCH,
    'model_state_dict': model.state_dict(),
    'optimizer_state_dict': optimizer.state_dict(),
    'loss': LOSS
}, PATH)

In [None]:
# 체크 포인트 불러오기

model2 = MyNet()
oprimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)

checkpoint = torch.load(PATH)
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
epoch = checkpoint['epoch']
loss = checkpoint['loss']

## Summary
### checkpoint
* model의 state_dict, optimizer의 state_dict를 하나의 Dictionary로 묶어서 Checkpoint로 저장할 수 있다.
* 이 때 optimizer는 모델과 같이 내부의 가중치 형태와 같은 상태를 저장하며 load할 때도 모델과 똑같이 가중치를 가져오는 것처럼 state_dict를 가져온다.
* epoch나 loss와 같은 정보도 담을 수 있다.
### <code>model.train()</code>
* 모델 학습 모드로 설정
* 학습에 필요한 환경으로 설정
### <code>model.eval()</code>
* 모델 평가 모드로 설정
* 그래디언트 계산 X