In [None]:
import os
import numpy as np

import torch
import torch.nn as nn
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

from torchvision import transforms, datasets

In [None]:
# parameter 설정

lr = 1e-3
batch_size = 64
num_epoch = 10

ckpt_dir = './drive/My Drive/Colab Notebooks/MNIST_Test/checkpoint'     # 체크 포인트. 주기마다 모델 저장
log_dir = './drive/My Drive/Colab Notebooks/MNIST_Test/log'             # 텐서 보드 확인을 위한 로그 저장

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')   # CUDA 디바이스 설정


In [None]:
# Networt 구축

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()

        self.conv1 = nn.Conv2d(in_channels=1, out_channels=10, kernel_size=5, stride=1, padding=0, bias=True)
        self.pool1 = nn.MaxPool2d(kernel_size=2)
        self.relu1 = nn.ReLU()

        self.conv2 = nn.Conv2d(in_channels=10, out_channels=20, kernel_size=5, stride=1, padding=0, bias=True)
        self.drop2 = nn.Dropout2d(p=0.5)
        self.pool2 = nn.MaxPool2d(kernel_size=2)
        self.relu2 = nn.ReLU()

        self.fc1 = nn.Linear(in_features=320, out_features=50, bias=True)
        self.relu1_fc1 = nn.ReLU()
        self.drop1_fc1 = nn.Dropout2d(p=0.5)

        self.fc2 = nn.Linear(in_features=50, out_features=10, bias=True)      # 출력부 10으로 데이터 확인

    def forward(self, x):
        x = self.conv1(x)
        x = self.pool1(x)
        x = self.relu1(x)

        x = self.conv2(x)
        x = self.drop2(x)
        x = self.pool2(x)
        x = self.relu2(x)

        x = x.view(-1, 320)

        x = self.fc1(x)
        x = self.relu1_fc1(x)
        x = self.drop1_fc1(x)

        x = self.fc2(x)

        return x

In [None]:
# 네트워크 저장 함수

def save(ckpt_dir, net, optim, epoch):        # check point 저장
    if not os.path.exists(ckpt_dir):
        os.makedirs(ckpt_dir)                 # 없다면 체크 포인트 생성

    torch.save({'net': net.state_dict(), 'optim': optim.state_dict()},    # net, optim -> pth로 저장
               './%s/model_epoch%d.pth' % (ckpt_dir, epoch))              # net : , optim : 

def load(ckpt_dir, net, optim):               # check point 로드
    ckpt_lst = os.listdir(ckpt_dir)
    ckpt_lst.sort()                           # check point list 한 후 마지막 사용을 위해 sort -> 1, 10도 sort가 되는지 확인

    dict_model = torch.load('./%s/%s' % (ckpt_dir, ckpt_lst[-1]))         # 마지막 sort를 사용. dict_model에 넣어준다

    net.load_state_dict(dict_model['net'])                                # net, optim 모델에서 로드
    optim.load_state_dict(dict_model['optim'])

    return net, optim

In [None]:
# MNIST 데이터 불러오기

transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize(mean=(0.5,), std=(0.5,))])      # 텐서 바꾸기 + Normalization = transform

dataset = datasets.MNIST(download=True, root='./drive/My Drive/Colab Notebooks/MNIST_Test', train=True, transform=transform)  # 데이터 셋 설정. transform으로 데이터 수정
loader = DataLoader(dataset, batch_size=batch_size, shuffle=True, num_workers=0)                             # 함수를 이용해 데이터 로드. shuffle, num_worker는 추가 가능

num_data = len(loader.dataset)                      # dataset 개수 확인
num_batch = np.ceil(num_data / batch_size)          # dataset 개수에서 batch_size를 나눠 training batch 개수 구함

In [None]:
# 네트워크 설정, 손실함수 구현

net = Net().to(device)                              # 앞서 설정한 Net 구조 사용 변수
params = net.parameters()                           # Net의 변수 저장

fn_loss = nn.CrossEntropyLoss().to(device)          # loss 함수. CrossEntropyLoss 사용
fn_pred = lambda output: torch.softmax(output, dim=1)         # softmax 사용 predict 모델 생성 변수
fn_acc = lambda pred, label: ((pred.max(dim=1)[1] == label).type(torch.float)).mean()           # 예측 모델과 실제 모델을 합쳐 정확성 체크

optim = torch.optim.Adam(params, lr=lr)             # Adam 사용. 논문 정독 필요

writer = SummaryWriter(log_dir=log_dir)             # log 저장

In [None]:
# 트레이닝

for epoch in range(1, num_epoch + 1):               # 한 epoch 학습
    net.train()

    loss_arr = []                                   # Loss 함수 저장
    acc_arr = []                                    # 정확도 함수 저장

    for  batch, (input, label) in enumerate(loader, 1):     # batch 마다 진행
        input = input.to(device)
        label = label.to(device)

        output = net(input)                         # Net에 input
        pred = fn_pred(output)                      # 구한 output softmax

        optim.zero_grad()                           # 역전파 단계를 실행하기 전에 변화도를 0으로 설정

        loss = fn_loss(output, label)
        acc = fn_acc(pred, label)

        loss.backward()                             # 역전파 : 모델의 매개변수에 대한 손실의 변화도를 계산

        optim.step()                                # Optimizer의 step 함수를 호출 후 매개변수가 갱신

        loss_arr += [loss.item()]                   # Tensorboard 확인을 위한 loss 저장
        acc_arr += [acc.item()]                     # Tensorboard 확인을 위한 acc 저장

        print('TRAIN: EPOCH %04d/%04d | BATCH %04d/%04d | LOSS: %.4f | ACC %.4f' %
              (epoch, num_epoch, batch, num_batch, np.mean(loss_arr), np.mean(acc_arr)))

    writer.add_scalar('loss', np.mean(loss_arr), epoch)         # Tensorboard loss 입력
    writer.add_scalar('acc', np.mean(acc_arr), epoch)           # Tensorboard acc 입력

    save(ckpt_dir=ckpt_dir, net=net, optim=optim, epoch=epoch)  # save

writer.close()          # 학습 마친 이후 writer 종료

[1;30;43m스트리밍 출력 내용이 길어서 마지막 5000줄이 삭제되었습니다.[0m
TRAIN: EPOCH 0005/0010 | BATCH 0630/0938 | LOSS: 0.1859 | ACC 0.9452
TRAIN: EPOCH 0005/0010 | BATCH 0631/0938 | LOSS: 0.1858 | ACC 0.9453
TRAIN: EPOCH 0005/0010 | BATCH 0632/0938 | LOSS: 0.1860 | ACC 0.9451
TRAIN: EPOCH 0005/0010 | BATCH 0633/0938 | LOSS: 0.1862 | ACC 0.9451
TRAIN: EPOCH 0005/0010 | BATCH 0634/0938 | LOSS: 0.1864 | ACC 0.9451
TRAIN: EPOCH 0005/0010 | BATCH 0635/0938 | LOSS: 0.1863 | ACC 0.9451
TRAIN: EPOCH 0005/0010 | BATCH 0636/0938 | LOSS: 0.1862 | ACC 0.9451
TRAIN: EPOCH 0005/0010 | BATCH 0637/0938 | LOSS: 0.1863 | ACC 0.9451
TRAIN: EPOCH 0005/0010 | BATCH 0638/0938 | LOSS: 0.1863 | ACC 0.9451
TRAIN: EPOCH 0005/0010 | BATCH 0639/0938 | LOSS: 0.1860 | ACC 0.9452
TRAIN: EPOCH 0005/0010 | BATCH 0640/0938 | LOSS: 0.1858 | ACC 0.9453
TRAIN: EPOCH 0005/0010 | BATCH 0641/0938 | LOSS: 0.1859 | ACC 0.9453
TRAIN: EPOCH 0005/0010 | BATCH 0642/0938 | LOSS: 0.1862 | ACC 0.9452
TRAIN: EPOCH 0005/0010 | BATCH 0643/0938 | LOSS: 0.18