## 예제 3-1) 사람의 손글씨 데이터인 MNIST를 이용해 MLP 설계할 때 Dropout 적용해보기

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import torch
import torch.nn as nn                           # (1)
import torch.nn.functional as F                 # (2)
from torchvision import transforms, datasets    # (3)

In [2]:
if torch.cuda.is_available() :
    DEVICE = torch.device('cuda')
else :
    DEVICE = torch.device('cpu')
    
print('Using PyTorch version : ', torch.__version__, ' Device : ', DEVICE)

Using PyTorch version :  1.9.0  Device :  cpu


  return torch._C._cuda_getDeviceCount() > 0


In [4]:
BATCH_SIZE = 32    # (1)
EPOCHS = 10        # (2)

In [5]:
train_dataset = datasets.MNIST(root = "../data/MNIST",                 #(1)
                              train = True,
                              download = True,
                              transform = transforms.ToTensor())
test_dataset = datasets.MNIST(root = "../data/MNIST",                  #(2)
                              train = False,
                              transform = transforms.ToTensor())
train_loader = torch.utils.data.DataLoader(dataset = train_dataset,    #(3)
                                          batch_size = BATCH_SIZE,
                                          shuffle = True)
test_loader = torch.utils.data.DataLoader(dataset = test_dataset,     #(4)
                                          batch_size = BATCH_SIZE,
                                          shuffle = False)

  return torch.from_numpy(parsed.astype(m[2], copy=False)).view(*s)


파이토치를 이용하면 Dropout 적용하는 것은 매우 간단함.  
Part 02 예제에서 MLP 모델 설계 부분에 Dropout을 추가해보자.

In [6]:
class Net(nn.Module) : 
    def __init__(self) :  
        super(Net, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 512)
        self.fc2 = nn.Linear(512, 256)
        self.fc3 = nn.Linear(256, 10)
        self.dropout_prob = 0.5                                              # (1)
        
    def forward(self, x) :
        x = x.view(-1, 28 * 28)
        x = self.fc1(x)
        x = F.sigmoid(x)
        x = F.dropout(x, training = self.training, p = self.dropout_prob)    # (2)
        x = self.fc2(x)
        x = F.sigmoid(x)
        x = F.dropout(x, training = self.training, p = self.dropout_prob)    # (3)
        x = self.fc3(x)
        x = F.log_softmax(x, dim = 1)
        return x

(1) 몇 퍼센트의 노드에 대해 가중값을 계산하지 않을 것인지를 명시.  
(2), (3) 각 sigmoid() 함수의 결괏값에 대해 Dropout을 적용하는 부분. 
- p : 몇 퍼센트의 노드에 대해 계산하지 않을 것인지를 조정하는 요소. 
- training = self.training : 학습 상태일 때와 검증 상태에 따라 다르게 적용되기 위해 존재하는 파라미터.  Dropout은 학습 과정 속에서 랜덤으로 노드를 선택해 가중값이 업데이트되지 않도록 조정하지만, 평가 과정 속에서는 모든 노드를 이용해 Output을 계산하기 때문에 학습 상태와 검증 상태에서 다르게 적용돼야 함. 이를 반영하기 위한 파라미터 값을 model.train()으로 명시할 때 self.training = True, model.eval()로 명시할 때, self.training = False로 적용됨.

In [7]:
model = Net().to(DEVICE)                                                      # (1)
optimizer = torch.optim.SGD(model.parameters(), lr = 0.01, momentum = 0.5)    # (2)
criterion = nn.CrossEntropyLoss()                                             # (3)

print(model)

Net(
  (fc1): Linear(in_features=784, out_features=512, bias=True)
  (fc2): Linear(in_features=512, out_features=256, bias=True)
  (fc3): Linear(in_features=256, out_features=10, bias=True)
)


In [8]:
def train(model, train_loader, optimizer, log_interval) :
    model.train()                                                                              # (1)
    for batch_idx, (image, label) in enumerate(train_loader) :                                 # (2)
        image = image.to(DEVICE)                                                               # (3)
        label = label.to(DEVICE)                                                               # (4)
        optimizer.zero_grad()                                                                  # (5)
        output = model(image)                                                                  # (6)
        loss = criterion(output, label)                                                        # (7)
        loss.backward()                                                                        # (8)
        optimizer.step()                                                                       # (9)
        
        if batch_idx % log_interval == 0 :
            print("Train Eppoch : {} [{}/{}({:.0f}%)]\tTrain Loss : {:.6f}".format(
                Epoch, batch_idx * len(image), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))

In [9]:
def evaluate(model, test_loader) :
    model.eval()                                                                     # (1)
    test_loss = 0                                                                    # (2)
    correct = 0                                                                      # (3)
    
    with torch.no_grad() :                                                           # (4)
        for image, label in test_loader :                                            # (5)
            image = image.to(DEVICE)                                                 # (6)
            label = label.to(DEVICE)                                                 # (7)
            output = model(image)                                                    # (8)
            test_loss += criterion(output, label).item()                             # (9)
            prediction = output.max(1, keepdim = True)[1]                            # (10)
            correct += prediction.eq(label.view_as(prediction)).sum().item()         # (11)
            
    test_loss /= len(test_loader.dataset)                                            # (12)
    test_accuracy = 100. * correct / len(test_loader.dataset)                        # (13)
    return test_loss, test_accuracy                                                  # (14)

In [10]:
for Epoch in range(1, EPOCHS + 1) :
    train(model, train_loader, optimizer ,log_interval = 200)    # (1)
    test_loss, test_accuracy = evaluate(model, test_loader)      # (2)
    print("\n[EPOCH : {}], \tTest Loss : {:.4f}, \tTest Accuracy : {:.2f} %\n".format(Epoch, test_loss, test_accuracy))




[EPOCH : 1], 	Test Loss : 0.0714, 	Test Accuracy : 9.64 %


[EPOCH : 2], 	Test Loss : 0.0641, 	Test Accuracy : 35.06 %


[EPOCH : 3], 	Test Loss : 0.0380, 	Test Accuracy : 60.14 %


[EPOCH : 4], 	Test Loss : 0.0278, 	Test Accuracy : 69.51 %


[EPOCH : 5], 	Test Loss : 0.0240, 	Test Accuracy : 75.45 %


[EPOCH : 6], 	Test Loss : 0.0211, 	Test Accuracy : 79.73 %


[EPOCH : 7], 	Test Loss : 0.0184, 	Test Accuracy : 82.33 %


[EPOCH : 8], 	Test Loss : 0.0165, 	Test Accuracy : 84.11 %


[EPOCH : 9], 	Test Loss : 0.0148, 	Test Accuracy : 85.61 %


[EPOCH : 10], 	Test Loss : 0.0138, 	Test Accuracy : 86.58 %



이론상 Dropout을 적용했을 때 일반화가 강해져 Test Accuracy가 높아지는 결과가 기대되지만, 이는 학습 데이터셋과 검증 데이터셋의 피처 및 레이블의 분포 간 많은 차이가 있을 때 유효함.  
MNIST 데이터셋은 학습 데이터와 검증 데이터 간 많은 차이가 발생하지 않아 오히려 성능이 조금 하락할 수도 있음. 하지만 Epoch을 늘려 추가로 학습하면 성능이 좋아짐.  
Dropout은 보통 ReLU() 비선형 함수와 잘 어울림. 다음 예제에서는 비선형 함수를 Sigmoid()에서 ReLU()로 변경했을 때 Dropout의 효과를 살펴보자. 