### 개선된 RNNLM 구현

In [1]:
import sys
sys.path.append('..')
from common.time_layers import *
from common.np import *  # import numpy as np
from common.base_model import BaseModel


class BetterRnnlm(BaseModel):
    '''
     LSTM 계층을 2개 사용하고 각 층에 드롭아웃을 적용한 모델이다.
     아래 [1]에서 제안한 모델을 기초로 하였고, [2]와 [3]의 가중치 공유(weight tying)를 적용했다.

     [1] Recurrent Neural Network Regularization (https://arxiv.org/abs/1409.2329)
     [2] Using the Output Embedding to Improve Language Models (https://arxiv.org/abs/1608.05859)
     [3] Tying Word Vectors and Word Classifiers (https://arxiv.org/pdf/1611.01462.pdf)
    '''
    def __init__(self, vocab_size=10000, wordvec_size=650,
                 hidden_size=650, dropout_ratio=0.5):
        V, D, H = vocab_size, wordvec_size, hidden_size
        rn = np.random.randn

        embed_W = (rn(V, D) / 100).astype('f')
        lstm_Wx1 = (rn(D, 4 * H) / np.sqrt(D)).astype('f')
        lstm_Wh1 = (rn(H, 4 * H) / np.sqrt(H)).astype('f')
        lstm_b1 = np.zeros(4 * H).astype('f')
        lstm_Wx2 = (rn(H, 4 * H) / np.sqrt(H)).astype('f')
        lstm_Wh2 = (rn(H, 4 * H) / np.sqrt(H)).astype('f')
        lstm_b2 = np.zeros(4 * H).astype('f')
        affine_b = np.zeros(V).astype('f')

        self.layers = [
            TimeEmbedding(embed_W),
            TimeDropout(dropout_ratio),
            TimeLSTM(lstm_Wx1, lstm_Wh1, lstm_b1, stateful=True),
            TimeDropout(dropout_ratio),
            TimeLSTM(lstm_Wx2, lstm_Wh2, lstm_b2, stateful=True),
            TimeDropout(dropout_ratio),
            TimeAffine(embed_W.T, affine_b)  # weight tying!!
        ]
        self.loss_layer = TimeSoftmaxWithLoss()
        self.lstm_layers = [self.layers[2], self.layers[4]]
        self.drop_layers = [self.layers[1], self.layers[3], self.layers[5]]

        self.params, self.grads = [], []
        for layer in self.layers:
            self.params += layer.params
            self.grads += layer.grads

    def predict(self, xs, train_flg=False):
        for layer in self.drop_layers:
            layer.train_flg = train_flg

        for layer in self.layers:
            xs = layer.forward(xs)
        return xs

    def forward(self, xs, ts, train_flg=True):
        score = self.predict(xs, train_flg)
        loss = self.loss_layer.forward(score, ts)
        return loss

    def backward(self, dout=1):
        dout = self.loss_layer.backward(dout)
        for layer in reversed(self.layers):
            dout = layer.backward(dout)
        return dout

    def reset_state(self):
        for layer in self.lstm_layers:
            layer.reset_state()


### 학습코드 구현

In [4]:
# coding: utf-8
import sys
sys.path.append('..')
from common import config
# GPU에서 실행하려면 아래 주석을 해제하세요(CuPy 필요).
# ==============================================
# config.GPU = True
# ==============================================
from common.optimizer import SGD
from common.trainer import RnnlmTrainer
from common.util import eval_perplexity, to_gpu
from dataset import ptb
from better_rnnlm import BetterRnnlm


# 하이퍼파라미터 설정
batch_size = 20
wordvec_size = 650
hidden_size = 650
time_size = 35
lr = 20.0
max_epoch = 40
max_grad = 0.25
dropout = 0.5

# 학습 데이터 읽기
corpus, word_to_id, id_to_word = ptb.load_data('train')
corpus_val, _, _ = ptb.load_data('val')
corpus_test, _, _ = ptb.load_data('test')

if config.GPU:
    corpus = to_gpu(corpus)
    corpus_val = to_gpu(corpus_val)
    corpus_test = to_gpu(corpus_test)

vocab_size = len(word_to_id)
xs = corpus[:-1]
ts = corpus[1:]

model = BetterRnnlm(vocab_size, wordvec_size, hidden_size, dropout)
optimizer = SGD(lr)
trainer = RnnlmTrainer(model, optimizer)

best_ppl = float('inf')
for epoch in range(max_epoch):
    trainer.fit(xs, ts, max_epoch=1, batch_size=batch_size,
                time_size=time_size, max_grad=max_grad)

    model.reset_state()
    ppl = eval_perplexity(model, corpus_val)
    print('검증 퍼플렉서티: ', ppl)

    if best_ppl > ppl:
        best_ppl = ppl
        model.save_params()
    else:
        lr /= 4.0
        optimizer.lr = lr

    model.reset_state()
    print('-' * 50)


# 테스트 데이터로 평가
model.reset_state()
ppl_test = eval_perplexity(model, corpus_test)
print('테스트 퍼플렉서티: ', ppl_test)


| 에폭 1 |  반복 1 / 1327 | 시간 2[s] | 퍼플렉서티 10000.28
| 에폭 1 |  반복 21 / 1327 | 시간 66[s] | 퍼플렉서티 4099.59
| 에폭 1 |  반복 41 / 1327 | 시간 134[s] | 퍼플렉서티 1848.30
| 에폭 1 |  반복 61 / 1327 | 시간 204[s] | 퍼플렉서티 1303.35
| 에폭 1 |  반복 81 / 1327 | 시간 275[s] | 퍼플렉서티 1056.84
| 에폭 1 |  반복 101 / 1327 | 시간 343[s] | 퍼플렉서티 853.68
| 에폭 1 |  반복 121 / 1327 | 시간 410[s] | 퍼플렉서티 799.81
| 에폭 1 |  반복 141 / 1327 | 시간 477[s] | 퍼플렉서티 725.13
| 에폭 1 |  반복 161 / 1327 | 시간 544[s] | 퍼플렉서티 702.32
| 에폭 1 |  반복 181 / 1327 | 시간 612[s] | 퍼플렉서티 677.48
| 에폭 1 |  반복 201 / 1327 | 시간 681[s] | 퍼플렉서티 591.17
| 에폭 1 |  반복 221 / 1327 | 시간 749[s] | 퍼플렉서티 577.71
| 에폭 1 |  반복 241 / 1327 | 시간 819[s] | 퍼플렉서티 519.57
| 에폭 1 |  반복 261 / 1327 | 시간 886[s] | 퍼플렉서티 550.52
| 에폭 1 |  반복 281 / 1327 | 시간 952[s] | 퍼플렉서티 520.29
| 에폭 1 |  반복 301 / 1327 | 시간 1020[s] | 퍼플렉서티 450.62
| 에폭 1 |  반복 321 / 1327 | 시간 1087[s] | 퍼플렉서티 395.17
| 에폭 1 |  반복 341 / 1327 | 시간 1153[s] | 퍼플렉서티 458.31
| 에폭 1 |  반복 361 / 1327 | 시간 1221[s] | 퍼플렉서티 471.66
| 에폭 1 |  반복 381 / 1327 | 시간 1

KeyboardInterrupt: 