# SimpleRNNLMクラスを実装する
SimpleRNNLMクラスは、RNNレイヤを用いた言語モデルを構築するためのクラスである

In [1]:
import numpy as np
from common.time_layers import TimeEmbedding, TimeRNN, TimeAffine, TimeSoftmaxWithLoss

### [演習]
* 以下のSimpleRNNLMのクラスを完成させましょう

In [2]:
class SimpleRnnlm:
    def __init__(self, vocab_size, wordvec_size, hidden_size):
        V, D, H = vocab_size, wordvec_size, hidden_size
        
        # 乱数生成関数を別名で定義する
        rn = np.random.randn # 標準正規分布からサンプリングする関数

        # パラメータの初期化
        embed_W = rn(V, D) / 100 # 小さな値で初期化する
        rnn_Wx = rn(D, H) * np.sqrt(2/(D+H)) # Xavierの初期値
        rnn_Wh = rn(H, H) * np.sqrt(2/(H+H)) # Xavierの初期値
        rnn_b = np.zeros(H)
        affine_W = rn(H, V) * np.sqrt(2/(H+V)) # Xavierの初期値
        affine_b = np.zeros(V)

        # レイヤの生成
        self.layers = [
            TimeEmbedding(embed_W), # 単語埋め込みレイヤ
            TimeRNN(rnn_Wx, rnn_Wh, rnn_b, stateful=True), # RNNレイヤ. 中間層の状態を引き継ぐため、statefulをTrueにしておく
            TimeAffine(affine_W, affine_b) # Affineレイヤ
        ]
        self.loss_layer = TimeSoftmaxWithLoss() # 損失レイヤ

        # すべてのパラメータと勾配をそれぞれ1つのリストにまとめる
        self.params, self.grads = [], []
        for layer in self.layers:
            self.params += layer.params # リストを結合する
            self.grads += layer.grads # リストを結合する

    def predict(self, xs):
        """
        予測関数
        """
        # 損失レイヤ以外の全てのレイヤについて計算する
        for layer in self.layers:
            xs = layer.forward(xs)
        return xs
    
    def forward(self, xs, ts):
        """
        順伝播計算
        xs : 入力の単語ID, 配列形状は(ミニバッチ数、時間数)
        """
        # 損失レイヤ以外の全てのレイヤについて計算する
        xs = self.predict(xs)
        
        # 損失レイヤを計算する
        loss = self.loss_layer.forward(xs, ts)
        return loss

    def backward(self, dout=1):
        """
        逆伝播計算
        """
        # 損失レイヤの逆伝播計算
        dout = self.loss_layer.backward(dout)
        
        # 損失レイヤ以外の逆伝播計算
        for layer in reversed(self.layers):
            dout = layer.backward(dout)
            
        return dout

In [3]:
V = 10 # 語彙数
D = 3 # 埋め込みベクトルのノード数
H = 3 # RNNレイヤの隠れ層のノード数
srnnlm = SimpleRnnlm(V, D, H)

N = 2 # バッチサイズ
T = 4 # 時間数

# 単語ID
xs = np.array([[2, 5, 1, 4],[3, 2, 7, 8]]) # 入力の単語ID
ts = np.array([[5, 1, 4, 3],[2, 7, 8, 0]]) # 正解の単語ID

# 順伝播計算
loss = srnnlm.forward(xs, ts)
print("loss=", loss)
print()

# 逆伝播計算
dout = srnnlm.backward()
print("dout=", dout) # 最後の層はEmbeddingレイヤなので、Noneが返ってくる
print()

# 勾配の確認
print("Embeddingレイヤの重み行列=\n", srnnlm.layers[0].grads)

loss= 2.3030992264465704

dout= None

Embeddingレイヤの重み行列=
 [array([[ 0.        ,  0.        ,  0.        ],
       [-0.00564394,  0.02291211,  0.07414348],
       [ 0.00991297,  0.03485853, -0.04722009],
       [-0.01543512,  0.04187022,  0.01060033],
       [ 0.04821005, -0.02210823, -0.02774173],
       [-0.0133208 , -0.02983754,  0.00130878],
       [ 0.        ,  0.        ,  0.        ],
       [-0.04044225,  0.01156308, -0.03507822],
       [-0.05571195,  0.02299591,  0.01151434],
       [ 0.        ,  0.        ,  0.        ]])]
