## RNNとは
word2vecは単語の分散表現、すなわち単語の意味をベクトルで表現するために開発された手法だった。

なのでword2vecは言語モデル（単語の並びに対して確率を与える。どれだけ起こりうる並びなのか）に使用されることはない。単語の並びに対して学習を行うには、任意の長さの単語の列に対してその並びを崩さないように学習を行分ければならない。

word2vecでは入力単語それぞれに重みベクトルをかけて足し合わせた結果を中間層の入力としていた。これでは単語の前後の順番に対して学習できたない。足し合わせずに連結するという方法もあるが、それでは文章の並びをどこかで区切らなければならない。

任意の長さの単語列に対して学習するために考案されたのがRNN（再帰ニューラルネットワーク）である。

RNNでは、RNNレイヤの出力を次の単語の入力と一緒に入力する。つまり循環(Recurrent)構造になっている。

前回出力に対する重みを$W_h$、時刻$t$の入力を$x_t$、入力に対する重みを$W_x$、バイアスを$b$と表記する。

RNNの時刻$t$における出力$h_t$は次式で表される。
$$
h_t = \tanh(h_{t-1}W_t + x_t W_x + b)
$$

$x_t$として文章の初めから単語を順番に入力していくことで、任意の長さの文章を順番の情報を損なわずに学習することができる。

しかし、一方で長い時系列データの学習では、計算リソースの増加や、逆伝搬時の勾配が不安定になる問題もある。そのため逆伝搬時だけある長さでネットワークを切断し、小さなネットワークに対して誤差逆伝搬法を用いる方法がある。これをTruncated BPTT(Truncated Backpropagation Through Time)と言う。

trucated BPTTでは逆伝搬時には切断するが、順伝搬時にはネットワークの切断は行わない。

切断を行う単位でブロックに区切り、学習を行う。具体的には、RNNレイヤを切断単位数分まとめたTime RNNレイヤも作成する。

RNNレイヤの入力がxだとすれば、それらを複数個まとめた配列をTimeRNNの入力とする。出力もRNNレイヤの出力の配列となる。



In [1]:
import numpy as np

In [2]:
class RNN:
    def __init__(self, Wx, Wh, b):
        self.params = [Wx, Wh, b]
        self.grads = [np.zeros_like(wx), np.zeros_like(Wh), np.zeros_like(b)]
        self.cache = None
    
    def forward(self, x, h_prev):
        Wx, Wh, b = self.params
        t = np.dot(h_prev, Wh) + np.dot(x, Wx) + b
        h_next = np.tanh(t)
        
        self.cache = (x, h_prev, h_next)
        return h_next
    
    def backward(self, dh_next):
        Wx, Wh, b = self.params
        x, h_prev, h_next = self.cache
        
        dt = dh_next + (1 - h_next ** 2)
        db = np.sum(dt, axis=0)
        dWh= np.dot(h_prev.T, dt)
        dh_prev = np.dot(dt, Wh.T)
        dWt = np.dot(x.T, dt)
        dx = np.dot(dt, Wx.T)
        
        self.grads[0][...] = dWx
        self.grads[1][...] = dWh
        self.grads[2][...] = db
        
        return dx, dh_prev

In [None]:
class TimeRNN:
    def __init__(self, Wx, Wh, b, stateful=False):
        self.params = [Wx, Wh, b]
        self.grads = [np.zeros_like(wx), np.zeros_like(Wh), np.zeros_like(b)]
        self.layers = None
        
        # 最後のRNNレイヤの出力
        # 一つ前ブロックに渡す勾配
        self.h, self.dh = None, None
        
        # trueの時順伝搬の繋がりを断ち切る（隠れ状態をゼロ行列で初期化）
        # falseの時は順伝搬時に次のレイヤに出力を渡す
        self.stateful = stateful
    
    def set_state(self, h):
        self.h = h
        
    def reset_state(self):
        self.h = None

        