# 5章　リカレントニューラルネットワーク（RNN)

RNNは、ループする経路を持つことが特徴。データが循環することにより、過去の情報を記憶しながら最新のデータへと更新することができる。

* ## RNNレイヤで行われている計算

$$ \textbf{h}_t = \tanh (\textbf{h}_{h-1} \textbf{W}_h + \textbf{x}_t \textbf{W}_x + \textbf{b})$$

ただし、tanhの第一項は前のRNNレイヤからの入力、第二項と第三項は現在の時系列データからの入力を表す。

### 【注意】ここでいう時系列データ$\textbf{x}_t$は、時間変化しているわけではないことに注意。<br/>例えば、'This is a pen'という時系列データがあったら、$x_0 = $This、$x_1 = $is、$x_2 =$a、、、、といった具合になる。（この添字がtになっている）
### 物理の記法では時間変化を表す記法なので、混乱しやすい。

## 5.3.1 RNNレイヤの実装

In [None]:
import numpy as np

class RNN :
    def __init__(self, Wx, Wh, b):
        self.params = [Wx, Wh, b]
        # 一つ目の要素に入力データに対する勾配、二つ目の要素に前のRNNレイヤに対する勾配を格納
        self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)] 
        self.cache = None # 逆伝播の計算時に使用する中間データ


    def forward(self, x, h, h_prev):
        Wx, Wh, b = self.params
        t = np.dot(h_prev, Wh) + np.dot(x, Wx) + b # 式のかっこの中を計算
        h_next = np.tanh(t)

        self.cache = (x, h_prev, h_next)
        return h_next

    def backward(self, dh_next):
        Wx, Wh, b = self.params
        x, h_prev, h_next = self.cache

        dt = dh_next * (1 - h_next**2) # tanhの微分と前のレイヤからの出力をかける
        db = np.sum(dt, axis=0)
        dWh = np.dot(h_prev.T, dt)
        dh_prev = np.dot(dt, Wh.T)
        dWx = np.dot(x.T, dt)
        dx = np.dot(dt, Wx.T)

        # 勾配を保存しておく
        self.grads[0][...] = dWx
        self.grads[1][...] = dWh
        self.grads[2][...] = db


        return dx, dh_prev
