<a href="https://colab.research.google.com/github/chopstickexe/deep-learning-from-scratch-2/blob/master/ch06_lstm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 下準備

$$
\newcommand{\vect}[1]{\mathbf{#1}}
\newcommand{\mat}[1]{\mathbf{#1}}
$$

## 数式の表記

変数: 小文字イタリック $x$

定数: 大文字イタリック $X$

ベクトル: 小文字ローマン体太字 $\vect{x}$

行列: 大文字ローマン体太字 $\mat{X}$

## 公式実装のclone

In [None]:
!git clone --depth=1 https://github.com/oreilly-japan/deep-learning-from-scratch-2.git
import sys 
sys.path.append('deep-learning-from-scratch-2')

Cloning into 'deep-learning-from-scratch-2'...
remote: Enumerating objects: 73, done.[K
remote: Counting objects: 100% (73/73), done.[K
remote: Compressing objects: 100% (71/71), done.[K
remote: Total 73 (delta 13), reused 14 (delta 0), pack-reused 0[K
Unpacking objects: 100% (73/73), done.


# 6章 ゲート付きRNN

## 6.1 RNNの問題点（勾配消失・勾配爆発）

5章のシンプルなRNNは時系列が長くなると，逆伝播の際にtanhの微分値

$$ 
\frac{\delta \mathrm{tanh}(\vect{x})}{\delta \vect{x}} = 1 - \mathrm{tanh}(\vect{x})^2, (-1 \leq \mathrm{tanh}(\vect{x}) \leq 1)
$$

をtごとに損失値の勾配にかけ算することで勾配消失につながりやすくなる．

また，同じ重み $\mat{W_h}$ を損失値の勾配に何度もかけ算することで，勾配爆発につながりやすくなる．

この勾配消失と勾配爆発の二つの問題のうち，勾配爆発は**勾配クリッピング**という比較的簡単な手法で抑えることができる．

勾配クリッピングは以下のように計算する．あるイテレーションの結果，ニューラルネットワークのすべてのパラメータの勾配（いままでの実装で言うところの`self.grads`）を$\hat{\vect{g}}$としたとき，そのL2ノルム$||\hat{\vect{g}}||$があらかじめ定められた閾値$\mathit{threshold}$を超えていたら，

$$
\hat{\vect{g}} = \frac{\mathit{threshold}}{||\hat{\vect{g}}||} \hat{\vect{g}}
$$

でパラメータの勾配を修正する．（勾配は必ず1倍以下の値になる）



## 6.2 勾配消失とLSTM

シンプルなRNNのもう一つの問題である勾配消失については以下のように解決する（これがいわゆるLSTM）．

まず，$\vect{h_{t-1}} \mat{W_h} + \vect{x_t} \mat{W_x} + \vect{b}$を必ずtanhに放り込むのではなく，別途直接次の時刻$\mathrm{t+1}$に渡すルートを作る．（勾配消失の原因になるtanhをスキップ）
このルートに相当する変数を**セル**（または記憶セル）と呼び，$\vect{c_t}$で表現する．

そして，以下の3種類のゲートを持たせる．

- Outputゲート（$\vect{o}$）: 出力する隠れベクトル$\vect{h_t}$にどのくらい$\tanh(\vect{c_t})$を反映させるか決める
- Forgetゲート（$\vect{f}$）: $\vect{c_{t-1}}$ をどのくらい $\vect{c_t}$ に反映させるか決める
- Inputゲート（$\vect{i}$）: 従来のシンプルなRNNの出力$\vect{g} = \tanh(\vect{h_{t-1}} \mat{W_h} + \vect{x_t} \mat{W_x} + \vect{b})$をどのくらい $\vect{c_t}$ に反映させるか決める．

これらのゲートの出力は0～1の係数になる．その値は，シンプルなRNNの出力と同様に，$\vect{h_{t-1}}$と$\vect{x_t}$から求める．具体的には以下のように，sigmoid関数（$\sigma$）を用いて求める．（$\otimes$はアダマール積を表し，ベクトルを要素ごとに積算する）

$$
\begin{align}
\vect{f} &= \sigma(\vect{h_{t-1}} \mat{W_h^{(\vect{f})}} + \vect{x_t} \mat{W_x^{(\vect{f})}} + \vect{b}) \\
\vect{g} &= \tanh(\vect{h_{t-1}} \mat{W_h^{(\vect{g})}} + \vect{x_t} \mat{W_x^{(\vect{g})}} + \vect{b}) \\
\vect{i} &= \sigma(\vect{h_{t-1}} \mat{W_h^{(\vect{i})}} + \vect{x_t} \mat{W_x^{(\vect{i})}} + \vect{b}) \\
\vect{o} &= \sigma(\vect{h_{t-1}} \mat{W_h^{(\vect{o})}} + \vect{x_t} \mat{W_x^{(\vect{o})}} + \vect{b}) \\ \\
\vect{c_t} &= \vect{f} \otimes \vect{c_{t-1}} + \vect{i} \otimes \vect{g} \\
\vect{h_t} &= \vect{o} \otimes \tanh(\vect{c_t})  
\end{align}
$$
