[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/okada-tak/deep-learning-from-scratch-2/blob/master/notebooks/ch05.ipynb)

# 5章 リカレントニューラルネットワーク(RNN) のまとめ
- RNNはループする経路があり、それによって「隠れ状態」を内部に記憶することができる
- RNNのループ経路を展開することで、複数のRNNレイヤがつながったネットワークと解釈することができ、通常の誤差逆伝播法によって学習することができる（＝BPTT）
- 長い時系列データを学習する場合は、適当な長さでデータのまとまりを作り－これを「ブロック」という－、ブロック単位でBPTTによる学習を行う（＝Truncated BPTT）
- Truncated BPTTでは逆伝播のつながりのみを切断する
- Truncated BPTTでは順伝播のつながりは維持するため、データは”シーケンシャル”に与える必要がある
- 言語モデルは、単語の羅列を確率として解釈する
- RNNレイヤを利用した条件付き言語モデルは、（理論的には）それまで登場した単語の情報を記憶することができる

単純なフィードフォワード・ネットワークでは、時系列データの性質（パターン）を十分に学習することができない

## 5.1 確率と言語モデル

### 5.1.1 word2vecを確率の視点から眺める
$w_{t-1}$と$w_{t+1}$が与えられたとき、ターゲットが$w_t$となる確率  
$$
P(w_t|w_{t-1}, w_{t+1})
$$

左側2つの単語だけをコンテキストとして考える
$$
P(w_t|w_{t-2}, w_{t-1})
$$

CBOWモデルが扱う損失関数
$$
L=-logP(w_t|w_{t-2}, w_{t-1})
$$

### 5.1.2 言語モデル
$w_1$,…,$w_m$の$m$個の単語からなる文章  
$w_1$,…,$w_m$という順序で単語が出現する確率  
$$
\begin{split}
P(w_1,…,w_m)&=P(w_m|w_1,…,w_{m-1})P(w_{m-1}|w_1,…,w_{m-2})...P(w_3|w_1,w_2)P(w_2|w_1)p(w_1)\\  
&=\prod_{t=1}^mP(w_t|w_1,…,w_{t-1})
\end{split}
$$
目標：  
$P(w_t|w_1,…,w_{t-1})$を求めること。これがわかれば言語モデルの同時確率$P(w_1,…,w_m)$を求められる

### 5.1.3 CBOWモデルを言語モデルに？
コンテキストのサイズを限定することでCBOWモデルを言語モデルに適用
$$
P(w_1,…,w_m)=\prod_{t=1}^mP(w_t|w_1,…,w_{t-1})≈\prod_{t=1}^mP(w_t|w_{t-2},w_{t-1})
$$
直前の2つの単語だけに依存するとして2階のマルコフ連鎖  
CBOWモデルではコンテキスト内の単語の並びが無視されるのが問題


## 5.2 RNNとは

### 5.2.1 循環するニューラルネットワーク
### 5.2.2 ループの展開
$$
\mathbf h_t=tanh(\mathbf h_{t-1}\mathbf W_\mathbf h+\mathbf x_t\mathbf W_\mathbf x+\mathbf b)
$$

### 5.2.3 Backpropagation Through Time
長い時系列データを扱うと消費する計算リソースが増大する  
逆伝播時の勾配が不安定になる

### 5.2.4 Truncated BPTT
ネットワークの逆伝播のつながりだけを適当な長さで切り取り、切り取られたネットワーク単位で学習する

順伝播のつながりは切断しないのでデータをシーケンシャルに与える必要がある

### 5.2.5 Truncated BPTTのミニバッチ学習
データの与え方：

*   データをシーケンシャルに与えること
*   各バッチでデータを与える開始位置をずらすこと



## 5.3 RNNの実装