# Term2 Sprint23 授業課題 
## コーディング課題：深層学習RNNスクラッチ(リカレントニューラルネットワーク)

## 1. SimpleRNNのフォワードプロパゲーション実装
SimpleRNNのクラスSimpleRNNを作成する。基本構造はFCクラスと同じになる。

今回はバッチサイズをbatch_size、入力の特徴量数をn_features、RNNのノード数をn_nodesとして表記する。  
活性化関数はtanhとして進めるが、これまでのニューラルネットワーク同様にReLUなどに置き換えられる。

フォワードプロパゲーションの数式は以下のようになる。ndarrayのshapeがどうなるかを併記している。

$$a_t = x_{t}\cdot W_{x} + h_{t-1}\cdot W_{h} + b$$
$$h_t = tanh(a_t)$$

$a_t$ : 時刻$t$の活性化関数を通す前の状態 (batch_size, n_nodes)  
$h_t$ : 時刻$t$の状態・出力 (batch_size, n_nodes)  
$x_t$ : 時刻$t$の入力 (batch_size, n_features)  
$W_x$ : 入力に対する重み (n_features, n_nodes)  
$h_{t−1}$ : 時刻${t-1}$の状態（前の時刻から伝わる順伝播） (batch_size, n_nodes)  
$W_h$ : 状態に対する重み。 (n_nodes, n_nodes)  
$b$ : バイアス項 (1,)  

初期状態$h_0$は全て$0$とすることが多いが、任意の値を与えることも可能。

上記の処理を系列数n_sequences回繰り返すことになる。  
RNN全体への入力$x$は(batch_size, n_sequences, n_features)のような配列で渡されることになり、そこから各時刻の配列を取り出していく。

分類問題であれば、それぞれの時刻の$h$に対して全結合層とソフトマックス関数（またはシグモイド関数）を使用する。  
出力は最後の$h$だけを使用する場合と、全ての$h$を使う場合がある。

## 2. 小さな配列でのフォワードプロパゲーションの実験
小さな配列でフォワードプロパゲーションを考えてみる。

入力$x$、初期状態$h$、重み$w_x$と$w_h$、バイアスbを次のようにする。

ここで配列$x$の軸はバッチサイズ、系列数、特徴量数の順番。

In [2]:
import numpy as np

x = np.array([[[1, 2], [2, 3], [3, 4]]])/100
w_x = np.array([[1, 3, 5, 7], [3, 5, 7, 8]])/100
w_h = np.array([[1, 3, 5, 7], [2, 4, 6, 8], [3, 5, 7, 8], [4, 6, 8, 10]])/100
batch_size = x.shape[0] # 1
n_sequences = x.shape[1] # 3
n_features = x.shape[2] # 2
n_nodes = w_x.shape[1] # 4
h = np.zeros((batch_size, n_nodes))
b = np.array([1])

In [4]:
print("batch_size: ", batch_size)
print("n_sequences: ", n_sequences)
print("n_features: ", n_features)
print("n_nodes: ", n_nodes)

batch_size:  1
n_sequences:  3
n_features:  2
n_nodes:  4


フォワードプロパゲーションの出力が次のようになることを作成したコードで確認する。

In [None]:
h = np.array([[0.79494228, 0.81839002, 0.83939649, 0.85584174]])

## 実際に確認

In [21]:
class ScratchRNN:
    """
    """
    def __init__(self, ):
        self.w_x = np.array([[1, 3, 5, 7], [3, 5, 7, 8]])/100
        self.w_h = np.array([[1, 3, 5, 7], [2, 4, 6, 8], [3, 5, 7, 8], [4, 6, 8, 10]])/100
        self.batch_size = 1
        self.h = np.zeros((1, 4))
        self.b = np.array([1])
        
    def forward(self, x):
        """
        """
        a_t = np.dot(x, self.w_x) + np.dot(self.h, self.w_h) + self.b
        self.h = np.tanh(a_t)
        return self.h

In [22]:
rnn = ScratchRNN()

for i in range(n_sequences):
    h_test = rnn.forward(x[:,i,:])
print(h_test)

[[0.79494228 0.81839002 0.83939649 0.85584174]]
