In [1]:
import numpy as np

### 【問題1】SimpleRNNのフォワードプロパゲーション実装 

SimpleRNNのクラスSimpleRNNを作成してください。基本構造はFCクラスと同じになります。


フォワードプロパゲーションの数式は以下のようになります。ndarrayのshapeがどうなるかを併記しています。


バッチサイズをbatch_size、入力の特徴量数をn_features、RNNのノード数をn_nodesとして表記します。活性化関数はtanhとして進めますが、これまでのニューラルネットワーク同様にReLUなどに置き換えられます。

参考図書：[『ゼロから作る Deep Learning ❷』(O'Reilly Japan, 2018)](https://github.com/oreilly-japan/deep-learning-from-scratch-2/blob/master/common/time_layers.py)

In [2]:
class ScratchSimpleRNNClassifier():
    """
    リカレントニューラルネットワーク分類器

    Parameters
    ----------
    w_x : int
    w_h : int
    b : int

    Attributes
    ----------
    self.params
    #self.grads
    #self.cache
    self.initial_h
    """
    def __init__(self, Wx, Wh, b):
        self.params = [Wx, Wh, b]
        #self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]
        #self.cache = None        
        self.initial_h = True

    def fit(self, x, h_prev):
        Wx, Wh, b = self.params        
        batch_size = x.shape[0] # 1
        n_sequences = x.shape[1] # 3
        n_features = x.shape[2] # 2
        n_nodes = Wx.shape[1] # 4       
        
        for i in range(batch_size):
            for j in range(n_sequences):
                if self.initial_h:
                    t = np.dot(h_prev, Wh) + np.dot(x[i, j, :], Wx) + b
                    h_next = np.tanh(t)        
                    #self.cache = (x, h_prev, h_next)                    
                    self.initial_h = False
                else:
                    t = np.dot(h_next, Wh) + np.dot(x[i, j, :], Wx) + b
                    h_next = np.tanh(t)        
                    #self.cache = (x, h_prev, h_next)
        
        return h_next

### 【問題2】小さな配列でのフォワードプロパゲーションの実験

小さな配列でフォワードプロパゲーションを考えてみます。


入力x、初期状態h、重みw_xとw_h、バイアスbを次のようにします。


ここで配列xの軸はバッチサイズ、系列数、特徴量数の順番です。

In [3]:
x = np.array([[[1, 2], [2, 3], [3, 4]]])/100 # (batch_size, n_sequences, n_features)
w_x = np.array([[1, 3, 5, 7], [3, 5, 7, 8]])/100 # (n_features, n_nodes)
w_h = np.array([[1, 3, 5, 7], [2, 4, 6, 8], [3, 5, 7, 8], [4, 6, 8, 10]])/100 # (n_nodes, n_nodes)
batch_size = x.shape[0] # 1
n_sequences = x.shape[1] # 3
n_features = x.shape[2] # 2
n_nodes = w_x.shape[1] # 4
h = np.zeros((batch_size, n_nodes)) # (batch_size, n_nodes)
b = np.array([1, 1, 1, 1]) # (n_nodes,)

In [4]:
x.shape, w_x.shape, w_h.shape, h.shape, b.shape

((1, 3, 2), (2, 4), (4, 4), (1, 4), (4,))

In [5]:
print(x)
print(w_x)
print(w_h)

[[[0.01 0.02]
  [0.02 0.03]
  [0.03 0.04]]]
[[0.01 0.03 0.05 0.07]
 [0.03 0.05 0.07 0.08]]
[[0.01 0.03 0.05 0.07]
 [0.02 0.04 0.06 0.08]
 [0.03 0.05 0.07 0.08]
 [0.04 0.06 0.08 0.1 ]]


In [6]:
model = ScratchSimpleRNNClassifier(w_x, w_h, b)
model.fit(x, h)

array([[0.79494228, 0.81839002, 0.83939649, 0.85584174]])

フォワードプロパゲーションの出力が次のようになることを作成したコードで確認してください。

In [7]:
h = np.array([[0.79494228, 0.81839002, 0.83939649, 0.85584174]]) # (batch_size, n_nodes)

### 【問題3】（アドバンス課題）バックプロパゲーションの実装 

バックプロパゲーションを実装してください。


RNNの内部は全結合層を組み合わせた形になっているので、更新式は全結合層などと同様です。

回答無し