# LSTMレイヤの実装

In [None]:
import numpy as np
from common.functions import sigmoid

### [演習]
* 以下のLSTMレイヤのクラスを完成させましょう

In [None]:
class LSTM:
    def __init__(self, Wx, Wh, b):
        '''
        Parameters
        ----------
        Wx: 入力x用の重みパラーメタ（4つ分の重みをまとめたもの)
        Wh: 隠れ状態h用の重みパラメータ（4つ分の重みをまとめたもの）
        b: バイアス（4つ分のバイアスをまとめたもの）
        '''
        self.params = [Wx, Wh, b]
        self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]
        self.cache = None

    def forward(self, x, h_prev, c_prev):
        """
        順伝播計算
        """        
        Wx, Wh, b = self.params
        N, H = h_prev.shape

        A = np.dot(      ,       ) + np.dot(      ,       ) +                                                                           # <- 穴埋め

        f = A[      :      ,       :      ]                                                                                                          # <- 穴埋め
        g = A[      :      ,       :      ]                                                                                                         # <- 穴埋め
        i = A[      :      ,       :      ]                                                                                                          # <- 穴埋め
        o = A[      :      ,       :      ]                                                                                                        # <- 穴埋め

        f = sigmoid(f)
        g = np.tanh(g)
        i = sigmoid(i)
        o = sigmoid(o)
    
        c_next =        *        +        *                                                                                                            # <- 穴埋め
        tanh_c_next = np.tanh(c_next)
        h_next =        * tanh_c_next                                                                                                        # <- 穴埋め

        self.cache = (x, h_prev, c_prev, i, f, g, o, tanh_c_next)
        return h_next, c_next

    def backward(self, dh_next, dc_next):
        """
        逆伝播計算
        """        
        Wx, Wh, b = self.params
        x, h_prev, c_prev, i, f, g, o, tanh_c_next = self.cache

        A2 = (dh_next *       ) * (      )                                                                                                        # <- 穴埋め
        ds =        + A2                                                                                                                                 # <- 穴埋め

        dc_prev = ds *                                                                                                                               # <- 穴埋め

        di = ds *                                                                                                                                          # <- 穴埋め
        df = ds *                                                                                                                                         # <- 穴埋め
        do = dh_next * tanh_c_next
        dg = ds *                                                                                                                                       # <- 穴埋め

        di *= i * (      )                                                                                                                               # <- 穴埋め
        df *= f * (      )                                                                                                                             # <- 穴埋め
        do *= o * (      )                                                                                                                           # <- 穴埋め
        dg *= (      )                                                                                                                                 # <- 穴埋め

        dA = np.hstack((df, dg, di, do))

        dWh = np.dot(      , dA)                                                                                                            # <- 穴埋め
        dWx = np.dot(      , dA)                                                                                                           # <- 穴埋め
        db = dA.sum(axis=0)

        self.grads[0][:] = dWx # 同じメモリ位置に代入
        self.grads[1][:] = dWh # 同じメモリ位置に代入
        self.grads[2][:] = db # 同じメモリ位置に代入

        dx = np.dot(dA,       )                                                                                                                  # <- 穴埋め
        dh_prev = np.dot(dA,       )                                                                                                        # <- 穴埋め

        return dx, dh_prev, dc_prev

In [None]:
D = 10 # 入力データの次元
H = 5 # 中間層のノード数

Wx = (np.random.randn(D, 4 * H) / np.sqrt(D))
Wh = (np.random.randn(H, 4 * H) / np.sqrt(H))
b = np.zeros(4 * H)

# オブジェクトの生成
lstm = LSTM(Wx, Wh, b)

# 順伝播計算
N = 4 # バッチサイズ
x = np.random.randn(N, D)
h_prev = np.random.randn(N, H)
c_prev = np.zeros((N, H))
h_next = lstm.forward(x, h_prev, c_prev)
print("h_next=", h_next)
print()

# 逆伝播計算
dh_next = np.random.randn(N, H)
dc_next = np.random.randn(N, H)
dx, dh_prev, dc_prev = lstm.backward(dh_next, dc_next)
print("dx=", dx)
print()
print("dh_prev=", dh_prev)
print()
