# GRUレイヤの実装

In [None]:
import numpy as np
from common.functions import sigmoid

### [演習]
* 以下のGRUレイヤのクラスを完成させましょう

In [None]:
class GRU:
    def __init__(self, Wx, Wh, b):
        '''
        Wx: 入力x用の重みパラーメタ（3つ分の重みをまとめたもの）
        Wh: 隠れ状態h用の重みパラメータ（3つ分の重みをまとめたもの）
        b: バイアス（3つ分のバイアスをまとめたもの）
        '''
        self.params = [Wx, Wh, b]
        self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]
        self.cache = None

    def forward(self, x, h_prev):
        """
        順伝播計算
        """
        Wx, Wh, b = self.params
        N, H = h_prev.shape
        
        Wxz, Wxr, Wxh = Wx[    :    ,    :     ], Wx[    :    ,   :   ], Wx[    :   ,    :   ]                     # <- 穴埋め
        Whz, Whr, Whh = Wh[    :    ,     :   ], Wh[    :    ,      :    ], Wh[    :    ,    :   ]                # <- 穴埋め
        bhz,   bhr,  bhh =  b[    :    ], b[     :      ], b[  :    ]                                                        # <- 穴埋め
        
        z = sigmoid(np.dot(  ,     ) + np.dot(    ,     ) +     )                                                       # <- 穴埋め
        r = sigmoid(np.dot(    ,   ) + np.dot(    ,     ) +     )                                                       # <- 穴埋め
        h_hat = np.tanh(np.dot(    ,     ) + np.dot(    ,     ) +     )                                             # <- 穴埋め
        h_next =      +                                                                                                                 # <- 穴埋め

        self.cache = (x, h_prev, z, r, h_hat)

        return h_next

    def backward(self, dh_next):
        """
        逆伝播計算
        """        
        Wx, Wh, b = self.params
    
        H = Wh.shape[0]
        Wxz, Wxr, Wxh = Wx[    :    ,     :    ], Wx[    :    ,     :    ], Wx[    :    ,     :    ]                            # <- 穴埋め
        Whz, Whr, Whh = Wh[    :    ,     :    ], Wh[    :    ,     :    ], Wh[    :    ,     :    ]                          # <- 穴埋め
        x, h_prev, z, r, h_hat = self.cache

        dh_hat = dh_next *                                                                                                        # <- 穴埋め
        dh_prev = dh_next *                                                                                                     # <- 穴埋め

        # tanh
        dt = dh_hat *                                                                                                                       # <- 穴埋め
        dbt = dt
        dWhh = np.dot(        , dt)                                                                                                    # <- 穴埋め
        dhr = np.dot(dt,         )                                                                                                       # <- 穴埋め
        dWxh = np.dot(x.T, dt) 
        dx = np.dot(dt,         )                                                                                                        # <- 穴埋め
        dh_prev +=     

        # update gate(z)
        dz =  dh_next *      - dh_next *                                                                                             # <- 穴埋め
        dt = dz *                                                                                                                                 # <- 穴埋め
        dbz = dt
        dWhz = np.dot(        , dt)                                                                                                    # <- 穴埋め
        dh_prev += np.dot(dt,         )                                                                                             # <- 穴埋め
        dWxz = np.dot(x.T, dt)
        dx += np.dot(dt,         )                                                                                                      # <- 穴埋め

        # reset gate(r)
        dr = dhr * h_prev
        dt = dr *                                                                                                                              # <- 穴埋め
        dbr = dt
        dWhr = np.dot(        , dt)                                                                                                   # <- 穴埋め
        dh_prev += np.dot(dt,         )                                                                                           # <- 穴埋め
        dWxr = np.dot(        , dt)                                                                                                   # <- 穴埋め
        dx += np.dot(dt,         )                                                                                                     # <- 穴埋め

        dA = np.hstack((dbz, dbr, dbt ))
        
        dWx = np.hstack((dWxz, dWxr, dWxh))
        dWh = np.hstack((dWhz, dWhr, dWhh))
        db = dA.sum(axis=0)
        
        self.grads[0][:] = dWx # 同じメモリ位置に代入
        self.grads[1][:] = dWh # 同じメモリ位置に代入
        self.grads[2][:] = db # 同じメモリ位置に代入
        
        return dx, dh_prev

In [None]:
D = 10 # 入力データの次元
H = 5 # 中間層のノード数

Wx = (np.random.randn(D, 3 * H) / np.sqrt(D))
Wh = (np.random.randn(H, 3 * H) / np.sqrt(H))
b = np.zeros(3 * H)

# オブジェクトの生成
gru = GRU(Wx, Wh, b)

# 順伝播計算
N = 4 # バッチサイズ
x = np.random.randn(N, D)
h_prev = np.random.randn(N, H)
h_next = gru.forward(x, h_prev)
print("h_next=", h_next)
print()

# 逆伝播計算
dh_next = np.random.randn(N, H)
dx, dh_prev = gru.backward(dh_next)
print("dx=", dx)
print()
print("dh_prev=", dh_prev)
print()
