# 双方向LSTMを計算するためのTimeBiLSTMクラスを実装する

In [None]:
import numpy as np
from common.time_layers import TimeLSTM

### [演習]
* 以下のTimeBiLSTMクラスを完成させましょう

In [None]:
class TimeBiLSTM:
    """
    双方向LSTM
    """
    def __init__(self, Wx1, Wh1, b1, Wx2, Wh2, b2, stateful=False):
        
        # レイヤの定義
        self.forward_lstm = TimeLSTM(Wx1, Wh1, b1, stateful)
        self.backward_lstm = TimeLSTM(Wx2, Wh2, b2, stateful)
        
        # パラメータ、勾配をそれぞれまとめる
        self.params = self.forward_lstm.params + self.backward_lstm.params
        self.grads = self.forward_lstm.grads + self.backward_lstm.grads

    def forward(self, xs):
        """
        順伝播
        xs : 入力データ
        """
        # 順方向のLSTM
        o1 = self.forward_lstm.forward(xs)
        
        # 逆方向のLSTM
        o2 = self.backward_lstm.forward(xs[:,       ]) # xsを逆順にして入力する                                                                                    # <- 穴埋め
        o2 = o2[:,      ] # 結果を逆順にする                                                                                                                                                  # <- 穴埋め
        
        # 順方向LSTMの結果と逆方向LSTMの結果を結合する
        out = np.concatenate((     ,     ), axis=     )                                                                                                                                   # <- 穴埋め
        return out

    def backward(self, dhs):
        """
        逆伝播
        dhs : 勾配
        """
        H = dhs.shape[     ] // 2                                                                                           # <- 穴埋め
        do1 = dhs[:, :,      ]                                                                                                   # <- 穴埋め
        do2 = dhs[:, :,      ]                                                                                                   # <- 穴埋め

        dxs1 = self.forward_lstm.backward(do1)
        do2 = do2[:, ::-1]
        dxs2 = self.backward_lstm.backward(do2)
        dxs2 = dxs2[:, ::-1]
        dxs = dxs1 + dxs2
        return dxs

In [None]:
# 語彙数
V = 3
# 埋め込み後次元数
D = 3
# 中間層ノード数
H = 4
# データ数
N = 3
# 単語数
T = 5

rn = np.random.randn
Wx1 = rn(D, 4 * H) / np.sqrt(D)
Wh1 = rn(H, 4 * H) / np.sqrt(H)
b1 = np.zeros(4 * H)
Wx2 = rn(D, 4 * H) / np.sqrt(D)
Wh2 = rn(H, 4 * H) / np.sqrt(H)
b2 = np.zeros(4 * H)

# モデル構築
Wx1, Wh1, b1, Wx2, Wh2, b2
tb = TimeBiLSTM(Wx1, Wh1, b1, Wx2, Wh2, b2)


xs = np.random.randint(0, V, N*T*D).reshape(N, T, D)
print("xs=", xs)
print()

# 順伝播計算
out = tb.forward(xs)
print("out=", out)
print()

# 逆伝播計算
dhs = np.random.randn(N*T*H*2).reshape(N, T, H*2)
dxs = tb.backward(dhs)
print("dxs=", dxs)
print()