# エンコーダのLSTMが双方向になったアテンション付きseq2seqモデルを実装する

In [1]:
import numpy as np
from common.time_layers import TimeEmbedding,TimeSoftmaxWithLoss
from common.base_model import BaseModel
from common.time_layers import TimeBiLSTM
from common.seq2seq import Seq2seq
from common.attention_layer import TimeAttention
from common.attention_seq2seq import AttentionDecoder

### [演習]
* 以下のAttentionBiEncoder,AttentionBiSeq2seqクラスを完成させましょう

In [2]:
class AttentionBiEncoder:
    """
    アテンション付きエンコーダ
    LSTMは双方向
    """
    def __init__(self, vocab_size, wordvec_size, hidden_size):
        V, D, H = vocab_size, wordvec_size, hidden_size
        rn = np.random.randn

        # 初期値の設定
        embed_W = rn(V, D) / 100 # 小さな値で初期化
        
        # 順方向LSTMの初期パラメータ
        lstm_Wx_f = rn(D, 4 * H) * np.sqrt(2/(D+H)) # Xavierの初期値
        lstm_Wh_f = rn(H, 4 * H) * np.sqrt(2/(H+H)) # Xavierの初期値
        lstm_b_f = np.zeros(4 * H)
        # 逆方向LSTMの初期パラメータ
        lstm_Wx_b = rn(D, 4 * H) * np.sqrt(2/(D+H)) # Xavierの初期値
        lstm_Wh_b = rn(H, 4 * H) * np.sqrt(2/(H+H)) # Xavierの初期値
        lstm_b_b = np.zeros(4 * H)  
        
        # レイヤの定義
        self.embed = TimeEmbedding(embed_W)
        # 双方向LSTMを定義
        self.lstm = TimeBiLSTM(lstm_Wx_f, lstm_Wh_f, lstm_b_f, lstm_Wx_b, lstm_Wh_b, lstm_b_b, stateful=False)
    
        # パラメータ、勾配をそれぞれまとめる
        self.params = self.embed.params + self.lstm.params
        self.grads = self.embed.grads + self.lstm.grads
        self.hs = None
        
    def forward(self, xs):
        """
        順伝播
        xs : 入力データ
        """
        # 単語埋め込みレイヤ
        xs = self.embed.forward(xs)
        
        # LSTMレイヤ
        hs = self.lstm.forward(xs) # 全ての中間層の情報を返す
        
        return hs

    def backward(self, dhs):
        """
        逆伝播
        dhs : 勾配
        """
        # LSTMレイヤ
        dout = self.lstm.backward(dhs) #  Decoderから伝わってきた勾配を全て伝える
        
        # 単語埋め込みレイヤ
        dout = self.embed.backward(dout)
        
        return dout
    

class AttentionBiSeq2seq(Seq2seq):
    """
    エンコーダが双方向LSTMになったアテンション付きseq2seqモデル
    """
    def __init__(self, vocab_size, wordvec_size, hidden_size):
        V, D, H = vocab_size, wordvec_size, hidden_size
        
        # アテンション付きエンコーダ(双方向LSTM)
        self.encoder = AttentionBiEncoder(V, D, H)
        # アンテション付きデコーダ
        self.decoder = AttentionDecoder(V, D, H*2)# 双方向の中間層を引数に取るため、Hを2倍しておく
        # ソフトマックス+損失
        self.softmax = TimeSoftmaxWithLoss()
        # パラメータ、勾配をそれぞれまとめる
        self.params = self.encoder.params + self.decoder.params
        self.grads = self.encoder.grads + self.decoder.grads


In [3]:
# 語彙数
V = 3
# 埋め込み後次元数
D = 3
# 中間層ノード数
H = 4
# データ数
N = 3
# 単語数
T = 5

# モデル構築
model = AttentionBiSeq2seq(V, D, H)

xs = np.random.randint(0, V, N*T).reshape(N, T)
ts =  np.random.randint(0, V, N*T).reshape(N, T)
print("xs=", xs)
print()
print("ts=", ts)
print()

# 順伝播計算
loss = model.forward(xs, ts)
print("loss=", loss)
print()

# 逆伝播計算
dout = model.backward(dout=1)
print("dout=", dout)
print("dout=Noneになればok")
print()

xs= [[1 0 2 1 2]
 [2 2 0 1 0]
 [2 1 0 1 2]]

ts= [[2 1 0 1 0]
 [1 2 2 1 1]
 [0 1 2 1 0]]

loss= 1.0994469136912182

dout= None
dout=Noneになればok

