# Attention復習

参考)http://deeplearning.hatenablog.com/entry/transformer

## 1.Global Attention(Seq2Seqより)

Luong et al., 2015のGlobal attentionモデル

- "Effective Approaches to Attention-based Neural Machine Translation", Minh-Thang Luong et al., EMNLP 2015 https://arxiv.org/abs/1508.04025

機構
<img src="img/attention-1.png" width="1000mm">

#### Decoderの各ステップにおける計算の手順

Encoderの各ステップの隠れ層を

$$
    \bar{h} = \{\bar{h}_1, \bar{h}_2, \ldots, \bar{h}_s, \ldots, \bar{h}_S\}
$$

Decoderの各ステップの隠れ層を

$$
    h = \{h_1, h_2, \ldots, h_t, \ldots, h_T\}
$$

とします.

Attention Layerの計算手順は以下のようになります.

1. まずRNN (or LSTM, GRU, etc.) により, 隠れ層ベクトルを計算します.
$$
    h_t = \mathrm{RNN}(h_{t-1}, x_t)
$$
2. 次に, 入力系列のどのステップに注目するのかの**重み**$a_t(s)$を, score関数 (後述) により計算します.
$$
    a_t(s) = \frac{\exp(\mathrm{score}(\bar{h}_s, h_t))}{\sum^S_{s'=1}\exp(\mathrm{score}(\bar{h}_s, h_t))}
$$
3. 2.で計算した重みをもとに, Encoderの各ステップの隠れ層に対する重み付き平均ベクトル (**文脈ベクトル**) $c_t$ を計算します.
$$
    c_t = \sum^S_{s=1} a_t(s) \bar{h}_s
$$
4. 3.で計算した文脈ベクトルと1.で計算した隠れ層ベクトルから, 新しい出力ベクトルを計算します.
$$
    \tilde{h}_t = \tanh(W_h h_t + W_c c_t + b)
$$
5. 新しい出力ベクトル$\tilde{h}_t$をもとに各単語の出力確率を計算します.
$$
    y_t = \mathrm{softmax}(W_{out}\tilde{h}_t + b_{out})
$$

論文では$\tilde{h}_t$が次のタイムステップのLSTMにfeedされる方法も示されています. 他の論文でもそのようにしているものも多いです. その場合, Attention層とLSTM層は分けずに, 同じクラスで書くことになります.

#### score関数について

Encoderのどこに注目するかを決める関数です. score関数には以下の様なものが提案されています.

主に３種類
- Dot Product
$$attention\_score(h_j^{(src)},h_t^{(dest)})=h_j^{(src)\mathrm{T}}h_t^{(dest)}$$
- Bilinear function
$$attention\_score(h_j^{(src)},h_t^{(dest)})=h_j^{(src)\mathrm{T}}W_ah_t^{(dest)}$$
- Multi Layer Perceptron
$$attention\_score(h_j^{(src)},h_t^{(dest)})=w_{a2}^{\mathrm{T}}tanh(W_{a1} [h_j^{(src)};h_t^{(dest)}]$$




他にもたくさんあるらしい...

## 2. Image Captioing with Attention
https://arxiv.org/pdf/1502.03044.pdf
<img src="img/attention-2.png" size="1000mm">

まず224x224x3の画像をEncoder (CNN) で特徴量マップ$u$に落とし込み, それを元にDecoder (LSTM + Attention) でキャプションを生成していきます.

特徴mapは平滑化して用いる(そのためscoreの計算には$h_t^{\mathrm{T}} W_a \bar{h}_s$などを用いる)

In [None]:
class Attention:
    def __init__(self, e_hid_dim, d_hid_dim, out_dim, h_enc, m_h_enc):
        self.W_cc = tf.Variable(rng.uniform(low=-0.08, high=0.08, size=[e_hid_dim, out_dim]).astype('float32'), name='W_cc')
        self.W_ch = tf.Variable(rng.uniform(low=-0.08, high=0.08, size=[d_hid_dim, out_dim]).astype('float32'), name='W_ch')
        self.W_a  = tf.Variable(rng.uniform(low=-0.08, high=0.08, size=[e_hid_dim, d_hid_dim]).astype('float32'), name='W_a')
        self.b    = tf.Variable(np.zeros([out_dim]).astype('float32'), name='b')
        self.h_enc = h_enc
        self.m_h_enc = m_h_enc

    def f_prop(self, h_dec):
        # self.h_enc: [batch_size(i), enc_length(j), e_hid_dim(k)]
        # self.W_a  : [e_hid_dim(k), d_hid_dim(l)]
        # -> h_enc: [batch_size(i), enc_length(j), d_hid_dim(l)]
        h_enc = tf.einsum('ijk,kl->ijl', self.h_enc, self.W_a)
        
        # h_dec: [batch_size(i), dec_length(j), d_hid_dim(k)]
        # h_enc: [batch_size(i), enc_length(l), d_hid_dim(k)]
        # -> score: [batch_size(i), dec_length(j), enc_length(l)]
        score = tf.einsum('ijk,ilk->ijl', h_dec, h_enc) # Attention score
        
        # score  : [batch_size, dec_length, enc_length]
        # m_h_enc: [batch_size, enc_length] -> [batch_size, np.newaxis, enc_length]
        score = score * self.m_h_enc[:, np.newaxis, :] # Mask
        
        # encoderのステップにそって正規化する
        self.a = tf.nn.softmax(score) # Attention weight
        
        # self.a  : [batch_size(i), dec_length(j), enc_length(k)]
        # self.enc: [batch_size(i), enc_length(k), e_hid_dim(l)]
        # -> c: [batch_size(i), dec_length(j), e_hid_dim(l)]
        c = tf.einsum('ijk,ikl->ijl', self.a, self.h_enc) # Context vector
        
        return tf.nn.tanh(tf.einsum('ijk,kl->ijl', c, self.W_cc) + tf.einsum('ijk,kl->ijl', h_dec, self.W_ch) + self.b)
    
    def f_prop_test(self, h_dec_t):
        # self.h_enc: [batch_size(i), enc_length(j), e_hid_dim(k)]
        # self.W_a  : [e_hid_dim(k), d_hid_dim(l)]
        # -> h_enc: [batch_size(i), enc_length(j), d_hid_dim(l)]
        h_enc = tf.einsum('ijk,kl->ijl', self.h_enc, self.W_a)
        
        # h_dec_t: [batch_size(i), d_hid_dim(j)]
        # h_enc  : [batch_size(i), enc_length(k), d_hid_dim(j)]
        # -> score: [batch_size(i), enc_length(k)]
        score = tf.einsum('ij,ikj->ik', h_dec_t, h_enc) # Attention score
        
        # score       : [batch_size(i), enc_length(k)]
        # self.m_h_enc: [batch_size(i), enc_length(k)]
        score = score * self.m_h_enc # Mask
        
        self.a = tf.nn.softmax(score) # Attention weight
        
        # self.a    : [batch_size(i), enc_length(j)]
        # self.h_enc: [batch_size(i), enc_length(j), e_hid_dim(k)]
        # -> c: [batch_size(i), e_hid_dim(k)]
        c = tf.einsum('ij,ijk->ik', self.a, self.h_enc) # Context vector

        return tf.nn.tanh(tf.matmul(c, self.W_cc) + tf.matmul(h_dec_t, self.W_ch) + self.b)

<img src='img/showattendtell.jpg' width=800>

## 3. Word level or Sentence Level Attention for Documetn Classification

文書分類にAttentionを用いたHierarchical Attention Network(HAN)

- 単語レベルでのAttention(どの単語について着目するか)
- 文章レベルでのAttention(どの文章について着目するか)


<img src='img/han-1.png'>

### 1.Word Encoder

Bidirectional(重要)なLSTMもしくはGRUで一文ごとにEncode
<img src='img/haneq1.png' width=200>
<img src='img/haneq2.png' width=150>


### 2.Word Attention

<img src='img/haneq3.png' width=200>
最初に$h_{it}$について1層のMLPに入力し、$u_{it}$(word-level context vectorを得る)

Attention Weightの計算には他の隠れ層のword-level context vectorと1層のMLPによって計算される


### 3. Sentence Encoder
文章レベルについても同様
<img src='img/haneq4.png' width=200>
<img src='img/haneq5.png' width=150>

### 4. Sentence Attention
文章レベルについても同様
<img src='img/haneq6.png' width=200>


### Attentionの可視化
<img src ='img/hanvis.png' width=400>

## 4.Key Value Attention

一般的なAttention（内積）を用いた場合
${Attention(Target, \, Source) = Softmax(Target \cdot Source^T) \cdot Source}$


これのうち$Target$を$query$  (検索クエリ) と見做し，$Source$ を $Key$ と $Value$ に分離する．

<img src ='img/KV.png'>
この時 Key と Value は各 key と各 value が一対一対応する key-value ペアの配列，つまり辞書オブジェクトとして機能する．

query と Key の内積は query と各 key の類似度を測り，softmax で正規化した注意の重み (Attention Weight) は query に一致した key の位置を表現する．注意の重みと Value の内積は key の位置に対応する value を加重和として取り出す操作である．

つまりAttentionとは query (検索クエリ) に一致する key を索引し，対応する value を取り出す操作であり，これは辞書オブジェクトの機能と同じである．例えば一般的な Encoder-Decoder の注意は，エンコーダのすべての隠れ層 (情報源) Value から query に関連する隠れ層 (情報) value を注意の重みの加重和として取り出すことである．

### 関連論文

Frustratingly Short Attention Spans in Neural Language Modeling [Michał Daniluk, arXiv, ICLR, 2017/02]

<img src ='img/Frustrating.png' width=500>

## 5.Self-Attention

AttentionのQ,K,Vがどこから（Source? Target? Self?）くるのかによって**Source-Target Attention**と**Self- Attention**
<img src ='img/attentioncomparison.png' width=600>

**Source-Target-Attention** では Key と Value はエンコーダの隠れ層 (Source) から来て，Query はデコーダの隠れ層 (Target) から来る．一般的な Encoder-Decoder の注意はこちらである．前述のとおり Source は Memory とも呼ばれ，Key と Value は Memory を 2 つに分離したものと解釈できる．

**Self-Attention** では Query,Key,Value は全て同じ場所 (Self) から来る．例えばエンコーダの Query,Key,Value はすべて下の隠れ層から来る．

### 関連論文
[Attention is All You Need](https://arxiv.org/abs/1706.03762)<br>
[Łukasz Kaiser et al., arXiv, 2017/06]

#### Scaled Dot-Product Attention
Transformer では内積注意を縮小付き内積注意 (Scaled Dot-Product Attention) と呼称する．通常の内積注意と同じく query をもとに key-value ペアの配列から加重和として value を取り出す操作であるが，Q と K の内積をスケーリング因子 ${\sqrt{d_{k}}}$ で除算する．

また，query の配列は 1 つの行列 Q にまとめて同時に内積注意を計算する (従来通り key と value の配列も K,V にまとめる)．

縮小付き内積注意は次式によって表される．

<img src ='img/shikiattention.png' width=300>

dk が小さい場合，スケーリング因子がなくても内積注意は加法注意と同様に機能する．しかし dk が大きい場合，スケーリング因子がないと加法注意の方がうまく機能する．内積注意は内積が大きくなりすぎて，逆伝播の softmax の勾配が極端に小さくなることが原因である．
<img src ='img/singlehead.png' width=200>


In [8]:
from keras.models import Model
from keras.layers import Input, Dense,Dot,Concatenate
from keras.activations import softmax
from keras import backend as K
from keras.layers.core import Lambda

In [9]:
def SingleHeadSelfAttentionMudule():

    x= Input(shape=(20,512))
    
    #QKV
    Q = Dense(64,name='Q')(x)
    K = Dense(64,name='K')(x)
    V = Dense(64,name='V')(x)
    
    score = Dot(-1,name='score')([Q,K])
    attention_weights=Lambda(lambda x: softmax(x/8,axis=2), name='attention_weights')(score)
        
    weighted_V = Dot(1,name='weighted_V')([V,attention_weights])

    model = Model(inputs=x, outputs=weighted_V)
    return model

In [10]:
model = SingleHeadSelfAttentionMudule()
model.summary()

____________________________________________________________________________________________________
Layer (type)                     Output Shape          Param #     Connected to                     
input_2 (InputLayer)             (None, 20, 512)       0                                            
____________________________________________________________________________________________________
Q (Dense)                        (None, 20, 64)        32832       input_2[0][0]                    
____________________________________________________________________________________________________
K (Dense)                        (None, 20, 64)        32832       input_2[0][0]                    
____________________________________________________________________________________________________
score (Dot)                      (None, 20, 20)        0           Q[0][0]                          
                                                                   K[0][0]                 