# Transformer 구현
 - https://wikidocs.net/31379
 - https://github.com/NLP-kr/tensorflow-ml-nlp-tf2/blob/master/6.CHATBOT/6.5.transformer.ipynb

- '그것(it)'과 '동물(animal)'의 연관도를 높게 본다면, 두번째 어텐션 헤드는 '그것(it)'과 '피곤하였기 때문이다(tired)'의 연관도를 높게 볼 수 있습니다. 각 어텐션 헤드는 전부 다른 시각에서 보고있기 때문입니다.

In [None]:
import numpy as np
import tensorflow as tf

In [1]:
def scaledDotProductAttention(query, key, value, mask):
    '''
    
    Args:
    query: query의 size = (batch_size, num_heads, query의 문장길이, d_model/num_head)
    key: key의 size : (batch_size, num_heads, key의 문장길이, d_model/num_head)
    value: value의 size : (batch_size, num_heads, value의 문장길이, d_model/num_head)
    
    d_model/num_head => d_k
    q를 얻기위한 가중치행렬의 size는 (embedding_size, d_k)
    q의 size는 (query의 문장길이, d_k)
     
    Returns:
    output, attetion_weights
    '''
    
    # 어텐션 스코어, Q와 K의 dot product
    qk = tf.matmul(query, key, transpose_b=True)
    
    # 스케일링 (sqrt(dk)로 나눔)
    # dk = d_model / num_head
    scale = tf.cast(tf.shape(key)[-1], tf.float(32))
    logits = qk / tf.math.sqrt(scale)
    
    # 마스킹
    if mask is not None:
        logits += (mask * -1e9)
        
    # 어텐션 weights
    # size : (batch_size, num_head, query의 문장길이, key의 문장길이)
    attention_weights = tf.nn.softmax(logits, axis=-1)
    
    # Output
    output = tf.matmul(attention_weight, value)
    
    return output, attention_weights

In [None]:
class MultiHeadAttention(tf.keras.layers.layer):
    
    def __init__(self, d_model, num_heads, name='multi head attention'):
        super(MultiHeadAttention, self).__init__(name=name)
        self.d_model = d_model
        self.num_heads = num_heads
        
        assert d_model % self.num_heads == 0
        
        # depth = d_model // num_heads (논문기준 512 // 8 = 64)
        # deqth와 d_k는 같음
        self.depth = d_model // self.num_Heads
        
        # WQ, WK, WV 정의
        # => Q, K, V 행렬을 만들기 위한 가중치 행렬 (문장행렬에 가중치행렬을 곱해 Q, K, V를 얻음)
        self.query_dense = tf.keras.layers.Dense(units=d_model)
        self.key_dense = tf.keras.layers.Dense(units=d_model)
        self.value_dense = tf.keras.layers.Dense(units=d_model)
        
        # WO 정의
        # => Attention Heads들 Concat에 곱해주는 행렬
        self.dense = tf.keras.layer.Dense(units=d_model)
        
        
    # num_heads 수만큼 Q, K, V를 split하는 함수
    def splitHeads(self, inputs, batch_size):
        inputs = tf.reshape(inputs, shape=(batch_size, -1, self.num_heads, self_depth))
        return tf.transpose(inputs, perm=[0, 2, 1, 3])
    
    
    def call(self, inputs):
        query, key, value, mask = inputs['query'], inputs['key'], inputs['value'], inputs['mask']
        batch_size = tf.shape(query)[0]
        
        
        query = self.query_dense(query)
        key = self.key_dense(key)
        value = self.value_dense(value)
        
        
        query = self.splitHeads(query, batch_size)
        key = self.splitHeads(key, batch_size)
        value = self.splitHeads(value, batch_size)
        
        
        scaled_attention, _ = scaledDotProductAttention(query, key, value, mask)
        scaled_attention = tf.transpose(scaled_attention, perm=[0, 2, 1, 3])
        
        
        concat_attention = tf.reshape(scaled_attention, (batch_size, -1, self.d_model))
        
        
        output = self.dense(concat_attention)
        
        
        return output
        