<h2>트랜스포머(Transformer)</h2>
<b>Attention Mechanism은 Seq2Seq의 입력 시퀀스 정보 손실 보정에 사용되는데, 보정 목적이 아닌 인코더 디코더 모델이 트랜스포머</b><br>
<b>RNN 사용하지 않고 인코더 디코더 설계하였으며 성능도 RNN보다 우수</b>

<h2>포지셔널 인코딩</h2>
<b>RNN을 활용하지 않았기에 단어 위치 정보를 다른 방식으로 줄 필요가 있음</b><br>
<b>각 단어의 임베딩 벡터에 위치 정보를 더함 - 포지셔널 인코딩, 보통 Sin, Cos 이용하여 계산</b><br>

In [2]:
def positional_encoding(dim, sentence_length):
    encoded_vec = np.array([pos / np.power(10000, 2 * i / dim) for pos in range(sentence_length) for i in range(dim)])
    encoded_vec[::2] = np.sin(encoded_vec[::2])
    encoded_vec[1::2] = np.cos(encoded_vec[1::2])
    return tf.constant(encoded_vec.reshape([sentence_length, dim]), dtype = tf.float32) 

<h2>레이어 정규화</h2>
<b>텐서의 마지막 차원에 대해 평균과 분산을 구하고 이 값을 통해 정규화 진행</b><br>
<b>정규화를 각 층의 연결에 편리하게 적용하기 위해 함수화한 sublayer_connection()을 선언</b>

In [4]:
def layer_norm(inputs, eps =1e-6):
    feature_shape = inputs.get_shape()[-1:]
    mean = tf.keras.backed.mean(inputs, [-1], keepdims = True)
    std = tf.keras.backed.std(inputs, [-1], keepdims = True)
    beta = tf.Variable(tf.zeros(feature_shape), trainable = False)
    gamma = tf.Variable(tf.ones(feature_shape), trainable = False)
    return gamma * (inputs - mean) / (std + eps) + beta

In [5]:
def sublayer_connection(inputs, sublayer, dropout = 0.2):
    outputs = layer_norm(inputs + tf.keras.layers.Dropout(dropout)(sublayer))
    return outputs

<h2>어텐션(Attention)</h2>
<b>트랜스포머 모델의 핵심, multi-head attention과 self attention 개념 사용</b><br>
<h2>1. Multi-head Attention</h2>
<b>디코더가 가지는 차원을 나누어 병렬로 어텐션 진행</b><br>
<b>병렬로 얻은 어텐션 헤드를 모드 연결하여 다양한 시각에서 정보를 수집할 수 있는 효과</b><br>
<h2>2. Self Attention</h2>
<b>은닉 상태를 동일하게 하여 어텐션 진행, 입력 문장 내 단어간의 어텐션을 의미</b><br>

In [6]:
def scaled_dot_product_attention(query, key, value, masked = False):
    key_dim_size = float(key.get_shape().as_list()[-1])
    key = tf.transpose(key, perm = [0, 2, 1])
    
    outputs = tf.matmul(query, key) / tf.sqrt(key_dim_size)
    
    if masked:
        diag_vals = tf.ones_like(outputs[0, :, :])
        tril = tf.lingalg.LinearOperatorLowerTriangular(diag_vals).to_dense()
        masks = tf.tile(tf.expand_dims(tril, 0), [tf.shape(outputs)[0], 1, 1])
        paddings = tf.ones_like(masks) * (-2**30)
        outputs = tf.where(tf.equal(masks, 0), paddings, outputs)
        
    attension_map = tf.nn.softmax(outputs)
    return tf.amtmul(attention_map, value)

<h2>Multi-head Attention 구현 과정</h2>
<b>1. query, key, value에 해당하는 값을 받고, 해당 값에 해당하는 행렬 생성</b><br>
<b>2. 생성된 행렬들을 heads에 해당하는 수만큼 분리</b><br>
<b>3. 분리한 행렬들에 대해 각각 어텐션을 수행</b><br>
<b>4. 각 어텐션 결과들을 연결해 최종 어텐션 결과 생성</b><br>

In [7]:
def multi_head_attention(query, key, value, num_units, heads, masked = False):
    query = tf. keras.layers.Dense(num_units, activation = tf.nn.relu)(query)
    key = tf.keras.layers.Dense(num_units, activation = tf.nn.relu)(key)
    value = tf.keras.layers.Dense(num_units, activation = tf.nn.relu)(value)
    
    query = tf.concat(tf.split(query, heads, axis = -1), axis = 0)
    key = tf.concat(tf.split(key, heads, axis = -1), axis = 0)
    value = tf.concat(tf.split(value, heads, axis = -1), axis = 0)
    
    attention_map = scaled_dot_product_attention(query, key, value, masked)
    attn_outputs = tf.concat(tf.split(attention_map, heads, axis = 0), axis = -1)
    attn_outputs = tf.keras.layers.Dense(num_units, activation = tf.nn.relu)(attn_outputs)
    
    return attn_outputs

<h2>포지션-와이즈 피드 포워드 신경망</h2>
<b>Multi-head Attention 결과인 행렬을 입력받아 연산</b><br>
<b>일반적인 완전 연결 신경망(Dense layer) 사용</b><br>
<b>Position-wise FFNN은 인코더와 디코더에 모두 존재</b><br>

In [8]:
def feed_forward(inputs, num_units):
    feature_shape = inputs.get_shape()[-1]
    inner_layer = tf.keras.layers.Dense(num_units, activation = tf.nn.relu)(inputs)
    outputs = tf.keras.layers.Dense(feature_shape)(inner_layer)
    return outputs

<b>Encoder - Encoder self-attention(= same with Multi-head attention)</b>

In [10]:
def encoder_module(inputs, model_dim, ffn_dim, heads):
    self_attn = sublayer_connection(inputs, multi_head_attention(inputs, inputs, inputs, model_dim, heads))
    outputs = sublayer_connection(self_attn, feed_forward(self_attn, ffn_dim))
    return outputs

def encoder(inputs, model_dim, ffn_dim, heads, num_layers):
    outputs = inputs
    for i in range(num_layers):
        outputs = encoder_module(outputs, model_dim, ffn_dim, heads)
        
    return outputs

<h2>Decoder는 다음과 같은 구성의 반복으로 이루어짐</h2>
<b>1. masked decoder self-attention: 순차적으로 결과를 만들어 내야하기에 다른 어텐션 방법 사용, 예측 시점 이후에 Attention 할 수 없도록 Masking 처리</b><br>
<b>2. encoder-decoder attention: Multi-head Attention과 동일</b><br>
<b>3. position-wise FFNN</b><br>


In [11]:
def decoder_module(inputs, encoder_outputs, model_dim, ffn_dim, heads):
    masked_self_attn = sublayer_connection(inputs, 
                                           multi_head_attention(inputs, inputs, inputs, 
                                                                model_dim, heads, masked = True))
    self_attn = sublayer_connection(masked_self_attn, 
                                    multi_head_attention(masked_self_attn, encoder_outputs, encoder_outputs, 
                                                         model_dim, heads))
    
    outputs = sublayer_connection(self_attn, feed_forward(self_attn, ffn_dim))
    return outputs

def decoder(inputs, encoder_outputs, model_dim, ffn_dim, heads, num_layers):
    outputs = inputs
    for i in range(num_layers):
        outputs = decoder_module(outputs, encoder_outputs, model_dim, ffn_dim, heads)
        
    return outputs

In [12]:
!pip install konlpy



In [13]:
import re
import tensorflow as tf

In [14]:
filters = "([~.,!?\"':;)(])"
PAD = '<PADDING>'
STD = '<START>'
END = '<END>'
UNK = '<UNKNOWN>'

PAD_INDEX = 0
STD_INDEX = 1
END_INDEX = 2
UNK_INDEX = 3

MARKER = [PAD, STD, END, UNK]
CHANGE_FILTER = re.compile(filters)

In [15]:
from sklearn.model_selection import train_test_split
def lead_data(data_path):
    data_df = pd.read_csv(data_path, header = 0)
    question, answer = list(data_df['Q'], list(data_df['A']))
    train_input, eval_input, train_label, eval_label = train_test_split(question, answer,
                                                                       test_size = 0.33,
                                                                       random_state = 111)
    
    return train_input, eval_input, train_label, eval_label

In [None]:
39:59