## Attention

- 어텐션 메커니즘은 모델로 하여금 '중요한 부분만 집중하게 만들자'가 핵심 아이디어.
- 하나의 고정된 길이의 컨텍스트 벡터로 인코딩 하는 대신 출력의 각 단계별로 컨텍스트 벡터를 생성하는 방법을 학습한다.
![image.png](attachment:image.png)

- 위 NMT 모델에서 y는 디코더가 생성한 번역 결과, x는 입력 문장이며 양방향bidirectional RNN
- 출력 단어 $y_t$가 마지막 상태 뿐만 아니라 입력 상태의 모든 조합을 참조하고 있다는 점이며, 여기서 α는 각 출력이 어떤 입력 상태를 더 많이 참조하는지에 대한 가중치로, α의 합은 1로 normalized 된. 즉, softmax 값을 사용

- 생성을 하는 디코더에 BOS, 제너레이터에 EOS가 포함된다.


- 트랜스포머의 입력 : 트랜스포머는 단어의 위치 정보를 얻기 위해서 각 단어의 임베딩 벡터에 위치정보들을 더하여 모델의 입력으로 사용하는데, 이를 포지셔널 인코딩이라고 한다.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf

import sys
sys.path.append('/Users/hoyoung/Desktop/pycharm_work/korean_grammar_corrector')
import utils.tensorflow_preprocess as tp

2022-10-31 15:57:42.768392: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [2]:
df = pd.read_csv('../../../data/colloquial_correct_train_data.csv')

In [3]:
df

Unnamed: 0,src,tgt
0,"네, 언제든지 편하실 때 체크아우타시면 도와드릴게요.","네, 언제든지 편하실 때 체크아웃하시면 도와드릴게요."
1,성장하는 재판매 사업짜 그루베 고갱니믈 초대하고 십씀니다.,성장하는 재판매 사업자 그룹에 고객님을 초대하고 싶습니다.
2,"안녕하세요, 예야카려고 전화를 드려써요.","안녕하세요, 예약하려고 전화를 드렸어요."
3,손니미 완는데 방이 업쓰며 너떠캐요?,손님이 왔는데 방이 없으면 어떡해요?
4,"아니요, 시간 낭비예요, 다시느 녀기에 아 놀 꺼예요.","아니요, 시간 낭비예요, 다시는 여기에 안 올 거예요."
...,...,...
49995,어떤 다른 서류가 필요하신지 닶시 말쐼해 주시겠습니까?,어떤 다른 서류가 필요하신지 다시 말씀해 주시겠습니까?
49996,비행기에서 감배를 피울 생각읃 없었어요.,비행기에서 담배를 피울 생각은 없었어요.
49997,전 오래 씂 수 깄는 겍 필요해요.,전 오래 쓸 수 있는 게 필요해요.
49998,털앨 궁화하고 앉았을 땑 반짝이고 푹신한 느낌을 줍니다.,털을 강화하고 앉았을 때 반짝이고 푹신한 느낌을 줍니다.


In [4]:
df['n_src'] = df['src'].apply(lambda x: tp.full_stop_filter(x))
df['n_tgt'] = df['tgt'].apply(lambda x: tp.full_stop_filter(x))

In [5]:
inputs, outputs, tokenizer = tp.tokenize_and_filter(df['n_src'], df['n_tgt'], max_length=24)

In [23]:
tokenizer.vocab_size

8226

In [6]:
print(f'Input shape: {inputs.shape}')
print(f'Output shape: {outputs.shape}')

Input shape: (50000, 24)
Output shape: (50000, 24)


In [22]:
# decode 할땐, pad와 BOS, EOS 제외
tokenizer.decode(inputs[0][1:15])

'네 , 언제든지 편하실 때 체크아우타시면 도와드릴게요 .'

In [20]:
tf_dataset = tp.create_train_dataset(inputs, outputs, batch_size=64, buffer_size=60000)

2022-10-31 16:01:59.511800: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [21]:
tf_dataset

<PrefetchDataset element_spec=({'inputs': TensorSpec(shape=(None, 24), dtype=tf.int32, name=None), 'dec_inputs': TensorSpec(shape=(None, 23), dtype=tf.int32, name=None)}, {'outputs': TensorSpec(shape=(None, 23), dtype=tf.int32, name=None)})>

In [2]:
def get_angles(pos, i, d_model):
    '''
    pos : 입력 문장에서의 임베딩 벡터의 위치
    i : 임베딩 벡터 내의 차원의 인덱스
    d_model : 트랜스포머의 모든 층의 출력 차원을 의미하는 트랜스포머의 하이퍼파라미터
    
    Positional Embedding 의 pos / 10000 ** (2i / d_model) 부분 산출 함수

    PE(pos, 2i) = sin(pos / 10000 ** (2i / d_model))     ((pos, 2i)일때 sin함수))
    PE(pos, 2i + 1) = cos(pos / 10000 ** (2i / d_model)) ((pos, 2i+1일때 cos함수))
    '''
    angle_rates = 1 / np.power(10000, (2 * i // 2) / np.float32(d_model))
    # shape = (1, d_model)
    # pos shape :
    # angle_rates shape = (1, d_model)
    # return shape = 행렬곱 (pos, 1), (1, d_model) =  (pos, d_model)
    return np.matmul(pos, angle_rates)

In [3]:
def positional_encoding(position, d_model):
    angle_rads = get_angles(np.arange(position)[:, np.newaxis],
                            np.arange(d_model)[np.newaxis, :],
                            d_model)  # shape : (position, d_model)
    # 오른쪽으로 짝수번째 인덱스는 sin 함수를 적용
    angle_rads[:, 0::2] = np.sin(angle_rads[:, 0::2])
    # 오른쪽으로 홀수번째 인덱스는 cos 함수를 적용
    angle_rads[:, 1::2] = np.cos(angle_rads[:, 1::2])

    pos_encoding = angle_rads[np.newaxis, ...]  # pos_encoding shape : (1, position, d_model)
    # 왜 shape에 1을 추가해주냐면, batch_size 만큼 학습하기 위함임

    return tf.cast(pos_encoding, dtype=tf.float32)


In [33]:
class PositionalEncoding(tf.keras.layers.Layer):
    '''
    포지셔널 인코딩 방법을 사용하면 순서 정보가 보존되는데, 예를 들어 각 임베딩 벡터에 포지셔널 인코딩의 값을 더하면
    같은 단어라고 하더라도 문장 내의 위치에 따라서 트랜스포머의 입력으로 들어가는 임베딩 벡터의 값이 달라진다.
    이에 따라 트랜스포머의 입력은 순서 정보가 고려된 임베딩 벡터가 된다.
    
    position : 입력 문장에서의 임베딩 벡터의 위치
    i : 임베딩 벡터 내의 차원의 인덱스
    d_model : 트랜스포머의 모든 층의 출력 차원을 의미하는 트랜스포머의 하이퍼파라미터
    
    Positional Embedding 의 position / 10000 ** (2i / d_model) 부분 산출 함수

    PE(position, 2i) = sin(position / 10000 ** (2i / d_model))     ((pos, 2i)일때 sin함수))
    PE(position, 2i + 1) = cos(position / 10000 ** (2i / d_model)) ((pos, 2i+1일때 cos함수))
    
    shape = (1, d_model)
    angle_rates shape = (1, d_model)
    return shape = 행렬곱 (position, 1), (1, d_model) =  (position, d_model)
    '''
    def __init__(self, position, d_model):
        super(PositionalEncoding, self).__init__()
        self.pos_encoding = self.positional_encoding(position, d_model)
    def get_angles(self, position, i, d_model):

        angles = 1 / tf.pow(10000, (2 * (i // 2)) / tf.cast(d_model, tf.float32))
        return position * angles

    def positional_encoding(self, position, d_model):
        angle_rads = self.get_angles(
        position= tf.range(position, dtype=tf.float32)[:, tf.newaxis],
        i=tf.range(d_model, dtype=tf.float32)[tf.newaxis, :],
        d_model=d_model)# shape : (position, d_model)
        # 오른쪽으로 짝수번째 인덱스는 sin 함수를 적용
        sines = tf.math.sin(angle_rads[:, 0::2])
        # 오른쪽으로 홀수번째 인덱스는 cos 함수를 적용
        cosines = tf.math.cos(angle_rads[:, 1::2])
        
        angle_rads = np.zeros(angle_rads.shape)
        angle_rads[:, 0::2] = sines
        angle_rads[:, 1::2] = cosines
        
        pos_encoding = tf.constant(angle_rads)
        pos_encoding = angle_rads[tf.newaxis, ...]  # pos_encoding shape : (1, position, d_model)

        return tf.cast(pos_encoding, dtype=tf.float32)

    
    def call(self, inputs):
        return inputs + self.pos_encoding[:, :tf.shape(inputs)[1], :]


In [None]:
# 50 * 128의 크기를 가지는 포지셔널 인코딩 행렬 시각화 -> 입력 문장의 단어가 50개이면서, 각 단어가 128차원의 임베딩 벡터를 가질때의 행렬

sample_pos_encoding = PositionalEncoding(50, 128)

plt.pcolormesh(sample_pos_encoding.pos_encoding.numpy()[0], cmap='RdBu')
plt.xlabel('Depth')
plt.xlim((0, 128))
plt.ylabel('Position')
plt.colorbar()
plt.show()

- 트랜스포머에서 사용되는 세가지의 에턴션
![image.png](attachment:image.png)

    - 셀프 어텐션은 본질적으로 Query, Key, Value 가 동일한 경우를 말함.
    - 세번째의 인코더-디코더 어텐션은 Query가 디코더의 벡터인 반면, key와 value가 인코더의 벡터이므로 셀프어텐션이라고 부르지 않는다.
        
        **주의 : 여기서 Query, Key등이 같다는것은 벡터의 값이 아닌 벡터의 출처가 같다는 의미.**
      
    ```
    인코더의 셀프 어텐션 : Query = Key = Value
    디코더의 마스크드 셀프 어텐션 : Query = Key = Value
    디코더의 인코더-디코더 어텐션 : Query : 디코더 벡터 / Key = Value : 인코더 벡터
    ```
![image-2.png](attachment:image-2.png)

        **Multi-head: 트랜스포머가 병렬적으로 수행하는 방법을 의미함**

### Self-Attention
**Attention 함수는 주어진 쿼리에 대해서 모든 키와의 유사도를 각각 구한다. 그리고 구해낸 유사도를 가중치로 하여 키와 맵핑 되어있는 각각의 값에 반영하며 유사도가 반영된 값을 모두 가중합하여 리턴한다.**
![image.png](attachment:image.png)


1. Q, K, V 벡터 얻기
    - 각 단어 벡터들로 부터 Q, K, V벡터를 얻는 작업을 거친다.
    - Q, K, V는 초기 입력인 d_model의 차원보다 더 작은 차원을 가지는데 이는 하이퍼파라미터인 num_heads로 결정됨
        - 기존의 벡터로 부터 더작은 벡터는 가중치 행렬을 곱하므로서 완성된다.
        - 각 가중치 행렬은 d_model*(d_model/num_heads)의 크기를 가진다.
        - 예를 들어, d_model=512이고 num_heads=8이라면 각 벡터에 3개의 서로 다른 가중치행렬을 곱하고 64의 크기를 가지는 Q, K, V 벡터를 얻는다.

2. Scaled dot-product Attention
    - 각 Q벡터는 모든 K벡터에 대해서 어텐션 스코어를 구하고, 어텐션 분포를 구한 뒤에 이를 사용하여 모든 V벡터를 가중합 하여 어텐션 값 또는 컨텍스트 벡터를 구하게 된다. 그리고 이를 모든 Q벡터에 대해서 반복한다.
        - Scaled dot-product Attention : $score(q,k) = \frac{q*k} {\sqrt{n}}$ (dot-product Attention에서 값을 스케일링하는것을 추가한 값)를 통해 각 단어에 대한 어텐션 스코어를 구한다.
        - 구한 어텐션 스코어에 소프트맥스 함수를 사용하여 어텐션 분포를 구하고 각 V벡터와 가중합하여 어텐션 값을 구한다.

3. 행렬 연산으로 일괄 처리.
    - 위의 Scaled dot-product Attention 연산은 행렬 연산으로 구현한다.
    
    - 각 단어 벡터마다 일일히 가중치 행렬을 곱하는것이 아닌 문장 행렬에 가중치 행렬을 곱하여 Q, K, V 행렬을 구한다.
![image-2.png](attachment:image-2.png)
    
        - Q행렬을 K행렬을 전치한 행렬과 곱해주면 각각의 단어의 Q벡터와 K벡터의 내적이 각 행렬의 원소가 되는 행렬이 결과로 나온다.
        - 결과 행렬의 값에 전체적으로 $\sqrt{d_k}$ 를 나누어주면 각 행과 열이 어텐션 스코어 값을 가지는 행렬이 된다.
![image-3.png](attachment:image-3.png)

        - 위의 어텐션 스코어 행렬에 소프트맥스 함수를 사용하고 V행렬을 곱하면 어텐션 값(Attention Value)행렬이 결과로 나온다.
![image-4.png](attachment:image-4.png)

$$Attention(Q,K,V)= softmax(\frac{QK^T}{\sqrt{d_k}})V $$
    

In [37]:
def scaled_dot_product_attention(q, k, v, mask=None):
    # query 크기 : (batch_size, num_heads, query의 문장 길이, d_model/num_heads)
    # key 크기 : (batch_size, num_heads, key의 문장 길이, d_model/num_heads)
    # value 크기 : (batch_size, num_heads, value의 문장 길이, d_model/num_heads)
    # padding_mask : (batch_size, 1, 1, key의 문장 길이)
    
    # Q와 K의 곱. Attention Score 행렬.
    matmul_qk = tf.matmul(q, k, transpose_b = True)
    
    # scaling
    # d_k의 루트값으로 나눠준다.
    dk = tf.cast(tf.shape(k)[-1], tf.float32)
    scaled_attention_logits = matmul_qk / tf.math.sqrt(dk)
    
    # Masking
    # 어텐션 스코어 행렬의 마스킹 할 위치에 매우 작은 음수값을 넣는다.
    # 매우 작은 값으로 소프트맥스 함수를 자나면 행렬의 해당 위치의 값은 0이 된다.
    if mask is not None:
        scaled_attention_logits += (mask * -1e9)

    # 소프트맥스 함수는 마지막 차원인 k의 문장 길이 방향으로 수행된다.
    # attention weight shape : (batch_size, num_heads, query의 문장 길이, key의 문장 길이)
    attention_weights = tf.nn.softmax(scaled_attention_logits, axis=-1)

    output = tf.matmul(attention_weights, v)

    # output(attention_value) shape : (batch_size, seq_len, d_model/num_heads)
    # 즉 처음 입력 차원인 (batch_size, seq_len, d_model/num_heads) 차원을 아웃풋으로 반환
    # 인풋과 아웃풋의 사이즈가 동일하다.

    # scaled_dot_product_attention 의 결과는 단어들 간의 연관성을 학습.
    return output, attention_weights

##### scaled_dot_product_attention 예제

In [45]:
# 임의의 Query, Key, Value인 Q, K, V 행렬 생성하여 이를 scaled_dot_product_attention 함수에 입력으로 넣어 함수가 리턴하는 값을 출력.
np.set_printoptions(suppress=True)
temp_k = tf.constant([[10,0,0],
                      [0,10,0],
                      [0,0,10],
                      [0,0,10]], dtype=tf.float32)  # (4, 3)

temp_v = tf.constant([[   1,0],
                      [  10,0],
                      [ 100,5],
                      [1000,6]], dtype=tf.float32)  # (4, 2)
temp_q = tf.constant([[0, 10, 0]], dtype=tf.float32)  # (1, 3)

In [46]:
# 함수 실행
temp_out, temp_attn = scaled_dot_product_attention(temp_q, temp_k, temp_v, None)
print(temp_attn) # 어텐션 분포(어텐션 가중치의 나열)
print(temp_out) # 어텐션 값

# Q의 값이 K의 값중 2번째 값과 일치하므로 어텐션 분포는 [0,1,0,0]의 값을 가지며 결과적으로 Vlaue의 두번째 값인 [10,0]이 출력 된다.

tf.Tensor([[0. 1. 0. 0.]], shape=(1, 4), dtype=float32)
tf.Tensor([[10.  0.]], shape=(1, 2), dtype=float32)


In [47]:
temp_q = tf.constant([[0, 0, 10]], dtype=tf.float32)
temp_out, temp_attn = scaled_dot_product_attention(temp_q, temp_k, temp_v, None)
print(temp_attn) # 어텐션 분포(어텐션 가중치의 나열)
print(temp_out) # 어텐션 값

tf.Tensor([[0.  0.  0.5 0.5]], shape=(1, 4), dtype=float32)
tf.Tensor([[550.    5.5]], shape=(1, 2), dtype=float32)


In [48]:
temp_q = tf.constant([[0, 0, 10], [0, 10, 0], [10, 10, 0]], dtype=tf.float32)  # (3, 3)
temp_out, temp_attn = scaled_dot_product_attention(temp_q, temp_k, temp_v, None)
print(temp_attn) # 어텐션 분포(어텐션 가중치의 나열)
print(temp_out) # 어텐션 값

tf.Tensor(
[[0.  0.  0.5 0.5]
 [0.  1.  0.  0. ]
 [0.5 0.5 0.  0. ]], shape=(3, 4), dtype=float32)
tf.Tensor(
[[550.    5.5]
 [ 10.    0. ]
 [  5.5   0. ]], shape=(3, 2), dtype=float32)


### Multi-head Attention

![image.png](attachment:image.png)

    - 예를 들어 num_heads=8일때, 어텐션이 8개의 병렬로 이루어지는데, 이때 각각의 어텐션 값 행렬을 어텐션 헤드라 한다.
    - 어텐션 헤드마다 가중치 행렬의 값이 모두 다르다.
    - 병렬 어텐션을 모두 수행한뒤 모든 어텐션 헤드를 연결(concatenate)한다. -> shape : (seq_len, d_model)
    - 모두 연결한 행렬과 또 다른 가중치 행렬 $W^o$를 곱해주어 나온 결과 행렬이 멀티-헤드 어텐션의 최종 결과이다.
    - 아래의 그림은 어텐션 헤드를 모두 연결한 행렬이 가중치 행렬 $W^o$과 곱해지는 과정.
    - 이때 결과물인 멀티-헤드 어텐션 행렬은 인코더의 입력이였던 문장 행렬의 (seq_len, d_model)의 크기와 동일하다.
    -  첫번째 서브층인 멀티-헤드 어텐션과 두번째 서브층인 포지션 와이즈 피드 포워드 신경망을 지나면서 인코더의 입력으로 들어올 때의 행렬의 크기는 계속 유지되어야 한다.
    - 트랜스포머는 동일한 구조의 인코더를 쌓은 구조로 입력의 크기가 출력에서도 동일 크기로 유지되어야만 다음 인코더에서도 다시 입력이 될 수 있다.
    
![image-2.png](attachment:image-2.png)


- 멀티 헤드 어텐션의 구현

        1. WQ, WK, WV에 해당하는 d_model 크기의 밀집층(Dense layer)을 지나게한다.
        2. 지정된 헤드 수(num_heads)만큼 나눈다(split).
        3. 스케일드 닷 프로덕트 어텐션.
        4. 나눠졌던 헤드들을 연결(concatenatetion)한다.
        5. WO에 해당하는 밀집층을 지나게 한다. 

In [49]:
class MultiHeadAttention(tf.keras.layers.Layer):
    # 멀티 헤드 어텐션은 전체 어텐션을 분리하여 병렬적으로 어텐션을 수행하는 기법.
    # 이렇게 하는 이유는, 깊은 차원을 한번에 어텐션을 수행하는 것보다, 병렬로 각각 수행하는 것이 더 심도있는 언어들간의 관계를 학습할 수 있기 때문.

    def __init__(self, d_model, num_heads, name="multi_head_attention"):
        super(MultiHeadAttention, self).__init__(name=name)
        self.num_heads = num_heads
        self.d_model = d_model

        assert d_model % self.num_heads == 0

        # d_model을 num_heads로 나눈 값.
        # 논문 기준 : 64
        self.depth = d_model // self.num_heads

        # WQ, WK, WV에 해당하는 밀집층 정의
        self.query_dense = tf.keras.layers.Dense(units=d_model)
        self.key_dense = tf.keras.layers.Dense(units=d_model)
        self.value_dense = tf.keras.layers.Dense(units=d_model)

        # WO에 해당하는 밀집층 정의
        self.dense = tf.keras.layers.Dense(units=d_model)

  # num_heads 개수만큼 q, k, v를 split하는 함수
    def split_heads(self, inputs, batch_size):
        inputs = tf.reshape(
            inputs, shape=(batch_size, -1, self.num_heads, self.depth))
        return tf.transpose(inputs, perm=[0, 2, 1, 3])

    def call(self, inputs):
        query, key, value, mask = inputs['query'], inputs['key'], inputs[
            'value'], inputs['mask']
        batch_size = tf.shape(query)[0]

        # 1. WQ, WK, WV에 해당하는 밀집층 지나기
        # q : (batch_size, query의 문장 길이, d_model)
        # k : (batch_size, key의 문장 길이, d_model)
        # v : (batch_size, value의 문장 길이, d_model)
        # 참고) 인코더(k, v)-디코더(q) 어텐션에서는 query 길이와 key, value의 길이는 다를 수 있다.
        query = self.query_dense(query)
        key = self.key_dense(key)
        value = self.value_dense(value)

        # 2. 헤드 나누기
        # q : (batch_size, num_heads, query의 문장 길이, d_model/num_heads)
        # k : (batch_size, num_heads, key의 문장 길이, d_model/num_heads)
        # v : (batch_size, num_heads, value의 문장 길이, d_model/num_heads)
        query = self.split_heads(query, batch_size)
        key = self.split_heads(key, batch_size)
        value = self.split_heads(value, batch_size)

        # 3. 스케일드 닷 프로덕트 어텐션. 앞서 구현한 함수 사용.
        # (batch_size, num_heads, query의 문장 길이, d_model/num_heads)
        scaled_attention, _ = scaled_dot_product_attention(query, key, value, mask)
        # (batch_size, query의 문장 길이, num_heads, d_model/num_heads)
        scaled_attention = tf.transpose(scaled_attention, perm=[0, 2, 1, 3])

        # 4. 헤드 연결(concatenate)하기
        # (batch_size, query의 문장 길이, d_model)
        concat_attention = tf.reshape(scaled_attention,
                                      (batch_size, -1, self.d_model))

        # 5. WO에 해당하는 밀집층 지나기
        # (batch_size, query의 문장 길이, d_model)
        outputs = self.dense(concat_attention)

        return outputs

### 패딩 마스크(Padding Mask)

- 문장에 존재하는 \<PAD\> 토큰에 대해서는 유사도를 구하지 않도록 마스킹 하는것.
    - 마스킹이란, 어텐션에서 제외하기 위해 값을 가린다는 의미
    - \<PAD\>가 있는 경우 해당 열 전체를 마스킹한다.
- 마스킹을 하는 방법은 어텐션 스코어 행렬의 마스킹 위치에 매우 작은 음수 값을 넣어준다.
- 매우 작은 음수가 포함된 어텐션 스코어 행렬이 소프트맥스 함수를 지난 후에는 해당 위치의 값은 0이 되어 유사도를 구하는 일에 \<PAD\> 토큰이 반영되지 않아, 어텐션 가중치의 총합이 0이 된다.
![image.png](attachment:image.png)

#### Position-wise FeedForward Network (Position-wise FFNN)

- 포지션-와이즈 FFNN은 완전 연결 FFNN(Fully-connected FFNN) 이라고 해석할 수 있다.

$$Position-wise FFNN(x) = MAX(0, xW_1 + b_1)W_2 + b_2 $$

![image.png](attachment:image.png)

    - x는 멀티 헤드 어텐션의 결과로 나온 행렬을 의미함.

![image-2.png](attachment:image-2.png)

- 위의 그림에서 좌측은 인코더의 입력을 벡터 단위로 봤을 때, 각 벡터들이 멀티 헤드 어텐션 층이라는 인코더 내 첫번째 서브 층을 지나 FFNN을 통과하는 것을 보여줍니다. 이는 두번째 서브층인 Position-wise FFNN을 의미합니다. 물론, 실제로는 그림의 우측과 같이 행렬로 연산되는데, 두번째 서브층을 지난 인코더의 최종 출력은 여전히 인코더의 입력의 크기였던 $(seq\_len, d_model)$의 크기가 보존되고 있습니다. 하나의 인코더 층을 지난 이 행렬은 다음 인코더 층으로 전달되고, 다음 층에서도 동일한 인코더 연산이 반복됩니다.

- 코드로 구현하면 아래와 같다.

```python3
outputs = tf.keras.layers.Dense(units=dff, activation='relu')(attention)
outputs = tf.keras.layers.Dense(units=d_model)(outputs)
```

In [7]:
class Pointwise_FeedForward_Network(tf.keras.layers.Layer):
    # Pointwise_FeedForward_Network 에서는 인코더의 출력에서 512개의 차원이 2048차원까지 확장되고, 다시 512개의 차원으로 압축된다.
    def __init__(self, d_model, dff):
        super().__init__()
        self.d_model = d_model
        self.dff = dff

        self.middle = tf.keras.layers.Dense(dff, activation='relu')
        self.out = tf.keras.layers.Dense(d_model)

    def __call__(self, x):
        middle = self.middle(x) # middle shape : (batch_size, seq_len, dff)
        out = self.out(middle) # out shape : (batch_size, seq_len, d_model)
        return out


### 잔차 연결(Residual connection)과 층 정규화(Layer Normalization)
![image.png](attachment:image.png)

- 멀티 헤드 어텐션과 포지션 와이즈 FFNN 이 두개의 서브층을 가진 인코더에 추가적으로 사용하는 기법이 Add(Residual connection) Norm(Layer Normalization)이다.

1. Residual connection
    - 서브층의 입력과 출력을 더하는 것을 의미한다.
$$H(x) = x + Sublayer(x)$$

    - 트랜스포머에서 서브층의 입력과 출력은 동일한 차원을 가지므로 덧셈 연산이 가능하며, 만약 서브층이 멀티 헤드 어텐션이라면 잔차 연결 연산은 다음 그림과 같다.

![image-2.png](attachment:image-2.png)


2. Layer Normalization

- 잔차 연결한 이후 이어서 층 정규화 과정을 거친다.
- 잔차 연결의 입력을 $x$, 잔차 연결과 층 정규화 두 연산을 모두 수행한 결과를 LN이라 했을때 수식은 아래와 같다.
$$LN = LayerNorm(x + Sublayer(x))$$

- 층 정규화는 텐서의 마지막 차원(d_model 차원)에 대해서 평균과 분산을 구하고, 이를 가지고 어떤 수식을 통해 값을 정규화하여 학습을 돕는다.

- 층 정규화 수식
    - 먼저 평균과 분산을 통한 정규화, 그 이후 감마와 베타를 도입하는것.
        - 평균과 분산을 통해 벡터 $x_i$를 정규화한다. ($x_i$는 벡터인 반면 평균 $\mu_i$과 분산 $\sigma^2_i$는 스칼라 이다.)
        - 벡터 $x_i$의 각 차원을 k라 했을떄 벡터 $x_i$의 각 k차원의 값이 다음과 같이 정규화되는것.
$$ \hat{x}_{i,k} = \frac{x_{i,k}- \mu_i}{\sqrt{\sigma_i^2 + \epsilon}}$$
        - $\epsilon$은 분모가 0이 됨을 방지.
        - 초기값이 각각 1과 0인 $\gamma 와 \beta$라는 벡터를 준비
        - $\gamma 와 \beta$를 도입한 층 정규화의 수식은 다음과 같다. ($\gamma 와 \beta$는 학습 가능한 파라미터)

$$ln_i = \gamma\hat{x}_i + \beta = LayerNorm(x_i)$$

- 케라스에서는 층 정규화를 위한 아래의 함수를 제공한다.
```python3
LayerNormalization()

```
        

### 인코더 구현

In [None]:
class TransformerEmbedding(tf.keras.layers.Layer):
    def __init__(self, d_model, input_vocab_size, maximum_position_encoding, dropout_rate=0.1):
        super().__init__()

        self.d_model = d_model  # 하나의 단어가 d_model의 차원으로 인코딩 됨
        self.embedding = tf.keras.layers.Embedding(input_vocab_size, d_model)
        # vocab_size는 tokenizer 내부 vocab.txt의 사이즈
        self.pos_encoding = positional_encoding(maximum_position_encoding, self.d_model)  # 포지셔널 인코딩
        self.dropout = tf.keras.layers.Dropout(dropout_rate)  # 드롭아웃 설정

    def __call__(self, x, training):
        # 최초 x의 shape = (batch_size, seq_len)
        seq_len = tf.shape(x)[1]
        out = self.embedding(x)  # shape : (batch_size, input_seq_len, d_model)
        out = out * tf.math.sqrt(
            tf.cast(self.d_model, tf.float32))  # x에 sqrt(d_model) 만큼을 곱해주냐면, 임베딩 벡터보다 포지셔널 인코딩 임베딩 벡터의 영향력을 줄이기 위해서임
        # 포지셔널 인코딩은 순서만을 의미하기 때문에 임베딩 벡터보다 영향력이 적어야 이치에 맞음
        out = out + self.pos_encoding[:, :seq_len, :]
        out = self.dropout(out, training=training)

        return out  # shape : (batch_size, input_seq_len, d_model)