---
# 우리가 만드는 언어 모델
---

언어 모델(Language Model)이란, 주어진 단어들을 보고 다음 단어를 맞추는 모델입니다.  
더 자세하게는, 단어의 시퀀스를 보고 다음 단어에 확률을 할당 하는 모델이죠!m  
  
좀 더 수학적으로 표현하자면, 언어 모델은 n-1개의 단어 시퀀스 $ w_1,⋯,w_{n−1} $ 가 주어졌을 때,   
n번째 단어 $w_n$ 으로 무엇이 올지를 예측하는 확률 모델로 표현됩니다.  
파라미터 θ로 모델링하는 언어 모델을 다음과 같이 표현할 수 있습니다. 

$$ P(w_n∣w_1,...,w_{n−1} ;θ)$$

하지만 나중에는 꼭 시퀀스 형태의 Next Token Prediction 언어모델이 아니더라도,  
주변 단어를 보고 중심 단어를 예측하는 형태로 언어모델을 구성하는 것도 보시게 될 것입니다.

---
### 통계적 언어 모델 (Statistical Language Model)
----

딥러닝이 등장하기 이전엔 통계적 언어 모델(Statistical Language Model) 의 사용이 지배적이었습니다.  
대표적으로 2000년대 초반까지 구글이나 네이버의 번역기는 모두 통계적 언어 모델을 기반으로 하고 있었죠.   
  
등장한 적 없는 단어나 문장에 대해 모델링을 할 수 없다는 통계적 언어 모델의 단점은 치명적이었습니다.  
데이터가 아무리 많다고 해도 세상 모든 단어를 포함할 수는 없었으니 말이죠.

---
### 신경망 언어 모델 (Neural Network Language Model)
---

통계적 언어 모델의 단점을 개선한 것이 우리가 배울 신경망 언어 모델(Neural Network Language Model, 이하 NNLM) 입니다.  
NNLM의 시초는 Feed-Forward 신경망 언어 모델인데, 지금의 Embedding 레이어의 아이디어인 모델입니다.  
이에 대한 설명이 아래 웹페이지에 아주 잘 되어 있습니다.

각 단어를 일련의 Embedding 벡터로 표현한 후, 이전의 몇 개 단어를 활용해 다음 단어를 예측하는 것은 분명 많은 문제를 해결했습니다.  
특히 단어 간의 유사도를 표현할 수 있게 되어 문장의 유창성이 높아진 것은 혁신적이었죠!
  
하지만 예측에 정해진 개수의 단어만 참고한다는 분명한 한계가 있었습니다.  
예를 들어 번역문을 생성하려면 문장이 짧을 수도, 길 수도 있으니, n개의 단어를 참고하기보다는 "몇 개 단어가 들어와도 문장 단위로 처리한다!"는 종류의 모델링이 필요하게 되었죠.  
그렇게 고안된 것이 바로 여러분들이 잘 알고 계신 **순환 신경망(Recurrent Neural Network, 이하 RNN)**을 활용한 언어 모델 입니다. 

---
# Sequence to Sequence 문제
---

<img src='https://d3s0tskafalll9.cloudfront.net/media/original_images/GN-4-L-2.jpg'>

다시 한번 설명하면, 여러 개의 단어(Embedding)를 합쳐(Concatenate) 고정된 크기의 Weight를 Linear로 처리하는 방식은 유연성에 한계가 있었습니다.  
단어의 개수에 무관하게 처리할 수 있는 네트워크가 필요했고, 그것은 곧 RNN의 고안으로 이어졌습니다.   
RNN은 고정된 크기의 Weight가 선언되는 것은 동일하지만 입력을 순차적으로 "적립"하는 방식을 채택함으로써 유동적인 크기의 입력을 처리할 수 있었습니다.
<br><br>
"적립"이라는 표현을 일반적으로 사용하지는 않습니다만, 필자가 생각하기에 RNN의 동작 방식에 잘 어울린다고 생각해 선택했습니다.  
기억, 누적, 압축 등으로 대체할 수 있으며 가장 와닿는 방향으로 이해하세요!
<br><br>
<img src='https://d3s0tskafalll9.cloudfront.net/media/original_images/GN-4-L-3.jpg'>
<br><br>
단어가 자체적으로 의미를 가질 수 있는 Embedding을 도입하고, 입력의 유연성을 위해 RNN도 적용했는데, 아직도 해결할 문제가 있을까요? 물론입니다!  
대표적으로 RNN에는 두 가지 문제점이 꼽히곤 합니다.

- 하나의 Weight에 입력을 적립하다 보니 입력이 길어질수록 이전 입력에 대한 정보가 소실되는 기울기 소실(Vanishing Gradient) 문제가 있습니다.  
위의 그림을 보면 각 입력마다 정보를 색으로 확인할 수 있습니다.  
첫 입력인 What(남색)의 정보가 마지막 입력인 ?에 다다라서는 거의 희석된 모습을 보여주고 있죠.  
이 문제는 LSTM을 고안함으로써 개선되었습니다.  
LSTM에 대한 자세한 내용은 이미 알고 계신다고 생각하겠습니다.  
기억이 잘 나지 않는 분은 아래 링크를 참고해 주세요.

[Long Short-Term Memory (LSTM) 이해하기](https://dgkim5360.tistory.com/entry/understanding-long-short-term-memory-lstm-kr)

- 단어 단위로 입력과 출력을 순환하는 RNN 구조는 문장 생성엔 적합할지언정 번역에 사용하기는 어렵다는 문제가 있습니다.  
나는 점심을 먹는다 라는 문장을 영문으로 번역하자면 목표 문장은 I eat lunch 가 될 것인데,  
과정을 순차적으로 생각하면 eat 이라는 단어를 만들 때는 먹는다 에 대한 정보가 없습니다.  
각 언어별로 어순이 다르기 때문입니다.

>나는 -> I  
나는 점심을 -> I lunch  
나는 점심을 먹는다 -> I lunch eat(?)

심지어 입력의 길이와 번역의 길이가 같다는 보장도 없죠.  
번역에 있어서는 문장을 다 읽고 번역하는, 즉 문장 전체를 보고 나서 생성하는 구조가 필요했습니다.  
이에 2014년, 구글이 Sequence to Sequence(Seq2Seq) 구조를 제안합니다.
  
<img src='https://d3s0tskafalll9.cloudfront.net/media/images/GN-4-L-4.max-800x600.jpg'>

  



---
# Sequence to Sequence 구현
---

이제 Sequence to Sequence를 TensorFlow로 구현해보죠.  
일단은 데이터를 직접 다루기보다는 차원 수를 확인하는 실습을 해보겠습니다.  
RNN 계통의 레이어들은 입력값과 반환값이 설정에 따라 각양각색입니다.  
이번 구현에서는 입력으로 Embedding된 단어만 전달하고 (Hidden State는 전달하지 않습니다),  
출력은 Encoder와 Decoder 별로 상이하므로 각각 설명을 첨부하겠습니다.

---
### LSTM Encoder
---

In [1]:
import tensorflow as tf

class Encoder(tf.keras.Model):
  def __init__(self, vocab_size, embedding_dim, enc_units):
    super(Encoder, self).__init__()
    self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim)
    self.lstm = tf.keras.layers.LSTM(enc_units) # return_sequences 매개변수를 기본값 False로 전달

  def call(self, x):
    print("입력 Shape:", x.shape)

    x = self.embedding(x)
    print("Embedding Layer를 거친 Shape:", x.shape)

    output = self.lstm(x)
    print("LSTM Layer의 Output Shape:", output.shape)

    return output

Embedding 레이어를 단어 사이즈와 Embedding 차원에 대해 선언을 한 후,  
논문에서 소개한 대로 tf.keras.layers.LSTM(enc_units)으로 LSTM을 정의합니다.  
TensorFlow 속 LSTM 모듈의 기본 반환 값은 최종 State 값이므로 return_sequences 나 return_state 값은 따로 조정하지 않습니다 (기본: False).  
즉, 우리가 정의해 준 Encoder 클래스의 반환 값이 곧 **컨텍스트 벡터(Context Vector)** 가 되는 겁니다.  


In [2]:
vocab_size = 30000
emb_size = 256
lstm_size = 512
batch_size = 1
sample_seq_len = 3

print("Vocab Size: {0}".format(vocab_size))
print("Embedidng Size: {0}".format(emb_size))
print("LSTM Size: {0}".format(lstm_size))
print("Batch Size: {0}".format(batch_size))
print("Sample Sequence Length: {0}\n".format(sample_seq_len))

Vocab Size: 30000
Embedidng Size: 256
LSTM Size: 512
Batch Size: 1
Sample Sequence Length: 3



In [3]:
encoder = Encoder(vocab_size, emb_size, lstm_size)
sample_input = tf.zeros((batch_size, sample_seq_len))

sample_output = encoder(sample_input)    # 컨텍스트 벡터로 사용할 인코더 LSTM의 최종 State값

입력 Shape: (1, 3)
Embedding Layer를 거친 Shape: (1, 3, 256)
LSTM Layer의 Output Shape: (1, 512)


<img src='https://d3s0tskafalll9.cloudfront.net/media/images/GN-4-L-6.max-800x600.jpg'>

   
아주 간편하게 Encoder 클래스를 정의했습니다.  
어떤 Source 문장을 Encoder에 읽히고, 그 반환 값인 LSTM의 최종 State 값을 Decoder에게 전달해 주면 되겠죠?

---
### LSTM Decoder
---

In [7]:
# Encoder 구현에 사용된 변수들을 이어 사용함에 유의!

class Decoder(tf.keras.Model):
  def __init__(self, vocab_size, embedding_dim, dec_units):
    super(Decoder, self).__init__()
    self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim)
    self.lstm = tf.keras.layers.LSTM(dec_units,
                                     return_sequences=True) # return_sequences 매개변수를 True로 설정
    self.fc = tf.keras.layers.Dense(vocab_size)
    self.softmax = tf.keras.layers.Softmax(axis=-1)

  def call(self, x, context_v):  # 디코더의 입력 x와 인코더의 컨텍스트 벡터를 인자로 받는다. 
    print("입력 Shape:", x.shape)

    x = self.embedding(x)
    print("Embedding Layer를 거친 Shape:", x.shape)

    context_v = tf.repeat(tf.expand_dims(context_v, axis=1),
                          repeats=x.shape[1], axis=1)
    x = tf.concat([x, context_v], axis=-1)  # 컨텍스트 벡터를 concat 해준다
    print("Context Vector가 더해진 Shape:", x.shape)

    x = self.lstm(x)
    print("LSTM Layer의 Output Shape:", x.shape)

    output = self.fc(x)
    print("Decoder 최종 Output Shape:", output.shape)

    return self.softmax(output)

Decoder는 Encoder와 구조적으로 유사하지만 결과물을 생성해야 하므로 Fully Connected 레이어가 추가되었고,  
출력값을 확률로 변환해 주는 Softmax 함수도 추가되었습니다 (Softmax는 모델 내부에 포함시키지 않아도 훈련 과정에서 포함시키는 방법도 있습니다).  
그리고 Decoder가 매 스텝 생성하는 출력은 우리가 원하는 번역 결과에 해당하므로  
LSTM 레이어의 return_sequences 변수를 True로 설정하여 State 값이 아닌 Sequence 값을 출력으로 받습니다.


In [8]:
print("Vocab Size: {0}".format(vocab_size))
print("Embedidng Size: {0}".format(emb_size))
print("LSTM Size: {0}".format(lstm_size))
print("Batch Size: {0}".format(batch_size))
print("Sample Sequence Length: {0}\n".format(sample_seq_len))

Vocab Size: 30000
Embedidng Size: 256
LSTM Size: 512
Batch Size: 1
Sample Sequence Length: 3



In [9]:
decoder = Decoder(vocab_size, emb_size, lstm_size)
sample_input = tf.zeros((batch_size, sample_seq_len))

dec_output = decoder(sample_input, sample_output)  # Decoder.call(x, context_v) 을 호출

입력 Shape: (1, 3)
Embedding Layer를 거친 Shape: (1, 3, 256)
Context Vector가 더해진 Shape: (1, 3, 768)
LSTM Layer의 Output Shape: (1, 3, 512)
Decoder 최종 Output Shape: (1, 3, 30000)


<img src='https://d3s0tskafalll9.cloudfront.net/media/images/GN-4-L-7.max-800x600.jpg'>
<br><br>
$ p(y_1,...,y_{T′}|x_1,...,x_T)=Π^{T′}_{t=1}p(y_t|v,y_1,...,y_{t−1}) $
<br><br>
Encoder가 생성한 컨텍스트 벡터 v 를 Embedding 레이어를 거친 y 값에 Concatnate하여 위 수식을 비로소 만족하게 됩니다. 우리가 Seq2seq를 완성한 거죠!
 


---
# Attention! (1) Bahdanau Attention
---

혁신적이었던 Seq2Seq은 Encoder-Decoder 구조라는 딥러닝 모델의 큰 틀을 제시했고, 지금까지도 그 구조는 널리 활용되고 있습니다.  
하지만 그것만으로 기계 번역이 완벽했다면 우리는 이미 외국어에 대한 두려움이 사라졌겠죠?
  
Seq2Seq 역시 여느 기법처럼 한계점이 존재했으며 이를 발전시키려는 시도가 아주 많았습니다.  
가장 대표적인 방법이 바로 Attention 메커니즘입니다!  
이번 스텝에서는 Attention 메커니즘의 이모저모를 살펴볼 거예요!

---
### Bahdanau Attention
---

장점으로 보이는 어떤 것도 누군가에게는 결점이 보이는 법이죠.  
Bahdanau는 Seq2Seq의 컨텍스트 벡터가 고정된 길이로 정보를 압축하는 것이 손실을 야기한다고 주장하였습니다.  
즉 짧은 문장에 대해서는 괜찮을지 모르겠으나 문장이 길어질수록 성능이 저하된다는 것이지요. 콜럼버스의 달걀처럼, 듣고 보니 그럴듯합니다!  

이에 그는 Encoder의 최종 State 값만을 사용하는 기존의 방식이 아닌, 매 스텝의 Hidden State를 활용해 컨텍스트 벡터를 구축하는 Attention 메커니즘을 제안합니다.  

아래는 Bahdanau의 Attention 논문입니다.  
내용이 제법 어렵지만 must-read 논문이니만큼, 꼭 한번 읽어보시기를 권합니다.

Sequence Labeling은 $ x_i$	와 $y_i$ 의 관계를 구하는 문제지만  
Sequence to Sequence는 $x_{1:n}$ 과 동일한 의미를 가지는 $y_{1:m}$ 을 만드는 문제였지요.

---
### seq2seq과 attn-seq2seq, 뭐가 다른가?
---

Attention의 개념에 대해 어려워하는 분들이 많습니다. 
이렇게 생각해 봅시다. Attention이 없는 것과 있는 것은 과연 뭐가 달라지는 것일까?
<br><br>
<img src='https://d3s0tskafalll9.cloudfront.net/media/images/GN-4-L-attn.max-800x600.png'>
<br><br>
위의 두 식을 비교해 봅시다.  
Bahdanau 논문 원문에 나오는 Encoder-Decoder 구조에 대한 수식을 seq2seq만 있는 경우와 attention이 적용된 경우로 나누어 비교해 보면,  
약간의 notation을 수정해서 보면 단 한 군데만 빼고는 사실상 동일합니다.  
어디가 다른지 눈에 띄시나요?  
<br>
네 그렇습니다. 유일한 차이는 attention이 있는 경우엔 바로 context vector c에 첨자 i가 붙어있다는 점입니다.  
그렇다면 이 작은 첨자 하나가 어떤 근본적인 차이를 가져오게 되는 것인지 생각해 볼까요?  
<br>
<img src='https://d3s0tskafalll9.cloudfront.net/media/images/GN-4-L-attn_exp.max-800x600.png'>  
<br>
위 그림은 Bahdanau 논문 원문의 3.LEARNING TO ALIGN AND TRANSLATE의 내용을 바탕으로 재구성한 것입니다.  
위 그림의 왼쪽 부분은 $X_j$ 를 입력으로, $y_i$를 출력으로 하는 인코더-디코더 부분을 도식화한 것입니다.  
여기서 유의해야 할 점은 **i는 디코더의 인덱스, j는 인코더의 인덱스**라는 점입니다.
  
그렇다면 context vector c에 첨자 i가 붙어 $c_i$ 가 된다는 것의 의미는 무엇일까요?  
  
>인코더가 X를 해석한 context $c_i$ 는 디코더의 포지션 i에 따라 다르게 표현(represent)되어야 한다.

seq2seq의 인코더가 해석한 context는 디코더의 포지션 i에 무관하게 항상 일정했습니다.  
그러나 attention이 가미되면 달라집니다.  
  
'나는 밥을 먹었다'라는 한글 문장을 'I ate lunch'로 번역한다고 생각해 봅시다.   
영어 문장의 첫 번째(i=0) 단어 'I'를 만들어야 할 때 인코더가 한글 문장을 해석한 컨텍스트 벡터에서는 '나는'이 강조되어야 하고,  
영어 문장의 세 번째(i=2) 단어 'lunch'를 만들어야 할 때 인코더의 컨텍스트 벡터에서는 '밥을'이 강조되어야 한다는 것입니다.  
  
## 디코더가 현재 시점 i에서 보기에 인코더의 어느 부분 j가 중요한가?   
  
이 가중치가 바로 attention인 것입니다.

얼마나 강조되어야 하는지를 나타내는 가중치는 어떻게 계산하나요? 위의 식에서 $α_{ij} $가  
바로 인코더의 j번째 hidden state $h_j$ 가 얼마나 강조되어야 할지를 결정하는 가중치 역할을 합니다.  
이 가중치는 다시 디코더의 직전 스텝의 hidden state $s_{i−1}$ 와 $h_j$의 유사도가 높을수록 높아지게 되어 있습니다.

 $ \displaystyle\sum_j α_{ij}=1 $

In [10]:
class BahdanauAttention(tf.keras.layers.Layer):
  def __init__(self, units):
    super(BahdanauAttention, self).__init__()
    self.W_decoder = tf.keras.layers.Dense(units)
    self.W_encoder = tf.keras.layers.Dense(units)
    self.W_combine = tf.keras.layers.Dense(1)

  def call(self, H_encoder, H_decoder):
    print("[ H_encoder ] Shape:", H_encoder.shape)

    H_encoder = self.W_encoder(H_encoder)
    print("[ W_encoder X H_encoder ] Shape:", H_encoder.shape)

    print("\n[ H_decoder ] Shape:", H_decoder.shape)
    H_decoder = tf.expand_dims(H_decoder, 1)
    H_decoder = self.W_decoder(H_decoder)
    
    print("[ W_decoder X H_decoder ] Shape:", H_decoder.shape)

    score = self.W_combine(tf.nn.tanh(H_decoder + H_encoder))
    print("[ Score_alignment ] Shape:", score.shape)
    
    attention_weights = tf.nn.softmax(score, axis=1)
    print("\n최종 Weight:\n", attention_weights.numpy())

    context_vector = attention_weights * H_decoder
    context_vector = tf.reduce_sum(context_vector, axis=1)

    return context_vector, attention_weights

W_size = 100

print("Hidden State를 {0}차원으로 Mapping\n".format(W_size))

attention = BahdanauAttention(W_size)

enc_state = tf.random.uniform((1, 10, 512))
dec_state = tf.random.uniform((1, 512))

_ = attention(enc_state, dec_state)

Hidden State를 100차원으로 Mapping

[ H_encoder ] Shape: (1, 10, 512)
[ W_encoder X H_encoder ] Shape: (1, 10, 100)

[ H_decoder ] Shape: (1, 512)
[ W_decoder X H_decoder ] Shape: (1, 1, 100)
[ Score_alignment ] Shape: (1, 10, 1)

최종 Weight:
 [[[0.07059775]
  [0.0860828 ]
  [0.16867474]
  [0.06657811]
  [0.04323225]
  [0.10643011]
  [0.13267711]
  [0.09399804]
  [0.1697933 ]
  [0.06193582]]]


Encoder의 모든 스텝에 대한 Hidden State를 100차원의 벡터 공간으로 매핑 (1, 10, 100) 하고,  
Decoder의 현재 스텝에 대한 Hidden State 역시 100차원의 벡터 공간으로 매핑 (1, 1, 100)해  
두 State의 합으로 정의된 Score (1, 10, 1) 를 구하는 모습입니다.   
  
Softmax를 거쳐 나온 값은 0-1 사이의 값으로 각 단어가 차지하는 비중을 의미하겠죠?  
예시에서는 랜덤한 값을 사용했기 때문에 비중이 비슷비슷하지만 실제 단어로 적용시켜보면 유사한 단어에 높은 비중을 할당하게 된답니다!  
  
그것을 시각화하면 아래와 같은 그림을 보실 수 있습니다.  
  
<img src='https://d3s0tskafalll9.cloudfront.net/media/original_images/GN-4-L-9.jpg'>

---
# Attention! (2) Luong Attention
---

---
### Luong Attention
---
Luong의 Attention은 Bahdanau의 방식을 약간 발전시킨 형태입니다.  
Decoder의 현재 Hidden State를 구하기 위해 한 스텝 이전의 Hidden State를 활용하는 것은 연산적으로 비효율적입니다.  
이는 RNN의 연산 형태 때문인데, 자세한 내용은 아래 웹페이지에서 확인하시죠! 
   
수식적인 부분은 완벽하게 이해하지 않아도 좋으니, Luong의 아이디어에 중점을 맞추도록 합니다.  

[[Attention] Luong Attention 개념 정리](https://hcnoh.github.io/2019-01-01-luong-attention)

### Bahdanau Attention으로부터 달라진 점

논문에서 제시하는 Bahdanau Attention과의 차이점은 다음과 같이 정리할 수 있다.

- 디코더의 Hidden State Vector를 구하는 방식이 간소화되었고 결과적으로 Attention Mechanism의 Computation Path가 간소화되었다.
- Local Attention과 그것을 위한 Alignment Model을 제시하였다.
- 다양한 Score Function들을 제시하였고 그들 각각을 비교해 보았다.
  
사실 이 논문에서 주된 내용은 Hidden State Vector를 구하는 방식이 달라졌다는 점과 Local Attention을 사용했다는 점 말고는 특이한 점은 없다.  
특히 다양한 Score Function을 제시하였다는 내용은 너무도 마이너해보인다.  
아마 비슷한 시기에 비슷한 내용으로 논문을 준비하다보니 벌어진 현상으로 보인다.  
어쨌든 Hidden State Vector를 어떻게 구했는지, 그리고 Local Attention이 무엇인지를 중점적으로 보면 될 듯 싶다.

4가지 Score 함수(Dot, General, Concat, Location) 중 
가장 좋은 성능을 보인 Score 함수는 General 이다. 
  
이를 기반으로 구현을 해보겠습니다.  

$Score(H_{target},H_{source})=H_{Ttarget} × W_{combine} × H_{source}$

In [11]:
class LuongAttention(tf.keras.layers.Layer):
  def __init__(self, units):
    super(LuongAttention, self).__init__()
    self.W_combine = tf.keras.layers.Dense(units)

  def call(self, H_encoder, H_decoder):
    print("[ H_encoder ] Shape:", H_encoder.shape)

    WH = self.W_combine(H_encoder)
    print("[ W_encoder X H_encoder ] Shape:", WH.shape)

    H_decoder = tf.expand_dims(H_decoder, 1)
    alignment = tf.matmul(WH, tf.transpose(H_decoder, [0, 2, 1]))
    print("[ Score_alignment ] Shape:", alignment.shape)

    attention_weights = tf.nn.softmax(alignment, axis=1)
    print("\n최종 Weight:\n", attention_weights.numpy())

    attention_weights = tf.squeeze(attention_weights, axis=-1)
    context_vector = tf.matmul(attention_weights, H_encoder)

    return context_vector, attention_weights

emb_dim = 512

attention = LuongAttention(emb_dim)

enc_state = tf.random.uniform((1, 10, emb_dim))
dec_state = tf.random.uniform((1, emb_dim))

_ = attention(enc_state, dec_state)

[ H_encoder ] Shape: (1, 10, 512)
[ W_encoder X H_encoder ] Shape: (1, 10, 512)
[ Score_alignment ] Shape: (1, 10, 1)

최종 Weight:
 [[[7.0431167e-03]
  [6.2901634e-03]
  [1.5273647e-01]
  [6.6094911e-01]
  [1.5797305e-01]
  [4.8017590e-03]
  [8.8308062e-03]
  [8.5309875e-04]
  [3.8503195e-04]
  [1.3732456e-04]]]


Bahdanau의 Score 함수와는 다르게 하나의 Weight만을 사용하는 것이 특징입니다.  
어떤 벡터 공간에 매핑해주는 과정이 없기 때문에 Weight의 크기는 단어 Embedding 크기와 동일해야 연산이 가능합니다.  
이 또한 번역에 적용해보고 성능을 비교해본다면 좋겠죠!

---
# 트랜스포머로 가기 전 징검다리?
---

Seq2seq와 Attention이 폭풍처럼 휩쓸고 난 후, 잠잠해진 NLP 계를 다시 깨운 것은 2016년 구글의 신경망 번역 시스템이었습니다.  
놀라운 구조를 제안한 것은 아니나 무려 8개 층을 쌓은 Encoder-Decoder 구조와 Residual Connection은 제법 멋졌죠.  

이에 대한 정리 글을 첨부하니 가볍게 읽어 보세요!

- 구글이 만든 신경망 번역 시스템으로 GNMT (Google Nueral Machine Translation) 라고 부른다.
  - 당연히 end-to-end 구조이다.
  - 예전 방식인 phrase-based 번역 모델에 비해 짱 좋다.
  - 그리고 참고로 일반적인 신경망 번역 시스템을 NMT 라고 부른다.
  
- 물론 NMT 계열의 모델도 단점이 있다.
  - (1) 느린 학습(training) 속도와 느린 추론(inference) 속도
  - (2) 드물게 등장하는 단어에 대한 부정확도
  - (3) 가끔씩 전체 입력 문장에 대해 다 번역을 하지 않는 경우가 생긴다.
  - (4) 연산량이 무지 높다.
  - (5) 큰 모델을 사용하려면 많은 데이터가 필요하다.
    
- 실제로 서비스하려면 정확도와 속도가 생명.
- 구글이 사용한 GNMT 모델을 잠시 소개하자면,
  - 8개의 LSTM encoder 와 8 개의 LSTM docoder (게다가 Attention 모델)
  -학습시 속도를 올리기 위해 low-precision 연산 처리.
  - 드문드문 발생하는 단어들도 잘 좀 처리해보자는 의미에서 wordpiece 를 사용.
  - 빠른 검색을 위한 beam-search 는 local-normalization 기법을 사용함.

GNMT(Google Neural Machine Translation)는 어쩌면 복선이었을 수도 있는데,  
왜냐하면 그 후에 등장한 것이 NLP의 꽃, 트랜스포머(Transformer) 이기 때문이죠!  
앞서 언급한 레이어를 쌓는 구조나 Residual Connection이 트랜스포머와 굉장히 유사하기에 그렇게 느껴지기도 합니다.  
  
<img src='https://d3s0tskafalll9.cloudfront.net/media/images/GN-4-L-10.max-800x600.jpg'>  
   
트랜스포머 모델은 Multi-Head Attention이라는 개념을 도입해 폭넓은 문맥을 파악하게 하고,  
기존의 RNN 구조를 완전히 탈피하여 연산 속도 측면에서도 혁신적인 발전이 일어났습니다!  
지금까지도 트랜스포머를 기반으로 한 모델들이 각 분야에서 최고의 성능을 내고 있으니,  
그 파급력을 알 만하죠?  
  
궁금하시면 미리 알아보셔도 좋지만 오늘은 여기까지! 자세한 것은 차근차근 알아보도록 합시다.