# 트랜스포머 모델은 활용한 번역기

In [3]:
import numpy as np
import tensorflow as tf
import pandas as pd
import random

import re

import matplotlib.pyplot as plt
import seaborn

plt.rc("font", family="Malgun Gothic")

### 데이터
* 데이터 : https://github.com/jungyeul/korean-parallel-corpora/tree/master/korean-english-news-v1

In [4]:
# 중복 제거한 데이터 로드
def clean_corpus():
    with open("../data/korean-english-park.train.ko", "r") as f:
        ko = f.read().splitlines()
    with open("../data/korean-english-park.train.en", "r") as f:
        en = f.read().splitlines()

    df = pd.DataFrame({"ko": ko, "en": en})
    cleaned_corpus = df.drop_duplicates(["ko"])

    return cleaned_corpus

In [5]:
# 전처리
def preprocess_sentence(sentence):
    sentence = sentence.lower()  # 소문자화

    sentence = re.sub(r"([?.!,])", r" \1 ", sentence)  # 기호처리
    sentence = re.sub(r'[" "]+', " ", sentence)  # 연속 공백 처리
    sentence = re.sub(r"[^가-힣a-zA-Z?.!,]+", " ", sentence)  # 기타 문자 제거

    sentence = sentence.strip()  # 양쪽 공백 제거

    return sentence

In [6]:
# 최대토큰은 25745개로 그냥 20000개 사용
# 토큰화
def generate_tokenizer(
    corpus, vocab_size=20000, lang="ko", pad_id=0, bos_id=1, eos_id=2, unk_id=3
):
    import sentencepiece as sp
    import os

    path = f"korean-english-park.train.{lang}.temp"
    tokenizer = sp.SentencePieceProcessor()

    # 토큰화 학습에 필요한 파일 생성
    with open(path, "w") as f:
        for row in corpus:
            f.write(str(row) + "\n")

    # 토큰화 모델 학습
    sp.SentencePieceTrainer.Train(
        f"--input={path} --model_prefix={lang}_spm --vocab_size={vocab_size} --pad_id={pad_id} --bos_id={bos_id} --eos_id={eos_id} --unk_id={unk_id}"
    )
    tokenizer.Load(f"{lang}_spm.model")

    return tokenizer

In [7]:
# 전처리한 코퍼스 생성
cleaned_corpus = clean_corpus()

cleaned_corpus["ko"] = cleaned_corpus["ko"].apply(lambda x: preprocess_sentence(x))
cleaned_corpus["en"] = cleaned_corpus["en"].apply(lambda x: preprocess_sentence(x))

In [8]:
# 토크나이저 생성
ko_tokenizer = generate_tokenizer(cleaned_corpus["ko"])
en_tokenizer = generate_tokenizer(cleaned_corpus["en"], lang="en")
en_tokenizer.set_encode_extra_options("bos:eos")

True

In [71]:
# 토크나이징
cleaned_corpus.loc[:, "ko"] = cleaned_corpus["ko"].apply(
    lambda x: ko_tokenizer.EncodeAsIds(x)
)
cleaned_corpus.loc[:, "en"] = cleaned_corpus["en"].apply(
    lambda x: en_tokenizer.EncodeAsIds(x)
)

In [72]:
# 데이터 길이 50이하만 유지
cleaned_corpus_short = cleaned_corpus[cleaned_corpus["ko"].apply(len) <= 50]

In [73]:
cleaned_corpus_short.shape

(75806, 2)

In [74]:
# 패딩처리
enc_train = tf.keras.preprocessing.sequence.pad_sequences(
    cleaned_corpus_short["ko"],
    padding="post",
)


dec_train = tf.keras.preprocessing.sequence.pad_sequences(
    cleaned_corpus_short["en"],
    padding="post",
)

In [75]:
# 영어는 토큰수가 한국어 보다 많은데 이를 50까지만 사용
# 괜찮은건지 실험할 예정
enc_train.shape, dec_train.shape

((75806, 50), (75806, 113))

In [76]:
# 택1
# 영어 토큰수로 패딩
enc_train = tf.keras.preprocessing.sequence.pad_sequences(
    cleaned_corpus_short["ko"],
    maxlen=dec_train.shape[1],
    padding="post",
)

# 한국어 토큰수로 패딩
# dec_train = tf.keras.preprocessing.sequence.pad_sequences(
#     cleaned_corpus_short["en"],
#     maxlen=enc_train.shape[1],
#     padding="post",
# )

In [77]:
enc_train.shape, dec_train.shape

((75806, 113), (75806, 113))

In [78]:
ko_tokenizer.vocab_size()

20000

## 모델

In [16]:
# 포지셔널 인코딩
def positional_encoding(pos, d_model):
    def cal_angle(position, i):
        return position / np.power(10000, int(i) / d_model)

    def get_posi_angle_vec(position):
        return [cal_angle(position, i) for i in range(d_model)]

    sinusoid_table = np.array([get_posi_angle_vec(pos_i) for pos_i in range(pos)])
    sinusoid_table[:, 0::2] = np.sin(sinusoid_table[:, 0::2])
    sinusoid_table[:, 1::2] = np.cos(sinusoid_table[:, 1::2])
    return sinusoid_table

In [17]:
# 멀티헤드 어텐션
class MultiHeadAttention(tf.keras.layers.Layer):
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        self.num_heads = num_heads
        self.d_model = d_model

        self.depth = d_model // self.num_heads

        self.W_q = tf.keras.layers.Dense(d_model)  # Linear Layer
        self.W_k = tf.keras.layers.Dense(d_model)
        self.W_v = tf.keras.layers.Dense(d_model)

        self.linear = tf.keras.layers.Dense(d_model)

    def scaled_dot_product_attention(self, Q, K, V, mask):
        d_k = tf.cast(K.shape[-1], tf.float32)  # 나누기 위하여 타입 변경

        scaled_qk = tf.matmul(Q, K, transpose_b=True)  # q, k의 유사도 측정
        scaled_qk /= tf.sqrt(d_k)  # 스케일 조정

        # 마스크에 해당하는 아주 큰 값을 빼서 softmax를 통과하면 0에 수렴하게 만듦
        if mask is not None:
            scaled_qk += mask * -1e9

        attentions = tf.nn.softmax(scaled_qk, -1)
        out = tf.matmul(attentions, V)  # 어텐션 가중치 반영

        return out, attentions

    def split_heads(self, x):
        """
        Embedding을 Head의 수로 분할하는 함수

        x: [ batch x length x emb ]
        return: [ batch x heads x length x self.depth ]
        """

        split_x = tf.reshape(x, (x.shape[0], -1, self.num_heads, self.depth))
        split_x = tf.transpose(split_x, [0, 2, 1, 3])

        return split_x

    def combine_heads(self, x):
        """
        분할된 Embedding을 하나로 결합하는 함수

        x: [ batch x heads x length x self.depth ]
        return: [ batch x length x emb ]
        """
        # split_heads의 역순 진행
        combined_x = tf.transpose(x, [0, 2, 1, 3])
        combined_x = tf.reshape(
            combined_x, (combined_x.shape[0], combined_x.shape[1], self.d_model)
        )

        return combined_x

    def call(self, Q, K, V, mask):
        # 리니어 적용
        WQ = self.W_q(Q)
        WK = self.W_k(K)
        WV = self.W_v(V)

        # 머리 쪼개기
        WQ_split = self.split_heads(WQ)
        WK_split = self.split_heads(WK)
        WV_split = self.split_heads(WV)

        # 어텐션
        out, attention_weights = self.scaled_dot_product_attention(
            WQ_split, WK_split, WV_split, mask
        )

        # 머리 합치기
        out = self.combine_heads(out)
        out = self.linear(out)

        return out, attention_weights

In [18]:
# FFN
class PoswiseFeedForwardNet(tf.keras.layers.Layer):
    def __init__(self, d_model, d_ff):
        super(PoswiseFeedForwardNet, self).__init__()
        self.w_1 = tf.keras.layers.Dense(d_ff, activation="relu")
        self.w_2 = tf.keras.layers.Dense(d_model)

    def call(self, x):
        out = self.w_1(x)
        out = self.w_2(out)

        return out

### 마스크

In [19]:
def generate_padding_mask(seq):
    # 실수가 아닌 것을 전부 0으로
    seq = tf.cast(tf.math.equal(seq, 0), tf.float32)
    return seq[:, tf.newaxis, tf.newaxis, :]


def generate_causality_mask(src_len, tgt_len):
    mask = 1 - np.cumsum(np.eye(src_len, tgt_len), 0)
    return tf.cast(mask, tf.float32)


def generate_masks(src, tgt):
    enc_mask = generate_padding_mask(src)
    dec_mask = generate_padding_mask(tgt)

    dec_enc_causality_mask = generate_causality_mask(tgt.shape[1], src.shape[1])
    dec_enc_mask = tf.maximum(enc_mask, dec_enc_causality_mask)

    dec_causality_mask = generate_causality_mask(tgt.shape[1], tgt.shape[1])
    dec_mask = tf.maximum(dec_mask, dec_causality_mask)

    return enc_mask, dec_enc_mask, dec_mask

In [20]:
# 마스킹 확인
# batch, length = 16, 20
# src_padding = 5
# tgt_padding = 15

# src_pad = tf.zeros(shape=(batch, src_padding))
# tgt_pad = tf.zeros(shape=(batch, tgt_padding))

# sample_data = tf.ones(shape=(batch, length))

# sample_src = tf.concat([sample_data, src_pad], axis=-1)
# sample_tgt = tf.concat([sample_data, tgt_pad], axis=-1)

# enc_mask, dec_enc_mask, dec_mask = generate_masks(sample_src, sample_tgt)

# fig = plt.figure(figsize=(7, 7))

# ax1 = fig.add_subplot(131)
# ax2 = fig.add_subplot(132)
# ax3 = fig.add_subplot(133)

# ax1.set_title("1) Encoder Mask")
# ax2.set_title("2) Encoder-Decoder Mask")
# ax3.set_title("3) Decoder Mask")

# ax1.imshow(enc_mask[:3, 0, 0].numpy(), cmap="Dark2")
# ax2.imshow(dec_enc_mask[0, 0].numpy(), cmap="Dark2")
# ax3.imshow(dec_mask[0, 0].numpy(), cmap="Dark2")

# plt.show()

### 인코더 디코더

In [21]:
# 인코더층
class EncoderLayer(tf.keras.layers.Layer):
    def __init__(self, d_model, n_heads, d_ff, dropout):
        super(EncoderLayer, self).__init__()

        self.enc_self_attn = MultiHeadAttention(d_model, n_heads)
        self.ffn = PoswiseFeedForwardNet(d_model, d_ff)

        self.norm_1 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
        self.norm_2 = tf.keras.layers.LayerNormalization(epsilon=1e-6)

        self.dropout = tf.keras.layers.Dropout(dropout)

    def call(self, x, mask):
        # Multi-Head Attention
        residual = x
        out = self.norm_1(x)
        out, enc_attn = self.enc_self_attn(out, out, out, mask)
        out = self.dropout(out)
        out += residual

        # Position-Wise Feed Forward Networn
        residual = out
        out = self.norm_2(out)
        out = self.ffn(out)
        out = self.dropout(out)
        out += residual

        return out, enc_attn

In [22]:
# 디코더층
class DecoderLayer(tf.keras.layers.Layer):
    def __init__(self, d_model, n_heads, d_ff, dropout):
        super(DecoderLayer, self).__init__()

        self.dec_self_attn = MultiHeadAttention(d_model, n_heads)
        self.enc_dec_attn = MultiHeadAttention(d_model, n_heads)
        self.ffn = PoswiseFeedForwardNet(d_model, d_ff)

        self.norm_1 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
        self.norm_2 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
        self.norm_3 = tf.keras.layers.LayerNormalization(epsilon=1e-6)

        self.dropout = tf.keras.layers.Dropout(dropout)

    def call(self, x, enc_out, mask, casual_mask):

        # Multi-Head Attention
        residual = x
        out = self.norm_1(x)
        out, dec_attn = self.dec_self_attn(out, out, out, mask)
        out = self.dropout(out)
        out += residual

        # encoder-decoder Attention
        residual = out
        out = self.norm_2(x)
        out, enc_dec_attn = self.enc_dec_attn(out, enc_out, enc_out, casual_mask)
        out = self.dropout(out)
        out += residual

        # Position-Wise Feed Forward Network
        residual = out
        out = self.norm_3(out)
        out = self.ffn(out)
        out = self.dropout(out)
        out += residual

        return out, dec_attn, enc_dec_attn

In [23]:
# 전체 인코더
class Encoder(tf.keras.Model):
    def __init__(self, n_layers, d_model, n_heads, d_ff, dropout):
        super(Encoder, self).__init__()
        self.n_layers = n_layers
        self.enc_layers = [
            EncoderLayer(d_model, n_heads, d_ff, dropout) for _ in range(n_layers)
        ]

    def call(self, x, mask):
        out = x

        enc_attns = list()
        for i in range(self.n_layers):
            out, enc_attn = self.enc_layers[i](out, mask)
            enc_attns.append(enc_attn)

        return out, enc_attns

In [24]:
# 전체 디코더
class Decoder(tf.keras.Model):
    def __init__(self, n_layers, d_model, n_heads, d_ff, dropout):
        super(Decoder, self).__init__()
        self.n_layers = n_layers
        self.dec_layers = [
            DecoderLayer(d_model, n_heads, d_ff, dropout) for _ in range(n_layers)
        ]

    def call(self, x, enc_out, causality_mask, padding_mask):
        out = x

        dec_attns = list()
        dec_enc_attns = list()
        for i in range(self.n_layers):
            out, dec_attn, dec_enc_attn = self.dec_layers[i](
                out, enc_out, causality_mask, padding_mask
            )

            dec_attns.append(dec_attn)
            dec_enc_attns.append(dec_enc_attn)

        return out, dec_attns, dec_enc_attns

### 트랜스포머

In [25]:
class Transformer(tf.keras.Model):
    def __init__(
        self,
        n_layers,
        d_model,
        n_heads,
        d_ff,
        src_vocab_size,
        tgt_vocab_size,
        pos_len,
        dropout=0.2,
        shared=True,
    ):
        super(Transformer, self).__init__()
        self.d_model = tf.cast(d_model, tf.float32)

        self.enc_embedding = tf.keras.layers.Embedding(src_vocab_size, d_model)
        self.dec_embedding = tf.keras.layers.Embedding(tgt_vocab_size, d_model)
        self.positionl = positional_encoding(pos_len, d_model)
        self.dropout = tf.keras.layers.Dropout(dropout)

        self.encoder = Encoder(n_layers, d_model, n_heads, d_ff, dropout)
        self.decoder = Decoder(n_layers, d_model, n_heads, d_ff, dropout)

        self.fc = tf.keras.layers.Dense(tgt_vocab_size)

        self.shared = shared
        if self.shared:
            self.fc.set_weights(tf.transpose(self.dec_embedding.weights))

    def embedding(self, emb, x):
        """
        입력된 정수 배열을 Embedding + Pos Encoding
        + Shared일 경우 Scaling 작업 포함

        x: [ batch x length ]
        return: [ batch x length x emb ]
        """

        out = emb(x)

        if self.shared:
            out *= tf.sqrt(self.d_model)

        # 포지셔널 인코딩은 batch차원이 없어서 확장 : [tf.newaxis, ...]
        # 데이터 길이 만큼만 더하기 : [:, :x.shape[1], :]
        pos_encoding = tf.constant(self.positionl, dtype=tf.float32)
        out += pos_encoding[tf.newaxis, ...][:, : x.shape[1], :]
        out = self.dropout(out)

        return out

    def call(self, enc_in, dec_in, enc_mask, causality_mask, dec_mask):
        # 임베딩
        enc_in = self.embedding(self.enc_embedding, enc_in)
        dec_in = self.embedding(self.dec_embedding, dec_in)

        # 인코더
        enc_out, enc_attns = self.encoder(enc_in, enc_mask)
        # 디코더
        dec_out, dec_attns, enc_dec_attns = self.decoder(
            dec_in, enc_out, dec_mask, causality_mask
        )
        # 최종 출력
        logits = self.fc(dec_out)

        return logits, enc_attns, dec_attns, enc_dec_attns

### 평가 및 시각화

In [26]:
# Attention 시각화 함수
def visualize_attention(src, tgt, enc_attns, dec_attns, dec_enc_attns):
    def draw(data, ax, x="auto", y="auto"):
        import seaborn

        seaborn.heatmap(
            data,
            square=True,
            vmin=0.0,
            vmax=1.0,
            cbar=False,
            ax=ax,
            xticklabels=x,
            yticklabels=y,
        )

    for layer in range(0, 2, 1):
        fig, axs = plt.subplots(1, 4, figsize=(20, 10))
        print("Encoder Layer", layer + 1)
        for h in range(4):
            draw(enc_attns[layer][0, h, : len(src), : len(src)], axs[h], src, src)
        plt.show()

    for layer in range(0, 2, 1):
        fig, axs = plt.subplots(1, 4, figsize=(20, 10))
        print("Decoder Self Layer", layer + 1)
        for h in range(4):
            draw(dec_attns[layer][0, h, : len(tgt), : len(tgt)], axs[h], tgt, tgt)
        plt.show()

        print("Decoder Src Layer", layer + 1)
        fig, axs = plt.subplots(1, 4, figsize=(20, 10))
        for h in range(4):
            draw(dec_enc_attns[layer][0, h, : len(tgt), : len(src)], axs[h], src, tgt)
        plt.show()

In [27]:
# 번역 생성 함수


def evaluate(sentence, model, src_tokenizer, tgt_tokenizer):
    sentence = preprocess_sentence(sentence)

    pieces = src_tokenizer.encode_as_pieces(sentence)
    tokens = src_tokenizer.encode_as_ids(sentence)

    _input = tf.keras.preprocessing.sequence.pad_sequences(
        [tokens], maxlen=enc_train.shape[-1], padding="post"
    )

    ids = []
    output = tf.expand_dims([tgt_tokenizer.bos_id()], 0)
    for i in range(dec_train.shape[-1]):
        enc_padding_mask, combined_mask, dec_padding_mask = generate_masks(
            _input, output
        )

        predictions, enc_attns, dec_attns, dec_enc_attns = model(
            _input, output, enc_padding_mask, combined_mask, dec_padding_mask
        )

        predicted_id = (
            tf.argmax(tf.math.softmax(predictions, axis=-1)[0, -1]).numpy().item()
        )

        if tgt_tokenizer.eos_id() == predicted_id:
            result = tgt_tokenizer.decode_ids(ids)
            return pieces, result, enc_attns, dec_attns, dec_enc_attns

        ids.append(predicted_id)
        output = tf.concat([output, tf.expand_dims([predicted_id], 0)], axis=-1)

    result = tgt_tokenizer.decode_ids(ids)

    return pieces, result, enc_attns, dec_attns, dec_enc_attns

In [28]:
# 번역 생성 및 Attention 시각화 결합
def translate(sentence, model, src_tokenizer, tgt_tokenizer, plot_attention=False):
    pieces, result, enc_attns, dec_attns, dec_enc_attns = evaluate(
        sentence, model, src_tokenizer, tgt_tokenizer
    )

    print("Input: %s" % (sentence))
    print("Predicted translation: {}".format(result))

    if plot_attention:
        visualize_attention(pieces, result.split(), enc_attns, dec_attns, dec_enc_attns)

### 훈련

In [29]:
# 학습률, 옵티마이저
class LearningRateScheduler(tf.keras.optimizers.schedules.LearningRateSchedule):
    def __init__(self, d_model, warmup_steps=4000):
        super(LearningRateScheduler, self).__init__()
        self.d_model = d_model
        self.warmup_steps = warmup_steps

    def __call__(self, step):
        arg1 = step**-0.5
        arg2 = step * (self.warmup_steps**-1.5)

        return (self.d_model**-0.5) * tf.math.minimum(arg1, arg2)

In [30]:
# loss
loss_object = tf.keras.losses.SparseCategoricalCrossentropy(
    from_logits=True, reduction="none"
)


def loss_function(real, pred):
    mask = tf.math.logical_not(tf.math.equal(real, 0))
    loss_ = loss_object(real, pred)

    # Masking 되지 않은 입력의 개수로 Scaling
    mask = tf.cast(mask, dtype=loss_.dtype)
    loss_ *= mask

    return tf.reduce_sum(loss_) / tf.reduce_sum(mask)

In [79]:
# Train Step


@tf.function()
def train_step(src, tgt, model, optimizer):
    gold = tgt[:, 1:]

    enc_mask, dec_enc_mask, dec_mask = generate_masks(src, tgt)

    # 계산된 loss에 tf.GradientTape()를 적용해 학습을 진행합니다.
    with tf.GradientTape() as tape:
        predictions, enc_attns, dec_attns, dec_enc_attns = model(
            src, tgt, enc_mask, dec_enc_mask, dec_mask
        )
        loss = loss_function(gold, predictions[:, :-1])

    # 최종적으로 optimizer.apply_gradients()가 사용됩니다.
    variables = model.trainable_variables
    gradients = tape.gradient(loss, variables)
    optimizer.apply_gradients(zip(gradients, variables))

    return loss, enc_attns, dec_attns, dec_enc_attns

In [None]:
from tqdm import tqdm  # tqdm
import random

EPOCHS = 20
BATCH_SIZE = 64

# 모델 설정
n_layers = 6
d_model = 512
n_heads = 8
d_ff = 2048
src_vocab_size = ko_tokenizer.vocab_size()
tgt_vocab_size = en_tokenizer.vocab_size()
pos_len = enc_train.shape[1]

transformer = Transformer(
    n_layers, d_model, n_heads, d_ff, src_vocab_size, tgt_vocab_size, pos_len
)

learning_rate = LearningRateScheduler(512)
optimizer = tf.keras.optimizers.Adam(
    learning_rate, beta_1=0.9, beta_2=0.98, epsilon=1e-9
)

example_sentence = [
    "오바마는 대통령이다.",
    "시민들은 도시 속에 산다.",
    "커피는 필요 없다.",
    "일곱 명의 사망자가 발생했다.",
]

transformer = Transformer(
    n_layers, d_model, n_heads, d_ff, src_vocab_size, tgt_vocab_size, pos_len
)

for epoch in range(EPOCHS):
    total_loss = 0

    idx_list = list(range(0, enc_train.shape[0], BATCH_SIZE))
    random.shuffle(idx_list)
    t = tqdm(idx_list)  # tqdm

    for batch, idx in enumerate(t):
        loss, enc_attns, dec_attns, dec_enc_attns = train_step(
            enc_train[idx : idx + BATCH_SIZE],
            dec_train[idx : idx + BATCH_SIZE],
            transformer,
            optimizer,
        )

        total_loss += loss

        t.set_description_str("Epoch %2d" % (epoch + 1))  # tqdm
        t.set_postfix_str("Loss %.4f" % (total_loss.numpy() / (batch + 1)))  # tqdm

    for s in example_sentence:
        translate(s, transformer, ko_tokenizer, en_tokenizer)

Epoch  1: 100%|██████████| 1185/1185 [17:36<00:00,  1.12it/s, Loss 6.0196]


Input: 오바마는 대통령이다.
Predicted translation: obama barack obama barack obama .
Input: 시민들은 도시 속에 산다.
Predicted translation: the population are expected to be .
Input: 커피는 필요 없다.
Predicted translation: it is no doubt .
Input: 일곱 명의 사망자가 발생했다.
Predicted translation: the city of the city of the city of the country .


Epoch  2: 100%|██████████| 1185/1185 [17:18<00:00,  1.14it/s, Loss 4.5749]


Input: 오바마는 대통령이다.
Predicted translation: obama is now , .
Input: 시민들은 도시 속에 산다.
Predicted translation: the city is in the city .
Input: 커피는 필요 없다.
Predicted translation: we are not going to because they are not too far .
Input: 일곱 명의 사망자가 발생했다.
Predicted translation: earlier sunday , eight people died in the death toll .


Epoch  3: 100%|██████████| 1185/1185 [17:15<00:00,  1.14it/s, Loss 4.0436]


Input: 오바마는 대통령이다.
Predicted translation: obama is the president .
Input: 시민들은 도시 속에 산다.
Predicted translation: the city is the city s city s city .
Input: 커피는 필요 없다.
Predicted translation: the ban is not authorized .
Input: 일곱 명의 사망자가 발생했다.
Predicted translation: the death toll was killed .


Epoch  4: 100%|██████████| 1185/1185 [17:12<00:00,  1.15it/s, Loss 3.6662]


Input: 오바마는 대통령이다.
Predicted translation: obama is the first time .
Input: 시민들은 도시 속에 산다.
Predicted translation: the city is the first to be in the cities of the city .
Input: 커피는 필요 없다.
Predicted translation: there is no alternative to the world .
Input: 일곱 명의 사망자가 발생했다.
Predicted translation: on wednesday , the second death toll from the dead .


Epoch  5: 100%|██████████| 1185/1185 [17:11<00:00,  1.15it/s, Loss 3.0812]


Input: 오바마는 대통령이다.
Predicted translation: obama is the latest person .
Input: 시민들은 도시 속에 산다.
Predicted translation: the town is surrounded by city .
Input: 커피는 필요 없다.
Predicted translation: drinking .
Input: 일곱 명의 사망자가 발생했다.
Predicted translation: seven people were among the dead .


Epoch  6: 100%|██████████| 1185/1185 [17:11<00:00,  1.15it/s, Loss 2.4194]


Input: 오바마는 대통령이다.
Predicted translation: obama is the second presidential nominee .
Input: 시민들은 도시 속에 산다.
Predicted translation: city is the urban city s urban city .
Input: 커피는 필요 없다.
Predicted translation: there are no excuses to avoid providing coffee .
Input: 일곱 명의 사망자가 발생했다.
Predicted translation: seven deaths were in the seven days .


Epoch  7: 100%|██████████| 1185/1185 [17:11<00:00,  1.15it/s, Loss 1.7982]


Input: 오바마는 대통령이다.
Predicted translation: obama is a president .
Input: 시민들은 도시 속에 산다.
Predicted translation: city streets are small , especially in the city .
Input: 커피는 필요 없다.
Predicted translation: we need to avoid it .
Input: 일곱 명의 사망자가 발생했다.
Predicted translation: seven people have been confirmed dead , all but seven occurred .


Epoch  8: 100%|██████████| 1185/1185 [17:12<00:00,  1.15it/s, Loss 1.2964]


Input: 오바마는 대통령이다.
Predicted translation: president elect barack obama is a top priority .
Input: 시민들은 도시 속에 산다.
Predicted translation: city lives .
Input: 커피는 필요 없다.
Predicted translation: doesn t get a coffee .
Input: 일곱 명의 사망자가 발생했다.
Predicted translation: seven of the dead were killed .


Epoch  9: 100%|██████████| 1185/1185 [17:13<00:00,  1.15it/s, Loss 0.9350]


Input: 오바마는 대통령이다.
Predicted translation: obama is the latest in a country he has .
Input: 시민들은 도시 속에 산다.
Predicted translation: people rent the city s lives .
Input: 커피는 필요 없다.
Predicted translation: does drinking coffee is no protection .
Input: 일곱 명의 사망자가 발생했다.
Predicted translation: seven seven seven have seven babies , including seven babies and seven injured , have died since saturday , when seven have died .


Epoch 10: 100%|██████████| 1185/1185 [17:13<00:00,  1.15it/s, Loss 0.7006]


Input: 오바마는 대통령이다.
Predicted translation: president obama is in his country .
Input: 시민들은 도시 속에 산다.
Predicted translation: city animals are hoern soaring .
Input: 커피는 필요 없다.
Predicted translation: it needs .
Input: 일곱 명의 사망자가 발생했다.
Predicted translation: seven of the dead were civilians .


Epoch 11: 100%|██████████| 1185/1185 [17:12<00:00,  1.15it/s, Loss 0.5609]


Input: 오바마는 대통령이다.
Predicted translation: he s a president .
Input: 시민들은 도시 속에 산다.
Predicted translation: city animals watch this city .
Input: 커피는 필요 없다.
Predicted translation: he needs to sell .
Input: 일곱 명의 사망자가 발생했다.
Predicted translation: seven of the dead were wounded .


Epoch 12: 100%|██████████| 1185/1185 [17:13<00:00,  1.15it/s, Loss 0.4651]


Input: 오바마는 대통령이다.
Predicted translation: president elect obama is .
Input: 시민들은 도시 속에 산다.
Predicted translation: citys are young people .
Input: 커피는 필요 없다.
Predicted translation: the no .
Input: 일곱 명의 사망자가 발생했다.
Predicted translation: seven seven other people were killed , .


Epoch 13: 100%|██████████| 1185/1185 [17:13<00:00,  1.15it/s, Loss 0.3981]


Input: 오바마는 대통령이다.
Predicted translation: obama has picked up a country from his democratic presidential race .
Input: 시민들은 도시 속에 산다.
Predicted translation: city . city food is surrounded by city .
Input: 커피는 필요 없다.
Predicted translation: the coffee needs no crime .
Input: 일곱 명의 사망자가 발생했다.
Predicted translation: seven other people remained in custody , seven families and seven died .


Epoch 14:  53%|█████▎    | 626/1185 [09:06<08:06,  1.15it/s, Loss 0.2883]

### 실험
*epoch 별 번역 기록을 txt로 저장하여 보관*

#### 1. 하이퍼 파라미터 조정 이전에, 토큰화 패딩을 무엇을 기준으로 할지를 먼저 비교. 

 lms에서 한국어 토큰 수 50개 이하를 사용하는데, 영어의 토큰수는 이보다 많았고 어디에 맞추는 것이 좋을 지 비교.  
  일단 실험 전에는 긴 쪽으로, 영어에 맞추는게 성능이 좋을 것이라고 생각됨. 한국어와 영어가 어순이 동일하지도 않고, 영어를 중간까지 짜른것만으로는 번역의 학습이 잘 안 될것으로 예상  
  
  ```python
  파라미터 : 
        n_layers = 2
        d_model = 256
        n_heads = 8
        d_ff = 256
  ```
  
  ##### 1.1 한국어에 맞추었을 때  
  sequence length : 50   
  epoch 당 시간 : 로컬 40초대, 클라우드 1분 30초대
  ```text
  poch 20: 100%|██████████| 1181/1181 [00:42<00:00, 27.56it/s, Loss 0.9116]
    Input: 오바마는 대통령이다.
    Predicted translation: obama is as obama .
    Input: 시민들은 도시 속에 산다.
    Predicted translation: the city is to get to the city in the city just living , street .
    Input: 커피는 필요 없다.
    Predicted translation: no one does notapal .
    Input: 일곱 명의 사망자가 발생했다.
    Predicted translation: seven deaths were died .
  ```
  ##### 1.2 영어에 맞추었을 때   
  sequence length : 129  
  epoch 당 시간 : 로컬 1분 30초대, 클라우드 3분 40초대 (2배)  

  ```text
  Epoch 15: 100%|██████████| 1181/1181 [01:38<00:00, 11.98it/s, Loss 1.4021]
    Input: 오바마는 대통령이다.
    Predicted translation: obama is the president elected .
    Input: 시민들은 도시 속에 산다.
    Predicted translation: the city has been sitting in place .
    Input: 커피는 필요 없다.
    Predicted translation: drink coffee is not needing .
    Input: 일곱 명의 사망자가 발생했다.
    Predicted translation: on tuesday , the seventh was dead .
  ```

  ##### 1.3 결론
  20개의 결과를 보고 가장 좋았던 것을 기록하였는데, loss 자체는 전부 1근처로 비슷하였지만, 번역문을 보면 1.2처럼 영어로 기준을 하는게 더 좋은 결과를 보이는 듯 하다. 또한 1.1의 경우 금방 비슷한 결과만 나오게 되었다. 
  

#### 2. 파라미터를 조정

1.3에 따라 영어 토큰 수를 기준으로 패딩하고 파라미터를 논문처럼 사용하여 학습  
토큰화 사전 크기는 논문에서도 2~3만개 였고, 현재 데이터로 최대 크기가 25000개 가량이기 때문에 그냥 2만개 사용
  ```python
  파라미터 : 
        n_layers = 6
        d_model = 512
        n_heads = 8
        d_ff = 2048
  ```

시간이 없어서 epoch는 13까지밖에 못해봤는데, loss가 0.4로 눈에띄게 줄어든 것을 볼 수 있었다. 다만 위의 작은 모델도 동일시간동안 epoch를 계속 돌리면 어디까지 떨어질 지는 모르겠지만 말이다. 또한 번역의 질도 정성적으로 보았을 때 작은 모델과 비교해도 loss만큼의 차이가 없었다. loss를 빼고 봐도 사실상 번역의 질은 차이를 구분할 수 없을 것 같았다.  
 
 ```text
Epoch 13: 100%|██████████| 1185/1185 [17:13<00:00,  1.15it/s, Loss 0.3981]
  Input: 오바마는 대통령이다.
  Predicted translation: obama has picked up a country from his democratic presidential race .
  Input: 시민들은 도시 속에 산다.
  Predicted translation: city . city food is surrounded by city .
  Input: 커피는 필요 없다.
  Predicted translation: the coffee needs no crime .
  Input: 일곱 명의 사망자가 발생했다.
  Predicted translation: seven other people remained in custody , seven families and seven died .
 ```

## 결론 및 회고

이번 프로젝트 동안 2가지 실험을 진행하였다.   
1. 인코더 입력과 디코더 입력의 길이를 맞추어 줄 때 무엇을 기준으로 잡는 것이 좋을지
2. 모델의 규모를 논문 수준으로 키우면 번역의 질이 올라갈 지 

다만 데이터의 부족으로 테스트데이터를 사용하지 못하여 over fitting에 대한 것은 알 수가 없었다.  

1에서는 loss자체는 비슷하게 떨어지지만, 정성적인 평가나 직관으로는 긴 쪽으로 맞추는 것이 좋아보였다. 다만 길이가 그대로 연산량과 선형적으로 비례하였기 때문에 주의가 필요해 보인다. 이번 실험에서는 연산량이 늘어난 것 치고 성능이 오르지 않았다고 볼 수 있었다. 

2는 loss가 많이 떨어졌 기대가 되었지만, 번역의 질은 오르지 못한것으로 판단되었다. loss를 보면 학습은 잘 되는것 같은데, 사실 데이터를 살펴보면 이게 번역 쌍이 맞는지 의문이들 정도로 이상한 데이터가 자주 보여서 학습 데이터가 문제가 되었을 가능성이 있다고 생각하였다.  


일단 논문에서 단어사전 크기가 2~3만개 정도라 이를 1만 정도로 축소 조정하는 것을 후순위에 두고 있어서 못 해본 것이 아쉽고, 많은 시간을 들여 큰 모델을 학습 시켜도 좋은 번역이 안나와서 아쉬웠다. seq2seq에서 잘 안나온 경우가 많아서 이것도 만족하는 다른 분들이 계셨지만, 운이 좋게 seq2seq가 잘 나와서 이번게 조금 실망이 되었다.  
다만 seq2seq와 조금 다른 경향성이 보이는 듯 한게 환각현상이었다. seq2seq에서는 단어 자체를 잘못 예측하는게 주였지만, 이번 트랜스포머에서는 단어를 잘 예측을 하는데 사족이 너무나도 많았다. 예를들어 '일곱 명의 사상자가 발생했다'를 번역할 때 없던 요일 정보를 포함해서 번역하는 일이 많이 있었다.  
이번 모델 비교를 하면서 자연어 처리에서의 고충을 느끼게 되었는데, 대체 어떤 모델이 더 좋은 모델인지 알기가 힘들었다. 단순히 loss만 봐도 되는건지, 예측한 번역문을 보는게 진짜 의미가 있는지 의문이 들었고, 규모가 다른 모델을 비교할 때 역시 어떻게 보면 좋을지를 고민하게 되었다. 퍼실님께서는 예문 3,4개 정도만 봐도 성능 확인이 괜찮다고는 하셨지만, seq2seq에서 너무 예문만 딱 잘 번역하고 나머지는 별로였던 경우가 있었어서 더 고민이 되었다.  