# Seq2seq으로 번역기 만들기 [프로젝트]



### 루브릭
![image.png](attachment:image.png)

- 개인 실험 목표
    - seq2seq 모델 설계 부분을 이해하고 넘어갈것
        - 추론부분을 직접만들면서 이해도가 높아짐
    - loss function 이슈로 훈련 코드를 직접 짜는것을 목표로할것


## 결과

![image-3.png](attachment:image-3.png)
- 한국어 및 영어 전처리를 진행함
- 토큰화 이전에 40길이를 잘라서 총 16000개의 데이터를 가지고 학습을 진행함

![image-4.png](attachment:image-4.png)
- 학습이 진행되기는 하지만 번역이 그렇게 잘되는 느낌은없다.
- 그래도 오바마라는 단어가 번역되긴했다! 신기함


## 이슈 : 팀원마다 데이터 개수가 달랐다
- ![image-2.png](attachment:image-2.png)

- 토크나이징을 형태소로 하고 진행하는것과 글자 그대로 개수를 세는것
- 형태소 토크나이징 이후가 훨씬 짧아진다 (40을 제한했을때 더많은 )

## 회고
- 노드를 진행할때 코드를 두리뭉실 넘어갔더니, 디코더 추론층을 만들때 input 사이즈와 decoder 텐서 부분의 타입에서 애를 많이 먹었다..
- 데이터 크기를 더 키우고 실험을 진행하고싶었지만 생각보다 시간이 촉박했다

In [31]:
import requests
import tarfile

import tensorflow as tf
import numpy as np

from sklearn.model_selection import train_test_split

import matplotlib.ticker as ticker
import matplotlib.pyplot as plt

import time
import re
import os
import io

from konlpy.tag import Mecab

# 데이터 처리
- 전처리
- test , train 처리

In [5]:

# 다운로드할 파일의 URL
url = "https://raw.githubusercontent.com/jungyeul/korean-parallel-corpora/master/korean-english-news-v1/korean-english-park.train.tar.gz"

# 파일을 저장할 경로
filename = "korean-english-park.train.tar.gz"

# 파일 다운로드
response = requests.get(url)
with open(filename, 'wb') as file:
    file.write(response.content)

print(f"{filename} 파일이 성공적으로 다운로드되었습니다.")

# 파일 경로
file_name = "korean-english-park.train.tar.gz"

# 압축 해제 및 추출
with tarfile.open(file_name, "r:gz") as tar:
    tar.extractall()  # 현재 디렉토리에 파일을 추출
    print(f"{file_name} 파일이 성공적으로 추출되었습니다.")

korean-english-park.train.tar.gz 파일이 성공적으로 다운로드되었습니다.
korean-english-park.train.tar.gz 파일이 성공적으로 추출되었습니다.


In [12]:
ko_path_to_file = 'korean-english-park.train.ko'
en_path_to_file = 'korean-english-park.train.en'

with open(ko_path_to_file, "r") as f:
    ko_raw = f.read().splitlines()

with open(en_path_to_file, "r") as f:
    en_raw = f.read().splitlines()
len(ko_raw)

94123

In [13]:
# set 데이터형이 중복을 허용하지 않는다는 것을 활용해 중복된 데이터를 제거하도록 합니다. 데이터의 병렬 쌍이 흐트러지지 않게 주의하세요! 중복을 제거한 데이터를 cleaned_corpus 에 저장합니다.

# 중복제거를 진행할것 - 순서가 흐트러지지않게

seen = set()  # 중복 여부를 확인할 set
ko_clean_corp = []
en_clean_corp = []

for ko, en in zip(ko_raw, en_raw):
    if ko not in seen:
        ko_clean_corp.append(ko)  # 중복되지 않는 경우만 추가
        en_clean_corp.append(en)
        seen.add(ko)

In [17]:
print(len(ko_clean_corp))
print(len(en_clean_corp))

print(ko_clean_corp[1435])
print(en_clean_corp[1435])

77591
77591
지금 까지 두 가지 중요한 새로운 결함이 발견되었으며, 2,000 달러의 현금 장려금이 지급되었다.
Thus far, two significant new bugs have been detected, and $2,000 in cash bounties have been paid.


In [22]:
# 한글 정규식을 빼고 전처리 진행

def kor_preprocess_sentence(sentence):
    sentence = re.sub(r"([?.!,])", r" \1 ", sentence)
    sentence = re.sub(r'[" "]+', " ", sentence)
    sentence = re.sub(r"[^가-힣?.!,]+", " ", sentence)

    sentence = sentence.strip()
    return sentence 
    
def preprocess_sentence(sentence, s_token=False, e_token=False):
    sentence = sentence.lower().strip()

    sentence = re.sub(r"([?.!,])", r" \1 ", sentence)
    sentence = re.sub(r'[" "]+', " ", sentence)
    sentence = re.sub(r"[^a-zA-Z?.!,]+", " ", sentence)

    sentence = sentence.strip()

    if s_token:
        sentence = '<start> ' + sentence

    if e_token:
        sentence += ' <end>'
    
    return sentence

In [105]:
## 전처리 코드를 돌려서 corpus에 넣기

f_enc_corpus = []
f_kor_corpus = []



for ko_sentence, en_sentence in zip(ko_clean_corp, en_clean_corp):
    if len(kor_preprocess_sentence(ko_sentence)) < 40:
        f_kor_corpus.append(kor_preprocess_sentence(ko_sentence))  # 한국어 문장 추가
        f_enc_corpus.append(preprocess_sentence(en_sentence, s_token=True, e_token=True))  # 영어 문장 추가

print("Korean:", f_kor_corpus[125])   # go away !
print("English:", f_enc_corpus[125])   # <start> salga de aqu ! <end>

print(len(f_kor_corpus))
print(len(f_enc_corpus))

Korean: 하지만 멀티미디어용 컴퓨터 한 대에는 약 명의 학생들이 있다 .
English: <start> however , there are about students for every multimedia computer . <end>
16647
16647


In [32]:
def ko_tokenize(corpus):
    mecab = Mecab()
    
    tokenized_corpus = [mecab.morphs(sentence) for sentence in corpus]
    
    tokenizer = tf.keras.preprocessing.text.Tokenizer(filters='')
    tokenizer.fit_on_texts(tokenized_corpus)

    tensor = tokenizer.texts_to_sequences(tokenized_corpus)

    tensor = tf.keras.preprocessing.sequence.pad_sequences(tensor, padding='post')

    return tensor, tokenizer

def en_tokenize(corpus):
    tokenizer = tf.keras.preprocessing.text.Tokenizer(filters='')
    tokenizer.fit_on_texts(corpus)

    tensor = tokenizer.texts_to_sequences(corpus)

    tensor = tf.keras.preprocessing.sequence.pad_sequences(tensor, padding='post')

    return tensor, tokenizer

In [47]:
# 토큰화 시키고 테스트, 검증셋 분리
kor_tensor, kor_tokenizer = ko_tokenize(f_kor_corpus)
eng_tensor, eng_tokenizer = en_tokenize(f_enc_corpus)

print(kor_tensor.shape)

(13900, 24)


In [39]:
print('한국어 voca_size : ',len(kor_tokenizer.word_index))
print('영어 voca_size : ',len(eng_tokenizer.word_index))

한국어 voca_size :  14834
영어 voca_size :  15757


In [103]:
ex_sen = '박형철 안녕하세요 아이펠 그루입니다.'
mecab = Mecab()
result = mecab.morphs(ex_sen)

print(len(ex_sen))
print(ex_sen)
print(len(result))
print(result)

20
박형철 안녕하세요 아이펠 그루입니다.
9
['박형철', '안녕', '하', '세요', '아이', '펠', '그루', '입니다', '.']


# 모델 설계

In [179]:
class BahdanauAttention(tf.keras.layers.Layer):
    def __init__(self, units):
        super(BahdanauAttention, self).__init__()
        self.w_dec = tf.keras.layers.Dense(units)
        self.w_enc = tf.keras.layers.Dense(units)
        self.w_com = tf.keras.layers.Dense(1)
    
    def call(self, h_enc, h_dec):
        # h_enc shape: [batch x length x units]
        # h_dec shape: [batch x units]

        h_enc = self.w_enc(h_enc)
        h_dec = tf.expand_dims(h_dec, 1)
        h_dec = self.w_dec(h_dec)

        score = self.w_com(tf.nn.tanh(h_dec + h_enc))
        
        attn = tf.nn.softmax(score, axis=1)

        context_vec = attn * h_enc
        context_vec = tf.reduce_sum(context_vec, axis=1)

        return context_vec, attn
    
class Encoder(tf.keras.Model):
    def __init__(self, vocab_size, embedding_dim, enc_units):
        super(Encoder, self).__init__()

        self.enc_units = enc_units
        self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim)
        self.gru = tf.keras.layers.GRU(enc_units,
                                       return_sequences=True)

    def call(self, x):
        emb_x = self.embedding(x)
        return self.gru(emb_x)
    
class Decoder(tf.keras.Model):
    def __init__(self, vocab_size, embedding_dim, dec_units):
        super(Decoder, self).__init__()

        self.dec_units = dec_units
        self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim)
        self.attention = BahdanauAttention(self.dec_units)   # Attention 필수 사용!
        self.gru= tf.keras.layers.GRU(dec_units,
                                       return_sequences=True,
                                       return_state=True)
        self.fc = tf.keras.layers.Dense(vocab_size)

    def call(self, x, h_dec, enc_out):
        context_vec, attn = self.attention(enc_out, h_dec)
        
        out = self.embedding(x)
        out = tf.concat([tf.expand_dims(context_vec, 1), out], axis=-1)
        out, h_dec = self.gru(out)

        out = tf.reshape(out, (-1, out.shape[2]))
        out = self.fc(out)

        return out, h_dec, attn

In [180]:
BATCH_SIZE     = 64
SRC_VOCAB_SIZE = len(kor_tokenizer.index_word) + 1
TGT_VOCAB_SIZE = len(eng_tokenizer.index_word) + 1

units         = 1024
embedding_dim = 512

encoder = Encoder(SRC_VOCAB_SIZE, embedding_dim, units)
decoder = Decoder(TGT_VOCAB_SIZE, embedding_dim, units)

# sample input
sequence_len = 30

sample_enc = tf.random.uniform((BATCH_SIZE, sequence_len))
print ('Encoder Input:', sample_enc.shape)

sample_output = encoder(sample_enc)

print ('Encoder Output:', sample_output.shape)

sample_state = tf.random.uniform((BATCH_SIZE, units))

sample_logits, h_dec, attn = decoder(tf.random.uniform((BATCH_SIZE, 1)),
                                     sample_state, sample_output)

print ('Decoder Output:', sample_logits.shape)
print ('Decoder Hidden State:', h_dec.shape)
print ('Attention:', attn.shape)

Encoder Input: (64, 30)
Encoder Output: (64, 30, 1024)
Decoder Output: (64, 15758)
Decoder Hidden State: (64, 1024)
Attention: (64, 30, 1)


# 학습

In [195]:
optimizer = tf.keras.optimizers.Adam()
loss_object = tf.keras.losses.SparseCategoricalCrossentropy(
    from_logits=True, reduction='none')

def loss_function(real, pred):
    mask = tf.math.logical_not(tf.math.equal(real, 0))
    loss = loss_object(real, pred)
    
    mask = tf.cast(mask, dtype=loss.dtype)
    loss *= mask
    
    return tf.reduce_mean(loss)

@tf.function
def train_step(src, tgt, encoder, decoder, optimizer, dec_tok):
    bsz = src.shape[0]
    loss = 0

    with tf.GradientTape() as tape:
        # 소스를 encoder에 넣기
        enc_out = encoder(src)
        # 첫번째 히든 레이어는 인코더의 마지막 state
        h_dec = enc_out[:, -1]
        
        # 이건 왜하는걸까
        dec_src = tf.expand_dims([dec_tok.word_index['<start>']] * bsz, 1)

        for t in range(1, tgt.shape[1]):
            # 디코더에 dec_src = 첫번째는 start, h_dec = 첫번째는 encoder의 마지막 state
            pred, h_dec, _ = decoder(dec_src, h_dec, enc_out)

            loss += loss_function(tgt[:, t], pred)
            dec_src = tf.expand_dims(tgt[:, t], 1)
        
    batch_loss = (loss / int(tgt.shape[1]))

    variables = encoder.trainable_variables + decoder.trainable_variables
    gradients = tape.gradient(loss, variables)
    optimizer.apply_gradients(zip(gradients, variables))
    
    return batch_loss

def test_step(src_list, kor_tokenizer, eng_tokenizer):
    for src in src_list:
        output = kor_preprocess_sentence(src)
        output = mecab.morphs(output)
        output = kor_tokenizer.texts_to_sequences(output)
        pre_src = tf.keras.preprocessing.sequence.pad_sequences(output, padding='post')
        pre_src = tf.reshape(pre_src, (1, pre_src.shape[0]))
        enc_out = encoder(pre_src)
    
        h_dec = enc_out[:, -1]
        # 이건 왜하는걸까 # 배치 크기 확인
        bsz = 1
        #  output_sequence = tf.expand_dims(START_TOKEN, 0)
        dec_src = tf.expand_dims([eng_tokenizer.word_index['<start>']] * bsz, 1)
        
        dec_output = []
        
        max_length = 12
        for t in range(max_length):
            pred, h_dec, _ = decoder(dec_src, h_dec, enc_out)
            index = np.argmax(pred)
            eng_word = eng_tokenizer.index_word[index]
            dec_output.append(eng_word)
            if tf.equal(index, eng_tokenizer.word_index['<end>']):
                break
            dec_src = tf.expand_dims([index], 0)
        
        result = ' '.join(dec_output)
        print('원문 : ',src)
        print('번역 : ',result)
    return

In [196]:
test_step(['안녕 너는 뭐하는 놈이야'],kor_tokenizer, eng_tokenizer)

원문 :  안녕 너는 뭐하는 놈이야
번역 :  nai malawian reuters trail responding pen shrek tons blazes hamlet municipalities alive


In [111]:
eng_tokenizer.word_index['<end>']

2

In [198]:
import random
from tqdm import tqdm

EPOCHS = 10

# 예문
src_list = ['오바마는 대통령이다.', '시민들은 도시 속에 산다.', '커피는 필요 없다.',' 일곱 명의 사망자가 발생했다.']

for epoch in range(EPOCHS):
    total_loss = 0
    
    idx_list = list(range(0, kor_tensor.shape[0], BATCH_SIZE))
    random.shuffle(idx_list)
    t = tqdm(idx_list)
    
    for (batch, idx) in enumerate(t):
        batch_loss = train_step(kor_tensor[idx:idx+BATCH_SIZE],
                                eng_tensor[idx:idx+BATCH_SIZE],
                                encoder,
                                decoder,
                                optimizer,
                                eng_tokenizer)
    
        total_loss += batch_loss
        
        
        
        t.set_description_str('Epoch %2d' % (epoch + 1))
        t.set_postfix_str('Loss %.4f' % (total_loss.numpy() / (batch + 1)))
        
    test_step(src_list, kor_tokenizer, eng_tokenizer)    

Epoch  1: 100%|██████████| 218/218 [02:57<00:00,  1.23it/s, Loss 1.5514]


원문 :  오바마는 대통령이다.
번역 :  . . . . . . . . . . . .
원문 :  시민들은 도시 속에 산다.
번역 :  . . . . . . . . . . . .
원문 :  커피는 필요 없다.
번역 :  . . . . . . . . . . . .
원문 :   일곱 명의 사망자가 발생했다.
번역 :  . . . . . . . . . . . .


Epoch  2: 100%|██████████| 218/218 [02:18<00:00,  1.58it/s, Loss 1.4821]


원문 :  오바마는 대통령이다.
번역 :  the the the the the the the the the the the the
원문 :  시민들은 도시 속에 산다.
번역 :  the the the the the the the the the the the the
원문 :  커피는 필요 없다.
번역 :  the the the the the the the the the the the the
원문 :   일곱 명의 사망자가 발생했다.
번역 :  the the the the the the the the the the the the


Epoch  3: 100%|██████████| 218/218 [02:19<00:00,  1.56it/s, Loss 1.3284]


원문 :  오바마는 대통령이다.
번역 :  the year . <end>
원문 :  시민들은 도시 속에 산다.
번역 :  the year . <end>
원문 :  커피는 필요 없다.
번역 :  the year . <end>
원문 :   일곱 명의 사망자가 발생했다.
번역 :  the year of the year of the year of the year of


Epoch  4: 100%|██████████| 218/218 [02:19<00:00,  1.56it/s, Loss 1.2364]


원문 :  오바마는 대통령이다.
번역 :  the government . <end>
원문 :  시민들은 도시 속에 산다.
번역 :  the first . <end>
원문 :  커피는 필요 없다.
번역 :  the government . <end>
원문 :   일곱 명의 사망자가 발생했다.
번역 :  the government . <end>


Epoch  5: 100%|██████████| 218/218 [02:19<00:00,  1.56it/s, Loss 1.1650]


원문 :  오바마는 대통령이다.
번역 :  the u . s . s . s . s . s
원문 :  시민들은 도시 속에 산다.
번역 :  the government was not a year . <end>
원문 :  커피는 필요 없다.
번역 :  the government was not a year . <end>
원문 :   일곱 명의 사망자가 발생했다.
번역 :  the two people were not not be killed , the two people


Epoch  6: 100%|██████████| 218/218 [02:19<00:00,  1.56it/s, Loss 1.0957]


원문 :  오바마는 대통령이다.
번역 :  obama is the ap s mark smith is the ap s mark
원문 :  시민들은 도시 속에 산다.
번역 :  the most of the other of the other of the other of
원문 :  커피는 필요 없다.
번역 :  the other of the other of the other of the other of
원문 :   일곱 명의 사망자가 발생했다.
번역 :  the attack was killed in the attack was killed in the attack


Epoch  7: 100%|██████████| 218/218 [02:19<00:00,  1.56it/s, Loss 1.0276]


원문 :  오바마는 대통령이다.
번역 :  obama s president bush s president bush s president bush s president
원문 :  시민들은 도시 속에 산다.
번역 :  the boy , the boy , the boy , the boy ,
원문 :  커피는 필요 없다.
번역 :  the couple is the best . <end>
원문 :   일곱 명의 사망자가 발생했다.
번역 :  the attack were wounded were wounded were wounded were wounded were wounded


Epoch  8: 100%|██████████| 218/218 [02:19<00:00,  1.56it/s, Loss 0.9629]


원문 :  오바마는 대통령이다.
번역 :  obama s president of the president s president of the president s
원문 :  시민들은 도시 속에 산다.
번역 :  the couple s not the same , and the couple s not
원문 :  커피는 필요 없다.
번역 :  the couple was not a lot of the best thing is the
원문 :   일곱 명의 사망자가 발생했다.
번역 :  the quake was wounded in the attack , according to the attack


Epoch  9: 100%|██████████| 218/218 [02:19<00:00,  1.56it/s, Loss 0.8981]


원문 :  오바마는 대통령이다.
번역 :  obama s president bush s president barack obama s president barack obama
원문 :  시민들은 도시 속에 산다.
번역 :  the two of the two of the two of the two of
원문 :  커피는 필요 없다.
번역 :  the government is a lot of the internet is a lot of
원문 :   일곱 명의 사망자가 발생했다.
번역 :  the quake was wounded in the attack . <end>


Epoch 10: 100%|██████████| 218/218 [02:19<00:00,  1.56it/s, Loss 0.8344]


원문 :  오바마는 대통령이다.
번역 :  obama s president bush s president bush s president bush s president
원문 :  시민들은 도시 속에 산다.
번역 :  the number of the victims of the victims of the victims of
원문 :  커피는 필요 없다.
번역 :  we can t know that s not the best . m not
원문 :   일곱 명의 사망자가 발생했다.
번역 :  the quake was injured in the quake was injured in the quake


In [115]:
eng_tensor[:, 1]

array([245, 116, 117, ...,  67,  34, 264], dtype=int32)