# Word-Level 번역기 만들기(Neural Machine Translation (seq2seq) Tutorial)

- 문제 1번 : 15장 수업에서 다룬 프로그램은 교재의 15.2절에서 찾을 수 있다. 교재에 나온 순서대로 프로그램을 구현하여 수업 자료에서 제시한 것과 유사하게 10개의 샘플을 수행하여 결과를 제시하라. 10개의 샘플은 자신의 학번 마지막 2자리를 이용하여 생성한 숫자를 이용하여 선택한다. 예를 들면 자신의 학번이 2018003371 이면 [171, 271, …,1071] 등 10개의 숫자를 제시한다. 
  - 답 : 다음과 같이 학번 뒤의 65를 이용해서 [165, 265, ... , 1065]를 생성하여 15.2절의 프로그램의 코딩을 진행하였고, 아래와 같은 내용일 출력되었습니다. 자세한 코드 실행은 아래 문제 1:코드에서 확인하시면 됩니다.!
  - 리스트에 학번을 통한 인덱스 생성 뒤 저장 : <img src="./list.png" width=450 height=300 alt="잘못된주소"></img>
  - 훈련 데이터 샘플 : <img src="./output1.png" width=350 height=300 alt="잘못된주소"></img>
  - 테스트 데이터 샘플: <img src="./output2.png" width=300 height=300 alt="잘못된주소"></img>
- 문제 2번 : 훈련이 끝난 시스템을 나중에 다시 사용할 수 있게 저장하는 방법을 찾아낸다. 이 시스템의 경우 어떻게 저장되는지 설명하라.
  - 답 : model.save('model_name.h5')로 모델을 hdf5파일에 저장해줍니다.hdf5파일은 계층적인 구조를 가지며 hdf파일을 통해서 모델의 정확도 및 loss를 저장해주고 사용해줄 수 있습니다. 파일-디렉토리 형태로 트리구조를 가지며, 대용량으로 저장되어있으며 이 후`from tensorflow.keras.models import load_model`와 같이 tensorflow.keras.model 패키지에 있는 load_model함수를 통해 model을 불러와 재활용해줄 수 있습니다.

### 문제 1 : 
- 15장 수업에서 다룬 프로그램은 교재의 15.2절에서 찾을 수 있다. 교재에 나온 순서대로 프로그램을 구현하여 수업 자료에서 제시한 것과 유사하게 10개의 샘플을 수행하여 결과를 제시하라. 10개의 샘플은 자신의 학번 마지막 2자리를 이용하여 생성한 숫자를 이용하여 선택한다. 예를 들면 자신의 학번이 2018003371 이면 [171, 271, …,1071] 등 10개의 숫자를 제시한다.


## 1. 데이터 로드 및 전처리
- 필요한 도구들을 import 

In [1]:
import os
import re
import shutil
import zipfile

import numpy as np
import pandas as pd
import tensorflow as tf
import unicodedata
import urllib3
from tensorflow.keras.layers import Embedding, GRU, Dense
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing.text import Tokenizer

#### 데이터를 로드
- fra.txt 데이터 구조 : 왼쪽의 영어 문장과 오른쪽의 프랑스어 문장 사이에 탭으로 구분되는 구조.

- 이번 챕터에서는 총 33,000개의 샘플을 사용할 예정

In [2]:
num_samples = 33000

http = urllib3.PoolManager()
url = 'http://www.manythings.org/anki/fra-eng.zip'
filename = 'fra-eng.zip'
path = os.getcwd()
zipfilename = os.path.join(path, filename)
with http.request('GET', url, preload_content=False) as r, open(zipfilename, 'wb') as out_file:
    shutil.copyfileobj(r, out_file)

with zipfile.ZipFile(zipfilename, 'r') as zip_ref:
    zip_ref.extractall(path)

- 전처리 함수 구현

In [3]:
def unicode_to_ascii(s):
    return ''.join(c for c in unicodedata.normalize('NFD', s)
                   if unicodedata.category(c) != 'Mn')

In [4]:
def preprocess_sentence(sent):
    # 위에서 구현한 함수를 내부적으로 호출
    sent = unicode_to_ascii(sent.lower())

    # 단어와 구두점 사이에 공백을 만듭니다.
    # Ex) "he is a boy." => "he is a boy ."
    sent = re.sub(r"([?.!,¿])", r" \1", sent)

    # (a-z, A-Z, ".", "?", "!", ",") 이들을 제외하고는 전부 공백으로 변환합니다.
    sent = re.sub(r"[^a-zA-Z!.?]+", r" ", sent)

    sent = re.sub(r"\s+", " ", sent)
    return sent

- 구현한 전처리 함수들을 임의의 문장을 입력으로 테스트

In [5]:
# 전처리 테스트
en_sent = u"Have you had dinner?"
fr_sent = u"Avez-vous déjà diné?"
print(preprocess_sentence(en_sent))
print(preprocess_sentence(fr_sent).encode('utf-8'))

have you had dinner ?
b'avez vous deja dine ?'


#### 모든 전처리를 수행하는 함수 구현
- 전체 데이터에서 33,000개의 샘플불러옴. 
- 훈련 과정에서 교사 강요(Teacher Forcing)을 사용할 예정=> 훈련 시 사용할 디코더의 입력 시퀀스와 실제값에 해당되는 출력 시퀀스를 따로 분리하여 저장
- 입력 시퀀스에는 시작을 의미하는 토큰인 `<sos>`를 추가 
- 출력 시퀀스에는 종료를 의미하는 토큰인`<eos>`를 추가

In [9]:
def load_preprocessed_data():
    encoder_input, decoder_input, decoder_target = [], [], []

    with open("fra.txt", "r", encoding="utf-8") as lines:
        for i, line in enumerate(lines):

            # source 데이터와 target 데이터 분리
            src_line, tar_line, _ = line.strip().split('\t')

            # source 데이터 전처리
            src_line_input = [w for w in preprocess_sentence(src_line).split()]

            # target 데이터 전처리
            tar_line = preprocess_sentence(tar_line)
            tar_line_input = [w for w in ("<sos> " + tar_line).split()]
            tar_line_target = [w for w in (tar_line + " <eos>").split()]

            encoder_input.append(src_line_input)
            decoder_input.append(tar_line_input)
            decoder_target.append(tar_line_target)

            if i == num_samples - 1:
                break

    return encoder_input, decoder_input, decoder_target

- 인코더의 입력, 디코더의 입력, 디코더의 실제값을 상위 5개 샘플만 출력

In [10]:
sents_en_in, sents_fra_in, sents_fra_out = load_preprocessed_data()
print(sents_en_in[:5])
print(sents_fra_in[:5])
print(sents_fra_out[:5])

[['go', '.'], ['go', '.'], ['go', '.'], ['hi', '.'], ['hi', '.']]
[['<sos>', 'va', '!'], ['<sos>', 'marche', '.'], ['<sos>', 'bouge', '!'], ['<sos>', 'salut', '!'], ['<sos>', 'salut', '.']]
[['va', '!', '<eos>'], ['marche', '.', '<eos>'], ['bouge', '!', '<eos>'], ['salut', '!', '<eos>'], ['salut', '.', '<eos>']]


- 케라스 토크나이저를 통해 단어 집합을 생성하고, 텍스트 시퀀스를 정수 시퀀스로 변환하는 정수 인코딩

In [11]:
tokenizer_en = Tokenizer(filters="", lower=False)
tokenizer_en.fit_on_texts(sents_en_in)
encoder_input = tokenizer_en.texts_to_sequences(sents_en_in)

tokenizer_fra = Tokenizer(filters="", lower=False)
tokenizer_fra.fit_on_texts(sents_fra_in)
tokenizer_fra.fit_on_texts(sents_fra_out)
decoder_input = tokenizer_fra.texts_to_sequences(sents_fra_in)
decoder_target = tokenizer_fra.texts_to_sequences(sents_fra_out)

- 패딩을 수행

In [12]:
encoder_input = pad_sequences(encoder_input, padding="post")
decoder_input = pad_sequences(decoder_input, padding="post")
decoder_target = pad_sequences(decoder_target, padding="post")

- 데이터의 크기(shape)를 확인
- 샘플은 총 33,000개 존재하며 영어 문장의 길이는 8, 프랑스어 문장의 길이 16
- 단어 집합의 크기를 정의
- 단어 집합의 크기는 각각 4,647개와 8,022개

In [15]:
src_vocab_size = len(tokenizer_en.word_index) + 1
tar_vocab_size = len(tokenizer_fra.word_index) + 1
print("영어 단어 집합의 크기 : {:d}, 프랑스어 단어 집합의 크기 : {:d}".format(src_vocab_size, tar_vocab_size))

영어 단어 집합의 크기 : 4606, 프랑스어 단어 집합의 크기 : 8107


- 단어로부터 정수를 얻는 딕셔너리 구현
- 정수로부터 단어를 얻는 딕셔너리 구현 
  - 훈련을 마치고 예측 과정과 실제값과 결과를 비교하는 경우에 사용

In [16]:
src_to_index = tokenizer_en.word_index
index_to_src = tokenizer_en.index_word # 훈련 후 결과 비교할 때 사용

tar_to_index = tokenizer_fra.word_index # 훈련 후 예측 과정에서 사용
index_to_tar = tokenizer_fra.index_word # 훈련 후 결과 비교할 때 사용

- 테스트 데이터를 분리하기 전에, 적절한 분포를 갖도록 데이터를 섞어주는 과정을 진행
  - 이를 위해서 우선 순서가 섞인 정수 시퀀스 리스트 정의

In [17]:
indices = np.arange(encoder_input.shape[0])
np.random.shuffle(indices)
print(indices)

[ 1660 19852 27911 ...  6246  9413  8224]


- 데이터셋의 순서로 지정, 샘플들이 기존 순서와 다른 순서

In [20]:
encoder_input = encoder_input[indices]
decoder_input = decoder_input[indices]
decoder_target = decoder_target[indices]

In [21]:
encoder_input[30997]

array([1984,    3,  136,    1,    0,    0,    0,    0])

In [22]:
decoder_input[30997]

array([   2,  122,   19, 6795,    1,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0])

In [23]:
decoder_target[30997]

array([ 122,   19, 6795,    1,    3,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0])

- 테스트 데이터 : 33,000개의 10%에 해당되는 3,300개의 데이터를 테스트 데이터로 사용

In [24]:
n_of_val = int(33000*0.1)
print(n_of_val)

3300


In [25]:
encoder_input_train = encoder_input[:-n_of_val]
decoder_input_train = decoder_input[:-n_of_val]
decoder_target_train = decoder_target[:-n_of_val]

encoder_input_test = encoder_input[-n_of_val:]
decoder_input_test = decoder_input[-n_of_val:]
decoder_target_test = decoder_target[-n_of_val:]

- 훈련 데이터와 테스트 데이터의 크기(shape)를 출력

In [26]:
print(encoder_input_train.shape)
print(decoder_input_train.shape)
print(decoder_target_train.shape)
print(encoder_input_test.shape)
print(decoder_input_test.shape)
print(decoder_target_test.shape)

(29700, 8)
(29700, 16)
(29700, 16)
(3300, 8)
(3300, 16)
(3300, 16)


## 2. 기계번역어 만들기

- 필요한 패키지 import

In [27]:
from tensorflow.keras.layers import Input, LSTM, Embedding, Dense, Masking
from tensorflow.keras.models import Model

- 임베딩 벡터, LSTM의 은닉 상태의 크기를 50으로 고정

In [28]:
latent_dim = 50

- 인코더 설계
  - Masking은 패딩 토큰인 숫자 0의 경우에는 연산을 제외하는 역할을 수행

In [29]:
# 인코더
encoder_inputs = Input(shape=(None,))
enc_emb =  Embedding(src_vocab_size, latent_dim)(encoder_inputs) # 임베딩 층
enc_masking = Masking(mask_value=0.0)(enc_emb) # 패딩 0은 연산에서 제외
encoder_lstm = LSTM(latent_dim, return_state=True) # 상태값 리턴을 위해 return_state는 True
encoder_outputs, state_h, state_c = encoder_lstm(enc_masking) # 은닉 상태와 셀 상태를 리턴
encoder_states = [state_h, state_c] # 인코더의 은닉 상태와 셀 상태를 저장

- 디코더 설계

In [30]:
# 디코더
decoder_inputs = Input(shape=(None,))
dec_emb_layer = Embedding(tar_vocab_size, latent_dim) # 임베딩 층
dec_emb = dec_emb_layer(decoder_inputs) # 패딩 0은 연산에서 제외
dec_masking = Masking(mask_value=0.0)(dec_emb)

# 상태값 리턴을 위해 return_state는 True, 모든 시점에 대해서 단어를 예측하기 위해 return_sequences는 True
decoder_lstm = LSTM(latent_dim, return_sequences=True, return_state=True) 

# 인코더의 은닉 상태를 초기 은닉 상태(initial_state)로 사용
decoder_outputs, _, _ = decoder_lstm(dec_masking,
                                     initial_state=encoder_states)

# 모든 시점의 결과에 대해서 소프트맥스 함수를 사용한 출력층을 통해 단어 예측
decoder_dense = Dense(tar_vocab_size, activation='softmax')
decoder_outputs = decoder_dense(decoder_outputs)

- 모델 정의

In [31]:
model = Model([encoder_inputs, decoder_inputs], decoder_outputs)

In [32]:
model.compile(optimizer='rmsprop', loss='sparse_categorical_crossentropy', metrics=['acc'])

- 모델의 파라미터를 확인

In [34]:
model.summary()

Model: "model"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, None)]       0                                            
__________________________________________________________________________________________________
input_2 (InputLayer)            [(None, None)]       0                                            
__________________________________________________________________________________________________
embedding (Embedding)           (None, None, 50)     230300      input_1[0][0]                    
__________________________________________________________________________________________________
embedding_1 (Embedding)         (None, None, 50)     405350      input_2[0][0]                    
______________________________________________________________________________________________

- 모델을 훈련: 
    - 128개의 배치 크기로 총 50 에포크 학습 
    - 테스트 데이터를 검증 데이터로 사용

In [35]:
model.fit(x = [encoder_input_train, decoder_input_train], y = decoder_target_train, \
          validation_data = ([encoder_input_test, decoder_input_test], decoder_target_test),
          batch_size = 128, epochs = 50)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x1d819aaa580>

## 3. seq2seq 기계 번역기 동작시키기

- seq2seq는 훈련 과정과 테스트 과정에서의 동작 방식이 다름
  -  따라서 테스트 과정을 위해 모델 재설계
  -  인코더 / 디코더 재설계 

In [36]:
# 인코더
encoder_model = Model(encoder_inputs, encoder_states)

In [37]:
# 디코더
# 이전 시점의 상태를 보관할 텐서
decoder_state_input_h = Input(shape=(latent_dim,))
decoder_state_input_c = Input(shape=(latent_dim,))
decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]

# 훈련 때 사용했던 임베딩 층을 재사용
dec_emb2= dec_emb_layer(decoder_inputs)

# 다음 단어 예측을 위해 이전 시점의 상태를 현 시점의 초기 상태로 사용
decoder_outputs2, state_h2, state_c2 = decoder_lstm(dec_emb2, initial_state=decoder_states_inputs)
decoder_states2 = [state_h2, state_c2]

# 모든 시점에 대해서 단어 예측
decoder_outputs2 = decoder_dense(decoder_outputs2)

- 디코더 정의

In [38]:
decoder_model = Model(
    [decoder_inputs] + decoder_states_inputs,
    [decoder_outputs2] + decoder_states2)

- 테스트 과정에서의 동작을 위한 decode_sequence 함수 설계

In [39]:
def decode_sequence(input_seq):
    # 입력으로부터 인코더의 상태를 얻음
    states_value = encoder_model.predict(input_seq)

    # <SOS>에 해당하는 정수 생성
    target_seq = np.zeros((1,1))
    target_seq[0, 0] = tar_to_index['<sos>']

    stop_condition = False
    decoded_sentence = ''

    # stop_condition이 True가 될 때까지 루프 반복
    # 구현의 간소화를 위해서 이 함수는 배치 크기를 1로 가정합니다.
    while not stop_condition:
        # 이점 시점의 상태 states_value를 현 시점의 초기 상태로 사용
        output_tokens, h, c = decoder_model.predict([target_seq] + states_value)

        # 예측 결과를 단어로 변환
        sampled_token_index = np.argmax(output_tokens[0, -1, :])
        sampled_char = index_to_tar[sampled_token_index]

         # 현재 시점의 예측 단어를 예측 문장에 추가
        decoded_sentence += ' '+sampled_char

        # <eos>에 도달하거나 정해진 길이를 넘으면 중단.
        if (sampled_char == '<eos>' or
           len(decoded_sentence) > 50):
            stop_condition = True

        # 현재 시점의 예측 결과를 다음 시점의 입력으로 사용하기 위해 저장
        target_seq = np.zeros((1,1))
        target_seq[0, 0] = sampled_token_index

        # 현재 시점의 상태를 다음 시점의 상태로 사용하기 위해 저장
        states_value = [h, c]

    return decoded_sentence

- 결과 확인을 위한 함수

In [40]:
# 원문의 정수 시퀀스를 텍스트 시퀀스로 변환
def seq2src(input_seq):
    sentence = ''
    for i in input_seq:
        if(i!=0):
            sentence = sentence + index_to_src[i]+' '
    return sentence

# 번역문의 정수 시퀀스를 텍스트 시퀀스로 변환
def seq2tar(input_seq):
    sentence =''
    for i in input_seq:
        if((i!=0 and i!=tar_to_index['<sos>']) and i!=tar_to_index['<eos>']):
            sentence = sentence + index_to_tar[i] + ' '
    return sentence

#### 학번 맨 뒤 2자리를 이용한 인덱스 리스트 생성
- **********65가 학번이므로 65만이용해서 리스트 생성

In [41]:
StudentID = []
for i in range(1,11):
    StudentID.append(int(str(i)+"65"))
StudentID

[165, 265, 365, 465, 565, 665, 765, 865, 965, 1065]

- 훈련 데이터에 대해서 임의로 선택한 인덱스의 샘플의 결과를 출력

In [43]:
for seq_index in StudentID:
  input_seq = encoder_input_train[seq_index: seq_index + 1]
  decoded_sentence = decode_sequence(input_seq)

  print("원문 : ",seq2src(encoder_input_train[seq_index]))
  print("번역문 :",seq2tar(decoder_input_train[seq_index]))
  print("예측문 :",decoded_sentence[1:-5])
  print("\n")

원문 :  tom gargled . 
번역문 : tom s est gargarise . 
예측문 : tom s est assis . 


원문 :  be kind to others . 
번역문 : soyez aimable avec autrui ! 
예측문 : sois gentil avec elle ! 


원문 :  you can rely on me . 
번역문 : tu peux me faire confiance . 
예측문 : tu peux me faire confiance . 


원문 :  they re all lying . 
번역문 : ils mentent tous . 
예측문 : ils ont ete en train de partir . 


원문 :  they are actors . 
번역문 : ils sont acteurs . 
예측문 : ils sont des retour . 


원문 :  get out of my way . 
번역문 : ecarte toi de mon chemin . 
예측문 : sors de mon chemin ! 


원문 :  terrific ! 
번역문 : formidable ! 
예측문 : bien ! 


원문 :  i just got a job . 
번역문 : je viens d avoir un boulot . 
예측문 : je viens de mon travail . 


원문 :  i ll pack . 
번역문 : je ferai mon sac . 
예측문 : je vais me connais . 


원문 :  that s no accident . 
번역문 : ce n est pas un hasard . 
예측문 : ce n est pas un probleme . 




- 테스트 데이터에서 임의로 선택한 인덱스의 샘플의 결과출력

In [51]:
for seq_index in StudentID:
  input_seq = encoder_input_test[seq_index: seq_index + 1]
  decoded_sentence = decode_sequence(input_seq)

  print("원문 : ",seq2src(encoder_input_test[seq_index]))
  print("번역문 :",seq2tar(decoder_input_test[seq_index]))
  print("예측문 :",decoded_sentence[1:-5])
  print("\n")

원문 :  i m fearless . 
번역문 : je suis intrepide . 
예측문 : je suis me sens . 


원문 :  that always helps . 
번역문 : ca ne peut pas faire de mal . 
예측문 : ca ne m a pas parler . 


원문 :  i didn t argue . 
번역문 : je ne me suis pas disputee . 
예측문 : je suis vraiment . 


원문 :  this is an apple . 
번역문 : ceci est une pomme . 
예측문 : c est une en . 


원문 :  you re so mean . 
번역문 : vous etes si mechantes . 
예측문 : vous etes si serieux . 


원문 :  we were bored . 
번역문 : nous nous ennuyions . 
예측문 : nous nous avons des eau . 


원문 :  you re nuts ! 
번역문 : t es givre ! 
예측문 : vous etes vous ta sens . 


원문 :  you re very rude . 
번역문 : vous etes fort grossiere . 
예측문 : vous etes fort contrariee . 


원문 :  i do love you . 
번역문 : je t aime ! 
예측문 : je l aime toi . 


원문 :  this seems fair . 
번역문 : cela me semble honnete . 
예측문 : ca semble bon . 




### 문제 2번 : 
- 훈련이 끝난 시스템을 나중에 다시 사용할 수 있게 저장하는 방법을 찾아낸다. 이 시스템의 경우 어떻게 저장되는지 설명하라.
  - 답 : model.save("Word_level_Translator.h5")로 모델을 hdf5파일에 저장해줍니다.hdf5파일은 계층적인 구조를 가지며 hdf파일을 통해서 모델의 정확도 및 loss를 저장해주고 사용해줄 수 있습니다. 파일-디렉토리 형태로 트리구조를 가지며, 대용량으로 저장되어있으며 이 후`from tensorflow.keras.models import load_model`와 같이 tensorflow.keras.model 패키지에 있는 load_model함수를 통해 model을 불러와 재활용해줄 수 있습니다.

In [49]:
from tensorflow.keras.models import load_model

# 학습 모델 저장
model.save("Word_level_translator.h5")

# 테스트를 하기 위한 재설계된 모델 저장
encoder_model.save("encoder_model.h5")
decoder_model.save("decoder_model.h5")

