### [ Seq2Seq 방식의 기계번역]
- 입력된 시퀀스로부터 다른 도메인의 시퀀스를 출력하는 다양한 분야에서 사용되는 모델
- 기계 번역, 문장 생성, 질의응답, 메일 자동 응답 등에 활용되는 모델
- 번역: 입력 시퀀스와 출력 시퀀스를 각각 입력 문장과 번역 문장으로 생성
- 구성 : 인코더 + 디코더 + 생성기
    * 인코더 => 입력 문장의 모든 단어들을 순차적으로 입력받은 뒤 마지막에 모든 단어 정보들 압축해서 하나의 벡터 즉, 컨텍스트 벡터(context vector) 생성
    * 컨텍스트 벡터(context vector) : 문장에 대한 정보가 응축
    * 인코더 => 디코로 전송
    * 디코더 => 컨텍스트 벡터를 활용하여 문장 생성
        * 훈련 단계 : 교사 강요(teacher forcing) 방식으로 디코더 모델 훈련
            - t-1의 실제 값을 입력값으로 사용
        * 테스트 단계 : 기존의 RNN 방식
- 병렬 코퍼스 데이터 : http://www.manythings.org/anki


(1) 모듈 로딩

In [None]:
import re
import os
import unicodedata
import numpy as np
import pandas as pd
import torch
from collections import Counter
from tqdm import tqdm
from torch.utils.data import DataLoader, TensorDataset

### [1. 데이터 준비 ]

In [None]:
data_dir='../data/'
fra_file=data_dir+'fra.txt'

num_samples = 33000

In [None]:
if not os.path.exists(data_dir): os.makedirs(data_dir)

### [ 2. 데이터 전처리 ]

===> 전처리 함수들

In [None]:
# 코드 변환
def unicode_to_ascii(s):
  # 프랑스어 악센트(accent) 삭제
  # 예시 : 'déjà diné' -> deja dine
  return ''.join(c for c in unicodedata.normalize('NFD', s) if unicodedata.category(c) != 'Mn')

In [None]:
# 문장 전처리 함수
def preprocess_sentence(sent):
  # 악센트 삭제 함수 호출
  sent = unicode_to_ascii(sent.lower())

  # 단어와 구두점 사이에 공백
  # Ex) "he is a boy." => "he is a boy ."
  sent = re.sub(r"([?.!,¿])", r" \1", sent)

  # (a-z, A-Z, ".", "?", "!", ",") 이들을 제외하고는 전부 공백으로 변환
  sent = re.sub(r"[^a-zA-Z!.?]+", r" ", sent)

  # 다수 개의 공백을 하나의 공백으로 치환
  sent = re.sub(r"\s+", " ", sent)
  return sent

In [None]:
# 파일 데이터를 영어 - 프랑스어로 분리 후 전처리 진행 함수
def load_preprocessed_data():

  encoder_input, decoder_input, decoder_target = [], [], []

  with open(fra_file, "r") as lines:
    for i, line in enumerate(lines):
      # source 데이터와 target 데이터 분리
      src_line, tar_line, _ = line.strip().split('\t')

      # source (영어) 데이터 전처리
      src_line = [w for w in preprocess_sentence(src_line).split()]

      # target (프랑스어) 데이터 전처리
      tar_line = preprocess_sentence(tar_line)
      # 시작 & 끝 토큰 추가
      tar_line_in = [w for w in ("<sos> " + tar_line).split()]
      tar_line_out = [w for w in (tar_line + " <eos>").split()]

      encoder_input.append(src_line)
      decoder_input.append(tar_line_in)
      decoder_target.append(tar_line_out)

      if i == num_samples - 1:
        break

  return encoder_input, decoder_input, decoder_target

In [None]:
# 전처리 테스트
en_sent = u"Have you had dinner?"
fr_sent = u"Avez-vous déjà diné?"

print('전처리 전 영어 문장 :', en_sent)
print('전처리 후 영어 문장 :',preprocess_sentence(en_sent))
print('전처리 전 프랑스어 문장 :', fr_sent)
print('전처리 후 프랑스어 문장 :', preprocess_sentence(fr_sent))

전처리 전 영어 문장 : Have you had dinner?
전처리 후 영어 문장 : have you had dinner ?
전처리 전 프랑스어 문장 : Avez-vous déjà diné?
전처리 후 프랑스어 문장 : avez vous deja dine ?


===> 입력 데이터 영어와 타겟 데이터 프랑스어 데이터 전처리 진행

In [None]:
sents_en_in, sents_fra_in, sents_fra_out = load_preprocessed_data()

In [None]:
print('인코더의 입력 :',sents_en_in[:5])
print('디코더의 입력 :',sents_fra_in[:5])
print('디코더의 레이블 :',sents_fra_out[:5])

인코더의 입력 : [['go', '.'], ['go', '.'], ['go', '.'], ['go', '.'], ['hi', '.']]
디코더의 입력 : [['<sos>', 'va', '!'], ['<sos>', 'marche', '.'], ['<sos>', 'en', 'route', '!'], ['<sos>', 'bouge', '!'], ['<sos>', 'salut', '!']]
디코더의 레이블 : [['va', '!', '<eos>'], ['marche', '.', '<eos>'], ['en', 'route', '!', '<eos>'], ['bouge', '!', '<eos>'], ['salut', '!', '<eos>']]


====> 단어 사전 생성

In [None]:
# 토큰화 및 단어별 등장 빈도에 따른 정수 인코딩 진행 함수
def build_vocab(sents):
  word_list = []

  for sent in sents:
      for word in sent:
        word_list.append(word)

  # 각 단어별 등장 빈도를 계산하여 등장 빈도가 높은 순서로 정렬
  word_counts = Counter(word_list)
  vocab = sorted(word_counts, key=word_counts.get, reverse=True)

  word_to_index = {}
  word_to_index['<PAD>'] = 0
  word_to_index['<UNK>'] = 1

  # 등장 빈도가 높은 단어일수록 낮은 정수를 부여
  for index, word in enumerate(vocab) :
    word_to_index[word] = index + 2

  return word_to_index

====> 토큰화 및 단어사전 생성

In [None]:
src_vocab = build_vocab(sents_en_in)
tar_vocab = build_vocab(sents_fra_in + sents_fra_out)

In [None]:
src_vocab_size = len(src_vocab)
tar_vocab_size = len(tar_vocab)
print("영어 단어 집합의 크기 : {:d}, 프랑스어 단어 집합의 크기 : {:d}".format(src_vocab_size, tar_vocab_size))

영어 단어 집합의 크기 : 4488, 프랑스어 단어 집합의 크기 : 7884


=====> 번역에 활용할 정수기반 단어 추출 데이터셋 생성

In [None]:
index_to_src = {v: k for k, v in src_vocab.items()}
index_to_tar = {v: k for k, v in tar_vocab.items()}

def texts_to_sequences(sents, word_to_index):
  encoded_X_data = []
  for sent in tqdm(sents):
    index_sequences = []
    for word in sent:
      try:
          index_sequences.append(word_to_index[word])
      except KeyError:
          index_sequences.append(word_to_index['<UNK>'])
    encoded_X_data.append(index_sequences)
  return encoded_X_data

In [None]:
encoder_input = texts_to_sequences(sents_en_in, src_vocab)
decoder_input = texts_to_sequences(sents_fra_in, tar_vocab)
decoder_target = texts_to_sequences(sents_fra_out, tar_vocab)

  0%|          | 0/33000 [00:00<?, ?it/s]

100%|██████████| 33000/33000 [00:00<00:00, 218546.12it/s]
100%|██████████| 33000/33000 [00:00<00:00, 124529.93it/s]
100%|██████████| 33000/33000 [00:00<00:00, 326736.30it/s]


In [None]:
# 상위 5개의 샘플에 대해서 정수 인코딩 전, 후 문장 출력
# 인코더 입력이므로 <sos>나 <eos>가 없음
for i, (item1, item2) in zip(range(5), zip(sents_en_in, encoder_input)):
    print(f"Index: {i}, 정수 인코딩 전: {item1}, 정수 인코딩 후: {item2}")

Index: 0, 정수 인코딩 전: ['go', '.'], 정수 인코딩 후: [27, 2]
Index: 1, 정수 인코딩 전: ['go', '.'], 정수 인코딩 후: [27, 2]
Index: 2, 정수 인코딩 전: ['go', '.'], 정수 인코딩 후: [27, 2]
Index: 3, 정수 인코딩 전: ['go', '.'], 정수 인코딩 후: [27, 2]
Index: 4, 정수 인코딩 전: ['hi', '.'], 정수 인코딩 후: [742, 2]


====> 패딩


In [None]:
# 번역이라 인코딩/디코딩 문장 길이 다름
def pad_sequences(sentences, max_len=None):
    # 최대 길이 값이 주어지지 않을 경우 데이터 내 최대 길이로 패딩
    if max_len is None:
        max_len = max([len(sentence) for sentence in sentences])

    features = np.zeros((len(sentences), max_len), dtype=int)
    for index, sentence in enumerate(sentences):
        if len(sentence) != 0:
            features[index, :len(sentence)] = np.array(sentence)[:max_len]
    return features

In [None]:
encoder_input = pad_sequences(encoder_input)
decoder_input = pad_sequences(decoder_input)
decoder_target = pad_sequences(decoder_target)

In [None]:
print('인코더의 입력의 크기(shape) :',encoder_input.shape)
print('디코더의 입력의 크기(shape) :',decoder_input.shape)
print('디코더의 레이블의 크기(shape) :',decoder_target.shape)

인코더의 입력의 크기(shape) : (33000, 7)
디코더의 입력의 크기(shape) : (33000, 16)
디코더의 레이블의 크기(shape) : (33000, 16)


### [3. 학습/검증 데이터 ]

In [None]:
indices = np.arange(encoder_input.shape[0])
np.random.shuffle(indices)
print('랜덤 시퀀스 :',indices)

랜덤 시퀀스 : [20308  8155 17189 ... 29556 31343 29634]


In [None]:
encoder_input = encoder_input[indices]
decoder_input = decoder_input[indices]
decoder_target = decoder_target[indices]

In [None]:
print([index_to_src[word] for word in encoder_input[30997]])
print([index_to_tar[word] for word in decoder_input[30997]])
print([index_to_tar[word] for word in decoder_target[30997]])

['is', 'this', 'ours', '?', '<PAD>', '<PAD>', '<PAD>']
['<sos>', 'est', 'ce', 'le', 'notre', '?', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>']
['est', 'ce', 'le', 'notre', '?', '<eos>', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>']


In [None]:
# 33,000개의 10%에 해당되는 3,300개의 데이터를 테스트 데이터로 사용
n_of_val = int(33000*0.1)
print('검증 데이터의 개수 :',n_of_val)

검증 데이터의 개수 : 3300


In [None]:
encoder_input_train = encoder_input[:-n_of_val]
decoder_input_train = decoder_input[:-n_of_val]
decoder_target_train = decoder_target[:-n_of_val]

encoder_input_test = encoder_input[-n_of_val:]
decoder_input_test = decoder_input[-n_of_val:]
decoder_target_test = decoder_target[-n_of_val:]

In [None]:
print('훈련 source 데이터의 크기 :',encoder_input_train.shape)
print('훈련 target 데이터의 크기 :',decoder_input_train.shape)
print('훈련 target 레이블의 크기 :',decoder_target_train.shape)
print('테스트 source 데이터의 크기 :',encoder_input_test.shape)
print('테스트 target 데이터의 크기 :',decoder_input_test.shape)
print('테스트 target 레이블의 크기 :',decoder_target_test.shape)

훈련 source 데이터의 크기 : (29700, 7)
훈련 target 데이터의 크기 : (29700, 16)
훈련 target 레이블의 크기 : (29700, 16)
테스트 source 데이터의 크기 : (3300, 7)
테스트 target 데이터의 크기 : (3300, 16)
테스트 target 레이블의 크기 : (3300, 16)


### [4. 기계번역기 모델 ]

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim


In [None]:
# 단어사전 ===> 임베딩 차원 수
embedding_dim = 256

# RNN 층의 히든 유닛 수
hidden_units = 256

In [None]:
# 인코더 클래스
#
class Encoder(nn.Module):
    def __init__(self, src_vocab_size, embedding_dim, hidden_units):
        super(Encoder, self).__init__()
        self.embedding = nn.Embedding(src_vocab_size, embedding_dim, padding_idx=0)
        self.lstm = nn.LSTM(embedding_dim, hidden_units, batch_first=True)

    def forward(self, x):
        # x.shape == (batch_size, seq_len, embedding_dim)
        x = self.embedding(x)
        # hidden.shape == (1, batch_size, hidden_units), cell.shape == (1, batch_size, hidden_units)
        _, (hidden, cell) = self.lstm(x)
        # 인코더의 출력은 hidden state, cell state
        return hidden, cell

In [None]:
# 디코더 클래스

class Decoder(nn.Module):
    def __init__(self, tar_vocab_size, embedding_dim, hidden_units):
        super(Decoder, self).__init__()
        self.embedding = nn.Embedding(tar_vocab_size, embedding_dim, padding_idx=0)
        self.lstm = nn.LSTM(embedding_dim, hidden_units, batch_first=True)
        self.fc = nn.Linear(hidden_units, tar_vocab_size)

    def forward(self, x, hidden, cell):

        # x.shape == (batch_size, seq_len, embedding_dim)
        x = self.embedding(x)

        # 디코더의 LSTM으로 인코더의 hidden state, cell state 전달.
        # output.shape == (batch_size, seq_len, hidden_units)
        # hidden.shape == (1, batch_size, hidden_units)
        # cell.shape == (1, batch_size, hidden_units)
        output, (hidden, cell) = self.lstm(x, (hidden, cell))

        # output.shape: (batch_size, seq_len, tar_vocab_size)
        output = self.fc(output)

        # 디코더의 출력은 예측값, hidden state, cell state
        return output, hidden, cell

In [None]:
class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder):
        super(Seq2Seq, self).__init__()
        self.encoder = encoder
        self.decoder = decoder

    def forward(self, src, trg):
        hidden, cell = self.encoder(src)

        # 훈련 중에는 디코더의 출력 중 오직 output만 사용한다.
        output, _, _ = self.decoder(trg, hidden, cell)
        return output

In [None]:
encoder = Encoder(src_vocab_size, embedding_dim, hidden_units)
decoder = Decoder(tar_vocab_size, embedding_dim, hidden_units)
model = Seq2Seq(encoder, decoder)

loss_function = nn.CrossEntropyLoss(ignore_index=0)
optimizer = optim.Adam(model.parameters())

In [None]:
print(model)

Seq2Seq(
  (encoder): Encoder(
    (embedding): Embedding(4488, 256, padding_idx=0)
    (lstm): LSTM(256, 256, batch_first=True)
  )
  (decoder): Decoder(
    (embedding): Embedding(7884, 256, padding_idx=0)
    (lstm): LSTM(256, 256, batch_first=True)
    (fc): Linear(in_features=256, out_features=7884, bias=True)
  )
)


### [5. 학습 ]

=====> 관련 함수들

In [None]:
def evaluation(model, dataloader, loss_function, device):
    model.eval()
    total_loss = 0.0
    total_correct = 0
    total_count = 0

    with torch.no_grad():
        for encoder_inputs, decoder_inputs, decoder_targets in dataloader:
            encoder_inputs = encoder_inputs.to(device)
            decoder_inputs = decoder_inputs.to(device)
            decoder_targets = decoder_targets.to(device)

            # 순방향 전파
            # outputs.shape == (batch_size, seq_len, tar_vocab_size)
            outputs = model(encoder_inputs, decoder_inputs)

            # 손실 계산
            # outputs.view(-1, outputs.size(-1))의 shape는 (batch_size * seq_len, tar_vocab_size)
            # decoder_targets.view(-1)의 shape는 (batch_size * seq_len)
            loss = loss_function(outputs.view(-1, outputs.size(-1)), decoder_targets.view(-1))
            total_loss += loss.item()

            # 정확도 계산 (패딩 토큰 제외)
            mask = decoder_targets != 0
            total_correct += ((outputs.argmax(dim=-1) == decoder_targets) * mask).sum().item()
            total_count += mask.sum().item()

    return total_loss / len(dataloader), total_correct / total_count

====> 데이터 Tensor 화

In [None]:
# encoder_input_train => (29700,7)
# decoder_input_train => (29700,16)
# decoder_target_train => (29700,16)
encoder_input_train_tensor = torch.tensor(encoder_input_train, dtype=torch.long)
decoder_input_train_tensor = torch.tensor(decoder_input_train, dtype=torch.long)
decoder_target_train_tensor = torch.tensor(decoder_target_train, dtype=torch.long)

# encoder_input_test => (3300,7)
# decoder_input_test => (3300,16)
# decoder_target_test => (3300,16)
encoder_input_test_tensor = torch.tensor(encoder_input_test, dtype=torch.long)
decoder_input_test_tensor = torch.tensor(decoder_input_test, dtype=torch.long)
decoder_target_test_tensor = torch.tensor(decoder_target_test, dtype=torch.long)

====> 데이터셋과 로더 생성

In [None]:
# 데이터셋 및 데이터로더 생성
batch_size = 128

train_dataset = TensorDataset(encoder_input_train_tensor, decoder_input_train_tensor, decoder_target_train_tensor)
train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

valid_dataset = TensorDataset(encoder_input_test_tensor, decoder_input_test_tensor, decoder_target_test_tensor)
valid_dataloader = DataLoader(valid_dataset, batch_size=batch_size, shuffle=False)

====> 학습 설정

In [None]:
num_epochs = 30

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

Seq2Seq(
  (encoder): Encoder(
    (embedding): Embedding(4488, 256, padding_idx=0)
    (lstm): LSTM(256, 256, batch_first=True)
  )
  (decoder): Decoder(
    (embedding): Embedding(7884, 256, padding_idx=0)
    (lstm): LSTM(256, 256, batch_first=True)
    (fc): Linear(in_features=256, out_features=7884, bias=True)
  )
)

In [None]:
def training():
    # Training loop
    best_val_loss = float('inf')

    for epoch in range(num_epochs):
        # 훈련 모드
        model.train()

        for encoder_inputs, decoder_inputs, decoder_targets in train_dataloader:
            encoder_inputs = encoder_inputs.to(device)
            decoder_inputs = decoder_inputs.to(device)
            decoder_targets = decoder_targets.to(device)

            # 기울기 초기화
            optimizer.zero_grad()

            # 순방향 전파
            # outputs.shape == (batch_size, seq_len, tar_vocab_size)
            outputs = model(encoder_inputs, decoder_inputs)

            # 손실 계산 및 역방향 전파
            # outputs.view(-1, outputs.size(-1))의 shape는 (batch_size * seq_len, tar_vocab_size)
            # decoder_targets.view(-1)의 shape는 (batch_size * seq_len)
            loss = loss_function(outputs.view(-1, outputs.size(-1)), decoder_targets.view(-1))
            loss.backward()

            # 가중치 업데이트
            optimizer.step()

        train_loss, train_acc = evaluation(model, train_dataloader, loss_function, device)
        valid_loss, valid_acc = evaluation(model, valid_dataloader, loss_function, device)

        print(f'Epoch: {epoch+1}/{num_epochs} | Train Loss: {train_loss:.4f} | Train Acc: {train_acc:.4f} | Valid Loss: {valid_loss:.4f} | Valid Acc: {valid_acc:.4f}')

        # 검증 손실이 최소일 때 체크포인트 저장
        if valid_loss < best_val_loss:
            print(f'Validation loss improved from {best_val_loss:.4f} to {valid_loss:.4f}. 체크포인트를 저장합니다.')
            best_val_loss = valid_loss
            torch.save(model.state_dict(), 'best_model_checkpoint.pth')

In [None]:
training()

Epoch: 1/30 | Train Loss: 2.9146 | Train Acc: 0.5345 | Valid Loss: 3.0165 | Valid Acc: 0.5375
Validation loss improved from inf to 3.0165. 체크포인트를 저장합니다.
Epoch: 2/30 | Train Loss: 2.2601 | Train Acc: 0.6046 | Valid Loss: 2.4858 | Valid Acc: 0.5961
Validation loss improved from 3.0165 to 2.4858. 체크포인트를 저장합니다.
Epoch: 3/30 | Train Loss: 1.8551 | Train Acc: 0.6478 | Valid Loss: 2.2106 | Valid Acc: 0.6256
Validation loss improved from 2.4858 to 2.2106. 체크포인트를 저장합니다.
Epoch: 4/30 | Train Loss: 1.5415 | Train Acc: 0.6854 | Valid Loss: 2.0139 | Valid Acc: 0.6481
Validation loss improved from 2.2106 to 2.0139. 체크포인트를 저장합니다.
Epoch: 5/30 | Train Loss: 1.2991 | Train Acc: 0.7196 | Valid Loss: 1.8790 | Valid Acc: 0.6653
Validation loss improved from 2.0139 to 1.8790. 체크포인트를 저장합니다.
Epoch: 6/30 | Train Loss: 1.0877 | Train Acc: 0.7577 | Valid Loss: 1.7716 | Valid Acc: 0.6804
Validation loss improved from 1.8790 to 1.7716. 체크포인트를 저장합니다.
Epoch: 7/30 | Train Loss: 0.9040 | Train Acc: 0.7889 | Valid Loss: 

KeyboardInterrupt: 

In [None]:
# 모델 로드
model.load_state_dict(torch.load('best_model_checkpoint.pth'))

# 모델을 device에 올립니다.
model.to(device)

# 검증 데이터에 대한 정확도와 손실 계산
val_loss, val_accuracy = evaluation(model, valid_dataloader, loss_function, device)

In [None]:

print(f'Best model validation loss: {val_loss:.4f}')
print(f'Best model validation accuracy: {val_accuracy:.4f}')

Best model validation loss: 1.5409
Best model validation accuracy: 0.7179


In [None]:
print(tar_vocab['<sos>'])
print(tar_vocab['<eos>'])

3
4


#### 기계   번역 테스트

In [None]:
index_to_src = {v: k for k, v in src_vocab.items()}
index_to_tar = {v: k for k, v in tar_vocab.items()}

# 원문의 정수 시퀀스를 텍스트 시퀀스로 변환
def seq_to_src(input_seq):
  sentence = ''
  for encoded_word in input_seq:
    if(encoded_word != 0):
      sentence = sentence + index_to_src[encoded_word] + ' '
  return sentence

# 번역문의 정수 시퀀스를 텍스트 시퀀스로 변환
def seq_to_tar(input_seq):
  sentence = ''
  for encoded_word in input_seq:
    if(encoded_word != 0 and encoded_word != tar_vocab['<sos>'] and encoded_word != tar_vocab['<eos>']):
      sentence = sentence + index_to_tar[encoded_word] + ' '
  return sentence

In [None]:
print(encoder_input_test[25])
print(decoder_input_test[25])
print(decoder_target_test[25])

[  3 211  10 126   2   0   0]
[  3  13  17 155  25 245   2   0   0   0   0   0   0   0   0   0]
[ 13  17 155  25 245   2   4   0   0   0   0   0   0   0   0   0]


In [None]:
def decode_sequence(input_seq, model, src_vocab_size, tar_vocab_size, max_output_len, int_to_src_token, int_to_tar_token):
    encoder_inputs = torch.tensor(input_seq, dtype=torch.long).unsqueeze(0).to(device)

    # 인코더의 초기 상태 설정
    hidden, cell = model.encoder(encoder_inputs)

    # 시작 토큰 <sos>을 디코더의 첫 입력으로 설정
    # unsqueeze(0)는 배치 차원을 추가하기 위함.
    decoder_input = torch.tensor([3], dtype=torch.long).unsqueeze(0).to(device)

    decoded_tokens = []

    # for문을 도는 것 == 디코더의 각 시점
    for _ in range(max_output_len):
        output, hidden, cell = model.decoder(decoder_input, hidden, cell)

        # 소프트맥스 회귀를 수행. 예측 단어의 인덱스
        output_token = output.argmax(dim=-1).item()

        # 종료 토큰 <eos>
        if output_token == 4:
            break

        # 각 시점의 단어(정수)는 decoded_tokens에 누적하였다가 최종 번역 시퀀스로 리턴
        decoded_tokens.append(output_token)

        # 현재 시점의 예측. 다음 시점의 입력으로 사용된다.
        decoder_input = torch.tensor([output_token], dtype=torch.long).unsqueeze(0).to(device)

    return ' '.join(int_to_tar_token[token] for token in decoded_tokens)

In [None]:
for seq_index in [3, 50, 100, 300, 1001]:
  input_seq = encoder_input_train[seq_index]
  translated_text = decode_sequence(input_seq, model, src_vocab_size, tar_vocab_size, 20, index_to_src, index_to_tar)

  print("입력문장 :",seq_to_src(encoder_input_train[seq_index]))
  print("정답문장 :",seq_to_tar(decoder_input_train[seq_index]))
  print("번역문장 :",translated_text)
  print("-"*50)

입력문장 : solve the problem . 
정답문장 : resous le probleme . 
번역문장 : resous le probleme .
--------------------------------------------------
입력문장 : answer tom . 
정답문장 : repondez a tom . 
번역문장 : repondez a tom .
--------------------------------------------------
입력문장 : this is my fault . 
정답문장 : c est de ma faute . 
번역문장 : c est de ma faute .
--------------------------------------------------
입력문장 : it s a conspiracy . 
정답문장 : c est une conspiration . 
번역문장 : c est une conspiration .
--------------------------------------------------
입력문장 : i like that . 
정답문장 : j aime cela . 
번역문장 : ca me plait .
--------------------------------------------------


In [None]:
for seq_index in [3, 50, 100, 300, 1001]:
  input_seq = encoder_input_test[seq_index]
  translated_text = decode_sequence(input_seq, model, src_vocab_size, tar_vocab_size, 20, index_to_src, index_to_tar)

  print("입력문장 :",seq_to_src(encoder_input_test[seq_index]))
  print("정답문장 :",seq_to_tar(decoder_input_test[seq_index]))
  print("번역문장 :",translated_text)
  print("-"*50)

입력문장 : tom looks curious . 
정답문장 : tom a l air curieux . 
번역문장 : tom semble curieux .
--------------------------------------------------
입력문장 : tom looks awkward . 
정답문장 : tom a l air maladroit . 
번역문장 : tom a l air un mal de tete .
--------------------------------------------------
입력문장 : that s so sad . 
정답문장 : c est si triste . 
번역문장 : c est si triste .
--------------------------------------------------
입력문장 : tom is cynical . 
정답문장 : tom est cynique . 
번역문장 : tom est reste debout .
--------------------------------------------------
입력문장 : where s my driver ? 
정답문장 : ou est mon chauffeur ? 
번역문장 : ou est mon peigne ?
--------------------------------------------------
