In [1]:
lines = (
    ('Anthony Hopkins admire Michael Bay as a great director',
     'Anthony Hopkins hat Michael Bay als einen großartigen Regisseur bewundert'),
    ('They speak English and French in Canada',
     'In Kanada spricht man Englisch und Französisch'),
    ('It seems that the store is closed today',
     'Der Laden scheint heute geschlossen zu haben'),
    ('Tom usually eats anything that Mary puts in front of him',
     'Tom isst für gewöhnlich alles, was Maria ihm vorsetzt'),
    ('Tom and Mary declared their undying love for each other',
     'Tom und Maria schworen sich ewige Liebe'),
    ('Tom told Mary he thought she was behaving like a child',
     'Tom sagte Mary, dass er denke, sie verhalte sich kindisc'),
    ('Who do you think would be the best person for the job',
     'Wen halten Sie für die Stelle am geeignetsten'),
    ('I believe Tom had something to do with the kidnapping',
     'Ich glaube, dass Thomas irgendetwas mit der Entführung zu tun hatte'))


In [2]:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import unicodedata
import re

def unicode_to_ascii(s):
    return ''.join(c for c in unicodedata.normalize('NFD', s)
            if unicodedata.category(c) != 'Mn')

def preprocess(sent):
    # 위에서 구현한 함수를 내부적으로 호출
    sent = unicode_to_ascii(sent.lower())

    # 단어와 구두점 사이에 공백을 만듭니다.
    # Ex) "he is a boy." => "he is a boy ."
    sent = re.sub(r"([?.!,¿])", r" \1", sent)

    # (a-z, A-Z, ".", "?", "!", ",") 이들을 제외하고는 전부 공백으로 변환합니다.
    sent = re.sub(r"[^a-zA-Z!.?]+", r" ", sent)

    sent = re.sub(r"\s+", " ", sent)
    return sent

def load_preprocessed_data():
    encoder_input, decoder_input, decoder_target = [], [], []

    for i, line in enumerate(lines):

        # source 데이터와 target 데이터 분리
        src_line, tar_line = line

        # source 데이터 전처리
        src_line = [w for w in preprocess(src_line).split()]

        # target 데이터 전처리
        tar_line = preprocess(tar_line)
        tar_line_in = [w for w in ("[BOS] " + tar_line).split()]
        tar_line_out = [w for w in (tar_line + " [EOS]").split()]

        encoder_input.append(src_line)
        decoder_input.append(tar_line_in)
        decoder_target.append(tar_line_out)

    return encoder_input, decoder_input, decoder_target

# 인코딩 테스트
en_sent = u"Have you had dinner?"
fr_sent = u"Avez-vous déjà diné?"
print(preprocess(en_sent))
print(preprocess(fr_sent).encode('utf-8'))

raw_encoder_input, raw_decoder_input, raw_decoder_target = load_preprocessed_data()

# Encoder Input Define
SRC_tokenizer = Tokenizer(filters="", lower=False)
SRC_tokenizer.fit_on_texts(raw_encoder_input)
encoder_input = SRC_tokenizer.texts_to_sequences(raw_encoder_input)

# Decoder Input & Target Define
TRG_tokenizer = Tokenizer(filters="", lower=False)
TRG_tokenizer.fit_on_texts(raw_decoder_input)
TRG_tokenizer.fit_on_texts(raw_decoder_target)
decoder_input  = TRG_tokenizer.texts_to_sequences(raw_decoder_input)
decoder_target = TRG_tokenizer.texts_to_sequences(raw_decoder_target)

# Pad sequences
encoder_input  = pad_sequences(encoder_input,  padding="post")
decoder_input  = pad_sequences(decoder_input,  padding="post")
decoder_target = pad_sequences(decoder_target, padding="post")

print(encoder_input.shape)
print(decoder_input.shape)
print(decoder_target.shape)

have you had dinner ?
b'avez vous deja dine ?'
(8, 12)
(8, 12)
(8, 12)


In [3]:
print(raw_encoder_input)
print(raw_decoder_input)
print(raw_decoder_target)

print(encoder_input)
print(decoder_input)
print(decoder_target)

[['anthony', 'hopkins', 'admire', 'michael', 'bay', 'as', 'a', 'great', 'director'], ['they', 'speak', 'english', 'and', 'french', 'in', 'canada'], ['it', 'seems', 'that', 'the', 'store', 'is', 'closed', 'today'], ['tom', 'usually', 'eats', 'anything', 'that', 'mary', 'puts', 'in', 'front', 'of', 'him'], ['tom', 'and', 'mary', 'declared', 'their', 'undying', 'love', 'for', 'each', 'other'], ['tom', 'told', 'mary', 'he', 'thought', 'she', 'was', 'behaving', 'like', 'a', 'child'], ['who', 'do', 'you', 'think', 'would', 'be', 'the', 'best', 'person', 'for', 'the', 'job'], ['i', 'believe', 'tom', 'had', 'something', 'to', 'do', 'with', 'the', 'kidnapping']]
[['[BOS]', 'anthony', 'hopkins', 'hat', 'michael', 'bay', 'als', 'einen', 'gro', 'artigen', 'regisseur', 'bewundert'], ['[BOS]', 'in', 'kanada', 'spricht', 'man', 'englisch', 'und', 'franzosisch'], ['[BOS]', 'der', 'laden', 'scheint', 'heute', 'geschlossen', 'zu', 'haben'], ['[BOS]', 'tom', 'isst', 'fur', 'gewohnlich', 'alles', 'was', '

In [4]:
SRC_tokenizer.word_index

{'the': 1,
 'tom': 2,
 'mary': 3,
 'a': 4,
 'and': 5,
 'in': 6,
 'that': 7,
 'for': 8,
 'do': 9,
 'anthony': 10,
 'hopkins': 11,
 'admire': 12,
 'michael': 13,
 'bay': 14,
 'as': 15,
 'great': 16,
 'director': 17,
 'they': 18,
 'speak': 19,
 'english': 20,
 'french': 21,
 'canada': 22,
 'it': 23,
 'seems': 24,
 'store': 25,
 'is': 26,
 'closed': 27,
 'today': 28,
 'usually': 29,
 'eats': 30,
 'anything': 31,
 'puts': 32,
 'front': 33,
 'of': 34,
 'him': 35,
 'declared': 36,
 'their': 37,
 'undying': 38,
 'love': 39,
 'each': 40,
 'other': 41,
 'told': 42,
 'he': 43,
 'thought': 44,
 'she': 45,
 'was': 46,
 'behaving': 47,
 'like': 48,
 'child': 49,
 'who': 50,
 'you': 51,
 'think': 52,
 'would': 53,
 'be': 54,
 'best': 55,
 'person': 56,
 'job': 57,
 'i': 58,
 'believe': 59,
 'had': 60,
 'something': 61,
 'to': 62,
 'with': 63,
 'kidnapping': 64}

In [5]:
TRG_tokenizer.word_index

{'[BOS]': 1,
 '[EOS]': 2,
 'tom': 3,
 'und': 4,
 'der': 5,
 'zu': 6,
 'fur': 7,
 'maria': 8,
 'sich': 9,
 'dass': 10,
 'sie': 11,
 'anthony': 12,
 'hopkins': 13,
 'hat': 14,
 'michael': 15,
 'bay': 16,
 'als': 17,
 'einen': 18,
 'gro': 19,
 'artigen': 20,
 'regisseur': 21,
 'bewundert': 22,
 'in': 23,
 'kanada': 24,
 'spricht': 25,
 'man': 26,
 'englisch': 27,
 'franzosisch': 28,
 'laden': 29,
 'scheint': 30,
 'heute': 31,
 'geschlossen': 32,
 'haben': 33,
 'isst': 34,
 'gewohnlich': 35,
 'alles': 36,
 'was': 37,
 'ihm': 38,
 'vorsetzt': 39,
 'schworen': 40,
 'ewige': 41,
 'liebe': 42,
 'sagte': 43,
 'mary': 44,
 'er': 45,
 'denke': 46,
 'verhalte': 47,
 'kindisc': 48,
 'wen': 49,
 'halten': 50,
 'die': 51,
 'stelle': 52,
 'am': 53,
 'geeignetsten': 54,
 'ich': 55,
 'glaube': 56,
 'thomas': 57,
 'irgendetwas': 58,
 'mit': 59,
 'entfuhrung': 60,
 'tun': 61,
 'hatte': 62}

In [6]:
import torch

In [7]:
encoder_input_torch = torch.FloatTensor(encoder_input)
encoder_input_torch

tensor([[10., 11., 12., 13., 14., 15.,  4., 16., 17.,  0.,  0.,  0.],
        [18., 19., 20.,  5., 21.,  6., 22.,  0.,  0.,  0.,  0.,  0.],
        [23., 24.,  7.,  1., 25., 26., 27., 28.,  0.,  0.,  0.,  0.],
        [ 2., 29., 30., 31.,  7.,  3., 32.,  6., 33., 34., 35.,  0.],
        [ 2.,  5.,  3., 36., 37., 38., 39.,  8., 40., 41.,  0.,  0.],
        [ 2., 42.,  3., 43., 44., 45., 46., 47., 48.,  4., 49.,  0.],
        [50.,  9., 51., 52., 53., 54.,  1., 55., 56.,  8.,  1., 57.],
        [58., 59.,  2., 60., 61., 62.,  9., 63.,  1., 64.,  0.,  0.]])

In [8]:
decoder_input_torch = torch.FloatTensor(decoder_input)
decoder_input_torch

tensor([[ 1., 12., 13., 14., 15., 16., 17., 18., 19., 20., 21., 22.],
        [ 1., 23., 24., 25., 26., 27.,  4., 28.,  0.,  0.,  0.,  0.],
        [ 1.,  5., 29., 30., 31., 32.,  6., 33.,  0.,  0.,  0.,  0.],
        [ 1.,  3., 34.,  7., 35., 36., 37.,  8., 38., 39.,  0.,  0.],
        [ 1.,  3.,  4.,  8., 40.,  9., 41., 42.,  0.,  0.,  0.,  0.],
        [ 1.,  3., 43., 44., 10., 45., 46., 11., 47.,  9., 48.,  0.],
        [ 1., 49., 50., 11.,  7., 51., 52., 53., 54.,  0.,  0.,  0.],
        [ 1., 55., 56., 10., 57., 58., 59.,  5., 60.,  6., 61., 62.]])

In [9]:
decoder_target_torch = torch.FloatTensor(decoder_target)
decoder_target_torch

tensor([[12., 13., 14., 15., 16., 17., 18., 19., 20., 21., 22.,  2.],
        [23., 24., 25., 26., 27.,  4., 28.,  2.,  0.,  0.,  0.,  0.],
        [ 5., 29., 30., 31., 32.,  6., 33.,  2.,  0.,  0.,  0.,  0.],
        [ 3., 34.,  7., 35., 36., 37.,  8., 38., 39.,  2.,  0.,  0.],
        [ 3.,  4.,  8., 40.,  9., 41., 42.,  2.,  0.,  0.,  0.,  0.],
        [ 3., 43., 44., 10., 45., 46., 11., 47.,  9., 48.,  2.,  0.],
        [49., 50., 11.,  7., 51., 52., 53., 54.,  2.,  0.,  0.,  0.],
        [55., 56., 10., 57., 58., 59.,  5., 60.,  6., 61., 62.,  2.]])

In [10]:
""" attention pad mask """

def create_padding_mask(x):
    input_pad = 0
    mask = (x == input_pad).float()
    mask = mask.unsqueeze(1).unsqueeze(1)
    # (batch_size, 1, 1, key의 문장 길이)
    return mask

create_padding_mask(encoder_input_torch)


tensor([[[[0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1.]]],


        [[[0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1., 1.]]],


        [[[0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1.]]],


        [[[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]]],


        [[[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1.]]],


        [[[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]]],


        [[[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]]],


        [[[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1.]]]])

In [11]:
""" attention decoder mask """
def create_look_ahead_mask(seq):
    # device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    seq_len = seq.shape[1]
    look_ahead_mask = torch.ones(seq_len, seq_len)

    look_ahead_mask = torch.triu(look_ahead_mask, diagonal=1)
    # padding_mask = create_padding_mask(seq).to(device) # 패딩 마스크도 포함
    # return torch.maximum(look_ahead_mask, padding_mask)

    return look_ahead_mask

look_ahead_mask  = create_look_ahead_mask(decoder_input_torch)
dec_target_padding_mask = create_padding_mask(decoder_input_torch) # 패딩 마스크도 포함
look_ahead_mask  = torch.maximum(dec_target_padding_mask, look_ahead_mask)
look_ahead_mask

tensor([[[[0., 1., 1.,  ..., 1., 1., 1.],
          [0., 0., 1.,  ..., 1., 1., 1.],
          [0., 0., 0.,  ..., 1., 1., 1.],
          ...,
          [0., 0., 0.,  ..., 0., 1., 1.],
          [0., 0., 0.,  ..., 0., 0., 1.],
          [0., 0., 0.,  ..., 0., 0., 0.]]],


        [[[0., 1., 1.,  ..., 1., 1., 1.],
          [0., 0., 1.,  ..., 1., 1., 1.],
          [0., 0., 0.,  ..., 1., 1., 1.],
          ...,
          [0., 0., 0.,  ..., 1., 1., 1.],
          [0., 0., 0.,  ..., 1., 1., 1.],
          [0., 0., 0.,  ..., 1., 1., 1.]]],


        [[[0., 1., 1.,  ..., 1., 1., 1.],
          [0., 0., 1.,  ..., 1., 1., 1.],
          [0., 0., 0.,  ..., 1., 1., 1.],
          ...,
          [0., 0., 0.,  ..., 1., 1., 1.],
          [0., 0., 0.,  ..., 1., 1., 1.],
          [0., 0., 0.,  ..., 1., 1., 1.]]],


        ...,


        [[[0., 1., 1.,  ..., 1., 1., 1.],
          [0., 0., 1.,  ..., 1., 1., 1.],
          [0., 0., 0.,  ..., 1., 1., 1.],
          ...,
          [0., 0., 0.,  ..., 0.

In [12]:
look_ahead_mask[2]

tensor([[[0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
         [0., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
         [0., 0., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 1., 1., 1., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 1., 1., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 0., 1., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1.]]])