# BLEU 튜토리얼

## Sentence BLEU score

파이썬 자연어 처리 패키지 NLTK는 기계가 생성한 텍스트 데이터에 대해서 성능을 평가하는 BLEU score를 제공.

In [None]:
from nltk.translate.bleu_score import sentence_bleu
reference = [['this', 'is', 'a', 'test'], ['this', 'is' 'test']]
candidate = ['this', 'is', 'a', 'test']
score = sentence_bleu(reference, candidate)
print(score)

1.0


## Corpus BLEU score

NLTK는 절이나 문장과 같은 다수의 문장의 묶음에 대해서 BLEU를 측정하는 corpus_bleu()를 제공. 여기서 references는 '토큰들의 리스트의 리스트의 리스트' 삼중 리스트여야 함. 또한 candidate는 '토큰들의 리스트의 리스트'이어야 함. 설명만으로는 조금 헷갈리므로 예제를 통해 이해.

In [None]:
# two references for one document
from nltk.translate.bleu_score import corpus_bleu
references = [[['this', 'is', 'a', 'test'], ['this', 'is' 'test']]]
candidates = [['this', 'is', 'a', 'test']]
score = corpus_bleu(references, candidates)
print(score)

1.0


## Cumulative and Individual BLEU score

NTLK의 BLEU는 다른 n-gram들에 대해서 가중치를 달리하여 계산할 수 있도록 해줌.  
예를 들어 unigram에만 가중을 100% 주고, 다른 2, 3, 4-gram에 대해서 가중을 주고 싶지않다면 다음과 같이 수행할 수 있음.

In [None]:
# 1-gram individual BLEU
from nltk.translate.bleu_score import sentence_bleu
reference = [['this', 'is', 'small', 'test']]
candidate = ['this', 'is', 'a', 'test']
score = sentence_bleu(reference, candidate, weights=(1, 0, 0, 0))
print(score)

0.75


Corpus/Sentence contains 0 counts of 3-gram overlaps.
BLEU scores might be undesirable; use SmoothingFunction().


위 예제를 각각의 n-gram에 대해서 수행.

In [None]:
# n-gram individual BLEU
from nltk.translate.bleu_score import sentence_bleu
reference = [['this', 'is', 'a', 'test']]
candidate = ['this', 'is', 'a', 'test']
print('Individual 1-gram: %f' % sentence_bleu(reference, candidate, weights=(1, 0, 0, 0)))
print('Individual 2-gram: %f' % sentence_bleu(reference, candidate, weights=(0, 1, 0, 0)))
print('Individual 3-gram: %f' % sentence_bleu(reference, candidate, weights=(0, 0, 1, 0)))
print('Individual 4-gram: %f' % sentence_bleu(reference, candidate, weights=(0, 0, 0, 1)))

Individual 1-gram: 1.000000
Individual 2-gram: 1.000000
Individual 3-gram: 1.000000
Individual 4-gram: 1.000000


각 개별적인 n-gram 스코어로부터 각각에게 가중을 주어 가중 기하 평균을 구함.  
이를 BLEU-4라고 부름. 이는 sentence_bleu나 corpus_bleu의 기본값.

In [None]:
# 4-gram cumulative BLEU
from nltk.translate.bleu_score import sentence_bleu
reference = [['this', 'is', 'small', 'test']]
candidate = ['this', 'is', 'a', 'test']
score = sentence_bleu(reference, candidate, weights=(0.25, 0.25, 0.25, 0.25))
print(score)
score = sentence_bleu(reference, candidate)
print(score)

0.7071067811865475
0.7071067811865475


Corpus/Sentence contains 0 counts of 3-gram overlaps.
BLEU scores might be undesirable; use SmoothingFunction().


BLEU-1, BLEU-2, BLEU-3, BLEU-4를 각각 구하면 다음과 같음.

In [None]:
# cumulative BLEU scores
from nltk.translate.bleu_score import sentence_bleu
reference = [['this', 'is', 'small', 'test']]
candidate = ['this', 'is', 'a', 'test']
print('Cumulative 1-gram: %f' % sentence_bleu(reference, candidate, weights=(1, 0, 0, 0)))
print('Cumulative 2-gram: %f' % sentence_bleu(reference, candidate, weights=(0.5, 0.5, 0, 0)))
print('Cumulative 3-gram: %f' % sentence_bleu(reference, candidate, weights=(0.33, 0.33, 0.33, 0)))
print('Cumulative 4-gram: %f' % sentence_bleu(reference, candidate, weights=(0.25, 0.25, 0.25, 0.25)))

Cumulative 1-gram: 0.750000
Cumulative 2-gram: 0.500000
Cumulative 3-gram: 0.632878
Cumulative 4-gram: 0.707107


Corpus/Sentence contains 0 counts of 3-gram overlaps.
BLEU scores might be undesirable; use SmoothingFunction().


## Worked Example

다양한 예제를 통해 이해.  
'the quick brown fox jumped over the lazy dog' 이와 같은 문장이 있다고 해봤을 때.

In [None]:
# prefect match
from nltk.translate.bleu_score import sentence_bleu
reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']]
candidate = ['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']
score = sentence_bleu(reference, candidate)
print(score)

1.0


'quick'을 'fast'로 바꿔봄.

In [None]:
# one word different
from nltk.translate.bleu_score import sentence_bleu
reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']]
candidate = ['the', 'fast', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']
score = sentence_bleu(reference, candidate)
print(score)

0.7506238537503395


기본값으로 BLEU-4가 실행되는데, 값이 다소 떨어진 것을 확인할 수 있음.  
이번에는 lazy 또한 sleepy로 바꿔봄.

In [None]:
# two words different
from nltk.translate.bleu_score import sentence_bleu
reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']]
candidate = ['the', 'fast', 'brown', 'fox', 'jumped', 'over', 'the', 'sleepy', 'dog']
score = sentence_bleu(reference, candidate)
print(score)

0.4854917717073234


candidate에 있는 모든 단어가 reference와 일치하지 않는다면?

In [None]:
# all words different
from nltk.translate.bleu_score import sentence_bleu
reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']]
candidate = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i']
score = sentence_bleu(reference, candidate)
print(score)

0


이번에는 마지막 단어 2개를 일부로 누락.

In [None]:
# shorter candidate
from nltk.translate.bleu_score import sentence_bleu
reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']]
candidate = ['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the']
score = sentence_bleu(reference, candidate)
print(score)

0.7514772930752859


이번에는 굳이 뒤에 단어를 2개 추가.

In [None]:
# longer candidate
from nltk.translate.bleu_score import sentence_bleu
reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']]
candidate = ['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog', 'from', 'space']
score = sentence_bleu(reference, candidate)
print(score)

0.7860753021519787


이번에는 단어를 맨 앞에 2개만 남겨두고 전부 지워봄.

In [None]:
# very short
from nltk.translate.bleu_score import sentence_bleu
reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']]
candidate = ['the', 'quick']
score = sentence_bleu(reference, candidate)
print(score)

0.0301973834223185


Corpus/Sentence contains 0 counts of 3-gram overlaps.
BLEU scores might be undesirable; use SmoothingFunction().


3-gram 이상은 카운트할 수 없다는 에러가 발생. 위에서 두 단어만 주었기 때문.  
BLEU에 사용된 수학은 매우 간단. 그렇기 때문에 직접 계산해보면서 이해하자.

# BLEU 구현하기

In [None]:
from collections import Counter
import numpy as np
from nltk import ngrams

## Count : 단순 카운트 함수 구현

In [None]:
# 단순 카운트 함수
def simple_count(tokens, n): # 토큰화 된 candidate 문장, n-gram에서의 n 이 두 가지를 인자로 받음.
    return Counter(ngrams(tokens, n)) #문장에서 n-gram을 카운트

단순 카운트 구현 함수 테스트

In [None]:
candidate = "It is a guide to action which ensures that the military always obeys the commands of the party."
tokens = candidate.split() #단어 토큰화
result = simple_count(tokens, 1) #토큰화 된 문장, 유니그램의 개수를 구하고자 한다면 n=1
print(result)

Counter({('the',): 3, ('It',): 1, ('is',): 1, ('a',): 1, ('guide',): 1, ('to',): 1, ('action',): 1, ('which',): 1, ('ensures',): 1, ('that',): 1, ('military',): 1, ('always',): 1, ('obeys',): 1, ('commands',): 1, ('of',): 1, ('party.',): 1})


In [None]:
candidate = 'the the the the the the the'
tokens = candidate.split() #단어 토큰화
result = simple_count(tokens, 1)
print(result)

Counter({('the',): 7})


## Count_clip 함수 구현

In [None]:
def count_clip(candidate, reference_list, n):
    cnt_ca = simple_count(candidate, n)
    # Ca 문장에서 n-gram 카운트
    temp = dict()

    for ref in reference_list: # 다수의 Ref 문장에 대해서 이하 반복
        cnt_ref = simple_count(ref, n)
        # Ref 문장에서 n-gram 카운트

        for n_gram in cnt_ref: # 모든 Ref에 대해서 비교하여 특정 n-gram이 하나의 Ref에 가장 많이 등장한 횟수를 저장
            if n_gram in temp:
                temp[n_gram] = max(cnt_ref[n_gram], temp[n_gram]) # max_ref_count
            else:
                temp[n_gram] = cnt_ref[n_gram]

    return {
        n_gram: min(cnt_ca.get(n_gram, 0), temp.get(n_gram, 0)) for n_gram in cnt_ca
        # count_clip=min(count, max_ref_count)
        # 위의 get은 찾고자 하는 n-gram이 없으면 0을 반환한다.
     }

count_clip 함수는 candidate 문장과 reference 문장들, 그리고 카운트 단위가 되는 n-gram에서의 n의 값 이 세 가지를 인자로 입력받아서 countclip을 수행. 여기서는 유니그램 정밀도를 구현하고 있으므로 역시나 n=1로 하여 함수를 실행하면 됨.  

또한 count_clip 함수 내부에는 기존에 구현했던 simple_count 함수가 사용된 것을 확인할 수 있음. Countclip을 구하기 위해서는 Max_Ref_Count값과 비교하기 위해 Count값이 필요하기 때문. Example 2를 통해 함수가 정상 작동되는지 확인해 봄.

In [None]:
candidate = 'the the the the the the the'
references = [
    'the cat is on the mat',
    'there is a cat on the mat'
]
result = count_clip(candidate.split(),list(map(lambda ref: ref.split(), references)),1)
print(result)

{('the',): 2}


동일한 예제 문장에 대해서 위의 simple_count 함수는 the가 7개로 카운트되었던 것과는 달리 이번에는 2개로 카운트 됨. 이제 위의 두 함수를 사용하여 예제 문장에 대해서 보정된 정밀도를 연산하는 함수를 modified_precision란 이름의 함수로 구현해 봄.

## 보정된 유니그램 정밀도 구현하기

In [None]:
def modified_precision(candidate, reference_list, n):
    clip = count_clip(candidate, reference_list, n) 
    total_clip = sum(clip.values()) # 분자

    ct = simple_count(candidate, n)
    total_ct = sum(ct.values()) #분모

    if total_ct==0: # n-gram의 n이 커졌을 때 분모가 0이 되는 것을 방지
      total_ct=1

    return (total_clip / total_ct) # 보정된 정밀도
    # count_clip의 합을 분자로 하고 단순 count의 합을 분모로 하면 보정된 정밀도

In [None]:
result = modified_precision(candidate.split(),list(map(lambda ref: ref.split(), references)),1) # 유니그램이므로 n = 1
print(result)

0.2857142857142857


소수 값이 나오는데 이는 2/7의 값을 의미함. 

이제부터 설명에서 언급하는 '정밀도'는 기본적으로 보정된 정밀도(Modified Precision)라고 가정. 정밀도를 보정하므로서 Ca에서 발생하는 단어 중복에 대한 문제점은 해결. 하지만 유니그램 정밀도가 가지는 본질적인 문제점있기에 이제는 유니그램을 넘어 바이그램, 트라이그램 등과 같이 n-gram으로 확장해야 함.  

앞서 구현한 함수 simple_count, count_clip, modified_precision은 모두 n-gram의 n을 함수의 인자로 받으므로, n을 1대신 다른 값을 넣어서 실습해보면 바이그램, 트라이그램 등에 대해서도 보정된 정밀도를 구할 수 있음.

## 짧은 문장 길이에 대한 패널티(Brevity Penalty)

Ref가 1개라면 Ca와 Ref의 두 문장의 길이만을 가지고 계산하면 되겠지만 여기서는 Ref가 여러 개일 때를 가정하고 있으므로 r은 '모든 Ref들 중에서 Ca와 가장 길이 차이가 작은 Ref의 길이'로 함. r을 구하는 코드는 아래와 같음.

In [None]:
def closest_ref_length(candidate, reference_list): # Ca 길이와 가장 근접한 Ref의 길이를 리턴하는 함수
    ca_len = len(candidate) # ca 길이
    ref_lens = (len(ref) for ref in reference_list) # Ref들의 길이
    closest_ref_len = min(ref_lens, key=lambda ref_len: (abs(ref_len - ca_len), ref_len))
    # 길이 차이를 최소화하는 Ref를 찾아서 Ref의 길이를 리턴
    return closest_ref_len

만약 Ca와 길이가 정확히 동일한 Ref가 있다면 길이 차이가 0인 최고 수준의 매치(best match length)임. 또한 만약 서로 다른 길이의 Ref이지만 Ca와 길이 차이가 동일한 경우에는 더 작은 길이의 Ref를 택함. 예를 들어 Ca가 길이가 10인데, Ref 1, 2가 각각 9와 11이라면 길이 차이는 동일하게 1밖에 나지 않지만 9를 택함. closest_ref_length 함수를 통해 r을 구했다면, 이제 BP를 구하는 함수 brevity_penalty를 구현.

In [None]:
def brevity_penalty(candidate, reference_list):
    ca_len = len(candidate)
    ref_len = closest_ref_length(candidate, reference_list)

    if ca_len > ref_len:
        return 1
    elif ca_len == 0 :
    # candidate가 비어있다면 BP = 0 → BLEU = 0.0
        return 0
    else:
        return np.exp(1 - ref_len/ca_len)

## BLEU 함수 구현하기

이제 최종적으로 BLEU 점수를 계산하는 함수 bleu_score를 구현.

In [None]:
def bleu_score(candidate, reference_list, weights=[0.25, 0.25, 0.25, 0.25]):
    bp = brevity_penalty(candidate, reference_list) # 브레버티 패널티, BP

    p_n = [modified_precision(candidate, reference_list, n=n) for n, _ in enumerate(weights,start=1)] 
    #p1, p2, p3, ..., pn
    score = np.sum([w_i * np.log(p_i) if p_i != 0 else 0 for w_i, p_i in zip(weights, p_n)])
    return bp * np.exp(score)

위 함수가 동작하기 위해서는 앞서 구현한 simple_count, count_clip, modified_precision, brevity_penalty 4개의 함수 또한 모두 구현되어져 있어야 함. 지금까지 구현한 BLEU 코드로 계산된 점수와 NLTK 패키지에 이미 구현되어져 있는 BLEU 코드로 계산된 점수를 비교.

## NLTK의 BLEU Vs. 구현한 BLEU 함수

In [None]:
import nltk.translate.bleu_score as bleu


candidate = 'It is a guide to action which ensures that the military always obeys the commands of the party'
references = [
    'It is a guide to action that ensures that the military will forever heed Party commands',
    'It is the guiding principle which guarantees the military forces always being under the command of the Party',
    'It is the practical guide for the army always to heed the directions of the party'
]

# 이번 챕터에서 구현한 코드로 계산한 BLEU 점수
print(bleu_score(candidate.split(),list(map(lambda ref: ref.split(), references))))
# NLTK 패키지 구현되어져 있는 코드로 계산한 BLEU 점수
print(bleu.sentence_bleu(list(map(lambda ref: ref.split(), references)),candidate.split()))

0.5045666840058485
0.5045666840058485


# Subword Tokenizer

## SubwordTextEncoder

In [None]:
import tensorflow as tf
import tensorflow_datasets as tfds
import tensorflow_hub as hub
import matplotlib.pyplot as plt
import numpy as np
import os
import pandas as pd
import re
import seaborn as sns

### IMDB

In [None]:
# 디렉토리 안에 모든 파일들을 DataFrame 형태로 읽어오기.
# 구체적으로 문장(sentence)과 문장의 감정상태의 확신정도(sentiment=1~10)를 읽어오기.
def load_directory_data(directory):
  data = {}
  data["sentence"] = []
  data["sentiment"] = []
  for file_path in os.listdir(directory):
    with tf.io.gfile.GFile(os.path.join(directory, file_path), "r") as f:
      data["sentence"].append(f.read())
      data["sentiment"].append(re.match("\d+_(\d+)\.txt", file_path).group(1))
  return pd.DataFrame.from_dict(data)

# 긍정(postive) 예제와 부정(negative) 예제를 하나의 dataframe으로 합치고 
# 긍정 혹은 부정을 나타내는 polarity 컬럼을 추가하고 데이터를 랜덤하게 섞음.
def load_dataset(directory):
  pos_df = load_directory_data(os.path.join(directory, "pos"))
  neg_df = load_directory_data(os.path.join(directory, "neg"))
  pos_df["polarity"] = 1
  neg_df["polarity"] = 0
  return pd.concat([pos_df, neg_df]).sample(frac=1).reset_index(drop=True)

# IMDB 영화 리뷰 데이터셋을 다운받고 전처리를 진행.
def download_and_load_datasets(force_download=False):
  dataset = tf.keras.utils.get_file(
      fname="aclImdb.tar.gz", 
      origin="http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz", 
      extract=True)
  
  train_df = load_dataset(os.path.join(os.path.dirname(dataset), 
                                       "aclImdb", "train"))
  test_df = load_dataset(os.path.join(os.path.dirname(dataset), 
                                      "aclImdb", "test"))
  
  return train_df, test_df

In [None]:
train_df, test_df = download_and_load_datasets()

In [None]:
train_df

Unnamed: 0,sentence,sentiment,polarity
0,This movie was awful. The ending was absolutel...,1,0
1,Patrick Channing (Jeff Kober) is a disciple of...,4,0
2,The first two-thirds of this biopic of fetish ...,7,1
3,Fortunately for us Real McCoy fans (most likel...,8,1
4,"I wouldn't call it awful, but nothing at all s...",4,0
...,...,...,...
24995,I loved the Batman tv series and was really lo...,2,0
24996,One of the best comedians ever. I've seen this...,10,1
24997,One thing I always liked about Robert Ludlum t...,7,1
24998,Just Cause takes some of the best parts of thr...,7,1


In [None]:
train_df['sentence']

0        This movie was awful. The ending was absolutel...
1        Patrick Channing (Jeff Kober) is a disciple of...
2        The first two-thirds of this biopic of fetish ...
3        Fortunately for us Real McCoy fans (most likel...
4        I wouldn't call it awful, but nothing at all s...
                               ...                        
24995    I loved the Batman tv series and was really lo...
24996    One of the best comedians ever. I've seen this...
24997    One thing I always liked about Robert Ludlum t...
24998    Just Cause takes some of the best parts of thr...
24999    Everything in this film is bad , the story , t...
Name: sentence, Length: 25000, dtype: object

In [None]:
tokenizer = tfds.features.text.SubwordTextEncoder.build_from_corpus(
    train_df['sentence'], target_vocab_size=2**13)

In [None]:
print(tokenizer.subwords)



In [None]:
print(train_df['sentence'][20])

Let's just say it in simple words so that even the makers of this film might have a chance to understand: This is a very dumb film with an even dumber script, lame animation, and a story that's about as original as thumbtacks. Don't bother -- unless you need to find some way to entertain a group of mentally retarded adults or extremely slow children. They might laugh, especially if they're off their meds. There's a special kind of insult in a film this ridiculous -- not only do the filmmakers apparently think that children are brainless idiots who can be entertained with claptrap that cost approximately zero effort, but they don't even bother to break a sweat inserting a gag here and there that an adult might find amusing. This film, frankly, ticked me off royally. Shame on you for stooping so low.


In [None]:
print('Tokenized sample question: {}'.format(tokenizer.encode(train_df['sentence'][20])))

Tokenized sample question: [2601, 7968, 8, 56, 202, 15, 11, 1392, 2152, 55, 13, 78, 1, 2428, 6, 14, 32, 290, 31, 4, 1258, 7, 2511, 106, 62, 9, 4, 67, 2709, 32, 22, 41, 78, 3754, 125, 602, 2, 2395, 4753, 2, 5, 4, 98, 142, 7968, 8, 60, 20, 314, 20, 2521, 2915, 5248, 8044, 3, 644, 7968, 21, 3289, 522, 1995, 37, 459, 7, 210, 63, 141, 7, 5105, 7961, 4, 1038, 6, 5094, 64, 7812, 1283, 5894, 50, 841, 1347, 1515, 3, 275, 290, 1286, 2, 358, 75, 466, 7968, 182, 177, 79, 220, 1761, 3, 608, 7968, 8, 4, 451, 312, 6, 7432, 11, 4, 32, 14, 2049, 522, 33, 77, 110, 1, 2366, 1605, 129, 13, 1133, 29, 2835, 200, 2403, 8, 46, 83, 35, 5691, 7961, 22, 1578, 2418, 4032, 7961, 13, 4534, 7961, 2465, 423, 1381, 4719, 64, 5622, 7961, 3850, 2, 26, 53, 109, 7968, 21, 78, 4172, 7, 2243, 4, 4214, 21, 4503, 3090, 154, 4, 6766, 7961, 307, 5, 91, 13, 41, 2881, 290, 210, 7725, 100, 3, 62, 66, 2, 7351, 2, 7239, 40, 105, 177, 423, 849, 2503, 3, 998, 105, 25, 37, 23, 6356, 1157, 55, 863, 7975]


In [None]:
# train_df에 존재하는 문장 중 일부를 발췌
sample_string = "It's mind-blowing to me that this film was even made."

# encode
tokenized_string = tokenizer.encode(sample_string)
print ('정수 인코딩 후의 문장 {}'.format(tokenized_string))

# encoding한 문장을 다시 decode
original_string = tokenizer.decode(tokenized_string)
print ('기존 문장: {}'.format(original_string))

assert original_string == sample_string

정수 인코딩 후의 문장 [135, 7968, 8, 965, 7974, 2405, 34, 7, 105, 13, 14, 32, 18, 78, 677, 7975]
기존 문장: It's mind-blowing to me that this film was even made.


In [None]:
print('단어 집합의 크기(Vocab size) :', tokenizer.vocab_size)

단어 집합의 크기(Vocab size) : 8185


In [None]:
for ts in tokenized_string:
  print ('{} ----> {}'.format(ts, tokenizer.decode([ts])))

135 ----> It
7968 ----> '
8 ----> s 
965 ----> mind
7974 ----> -
2405 ----> blow
34 ----> ing 
7 ----> to 
105 ----> me 
13 ----> that 
14 ----> this 
32 ----> film 
18 ----> was 
78 ----> even 
677 ----> made
7975 ----> .


In [None]:
# 앞서 실습한 문장에 even 뒤에 임의로 xyz 추가
sample_string = "It's mind-blowing to me that this film was evenxyz made."

# encode
tokenized_string = tokenizer.encode(sample_string)
print ('정수 인코딩 후의 문장 {}'.format(tokenized_string))

# encoding한 문장을 다시 decode
original_string = tokenizer.decode(tokenized_string)
print ('기존 문장: {}'.format(original_string))

assert original_string == sample_string

정수 인코딩 후의 문장 [135, 7968, 8, 965, 7974, 2405, 34, 7, 105, 13, 14, 32, 18, 6373, 8049, 8050, 990, 677, 7975]
기존 문장: It's mind-blowing to me that this film was evenxyz made.


In [None]:
for ts in tokenized_string:
  print ('{} ----> {}'.format(ts, tokenizer.decode([ts])))

135 ----> It
7968 ----> '
8 ----> s 
965 ----> mind
7974 ----> -
2405 ----> blow
34 ----> ing 
7 ----> to 
105 ----> me 
13 ----> that 
14 ----> this 
32 ----> film 
18 ----> was 
6373 ----> even
8049 ----> x
8050 ----> y
990 ----> z 
677 ----> made
7975 ----> .


### 네이버 영화 리뷰

In [None]:
import urllib.request

urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt", filename="ratings_train.txt")
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt", filename="ratings_test.txt")

('ratings_test.txt', <http.client.HTTPMessage at 0x7fe80cc83390>)

In [None]:
train_data = pd.read_table('ratings_train.txt')
test_data = pd.read_table('ratings_test.txt')

In [None]:
train_data[:5] # 상위 5개 출력

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [None]:
print(train_data.isnull().values.any())

True


In [None]:
print(train_data.isnull().sum())

id          0
document    5
label       0
dtype: int64


In [None]:
train_data = train_data.dropna(how = 'any') # Null 값이 존재하는 행 제거
print(train_data.isnull().values.any()) # Null 값이 존재하는지 확인

False


In [None]:
tokenizer = tfds.features.text.SubwordTextEncoder.build_from_corpus(
    train_data['document'], target_vocab_size=2**13)

In [None]:
print(tokenizer.subwords[:100])

['. ', '..', '영화', '이_', '...', '의_', '는_', '도_', '다', ', ', '을_', '고_', '은_', '가_', '에_', '.. ', '한_', '너무_', '정말_', '를_', '고', '게_', '영화_', '지', '... ', '진짜_', '이', '다_', '요', '만_', '? ', '과_', '나', '가', '서_', '지_', '로_', '으로_', '아', '어', '....', '음', '한', '수_', '와_', '도', '네', '그냥_', '나_', '더_', '왜_', '이런_', '면_', '기', '하고_', '보고_', '하는_', '서', '좀_', '리', '자', '스', '안', '! ', '에서_', '영화를_', '미', 'ㅋㅋ', '네요', '시', '주', '라', '는', '오', '없는_', '에', '해', '사', '!!', '영화는_', '마', '잘_', '수', '영화가_', '만', '본_', '로', '그_', '지만_', '대', '은', '비', '의', '일', '개', '있는_', '없다', '함', '구', '하']


In [None]:
print('Tokenized sample question: {}'.format(tokenizer.encode(train_data['document'][20])))

Tokenized sample question: [669, 4700, 17, 1749, 8, 96, 131, 1, 48, 2239, 4, 7466, 32, 1274, 2655, 7, 80, 749, 1254]


In [None]:
sample_string = train_data['document'][21]

# encode
tokenized_string = tokenizer.encode(sample_string)
print ('정수 인코딩 후의 문장 {}'.format(tokenized_string))

# encoding한 문장을 다시 decode
original_string = tokenizer.decode(tokenized_string)
print ('기존 문장: {}'.format(original_string))

assert original_string == sample_string

정수 인코딩 후의 문장 [570, 892, 36, 584, 159, 7091, 201]
기존 문장: 보면서 웃지 않는 건 불가능하다


In [None]:
for ts in tokenized_string:
  print ('{} ----> {}'.format(ts, tokenizer.decode([ts])))

570 ----> 보면서 
892 ----> 웃
36 ----> 지 
584 ----> 않는 
159 ----> 건 
7091 ----> 불가능
201 ----> 하다


In [None]:
sample_string = '이 영화 굉장히 재밌다 킄핫핫ㅎ'

# encode
tokenized_string = tokenizer.encode(sample_string)
print ('정수 인코딩 후의 문장 {}'.format(tokenized_string))

# encoding한 문장을 다시 decode
original_string = tokenizer.decode(tokenized_string)
print ('기존 문장: {}'.format(original_string))

assert original_string == sample_string

정수 인코딩 후의 문장 [4, 23, 1364, 2157, 8235, 8128, 8130, 8235, 8147, 8169, 8235, 8147, 8169, 393]
기존 문장: 이 영화 굉장히 재밌다 킄핫핫ㅎ


In [None]:
for ts in tokenized_string:
  print ('{} ----> {}'.format(ts, tokenizer.decode([ts])))

4 ----> 이 
23 ----> 영화 
1364 ----> 굉장히 
2157 ----> 재밌다 
8235 ----> �
8128 ----> �
8130 ----> �
8235 ----> �
8147 ----> �
8169 ----> �
8235 ----> �
8147 ----> �
8169 ----> �
393 ----> ㅎ


## Sentencepiece (구글의 BPE 구현체)

In [None]:
!pip install sentencepiece

Collecting sentencepiece
[?25l  Downloading https://files.pythonhosted.org/packages/d4/a4/d0a884c4300004a78cca907a6ff9a5e9fe4f090f5d95ab341c53d28cbc58/sentencepiece-0.1.91-cp36-cp36m-manylinux1_x86_64.whl (1.1MB)
[K     |████████████████████████████████| 1.1MB 3.5MB/s 
[?25hInstalling collected packages: sentencepiece
Successfully installed sentencepiece-0.1.91


In [None]:
import pandas as pd
import sentencepiece as spm
import csv

Sentencepiece의 학습 데이터로는 빈 칸이 포함되지 않은 문서 집합이어야 함.

### IMDB

In [None]:
import requests
res = requests.get('https://github.com/euphoris/datasets/raw/master/imdb.zip')
with open('imdb.zip', 'wb') as f:
    f.write(res.content)

In [None]:
df = pd.read_csv('imdb.zip')

In [None]:
with open('review.txt', 'w', encoding='utf8') as f:
    f.write('\n'.join(df['review']))

In [None]:
spm.SentencePieceTrainer.Train('--input=review.txt --model_prefix=imdb --vocab_size=1000')

SentencePieceTrainer를 이용해 토큰 학습

input : 학습시킬 파일  
model_prefix : 만들어질 모델 이름  
vocab_size : 단어 집합의 크기  
model_type : 사용할 모델 (unigram(default), bpe, char, word)  
max_sentence_length: 문장의 최대 길이  
pad_id, pad_piece: pad token id, 값  
unk_id, unk_piece: unknown token id, 값  
bos_id, bos_piece: begin of sentence token id, 값  
eos_id, eos_piece: end of sequence token id, 값  
user_defined_symbols: 사용자 정의 토큰

In [None]:
tokens = pd.read_csv('imdb.vocab', sep='\t', header=None, quoting=csv.QUOTE_NONE)

In [None]:
tokens.head(10)

Unnamed: 0,0,1
0,<unk>,0.0
1,<s>,0.0
2,</s>,0.0
3,s,-3.23395
4,.,-3.35727
5,▁,-3.45567
6,▁the,-3.64478
7,",",-3.71767
8,▁a,-3.8701
9,t,-4.02045


In [None]:
sp = spm.SentencePieceProcessor()
vocab_file = "imdb.model"
sp.load(vocab_file)

True

In [None]:
text = df.loc[0, 'review']
text

'A very, very, very slow-moving, aimless movie about a distressed, drifting young man.'

In [None]:
print(sp.encode_as_pieces(text))

['▁A', '▁very', ',', '▁very', ',', '▁very', '▁slow', '-', 'moving', ',', '▁a', 'im', 'less', '▁movie', '▁about', '▁a', '▁dist', 're', 's', 's', 'ed', ',', '▁dri', 'ft', 'ing', '▁you', 'ng', '▁man', '.']


### 네이버 영화 리뷰 - 필수 실습

In [None]:
!wget https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt

--2020-07-20 02:07:37--  https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 19515078 (19M) [text/plain]
Saving to: ‘ratings.txt.1’


2020-07-20 02:07:38 (35.6 MB/s) - ‘ratings.txt.1’ saved [19515078/19515078]



In [None]:
naver_df = pd.read_table('ratings.txt')

In [None]:
naver_df[:5]

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1


In [None]:
print('리뷰 개수 :',len(naver_df)) # 리뷰 개수 출력

리뷰 개수 : 200000


In [None]:
print(naver_df.isnull().values.any())

True


In [None]:
naver_df = naver_df.dropna(how = 'any') # Null 값이 존재하는 행 제거
print(naver_df.isnull().values.any()) # Null 값이 존재하는지 확인

False


In [None]:
print('리뷰 개수 :',len(naver_df)) # 리뷰 개수 출력

리뷰 개수 : 199992


In [None]:
with open('naver_review.txt', 'w', encoding='utf8') as f:
    f.write('\n'.join(naver_df['document']))

입력이 반드시 txt 파일이어야 하므로 txt 파일에 저장해줍니다.

In [None]:
spm.SentencePieceTrainer.Train('--input=naver_review.txt --model_prefix=naver --vocab_size=5000 --model_type=bpe --max_sentence_length=9999')

SentencePieceTrainer를 이용해 토큰 학습

input : 학습시킬 파일  
model_prefix : 만들어질 모델 이름  
vocab_size : 단어 집합의 크기  
model_type : 사용할 모델 (unigram(default), bpe, char, word)  
max_sentence_length: 문장의 최대 길이  
pad_id, pad_piece: pad token id, 값  
unk_id, unk_piece: unknown token id, 값  
bos_id, bos_piece: begin of sentence token id, 값  
eos_id, eos_piece: end of sequence token id, 값  
user_defined_symbols: 사용자 정의 토큰

vocab 생성이 완료되면 naver.model, naver.vocab 파일 두개가 생성 됩니다.  
.vocab 에서 학습된 subwords 를 확인할 수도 있습니다.

In [None]:
vocab_list = pd.read_csv('naver.vocab', sep='\t', header=None, quoting=csv.QUOTE_NONE)

In [None]:
vocab_list[:10]

Unnamed: 0,0,1
0,<unk>,0
1,<s>,0
2,</s>,0
3,..,0
4,영화,-1
5,▁영화,-2
6,▁이,-3
7,▁아,-4
8,...,-5
9,▁그,-6


In [None]:
vocab_list.sample(10)

Unnamed: 0,0,1
4131,P,-4128
2899,▁이연걸,-2896
1670,립니다,-1667
4940,쉼,-4937
2942,▁만들고,-2939
4069,균,-4066
608,▁믿,-605
1113,자기,-1110
2588,았어요,-2585
2536,무서,-2533


Vocabulary 에는 unknown, 문장의 시작, 문장의 끝을 의미하는 special token이 0, 1, 2에 사용됨.

> 들여쓴 블록



In [None]:
len(tokens)

NameError: ignored

설정한대로 5000 개의 subwords 가 학습됨.

In [None]:
sp = spm.SentencePieceProcessor()
vocab_file = "naver.model"
sp.load(vocab_file)

True

GetPieceSize() : 단어 집합의 크기를 확인.  
encode_as_pieces : 문장을 입력하면 서브 워드 시퀀스로 변환.  
encode_as_ids : 문장을 입력하면 정수 시퀀스로 변환.  
idToPiece : 정수로부터 맵핑되는 서브 워드로 변환.  
PieceToId : 서브워드로부터 맵핑되는 정수로 변환.  
DecodeIds : 정수 시퀀스로부터 문장으로 변환.  
DecodePieces : 서브워드 시퀀스로부터 문장으로 변환.  
encode : 문장으로부터 인자값에 따라서 정수 시퀀스 또는 서브워드 시퀀스로 변환 가능.


In [None]:
lines = [
  "뭐 이딴 것도 영화냐.",
  "진짜 최고의 영화입니다 ㅋㅋ",
]
for line in lines:
  print(line)
  print(sp.encode_as_pieces(line))
  print(sp.encode_as_ids(line))
  print()

뭐 이딴 것도 영화냐.
['▁뭐', '▁이딴', '▁것도', '▁영화냐', '.']
[132, 966, 1296, 2590, 3276]

진짜 최고의 영화입니다 ㅋㅋ
['▁진짜', '▁최고의', '▁영화입니다', '▁ᄏᄏ']
[54, 200, 821, 85]



In [None]:
sp.GetPieceSize()

5000

In [None]:
sp.IdToPiece(4)

'영화'

In [None]:
sp.PieceToId('영화')

4

In [None]:
sp.DecodeIds([54, 200, 821, 85])

'진짜 최고의 영화입니다 ᄏᄏ'

In [None]:
sp.DecodePieces(['▁진짜', '▁최고의', '▁영화입니다', '▁ᄏᄏ'])

'진짜 최고의 영화입니다 ᄏᄏ'

enable_sampling=True 일 때 Drop-out이 적용되며 alpha=0.1은 10% 확률로 dropout 한다는 의미.

In [None]:
for _ in range(5):
    print(sp.encode('진짜 최고의 영화입니다 ㅋㅋ', out_type=str, enable_sampling=True, alpha=0.1, nbest_size=-1))

['▁진짜', '▁최고의', '▁영화입니다', '▁', 'ᄏᄏ']
['▁진짜', '▁최', '고', '의', '▁영화입니다', '▁ᄏᄏ']
['▁', '진짜', '▁최고의', '▁영화입니다', '▁ᄏᄏ']
['▁진짜', '▁최고의', '▁영화입니다', '▁ᄏᄏ']
['▁진짜', '▁최고의', '▁영화입니다', '▁ᄏᄏ']


In [None]:
print(sp.encode('진짜 최고의 영화입니다 ㅋㅋ', out_type=str))
print(sp.encode('진짜 최고의 영화입니다 ㅋㅋ', out_type=int))

['▁진짜', '▁최고의', '▁영화입니다', '▁ᄏᄏ']
[54, 200, 821, 85]


# 글자 레벨 기계 번역기 (함수형 API) - 필수 실습

In [None]:
import urllib3
import zipfile
import shutil
import os
import pandas as pd

In [None]:
http = urllib3.PoolManager()
url ='http://www.manythings.org/anki/fra-eng.zip'
filename = 'fra-eng.zip'
path = os.getcwd()
zipfilename = os.path.join(path, filename)
with http.request('GET', url, preload_content=False) as r, open(zipfilename, 'wb') as out_file:       
    shutil.copyfileobj(r, out_file)

with zipfile.ZipFile(zipfilename, 'r') as zip_ref:
    zip_ref.extractall(path)

In [None]:
import pandas as pd
lines= pd.read_csv('fra.txt', names=['src', 'tar', 'CC'], sep='\t')
len(lines)

177210

In [None]:
lines = lines.loc[:, 'src':'tar']
lines = lines[0:60000] # 6만개만 저장
lines.sample(10)

Unnamed: 0,src,tar
29632,I heard the message.,J'entendis le message.
59927,Are you out of your mind?,Êtes-vous fou ?
36122,I was really unlucky.,J'étais très malchanceux.
24920,I'm laying you off.,Je te licencie.
40808,Have yourself a drink.,Servez-vous un verre !
33446,You're kind of cute.,"Vous êtes mignons, dans votre genre."
49715,It'll be too late then.,Ce sera alors trop tard.
52234,Where are your parents?,Où sont tes parents ?
2138,I am better.,Je vais mieux.
42063,I like French cooking.,J'apprécie la cuisine française.


In [None]:
lines.tar = lines.tar.apply(lambda x : '\t '+ x + ' \n')
lines.sample(10)

Unnamed: 0,src,tar
35048,I bet I can prove it.,\t Je parie que je peux le prouver. \n
494,Am I late?,\t Suis-je en retard ? \n
34079,Do you need anything?,\t As-tu besoin de quoi que ce soit ? \n
10447,Go to your room.,\t Va dans ta chambre ! \n
33064,Why are we laughing?,\t Pourquoi est-ce qu'on rigole ? \n
9551,We're not done.,\t Nous n'en avons pas terminé. \n
25037,I've found the key.,\t J'ai trouvé la clé. \n
31154,Not everyone agreed.,\t Tout le monde n'était pas d'accord. \n
16270,Tell Tom to wait.,\t Dites à Tom d'attendre. \n
47251,Have you been drinking?,\t Avez-vous bu ? \n


In [None]:
# 글자 집합 구축
src_vocab=set()
for line in lines.src: # 1줄씩 읽음
    for char in line: # 1개의 글자씩 읽음
        src_vocab.add(char)

tar_vocab=set()
for line in lines.tar:
    for char in line:
        tar_vocab.add(char)

In [None]:
src_vocab_size = len(src_vocab)+1
tar_vocab_size = len(tar_vocab)+1
print(src_vocab_size)
print(tar_vocab_size)

79
105


In [None]:
src_vocab = sorted(list(src_vocab))
tar_vocab = sorted(list(tar_vocab))
print(src_vocab[45:75])
print(tar_vocab[45:75])

['W', 'X', 'Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
['U', 'V', 'W', 'X', 'Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x']


In [None]:
src_to_index = dict([(word, i+1) for i, word in enumerate(src_vocab)])
tar_to_index = dict([(word, i+1) for i, word in enumerate(tar_vocab)])
print(src_to_index)
print(tar_to_index)

{' ': 1, '!': 2, '"': 3, '$': 4, '%': 5, '&': 6, "'": 7, ',': 8, '-': 9, '.': 10, '/': 11, '0': 12, '1': 13, '2': 14, '3': 15, '4': 16, '5': 17, '6': 18, '7': 19, '8': 20, '9': 21, ':': 22, '?': 23, 'A': 24, 'B': 25, 'C': 26, 'D': 27, 'E': 28, 'F': 29, 'G': 30, 'H': 31, 'I': 32, 'J': 33, 'K': 34, 'L': 35, 'M': 36, 'N': 37, 'O': 38, 'P': 39, 'Q': 40, 'R': 41, 'S': 42, 'T': 43, 'U': 44, 'V': 45, 'W': 46, 'X': 47, 'Y': 48, 'Z': 49, 'a': 50, 'b': 51, 'c': 52, 'd': 53, 'e': 54, 'f': 55, 'g': 56, 'h': 57, 'i': 58, 'j': 59, 'k': 60, 'l': 61, 'm': 62, 'n': 63, 'o': 64, 'p': 65, 'q': 66, 'r': 67, 's': 68, 't': 69, 'u': 70, 'v': 71, 'w': 72, 'x': 73, 'y': 74, 'z': 75, 'é': 76, '’': 77, '€': 78}
{'\t': 1, '\n': 2, ' ': 3, '!': 4, '"': 5, '%': 6, '&': 7, "'": 8, '(': 9, ')': 10, ',': 11, '-': 12, '.': 13, '0': 14, '1': 15, '2': 16, '3': 17, '4': 18, '5': 19, '6': 20, '7': 21, '8': 22, '9': 23, ':': 24, '?': 25, 'A': 26, 'B': 27, 'C': 28, 'D': 29, 'E': 30, 'F': 31, 'G': 32, 'H': 33, 'I': 34, 'J': 3

기본적인 전처리를 거친 후의 데이터. 데이터는 기본적으로 세 종류가 있어야 함.  
encoder_input은 인코더의 입력을 위한 데이터.  
decoder_input은 디코더의 입력을 위한 데이터. 그렇기 때문에 시작을 의미하는 \t 토큰이 필요.  
decoder_target은 디코더의 레이블을 위한 데이터. 그렇기 때문에 종료를 의미하는 \n 토큰이 필요.

In [None]:
encoder_input = []
for line in lines.src: #입력 데이터에서 1줄씩 문장을 읽음
    temp_X = []
    for w in line: #각 줄에서 1개씩 글자를 읽음
      temp_X.append(src_to_index[w]) # 글자를 해당되는 정수로 변환
    encoder_input.append(temp_X)
print(encoder_input[:5])

[[30, 64, 10], [31, 58, 10], [31, 58, 10], [41, 70, 63, 2], [41, 70, 63, 2]]


In [None]:
decoder_input = []
for line in lines.tar:
    temp_X = []
    for w in line:
      temp_X.append(tar_to_index[w])
    decoder_input.append(temp_X)
print(decoder_input[:5])

[[1, 3, 47, 52, 3, 4, 3, 2], [1, 3, 44, 52, 63, 72, 71, 3, 4, 3, 2], [1, 3, 44, 52, 63, 72, 71, 13, 3, 2], [1, 3, 28, 66, 72, 69, 70, 104, 4, 3, 2], [1, 3, 28, 66, 72, 69, 56, 77, 104, 4, 3, 2]]


In [None]:
decoder_target = []
for line in lines.tar:
    t=0
    temp_X = []
    for w in line:
      if t>0:
        temp_X.append(tar_to_index[w])
      t=t+1
    decoder_target.append(temp_X)
print(decoder_target[:5])

[[3, 47, 52, 3, 4, 3, 2], [3, 44, 52, 63, 72, 71, 3, 4, 3, 2], [3, 44, 52, 63, 72, 71, 13, 3, 2], [3, 28, 66, 72, 69, 70, 104, 4, 3, 2], [3, 28, 66, 72, 69, 56, 77, 104, 4, 3, 2]]


In [None]:
max_src_len = max([len(line) for line in lines.src])
max_tar_len = max([len(line) for line in lines.tar])
print(max_src_len)
print(max_tar_len)

25
76


In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
encoder_input = pad_sequences(encoder_input, maxlen=max_src_len, padding='post')
decoder_input = pad_sequences(decoder_input, maxlen=max_tar_len, padding='post')
decoder_target = pad_sequences(decoder_target, maxlen=max_tar_len, padding='post')

In [None]:
from tensorflow.keras.utils import to_categorical
encoder_input = to_categorical(encoder_input)
decoder_input = to_categorical(decoder_input)
decoder_target = to_categorical(decoder_target)

인코더와 디코더 모델을 설계.  

인코더 모델은 LSTM을 사용. return_state=True이므로  
마지막 시점의 은닉 상태인 state_h와 state_c를 리턴.  

현재 return_sequences는 값을 지정해주지 않았는데, 디폴트값이 False이므로  
이 경우 encoder_outputs은 마지막 시점의 은닉상태.  

state_h와 state_c를 encoder_state에 저장해둠. 이를 컨텍스트 벡터로 사용하기 위함.  

참고 : https://wikidocs.net/106473

In [None]:
from tensorflow.keras.layers import Input, LSTM, Embedding, Dense
from tensorflow.keras.models import Model

encoder_inputs = Input(shape=(None, src_vocab_size))
encoder_lstm = LSTM(units=256, return_state=True)
encoder_outputs, state_h, state_c = encoder_lstm(encoder_inputs)
# encoder_outputs도 같이 리턴받기는 했지만 여기서는 필요없으므로 이 값은 버림.
encoder_states = [state_h, state_c]
# LSTM은 바닐라 RNN과는 달리 상태가 두 개. 바로 은닉 상태와 셀 상태.

디코더 모델 또한 LSTM을 사용. 인코더와는 달리 return_sequences가 True인데,  
이러면 모든 시점의 은닉 상태를 리턴. 이는 decoder_outputs에 저장됨.  
이를 출력층으로 통과시켜서 예측.

In [None]:
decoder_inputs = Input(shape=(None, tar_vocab_size))
decoder_lstm = LSTM(units=256, return_sequences=True, return_state=True)
decoder_outputs, _, _= decoder_lstm(decoder_inputs, initial_state=encoder_states)
# 디코더의 첫 상태를 인코더의 은닉 상태, 셀 상태로 합니다.
decoder_softmax_layer = Dense(tar_vocab_size, activation='softmax')
decoder_outputs = decoder_softmax_layer(decoder_outputs)

model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.compile(optimizer="rmsprop", loss="categorical_crossentropy")

In [None]:
model.fit(x=[encoder_input, decoder_input], y=decoder_target, batch_size=64, epochs=50, validation_split=0.2)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<tensorflow.python.keras.callbacks.History at 0x7fa06716a0b8>

학습을 다했다면 이를 테스트 과정에 사용할 차례.  

인코더는 달라진 것이 없으므로 앞서 사용한 인코더를 그대로 사용.  
하지만 디코더는 학습 단계(티처 포싱 사용)과 테스트 단계(이전 시점의 예측을 현재 시점의 입력으로 사용)의 동작 방식이 다르므로  

디코더의 구조를 변경해줄 필요가 있음.  

학습 과정과는 달리 state_h와 state_c를 버리지 않고있음을 주목.  
테스트 단계에서의 디코더의 동작 자체는 decoder_sequence()라는 함수에서 컨트롤.

In [None]:
encoder_model = Model(inputs=encoder_inputs, outputs=encoder_states)

In [None]:
# 이전 시점의 상태들을 저장하는 텐서
decoder_state_input_h = Input(shape=(256,))
decoder_state_input_c = Input(shape=(256,))
decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]
decoder_outputs, state_h, state_c = decoder_lstm(decoder_inputs, initial_state=decoder_states_inputs)
# 문장의 다음 단어를 예측하기 위해서 초기 상태(initial_state)를 이전 시점의 상태로 사용. 이는 뒤의 함수 decode_sequence()에 구현
decoder_states = [state_h, state_c]
# 훈련 과정에서와 달리 LSTM의 리턴하는 은닉 상태와 셀 상태인 state_h와 state_c를 버리지 않음.
decoder_outputs = decoder_softmax_layer(decoder_outputs)
decoder_model = Model(inputs=[decoder_inputs] + decoder_states_inputs, outputs=[decoder_outputs] + decoder_states)

In [None]:
index_to_src = dict((i, char) for char, i in src_to_index.items())
index_to_tar = dict((i, char) for char, i in tar_to_index.items())

decode_sequence는 번역을 원하는 문장을 입력받으면  
번역 문장을 출력하는 테스트 단계를 위한 함수.  

While문은 디코더의 각 시점을 컨트롤하는데 사용.  
각 루프가 디코더의 현재 시점이 됨.  

최종적으로 리턴할 decoded_sentence라는 문자열에  
지속적으로 현재 시점에 예측한 단어를 추가해나감.  
ex) I -> I like -> I like apples  

target_seq는 이전 시점의 예측 결과이면서 현재 시점의 입력인 단어에 해당되는 원-핫 벡터.

In [None]:
def decode_sequence(input_seq):
    # 입력으로부터 인코더의 상태를 얻음
    states_value = encoder_model.predict(input_seq)

    # <SOS>에 해당하는 원-핫 벡터 생성
    target_seq = np.zeros((1, 1, tar_vocab_size))
    target_seq[0, 0, tar_to_index['\t']] = 1.

    stop_condition = False
    decoded_sentence = ""

    # stop_condition이 True가 될 때까지 루프 반복
    while not stop_condition:
        # 이점 시점의 상태 states_value를 현 시점의 초기 상태로 사용
        output_tokens, h, c = decoder_model.predict([target_seq] + states_value)

        # 예측 결과를 문자로 변환
        sampled_token_index = np.argmax(output_tokens[0, -1, :])
        sampled_char = index_to_tar[sampled_token_index]

        # 현재 시점의 예측 문자를 예측 문장에 추가
        decoded_sentence += sampled_char

        # <eos>에 도달하거나 최대 길이를 넘으면 중단.
        if (sampled_char == '\n' or
           len(decoded_sentence) > max_tar_len):
            stop_condition = True

        # 현재 시점의 예측 결과를 다음 시점의 입력으로 사용하기 위해 저장
        target_seq = np.zeros((1, 1, tar_vocab_size))
        target_seq[0, 0, sampled_token_index] = 1.

        # 현재 시점의 상태를 다음 시점의 상태로 사용하기 위해 저장
        states_value = [h, c]

    return decoded_sentence

In [None]:
from nltk.translate.bleu_score import corpus_bleu

In [None]:
import numpy as np
for seq_index in [3,50,100,300,1001]: # 입력 문장의 인덱스
    input_seq = encoder_input[seq_index: seq_index + 1]
    decoded_sentence = decode_sequence(input_seq)
    print(35 * "-")
    print('입력 문장:', lines.src[seq_index])
    print('정답 문장:', lines.tar[seq_index][1:len(lines.tar[seq_index])-1]) # '\t'와 '\n'을 빼고 출력
    print('번역기가 번역한 문장:', decoded_sentence[:len(decoded_sentence)-1]) # '\n'을 빼고 출력

-----------------------------------
입력 문장: Run!
정답 문장:  Cours ! 
번역기가 번역한 문장:  Soit bien ! 
-----------------------------------
입력 문장: I lied.
정답 문장:  J'ai menti. 
번역기가 번역한 문장:  J'ai apprécié. 
-----------------------------------
입력 문장: Come in.
정답 문장:  Entre. 
번역기가 번역한 문장:  Entrez ! 
-----------------------------------
입력 문장: Hurry up.
정답 문장:  Magnez-vous ! 
번역기가 번역한 문장:  Magnez-vous ! 
-----------------------------------
입력 문장: We walked.
정답 문장:  Nous sommes allées à pied. 
번역기가 번역한 문장:  Nous l'avons tout. 


In [None]:
from nltk.translate.bleu_score import corpus_bleu, SmoothingFunction
smooth_fn = SmoothingFunction()

In [None]:
import numpy as np
actual, predicted = list(), list()

for seq_index in [3,50,100,300,1001]: # 입력 문장의 인덱스
    input_seq = encoder_input[seq_index: seq_index + 1]
    decoded_sentence = decode_sequence(input_seq)
    
    actual.append([lines.tar[seq_index][1:len(lines.tar[seq_index])-1].split()])
    predicted.append(decoded_sentence[:len(decoded_sentence)-1].split())
                  
    print(35 * "-")
    print('입력 문장:', lines.src[seq_index])
    print(lines.src[seq_index].split())
    print('정답 문장:', lines.tar[seq_index][1:len(lines.tar[seq_index])-1]) # '\t'와 '\n'을 빼고 출력
    print(lines.tar[seq_index][1:len(lines.tar[seq_index])-1].split())
    print('번역기가 번역한 문장:', decoded_sentence[:len(decoded_sentence)-1]) # '\n'을 빼고 출력
    print(decoded_sentence[:len(decoded_sentence)-1].split())
    
    #print(actual)
    #print(predicted)
    print('BLEU-1: %f' % corpus_bleu(actual, predicted, weights=(1.0, 0, 0, 0), smoothing_function = smooth_fn.method1))
    print('BLEU-2: %f' % corpus_bleu(actual, predicted, weights=(0.5, 0.5, 0, 0), smoothing_function = smooth_fn.method1))
    print('BLEU-3: %f' % corpus_bleu(actual, predicted, weights=(0.3, 0.3, 0.3, 0), smoothing_function = smooth_fn.method1))
    print('BLEU-4: %f' % corpus_bleu(actual, predicted, weights=(0.25, 0.25, 0.25, 0.25), smoothing_function = smooth_fn.method1))

-----------------------------------
입력 문장: Run!
['Run!']
정답 문장:  Cours ! 
['Cours', '!']
번역기가 번역한 문장:  Soit bien ! 
['Soit', 'bien', '!']
BLEU-1: 0.333333
BLEU-2: 0.129099
BLEU-3: 0.146742
BLEU-4: 0.113622
-----------------------------------
입력 문장: I lied.
['I', 'lied.']
정답 문장:  J'ai menti. 
["J'ai", 'menti.']
번역기가 번역한 문장:  J'ai apprécié. 
["J'ai", 'apprécié.']
BLEU-1: 0.400000
BLEU-2: 0.115470
BLEU-3: 0.111474
BLEU-4: 0.075984
-----------------------------------
입력 문장: Come in.
['Come', 'in.']
정답 문장:  Entre. 
['Entre.']
번역기가 번역한 문장:  Entrez ! 
['Entrez', '!']
BLEU-1: 0.285714
BLEU-2: 0.084515
BLEU-3: 0.081851
BLEU-4: 0.053077
-----------------------------------
입력 문장: Hurry up.
['Hurry', 'up.']
정답 문장:  Magnez-vous ! 
['Magnez-vous', '!']
번역기가 번역한 문장:  Magnez-vous ! 
['Magnez-vous', '!']
BLEU-1: 0.444444
BLEU-2: 0.298142
BLEU-3: 0.159969
BLEU-4: 0.086334
-----------------------------------
입력 문장: We walked.
['We', 'walked.']
정답 문장:  Nous sommes allées à pied. 
['Nous', 'sommes', 'allée

# 단어 레벨 챗봇 (함수형 API) - 선택적 실습

이 챗봇은 데이터를 매우 적게 학습. 더 많은 데이터를 학습할수록 일반화 능력이 높아짐.

In [None]:
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.3MB/s 
Collecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/50/49/725710351d78d26c65337b1e3b322d7b27b34b704535ab56afc0d9ab0ffd/JPype1-1.0.1-cp36-cp36m-manylinux2010_x86_64.whl (3.8MB)
[K     |████████████████████████████████| 3.8MB 47.4MB/s 
Collecting tweepy>=3.7.0
  Downloading https://files.pythonhosted.org/packages/bb/7c/99d51f80f3b77b107ebae2634108717362c059a41384a1810d13e2429a81/tweepy-3.9.0-py2.py3-none-any.whl
Collecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 10.6MB/s 
[?25hCollecting colorama
  Downloading ht

In [None]:
from tensorflow.keras import models
from tensorflow.keras import layers
from tensorflow.keras import optimizers, losses, metrics
from tensorflow.keras import preprocessing

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os
import re

from konlpy.tag import Okt

In [None]:
!wget https://raw.githubusercontent.com/songys/Chatbot_data/master/ChatbotData%20.csv

--2020-07-19 00:01:32--  https://raw.githubusercontent.com/songys/Chatbot_data/master/ChatbotData%20.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 889842 (869K) [text/plain]
Saving to: ‘ChatbotData .csv’


2020-07-19 00:01:32 (9.53 MB/s) - ‘ChatbotData .csv’ saved [889842/889842]



In [None]:
!ls

'ChatbotData .csv'   sample_data


In [None]:

# 태그 단어
PAD = "<PADDING>"   # 패딩
STA = "<START>"     # 시작
END = "<END>"       # 끝
OOV = "<OOV>"       # 없는 단어(Out of Vocabulary)

# 태그 인덱스
PAD_INDEX = 0
STA_INDEX = 1
END_INDEX = 2
OOV_INDEX = 3

# 데이터 타입
ENCODER_INPUT  = 0
DECODER_INPUT  = 1
DECODER_TARGET = 2

# 한 문장에서 단어 시퀀스의 최대 개수
max_sequences = 30

# 임베딩 벡터 차원
embedding_dim = 100

# LSTM 히든레이어 차원
lstm_hidden_dim = 128

# 정규 표현식 필터
RE_FILTER = re.compile("[.,!?\"':;~()]")

# 챗봇 데이터 로드
chatbot_data = pd.read_csv('ChatbotData .csv', encoding='utf-8')
question, answer = list(chatbot_data['Q']), list(chatbot_data['A'])

In [None]:

# 데이터 개수
len(question)

11823

In [None]:
# 데이터의 일부만 학습에 사용
question = question[:100]
answer = answer[:100]

# 챗봇 데이터 출력
for i in range(10):
    print('Q : ' + question[i])
    print('A : ' + answer[i])
    print()

Q : 12시 땡!
A : 하루가 또 가네요.

Q : 1지망 학교 떨어졌어
A : 위로해 드립니다.

Q : 3박4일 놀러가고 싶다
A : 여행은 언제나 좋죠.

Q : 3박4일 정도 놀러가고 싶다
A : 여행은 언제나 좋죠.

Q : PPL 심하네
A : 눈살이 찌푸려지죠.

Q : SD카드 망가졌어
A : 다시 새로 사는 게 마음 편해요.

Q : SD카드 안돼
A : 다시 새로 사는 게 마음 편해요.

Q : SNS 맞팔 왜 안하지ㅠㅠ
A : 잘 모르고 있을 수도 있어요.

Q : SNS 시간낭비인 거 아는데 매일 하는 중
A : 시간을 정하고 해보세요.

Q : SNS 시간낭비인데 자꾸 보게됨
A : 시간을 정하고 해보세요.



In [None]:
# 형태소분석 함수
def pos_tag(sentences):
    
    # KoNLPy 형태소분석기 설정
    tagger = Okt()
    
    # 문장 품사 변수 초기화
    sentences_pos = []
    
    # 모든 문장 반복
    for sentence in sentences:
        # 특수기호 제거
        sentence = re.sub(RE_FILTER, "", sentence)
        
        # 배열인 형태소분석의 출력을 띄어쓰기로 구분하여 붙임
        sentence = " ".join(tagger.morphs(sentence))
        sentences_pos.append(sentence)
        
    return sentences_pos

In [None]:
# 형태소분석 수행
question = pos_tag(question)
answer = pos_tag(answer)

# 형태소분석으로 변환된 챗봇 데이터 출력
for i in range(10):
    print('Q : ' + question[i])
    print('A : ' + answer[i])
    print()

Q : 12시 땡
A : 하루 가 또 가네요

Q : 1 지망 학교 떨어졌어
A : 위로 해 드립니다

Q : 3 박 4일 놀러 가고 싶다
A : 여행 은 언제나 좋죠

Q : 3 박 4일 정도 놀러 가고 싶다
A : 여행 은 언제나 좋죠

Q : PPL 심하네
A : 눈살 이 찌푸려지죠

Q : SD 카드 망가졌어
A : 다시 새로 사는 게 마음 편해요

Q : SD 카드 안 돼
A : 다시 새로 사는 게 마음 편해요

Q : SNS 맞팔 왜 안 하지 ㅠㅠ
A : 잘 모르고 있을 수도 있어요

Q : SNS 시간 낭비 인 거 아는데 매일 하는 중
A : 시간 을 정 하고 해보세요

Q : SNS 시간 낭비 인데 자꾸 보게 됨
A : 시간 을 정 하고 해보세요



In [None]:
# 질문과 대답 문장들을 하나로 합침
sentences = []
sentences.extend(question)
sentences.extend(answer)

words = []

# 단어들의 배열 생성
for sentence in sentences:
    for word in sentence.split():
        words.append(word)

# 길이가 0인 단어는 삭제
words = [word for word in words if len(word) > 0]

# 중복된 단어 삭제
words = list(set(words))

# 제일 앞에 태그 단어 삽입
words[:0] = [PAD, STA, END, OOV]

In [None]:
# 단어 개수
len(words)

454

In [None]:

# 단어 출력
words[:20]

['<PADDING>',
 '<START>',
 '<END>',
 '<OOV>',
 '입어볼까',
 '이야',
 '결정',
 '막',
 '잠깐',
 '쇼핑',
 '정도',
 '있는',
 '됨',
 '연인',
 '그게',
 '약',
 '떨리는',
 '옷',
 '1',
 '맛있게']

In [None]:

# 단어와 인덱스의 딕셔너리 생성
word_to_index = {word: index for index, word in enumerate(words)}
index_to_word = {index: word for index, word in enumerate(words)}

In [None]:
# 단어 -> 인덱스
# 문장을 인덱스로 변환하여 모델 입력으로 사용
dict(list(word_to_index.items())[:20])

{'1': 18,
 '<END>': 2,
 '<OOV>': 3,
 '<PADDING>': 0,
 '<START>': 1,
 '결정': 6,
 '그게': 14,
 '됨': 12,
 '떨리는': 16,
 '막': 7,
 '맛있게': 19,
 '쇼핑': 9,
 '약': 15,
 '연인': 13,
 '옷': 17,
 '이야': 5,
 '입어볼까': 4,
 '있는': 11,
 '잠깐': 8,
 '정도': 10}

In [None]:
# 모델의 예측 결과인 인덱스를 문장으로 변환시 사용
dict(list(index_to_word.items())[:20])

{0: '<PADDING>',
 1: '<START>',
 2: '<END>',
 3: '<OOV>',
 4: '입어볼까',
 5: '이야',
 6: '결정',
 7: '막',
 8: '잠깐',
 9: '쇼핑',
 10: '정도',
 11: '있는',
 12: '됨',
 13: '연인',
 14: '그게',
 15: '약',
 16: '떨리는',
 17: '옷',
 18: '1',
 19: '맛있게'}

In [None]:
# 문장을 인덱스로 변환
def convert_text_to_index(sentences, vocabulary, type): 
    
    sentences_index = []
    
    # 모든 문장에 대해서 반복
    for sentence in sentences:
        sentence_index = []
        
        # 디코더 입력일 경우 맨 앞에 START 태그 추가
        if type == DECODER_INPUT:
            sentence_index.extend([vocabulary[STA]])
        
        # 문장의 단어들을 띄어쓰기로 분리
        for word in sentence.split():
            if vocabulary.get(word) is not None:
                # 사전에 있는 단어면 해당 인덱스를 추가
                sentence_index.extend([vocabulary[word]])
            else:
                # 사전에 없는 단어면 OOV 인덱스를 추가
                sentence_index.extend([vocabulary[OOV]])

        # 최대 길이 검사
        if type == DECODER_TARGET:
            # 디코더 목표일 경우 맨 뒤에 END 태그 추가
            if len(sentence_index) >= max_sequences:
                sentence_index = sentence_index[:max_sequences-1] + [vocabulary[END]]
            else:
                sentence_index += [vocabulary[END]]
        else:
            if len(sentence_index) > max_sequences:
                sentence_index = sentence_index[:max_sequences]
            
        # 최대 길이에 없는 공간은 패딩 인덱스로 채움
        sentence_index += (max_sequences - len(sentence_index)) * [vocabulary[PAD]]
        
        # 문장의 인덱스 배열을 추가
        sentences_index.append(sentence_index)

    return np.asarray(sentences_index)

In [None]:
# 인코더 입력 인덱스 변환
x_encoder = convert_text_to_index(question, word_to_index, ENCODER_INPUT)

# 첫 번째 인코더 입력 출력 (12시 땡)
x_encoder[0]

array([354, 431,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0])

In [None]:
# 디코더 입력 인덱스 변환
x_decoder = convert_text_to_index(answer, word_to_index, DECODER_INPUT)

# 첫 번째 디코더 입력 출력 (START 하루 가 또 가네요)
x_decoder[0]

array([  1, 246, 262,  26, 349,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0])

In [None]:
# 디코더 목표 인덱스 변환
y_decoder = convert_text_to_index(answer, word_to_index, DECODER_TARGET)

# 첫 번째 디코더 목표 출력 (하루 가 또 가네요 END)
y_decoder[0]

array([246, 262,  26, 349,   2,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0])

In [None]:
# 원핫인코딩 초기화
one_hot_data = np.zeros((len(y_decoder), max_sequences, len(words)))

# 디코더 목표를 원핫인코딩으로 변환
# 학습시 입력은 인덱스이지만, 출력은 원핫인코딩 형식임
for i, sequence in enumerate(y_decoder):
    for j, index in enumerate(sequence):
        one_hot_data[i, j, index] = 1

# 디코더 목표 설정
y_decoder = one_hot_data

# 첫 번째 디코더 목표 출력
y_decoder[0]

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [1., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.]])

In [None]:

#--------------------------------------------
# 훈련 모델 인코더 정의
#--------------------------------------------

# 입력 문장의 인덱스 시퀀스를 입력으로 받음
encoder_inputs = layers.Input(shape=(None,))

# 임베딩 레이어
encoder_outputs = layers.Embedding(len(words), embedding_dim)(encoder_inputs)

# return_state가 True면 상태값 리턴
# LSTM은 state_h(hidden state)와 state_c(cell state) 2개의 상태 존재
encoder_outputs, state_h, state_c = layers.LSTM(lstm_hidden_dim,
                                                dropout=0.1,
                                                recurrent_dropout=0.5,
                                                return_state=True)(encoder_outputs)

# 히든 상태와 셀 상태를 하나로 묶음
encoder_states = [state_h, state_c]



#--------------------------------------------
# 훈련 모델 디코더 정의
#--------------------------------------------

# 목표 문장의 인덱스 시퀀스를 입력으로 받음
decoder_inputs = layers.Input(shape=(None,))

# 임베딩 레이어
decoder_embedding = layers.Embedding(len(words), embedding_dim)
decoder_outputs = decoder_embedding(decoder_inputs)

# 인코더와 달리 return_sequences를 True로 설정하여 모든 타임 스텝 출력값 리턴
# 모든 타임 스텝의 출력값들을 다음 레이어의 Dense()로 처리하기 위함
decoder_lstm = layers.LSTM(lstm_hidden_dim,
                           dropout=0.1,
                           recurrent_dropout=0.5,
                           return_state=True,
                           return_sequences=True)

# initial_state를 인코더의 상태로 초기화
decoder_outputs, _, _ = decoder_lstm(decoder_outputs,
                                     initial_state=encoder_states)

# 단어의 개수만큼 노드의 개수를 설정하여 원핫 형식으로 각 단어 인덱스를 출력
decoder_dense = layers.Dense(len(words), activation='softmax')
decoder_outputs = decoder_dense(decoder_outputs)



#--------------------------------------------
# 훈련 모델 정의
#--------------------------------------------

# 입력과 출력으로 함수형 API 모델 생성
model = models.Model([encoder_inputs, decoder_inputs], decoder_outputs)

# 학습 방법 설정
model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])



In [None]:
#--------------------------------------------
#  예측 모델 인코더 정의
#--------------------------------------------

# 훈련 모델의 인코더 상태를 사용하여 예측 모델 인코더 설정
encoder_model = models.Model(encoder_inputs, encoder_states)



#--------------------------------------------
# 예측 모델 디코더 정의
#--------------------------------------------

# 예측시에는 훈련시와 달리 타임 스텝을 한 단계씩 수행
# 매번 이전 디코더 상태를 입력으로 받아서 새로 설정
decoder_state_input_h = layers.Input(shape=(lstm_hidden_dim,))
decoder_state_input_c = layers.Input(shape=(lstm_hidden_dim,))
decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]    

# 임베딩 레이어
decoder_outputs = decoder_embedding(decoder_inputs)

# LSTM 레이어
decoder_outputs, state_h, state_c = decoder_lstm(decoder_outputs,
                                                 initial_state=decoder_states_inputs)

# 히든 상태와 셀 상태를 하나로 묶음
decoder_states = [state_h, state_c]

# Dense 레이어를 통해 원핫 형식으로 각 단어 인덱스를 출력
decoder_outputs = decoder_dense(decoder_outputs)

# 예측 모델 디코더 설정
decoder_model = models.Model([decoder_inputs] + decoder_states_inputs,
                      [decoder_outputs] + decoder_states)

In [None]:
# 인덱스를 문장으로 변환
def convert_index_to_text(indexs, vocabulary): 
    
    sentence = ''
    
    # 모든 문장에 대해서 반복
    for index in indexs:
        if index == END_INDEX:
            # 종료 인덱스면 중지
            break;
        if vocabulary.get(index) is not None:
            # 사전에 있는 인덱스면 해당 단어를 추가
            sentence += vocabulary[index]
        else:
            # 사전에 없는 인덱스면 OOV 단어를 추가
            sentence.extend([vocabulary[OOV_INDEX]])
            
        # 빈칸 추가
        sentence += ' '

    return sentence

In [None]:
# 에폭 반복
for epoch in range(20):
    print('Total Epoch :', epoch + 1)

    # 훈련 시작
    history = model.fit([x_encoder, x_decoder],
                        y_decoder,
                        epochs=100,
                        batch_size=64,
                        verbose=0)
    
    # 정확도와 손실 출력
    print('accuracy :', history.history['accuracy'][-1])
    print('loss :', history.history['loss'][-1])
    
    # 문장 예측 테스트
    # (3 박 4일 놀러 가고 싶다) -> (여행 은 언제나 좋죠)
    input_encoder = x_encoder[2].reshape(1, x_encoder[2].shape[0])
    input_decoder = x_decoder[2].reshape(1, x_decoder[2].shape[0])
    results = model.predict([input_encoder, input_decoder])
    
    # 결과의 원핫인코딩 형식을 인덱스로 변환
    # 1축을 기준으로 가장 높은 값의 위치를 구함
    indexs = np.argmax(results[0], 1) 
    
    # 인덱스를 문장으로 변환
    sentence = convert_index_to_text(indexs, index_to_word)
    print(sentence)
    print()

Total Epoch : 1
accuracy : 0.9266666769981384
loss : 0.35812312364578247
맛있게 은 언제나 좋죠 

Total Epoch : 2
accuracy : 0.968999981880188
loss : 0.14514704048633575
가세 은 언제나 좋죠 

Total Epoch : 3
accuracy : 0.9739999771118164
loss : 0.08765653520822525
가세 은 언제나 좋죠 

Total Epoch : 4
accuracy : 0.9783333539962769
loss : 0.06297517567873001
가세 은 언제나 좋죠 

Total Epoch : 5
accuracy : 0.9853333234786987
loss : 0.044016480445861816
가세 은 언제나 좋죠 

Total Epoch : 6
accuracy : 0.9919999837875366
loss : 0.027679210528731346
여행 은 언제나 좋죠 

Total Epoch : 7
accuracy : 0.9953333139419556
loss : 0.017140144482254982
여행 은 언제나 좋죠 

Total Epoch : 8
accuracy : 0.996999979019165
loss : 0.011556596495211124
여행 은 언제나 좋죠 

Total Epoch : 9
accuracy : 0.9990000128746033
loss : 0.005027387291193008
여행 은 언제나 좋죠 

Total Epoch : 10
accuracy : 0.999666690826416
loss : 0.0017524176510050893
여행 은 언제나 좋죠 

Total Epoch : 11
accuracy : 1.0
loss : 0.0006122245686128736
여행 은 언제나 좋죠 

Total Epoch : 12
accuracy : 0.9990000128746033
lo

In [None]:
# 예측을 위한 입력 생성
def make_predict_input(sentence):

    sentences = []
    sentences.append(sentence)
    sentences = pos_tag(sentences)
    input_seq = convert_text_to_index(sentences, word_to_index, ENCODER_INPUT)
    
    return input_seq

In [None]:
# 텍스트 생성
def generate_text(input_seq):
    
    # 입력을 인코더에 넣어 마지막 상태 구함
    states = encoder_model.predict(input_seq)

    # 목표 시퀀스 초기화
    target_seq = np.zeros((1, 1))
    
    # 목표 시퀀스의 첫 번째에 <START> 태그 추가
    target_seq[0, 0] = STA_INDEX
    
    # 인덱스 초기화
    indexs = []
    
    # 디코더 타임 스텝 반복
    while 1:
        # 디코더로 현재 타임 스텝 출력 구함
        # 처음에는 인코더 상태를, 다음부터 이전 디코더 상태로 초기화
        decoder_outputs, state_h, state_c = decoder_model.predict(
                                                [target_seq] + states)

        # 결과의 원핫인코딩 형식을 인덱스로 변환
        index = np.argmax(decoder_outputs[0, 0, :])
        indexs.append(index)
        
        # 종료 검사
        if index == END_INDEX or len(indexs) >= max_sequences:
            break

        # 목표 시퀀스를 바로 이전의 출력으로 설정
        target_seq = np.zeros((1, 1))
        target_seq[0, 0] = index
        
        # 디코더의 이전 상태를 다음 디코더 예측에 사용
        states = [state_h, state_c]

    # 인덱스를 문장으로 변환
    sentence = convert_index_to_text(indexs, index_to_word)
        
    return sentence

In [None]:
# 문장을 인덱스로 변환
input_seq = make_predict_input('3박4일 놀러가고 싶다')
input_seq

array([[372, 366, 236, 244, 412, 183,   0,   0,   0,   0,   0,   0,   0,
          0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
          0,   0,   0,   0]])

In [None]:
# 예측 모델로 텍스트 생성
sentence = generate_text(input_seq)
sentence

'여행 은 언제나 좋죠 '

In [None]:
# 문장을 인덱스로 변환
input_seq = make_predict_input('3박4일 같이 놀러가고 싶다')
input_seq

array([[372, 366, 236, 153, 244, 412, 183,   0,   0,   0,   0,   0,   0,
          0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
          0,   0,   0,   0]])

In [None]:
# 예측 모델로 텍스트 생성
sentence = generate_text(input_seq)
sentence

'여행 은 언제나 좋죠 '

# Tensorflow.Keras의 model.fit() Vs. Tensorflow Gradient Tape

케라스의 model.fit()과 Gradient Tape()를 사용한 구현의 차이를 이해.

## in Tensorflow.Keras

In [None]:
'''
# 신경망 모델 만들기
model = tf.keras.models.Sequential()
# 완전 연결층을 추가
model.add(tf.keras.layers.Dense(1))
# 옵티마이저와 손실 함수를 지정합니다.
model.compile(optimizer = 'sgd', loss = 'mse')
# 훈련 데이터를 사용하여 에포크 횟수만큼 훈련
model.fit(x_train, y_train, epochs = 10)
'''

"\n# 신경망 모델 만들기\nmodel = tf.keras.models.Sequential()\n# 완전 연결층을 추가\nmodel.add(tf.keras.layers.Dense(1))\n# 옵티마이저와 손실 함수를 지정합니다.\nmodel.compile(optimizer = 'sgd', loss = 'mse')\n# 훈련 데이터를 사용하여 에포크 횟수만큼 훈련\nmodel.fit(x_train, y_train, epochs = 10)\n"

위 코드를 조금 복잡하게 작성하면 아래와 같음.

## in Tensorflow

tape_gradient() 메서드는 자동 미분 기능을 수행.  
자동 미분에 대해서 실습을 통해 이해. 임의로 2w^2+5라는 식을 세워보고, w에 대해 미분.

In [None]:
w = tf.Variable(2.)

def f(w):
  y = w**2
  z = 2*y + 5
  return z

이제 gradients를 출력하면 w가 속한 수식을 w로 미분한 값이 저장된 것을 확인할 수 있음.

In [None]:
with tf.GradientTape() as tape:
  z = f(w)

gradients = tape.gradient(z, [w])
print(gradients)

[<tf.Tensor: shape=(), dtype=float32, numpy=8.0>]


In [None]:
'''
# 훈련할 가중치 변수를 선언
w = tf.Variable(tf.zeros(shape=(1)))
b = tf.Variable(tf.zeros(shape=(1)))

# 경사 하강법 옵티마이저 설정
optimizer = tf.optimizer.SGD(lr = 0.01)
# 에포크만큼 훈련
num_epochs = 10
for step in range(num_epochs):
   
    # 예측을 해서 손실을 구하는 과정입니다. (자동 미분을 위해 연산 과정을 기록합니다.)
    # tape_gradient() 메서드를 사용하면 그래디언트를 자동으로 계산할 수 있도록 합니다.
    with tf.GradientTape() as tape:
        z_net = w * x_train + b # 정방향 계산
        z_net = tf.reshape(z_net, [-1])
        sqr_errors = tf.square(y_train - z_net)
        mean_cost = tf.reduce_mean(sqr_errors) # 손실을 계산

    # 경사하강법으로 파라미터를 업데이트하는 과정입니다.
    # 1. 가중치에 대한 그래디언트 계산
    grads = tape.gradient(mean_cost, [w, b])

    # 2. 가중치를 업데이트
    # apply_gradients() 메서드에는 그래디언트와 가중치를 튜플로 묶은 리스트를 전달해야 합니다.
    # 보통 zip()을 주로 사용합니다.
    optimizer.apply_gradient(zip(grads, [w, b]))
'''

'\n# 훈련할 가중치 변수를 선언\nw = tf.Variable(tf.zeros(shape=(1)))\nb = tf.Variable(tf.zeros(shape=(1)))\n\n# 경사 하강법 옵티마이저 설정\noptimizer = tf.optimizer.SGD(lr = 0.01)\n# 에포크만큼 훈련\nnum_epochs = 10\nfor step in range(num_epochs):\n   \n    # 예측을 해서 손실을 구하는 과정입니다. (자동 미분을 위해 연산 과정을 기록합니다.)\n    # tape_gradient() 메서드를 사용하면 그래디언트를 자동으로 계산할 수 있도록 합니다.\n    with tf.GradientTape() as tape:\n        z_net = w * x_train + b # 정방향 계산\n        z_net = tf.reshape(z_net, [-1])\n        sqr_errors = tf.square(y_train - z_net)\n        mean_cost = tf.reduce_mean(sqr_errors) # 손실을 계산\n\n    # 경사하강법으로 파라미터를 업데이트하는 과정입니다.\n    # 1. 가중치에 대한 그래디언트 계산\n    grads = tape.gradient(mean_cost, [w, b])\n\n    # 2. 가중치를 업데이트\n    # apply_gradients() 메서드에는 그래디언트와 가중치를 튜플로 묶은 리스트를 전달해야 합니다.\n    # 보통 zip()을 주로 사용합니다.\n    optimizer.apply_gradient(zip(grads, [w, b]))\n'

# 단어 레벨 기계 번역기 (서브클래싱 구현) - 필수 실습



공식 튜토리얼 구현체 참고하기 : https://www.tensorflow.org/tutorials/text/nmt_with_attention

In [None]:
import nltk
import numpy as np
import re
import shutil
import tensorflow as tf
from tensorflow.keras.layers import Embedding, GRU, Dense
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import os
import unicodedata
import urllib3
import zipfile
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
import time

http://www.manythings.org/anki/spa-eng.zip에서는 스페인어 - 영어 번역 데이터를 제공하고 있음. 이 데이터를 가지고 토이 프로젝트로 기계 번역기를 만들기. 단, 토이프로젝트인만큼 데이터는 3만개만 사용.

In [None]:
num_samples = 30000

In [None]:
http = urllib3.PoolManager()
url ='http://www.manythings.org/anki/spa-eng.zip'
filename = 'spa-eng.zip'
path = os.getcwd()
zipfilename = os.path.join(path, filename)
with http.request('GET', url, preload_content=False) as r, open(zipfilename, 'wb') as out_file:       
    shutil.copyfileobj(r, out_file)

with zipfile.ZipFile(zipfilename, 'r') as zip_ref:
    zip_ref.extractall(path)

In [None]:
!ls

_about.txt  aclImdb_v1.tar.gz  ratings_train.txt  spa-eng.zip
aclImdb     ratings_test.txt   sample_data	  spa.txt


아래는 유니코드나 특수 문자를 제거하는 전처리 코드.

In [None]:
# Converts the unicode file to ascii
def unicode_to_ascii(s):
  return ''.join(c for c in unicodedata.normalize('NFD', s)
      if unicodedata.category(c) != 'Mn')

In [None]:
# spa-eng
def preprocess_sentence(sent):
    sent = unicode_to_ascii(sent.lower())
    sent = re.sub(r"([?.!,¿])", r" \1", sent)
    sent = re.sub(r"[^a-zA-Z!.?]+", r" ", sent)
    sent = re.sub(r"\s+", " ", sent)
    return sent

In [None]:
en_sentence = u"May I borrow this book?"
sp_sentence = u"¿Puedo tomar prestado este libro?"
print(preprocess_sentence(en_sentence))
print(preprocess_sentence(sp_sentence).encode('utf-8'))

may i borrow this book ?
b' puedo tomar prestado este libro ?'


In [None]:
def download_and_read():
    encoder_input, decoder_input, decoder_target = [], [], []

    with open("spa.txt", "r") as fin:
        for i, line in enumerate(fin):

            # source 데이터와 target 데이터 분리
            en_sent, spa_sent, _ = line.strip().split('\t')

            # source 데이터 전처리
            en_sent = [w for w in preprocess_sentence(en_sent).split()]

            # target 데이터 전처리
            spa_sent = preprocess_sentence(spa_sent)
            spa_sent_in = [w for w in ("BOS " + spa_sent).split()]
            spa_sent_out = [w for w in (spa_sent + " EOS").split()]

            encoder_input.append(en_sent)
            decoder_input.append(spa_sent_in)
            decoder_target.append(spa_sent_out)

            if i == num_samples - 1:
                break
    return encoder_input, decoder_input, decoder_target

In [None]:
sents_en_in, sents_spa_in, sents_spa_out = download_and_read()

기본적인 전처리를 거친 후의 데이터. 데이터는 기본적으로 세 종류가 있어야 함.  
sents_en_in은 인코더의 입력을 위한 데이터.  
sents_spa_in은 디코더의 입력을 위한 데이터. 그렇기 때문에 시작을 의미하는 BOS 토큰이 추가됨.  
sents_spa_out은 디코더의 레이블을 위한 데이터. 그렇기 때문에 종료를 의미하는 EOS 토큰이 추가됨.

In [None]:
print(sents_en_in[:5])
print(sents_spa_in[:5])
print(sents_spa_out[:5])

[['go', '.'], ['go', '.'], ['go', '.'], ['go', '.'], ['hi', '.']]
[['BOS', 've', '.'], ['BOS', 'vete', '.'], ['BOS', 'vaya', '.'], ['BOS', 'vayase', '.'], ['BOS', 'hola', '.']]
[['ve', '.', 'EOS'], ['vete', '.', 'EOS'], ['vaya', '.', 'EOS'], ['vayase', '.', 'EOS'], ['hola', '.', 'EOS']]


In [None]:
len(sents_en_in)

30000

In [None]:
tf.random.set_seed(42)

위 세 개의 데이터에 대해서 정수 인코딩, 패딩 과정을 거침.

In [None]:
tokenizer_en = Tokenizer(filters="", lower=False)
tokenizer_en.fit_on_texts(sents_en_in)
data_en = tokenizer_en.texts_to_sequences(sents_en_in)
data_en = pad_sequences(data_en, padding="post")

tokenizer_spa = Tokenizer(filters="", lower=False)
tokenizer_spa.fit_on_texts(sents_spa_in)
tokenizer_spa.fit_on_texts(sents_spa_out)

data_spa_in = tokenizer_spa.texts_to_sequences(sents_spa_in)
data_spa_in = pad_sequences(data_spa_in, padding="post")

data_spa_out = tokenizer_spa.texts_to_sequences(sents_spa_out)
data_spa_out = pad_sequences(data_spa_out, padding="post")

각각 데이터의 길이는 8, 14, 14.

In [None]:
print(data_en.shape)
print(data_spa_in.shape)
print(data_spa_out.shape)

(30000, 8)
(30000, 14)
(30000, 14)


In [None]:
data_dir = "./data"

In [None]:
def clean_up_logs(data_dir):
    checkpoint_dir = os.path.join(data_dir, "checkpoints")
    if os.path.exists(checkpoint_dir):
        shutil.rmtree(checkpoint_dir, ignore_errors=True)
        os.makedirs(checkpoint_dir)
    return checkpoint_dir

In [None]:
checkpoint_dir = clean_up_logs(data_dir)

영어와 스페인어에 대해서 각각 다른 토크나이저를 사용하였으므로 단어 집합도 따로 존재.  
각각의 단어 집합의 크기를 확인.

In [None]:
vocab_size_en = len(tokenizer_en.word_index) + 1
vocab_size_spa = len(tokenizer_spa.word_index) + 1
print("영어 단어 집합의 크기 (en): {:d}, 스페인어 단어 집합의 크기 (spa): {:d}".format(vocab_size_en, vocab_size_spa))

영어 단어 집합의 크기 (en): 4817, 스페인어 단어 집합의 크기 (spa): 9334


In [None]:
word2idx_en = tokenizer_en.word_index
idx2word_en = {v:k for k, v in word2idx_en.items()}

word2idx_spa = tokenizer_spa.word_index
idx2word_spa = {v:k for k, v in word2idx_spa.items()}

In [None]:
maxlen_en = data_en.shape[1]
maxlen_spa = data_spa_out.shape[1]
print("seqlen (en): {:d}, (spa): {:d}".format(maxlen_en, maxlen_spa))

seqlen (en): 8, (spa): 14


텐서플로우에는 데이터셋(dataset)이라는 개념이 있습니다. 이는 연속된 데이터 샘플을 나타냄.  
훈련 데이터를 데이터셋으로 정의하고나면, 이들을 셔플한다거나 배치 크기로 훈련 데이터와 테스트 데이터를 나누는 일을 할 수 있음  

dataset.shuffle(버퍼 크기)  
여기서 버퍼크기는 데이터를 가지고 있다가 랜덤으로 반환할 공간의 크기.  
버퍼 크기는 충분히 주는 것이 좋음.

In [None]:
batch_size = 64
test_size = num_samples // 4

dataset = tf.data.Dataset.from_tensor_slices((data_en, data_spa_in, data_spa_out))
dataset = dataset.shuffle(10000)

# take() 메서드는 전체 데이터 중 지정한 개수의 일부 데이터로만 출력을 제한한다.
# skip() 메서드는 일부 데이터를 건너뛰고 다음 데이터를 출력한다.
test_dataset = dataset.take(test_size).batch(batch_size, drop_remainder=True)
train_dataset = dataset.skip(test_size).batch(batch_size, drop_remainder=True)

지금까지는 학습을 위한 데이터셋을 준비하는 과정이었다면,  
이제부터는 모델을 설계하는 과정.  

우선 인코더.  

인코더는  
Embedding -> GRU 구조로 설계하였으며  
GRU 내부적으로 return_sequence = True, return_state = True를 사용하였으므로  

GRU는 총 두 개의 리턴값을 리턴하는데,  
output은 모든 시점의 hidden states,
state는 마지막 시점의 hidden state.  

실질적으로 모델이 동작을 정의하는 부분은 Encoder Class에서 call() 함수 내부.

In [None]:
class Encoder(tf.keras.Model):
    def __init__(self, vocab_size, num_timesteps, embedding_dim, encoder_dim):
        super(Encoder, self).__init__()#(**kwargs)
        self.encoder_dim = encoder_dim
        self.embedding = Embedding(
            vocab_size, embedding_dim, input_length = num_timesteps)
        self.gru = GRU(encoder_dim, return_sequences = False, return_state = True)

    def call(self, x, state):
        x = self.embedding(x)
        output, state = self.gru(x, initial_state=state)
        return output, state

    def init_state(self, batch_size):
        return tf.zeros((batch_size, self.encoder_dim))

디코더.  
디코더는 Embedding -> GRU -> Dense구조로 설계.  
call() 내부를 보면 GRU의 첫번째 리턴값 output인 모든 시점의 hidden state를  
Dense의 입력으로 사용하는데, 즉, 이는 모든 시점에서 Dense를 출력층으로 사용한다는 의미.

In [None]:
class Decoder(tf.keras.Model):
    def __init__(self, vocab_size, embedding_dim, num_timesteps, decoder_dim):
        super(Decoder, self).__init__()
        self.decoder_dim = decoder_dim
        self.embedding = Embedding(
            vocab_size, embedding_dim, input_length = num_timesteps)
        self.gru = GRU(decoder_dim, return_sequences = True, return_state = True)
        self.dense = Dense(vocab_size)

    def call(self, x, state):
        x = self.embedding(x)
        output, state = self.gru(x, state)
        x = self.dense(output)
        return x, state

In [None]:
# check encoder/decoder dimensions
embedding_dim = 256
encoder_dim, decoder_dim = 1024, 1024

위에서 선언한 클래스를 이용하여 인코더와 디코더를 선언.  
각각 encoder와 decoder란 이름으로 선언했는데,  
이제 encoder(), decoder()를 호출하면 자동으로 내부의 call() 함수가 호출되는 방식.

In [None]:
encoder = Encoder(vocab_size_en, embedding_dim, maxlen_en, encoder_dim)
decoder = Decoder(vocab_size_spa, embedding_dim, maxlen_spa, decoder_dim)

옵티마이저로는 SparseCategoricalCrossentropy를 사용.

In [None]:
optimizer = tf.keras.optimizers.Adam()
loss_object = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)

def loss_fn(ytrue, ypred):
    mask = tf.math.logical_not(tf.math.equal(ytrue, 0))
    mask = tf.cast(mask, dtype=tf.int64)
    loss = loss_object(ytrue, ypred, sample_weight=mask)
    return loss

tf.GradientTape()를 사용하여 학습.  
서브클래싱으로 구현한 encoder와 decoder에 대해서 .trainable_variables를 하면 학습가능한 모든 파라미터들이 리턴됨.  

이에 대해서 tape.gradient를 이용해 loss 함수에 대해서 미분하고,
apply_gradients를 이용하여 모든 파라미터들을 업데이트.

In [None]:
@tf.function
def train_step(encoder_in, decoder_in, decoder_out, encoder_state):

    # tf.GradeintTape() 안에서 배치 하나를 위한 예측을 만들고 손실을 계산합니다.
    with tf.GradientTape() as tape:
        encoder_out, encoder_state = encoder(encoder_in, encoder_state)
        decoder_state = encoder_state
        decoder_pred, decoder_state = decoder(decoder_in, decoder_state)
        loss = loss_fn(decoder_out, decoder_pred)
    
    # 모든 훈련 가능한 변수에 대해서
    variables = encoder.trainable_variables + decoder.trainable_variables

    # 경사하강법을 수행하여 변수를 업데이트 합니다.
    gradients = tape.gradient(loss, variables)
    optimizer.apply_gradients(zip(gradients, variables))
    return loss

아래는 예측을 위한 함수.  

while True부터가 디코더가 매 스텝마다 예측을 하는 과정.  

1. 현재 시점에 대해서 예측을 하는 부분  
        decoder_pred, decoder_state = decoder(decoder_in, decoder_state)  
        decoder_pred = tf.argmax(decoder_pred, axis=-1)  

2. 예측한 정수 인덱스값을 실제 단어로 바꾸는 부분 ex) 35 -> apples  
        pred_word = idx2word_spa[decoder_pred.numpy()[0][0]]

3. 현재 시점에서 예측한 단어를 번역 결과 문장에 업데이트 하는 부분  
   ex) I like 라는 지금까지 번역한 문장이 있었는데 현재 시점에서 apples를 예측했다면 I like apples로 업데이트 됨.  
        pred_sent_spa.append(pred_word)  

4. 현재 예측한 단어가 'EOS'라면 예측을 종료  
        if pred_word == "EOS":
            break  

5. 현재 시점의 예측 단어를 다음 시점의 입력으로 사용  
        decoder_in = decoder_pred


In [None]:
def predict(encoder, decoder, batch_size, 
        sents_en_in, data_en, sents_spa_out, 
        word2idx_spa, idx2word_spa):

    # 랜덤 인덱스 선택
    random_id = np.random.choice(len(sents_en_in))
    print("input    : ",  " ".join(sents_en_in[random_id]))
    print("label    : ", " ".join(sents_spa_out[random_id]))

    encoder_in = tf.expand_dims(data_en[random_id], axis=0)
    decoder_out = tf.expand_dims(sents_spa_out[random_id], axis=0)

    encoder_state = encoder.init_state(1)
    encoder_out, encoder_state = encoder(encoder_in, encoder_state)
    decoder_state = encoder_state

    # 입력 문장에 대해서 시작 토큰 추가
    decoder_in = tf.expand_dims(
        tf.constant([word2idx_spa["BOS"]]), axis=0)
    
    pred_sent_spa = []

    while True:
        decoder_pred, decoder_state = decoder(decoder_in, decoder_state)
        decoder_pred = tf.argmax(decoder_pred, axis=-1)
        
        pred_word = idx2word_spa[decoder_pred.numpy()[0][0]]
        pred_sent_spa.append(pred_word)
        if pred_word == "EOS":
            break
        decoder_in = decoder_pred
    
    print("predicted: ", " ".join(pred_sent_spa))

In [None]:
def evaluate_bleu_score(encoder, decoder, test_dataset, 
        word2idx_spa, idx2word_spa):

    bleu_scores = []
    smooth_fn = SmoothingFunction()
    for encoder_in, decoder_in, decoder_out in test_dataset:
        encoder_state = encoder.init_state(batch_size)
        encoder_out, encoder_state = encoder(encoder_in, encoder_state)
        decoder_state = encoder_state
        decoder_pred, decoder_state = decoder(decoder_in, decoder_state)

        # compute argmax
        decoder_out = decoder_out.numpy()
        decoder_pred = tf.argmax(decoder_pred, axis=-1).numpy()

        for i in range(decoder_out.shape[0]):
            ref_sent = [idx2word_spa[j] for j in decoder_out[i].tolist() if j > 0]
            hyp_sent = [idx2word_spa[j] for j in decoder_pred[i].tolist() if j > 0]
            # remove trailing EOS
            ref_sent = ref_sent[0:-1]
            hyp_sent = hyp_sent[0:-1]
            bleu_score = sentence_bleu([ref_sent], hyp_sent, 
                smoothing_function=smooth_fn.method1)
            bleu_scores.append(bleu_score)

    return np.mean(np.array(bleu_scores))

In [None]:
checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt")
checkpoint = tf.train.Checkpoint(optimizer=optimizer,
                                 encoder=encoder,
                                 decoder=decoder)

epochs = 30
eval_scores = []

for epoch in range(epochs):
    start = time.time()
    encoder_state = encoder.init_state(batch_size)

    for batch, data in enumerate(train_dataset):
        encoder_in, decoder_in, decoder_out = data
        # print(encoder_in.shape, decoder_in.shape, decoder_out.shape)
        loss = train_step(
            encoder_in, decoder_in, decoder_out, encoder_state)
    
    print("Epoch: {}, Loss: {:.4f}".format(epoch + 1, loss.numpy()))

    if epoch % 10 == 0:
        checkpoint.save(file_prefix = checkpoint_prefix)
    
    predict(encoder, decoder, batch_size, sents_en_in, data_en,
        sents_spa_out, word2idx_spa, idx2word_spa)

    eval_score = evaluate_bleu_score(encoder, decoder, test_dataset, word2idx_spa, idx2word_spa)
    print("Eval Score (BLEU): {:.3e}".format(eval_score))
    # eval_scores.append(eval_score)
    print('Time taken for 1 epoch {} sec\n'.format(time.time() - start))

checkpoint.save(file_prefix=checkpoint_prefix)

Epoch: 1, Loss: 1.5690
input    :  it s time .
label    :  ha llegado el momento . EOS
predicted:  no puedo dejar . EOS
Eval Score (BLEU): 1.720e-02
Time taken for 1 epoch 22.669869422912598 sec

Epoch: 2, Loss: 1.2758
input    :  stay positive .
label    :  se positivo . EOS
predicted:  ven a la policia . EOS
Eval Score (BLEU): 2.134e-02
Time taken for 1 epoch 17.747346878051758 sec

Epoch: 3, Loss: 1.0407
input    :  give me back my bag .
label    :  devuelveme mi mochila . EOS
predicted:  devuelveme mi dinero . EOS
Eval Score (BLEU): 2.518e-02
Time taken for 1 epoch 17.70408797264099 sec

Epoch: 4, Loss: 0.9035
input    :  she tried it herself .
label    :  ella misma lo intento . EOS
predicted:  ella le demando . EOS
Eval Score (BLEU): 2.763e-02
Time taken for 1 epoch 17.533161163330078 sec

Epoch: 5, Loss: 0.7442
input    :  you look worn out .
label    :  te ves extenuado . EOS
predicted:  pareces estresado . EOS
Eval Score (BLEU): 3.340e-02
Time taken for 1 epoch 17.657293081283

KeyboardInterrupt: ignored

# Seq2Seq의 다양한 구현들 - 선택적 실습

In [None]:
from datetime import date

# cannot use strftime()'s %B format since it depends on the locale
MONTHS = ["January", "February", "March", "April", "May", "June",
          "July", "August", "September", "October", "November", "December"]

def random_dates(n_dates):
    min_date = date(1000, 1, 1).toordinal()
    max_date = date(9999, 12, 31).toordinal()

    ordinals = np.random.randint(max_date - min_date, size=n_dates) + min_date
    dates = [date.fromordinal(ordinal) for ordinal in ordinals]

    x = [MONTHS[dt.month - 1] + " " + dt.strftime("%d, %Y") for dt in dates]
    y = [dt.isoformat() for dt in dates]
    return x, y

In [None]:
np.random.seed(42)

n_dates = 3
x_example, y_example = random_dates(n_dates)
print("{:25s}{:25s}".format("Input", "Target"))
print("-" * 50)
for idx in range(n_dates):
    print("{:25s}{:25s}".format(x_example[idx], y_example[idx]))

Input                    Target                   
--------------------------------------------------
September 20, 7075       7075-09-20               
May 15, 8579             8579-05-15               
January 11, 7103         7103-01-11               


In [None]:
INPUT_CHARS = "".join(sorted(set("".join(MONTHS)))) + "01234567890, "
INPUT_CHARS

'ADFJMNOSabceghilmnoprstuvy01234567890, '

In [None]:
OUTPUT_CHARS = "0123456789-"

In [None]:
def date_str_to_ids(date_str, chars=INPUT_CHARS):
    return [chars.index(c) for c in date_str]

In [None]:
date_str_to_ids(x_example[0], INPUT_CHARS)

[7, 11, 19, 22, 11, 16, 9, 11, 20, 38, 28, 26, 37, 38, 33, 26, 33, 31]

In [None]:
date_str_to_ids(y_example[0], OUTPUT_CHARS)

[7, 0, 7, 5, 10, 0, 9, 10, 2, 0]

In [None]:
def prepare_date_strs(date_strs, chars=INPUT_CHARS):
    X_ids = [date_str_to_ids(dt, chars) for dt in date_strs]
    X = tf.ragged.constant(X_ids, ragged_rank=1)
    return (X + 1).to_tensor() # using 0 as the padding token ID

def create_dataset(n_dates):
    x, y = random_dates(n_dates)
    return prepare_date_strs(x, INPUT_CHARS), prepare_date_strs(y, OUTPUT_CHARS)

In [None]:
np.random.seed(42)

X_train, Y_train = create_dataset(10000)
X_valid, Y_valid = create_dataset(2000)
X_test, Y_test = create_dataset(2000)

In [None]:
print(X_train[0])
print(Y_train[0])

tf.Tensor([ 8 12 20 23 12 17 10 12 21 39 29 27 38 39 34 27 34 32], shape=(18,), dtype=int32)
tf.Tensor([ 8  1  8  6 11  1 10 11  3  1], shape=(10,), dtype=int32)


In [None]:
from tensorflow import keras

## RepeatVector를 이용한 간단한 seq2seq

In [None]:
embedding_size = 32
max_output_length = Y_train.shape[1]

np.random.seed(42)
tf.random.set_seed(42)

encoder = keras.models.Sequential([
    keras.layers.Embedding(input_dim=len(INPUT_CHARS) + 1,
                           output_dim=embedding_size,
                           input_shape=[None]),
    keras.layers.LSTM(128)
])

decoder = keras.models.Sequential([
    keras.layers.LSTM(128, return_sequences=True),
    keras.layers.Dense(len(OUTPUT_CHARS) + 1, activation="softmax")
])

model = keras.models.Sequential([
    encoder,
    keras.layers.RepeatVector(max_output_length),
    decoder
])

optimizer = keras.optimizers.Nadam()
model.compile(loss="sparse_categorical_crossentropy", optimizer=optimizer,
              metrics=["accuracy"])
history = model.fit(X_train, Y_train, epochs=20,
                    validation_data=(X_valid, Y_valid))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [None]:
def ids_to_date_strs(ids, chars=OUTPUT_CHARS):
    return ["".join([("?" + chars)[index] for index in sequence])
            for sequence in ids]

In [None]:
X_new = prepare_date_strs(["September 17, 2009", "July 14, 1789"])

In [None]:
ids = model.predict_classes(X_new)
for date_str in ids_to_date_strs(ids):
    print(date_str)

Instructions for updating:
Please use instead:* `np.argmax(model.predict(x), axis=-1)`,   if your model does multi-class classification   (e.g. if it uses a `softmax` last-layer activation).* `(model.predict(x) > 0.5).astype("int32")`,   if your model does binary classification   (e.g. if it uses a `sigmoid` last-layer activation).


Instructions for updating:
Please use instead:* `np.argmax(model.predict(x), axis=-1)`,   if your model does multi-class classification   (e.g. if it uses a `softmax` last-layer activation).* `(model.predict(x) > 0.5).astype("int32")`,   if your model does binary classification   (e.g. if it uses a `sigmoid` last-layer activation).


2009-09-17
1789-07-14


In [None]:
X_new = prepare_date_strs(["May 02, 2020", "July 14, 1789"])

In [None]:
ids = model.predict_classes(X_new)
for date_str in ids_to_date_strs(ids):
    print(date_str)

2020-02-02
1789-02-14


In [None]:
max_input_length = X_train.shape[1]

def prepare_date_strs_padded(date_strs):
    X = prepare_date_strs(date_strs)
    if X.shape[1] < max_input_length:
        X = tf.pad(X, [[0, 0], [0, max_input_length - X.shape[1]]])
    return X

def convert_date_strs(date_strs):
    X = prepare_date_strs_padded(date_strs)
    ids = model.predict_classes(X)
    return ids_to_date_strs(ids)

In [None]:
convert_date_strs(["May 02, 2020", "July 14, 1789"])

['2020-05-02', '1789-07-14']

## 교사 강요를 사용한 seq2seq

In [None]:
sos_id = len(OUTPUT_CHARS) + 1

def shifted_output_sequences(Y):
    sos_tokens = tf.fill(dims=(len(Y), 1), value=sos_id)
    return tf.concat([sos_tokens, Y[:, :-1]], axis=1)

X_train_decoder = shifted_output_sequences(Y_train)
X_valid_decoder = shifted_output_sequences(Y_valid)
X_test_decoder = shifted_output_sequences(Y_test)

In [None]:
X_train_decoder

<tf.Tensor: shape=(10000, 10), dtype=int32, numpy=
array([[12,  8,  1, ..., 10, 11,  3],
       [12,  9,  6, ...,  6, 11,  2],
       [12,  8,  2, ...,  2, 11,  2],
       ...,
       [12, 10,  8, ...,  2, 11,  4],
       [12,  2,  2, ...,  3, 11,  3],
       [12,  8,  9, ...,  8, 11,  3]], dtype=int32)>

In [None]:
encoder_embedding_size = 32
decoder_embedding_size = 32
lstm_units = 128

np.random.seed(42)
tf.random.set_seed(42)

encoder_input = keras.layers.Input(shape=[None], dtype=tf.int32)
encoder_embedding = keras.layers.Embedding(
    input_dim=len(INPUT_CHARS) + 1,
    output_dim=encoder_embedding_size)(encoder_input)
_, encoder_state_h, encoder_state_c = keras.layers.LSTM(
    lstm_units, return_state=True)(encoder_embedding)
encoder_state = [encoder_state_h, encoder_state_c]

decoder_input = keras.layers.Input(shape=[None], dtype=tf.int32)
decoder_embedding = keras.layers.Embedding(
    input_dim=len(OUTPUT_CHARS) + 2,
    output_dim=decoder_embedding_size)(decoder_input)
decoder_lstm_output = keras.layers.LSTM(lstm_units, return_sequences=True)(
    decoder_embedding, initial_state=encoder_state)
decoder_output = keras.layers.Dense(len(OUTPUT_CHARS) + 1,
                                    activation="softmax")(decoder_lstm_output)

model = keras.models.Model(inputs=[encoder_input, decoder_input],
                           outputs=[decoder_output])

optimizer = keras.optimizers.Nadam()
model.compile(loss="sparse_categorical_crossentropy", optimizer=optimizer,
              metrics=["accuracy"])
history = model.fit([X_train, X_train_decoder], Y_train, epochs=10,
                    validation_data=([X_valid, X_valid_decoder], Y_valid))

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [None]:
sos_id = len(OUTPUT_CHARS) + 1

def predict_date_strs(date_strs):
    X = prepare_date_strs_padded(date_strs)
    Y_pred = tf.fill(dims=(len(X), 1), value=sos_id)
    for index in range(max_output_length):
        pad_size = max_output_length - Y_pred.shape[1]
        X_decoder = tf.pad(Y_pred, [[0, 0], [0, pad_size]])
        Y_probas_next = model.predict([X, X_decoder])[:, index:index+1]
        Y_pred_next = tf.argmax(Y_probas_next, axis=-1, output_type=tf.int32)
        Y_pred = tf.concat([Y_pred, Y_pred_next], axis=1)
    return ids_to_date_strs(Y_pred[:, 1:])

In [None]:
predict_date_strs(["July 14, 1789", "May 01, 2020"])

['1789-07-14', '2020-05-01']

## Tensorflow addon으로 만든 seq2seq

텐서플로우 애드온 프로젝트는 여러가지 seq2seq 도구를 포함하고 있어 제품 수준의 seq2seq를 쉽게 만들 수 있음.  
우선 인코더의 LSTM에서 return_state=True를 사용한 이후는 디코더에 hidden state를 전달하기 위함.  
LSTM을 사용하므로 cell state, hidden state 두 개를 반환.  

TrainingSampler는 텐서플로우 애드온에 포함되어져 있는 여러 샘플러 중 하나.  
이 샘플러는 각 스텝에서 디코더에게 이전 스텝의 출력이 무엇이었는지 알려줌.  
훈련 시에는 이전 타깃 토큰의 임베딩,  
테스트 시에는 실제로 출력되는 토큰의 임베딩.

In [None]:
import tensorflow_addons as tfa

np.random.seed(42)
tf.random.set_seed(42)

encoder_embedding_size = 32
decoder_embedding_size = 32
units = 128

encoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32)
decoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32)
sequence_lengths = keras.layers.Input(shape=[], dtype=np.int32)

encoder_embeddings = keras.layers.Embedding(
    len(INPUT_CHARS) + 1, encoder_embedding_size)(encoder_inputs)

decoder_embedding_layer = keras.layers.Embedding(
    len(INPUT_CHARS) + 2, decoder_embedding_size)
decoder_embeddings = decoder_embedding_layer(decoder_inputs)

encoder = keras.layers.LSTM(units, return_state=True)
encoder_outputs, state_h, state_c = encoder(encoder_embeddings)
encoder_state = [state_h, state_c]

sampler = tfa.seq2seq.sampler.TrainingSampler()

decoder_cell = keras.layers.LSTMCell(units)
output_layer = keras.layers.Dense(len(OUTPUT_CHARS) + 1)

decoder = tfa.seq2seq.basic_decoder.BasicDecoder(decoder_cell,
                                                 sampler,
                                                 output_layer=output_layer)
final_outputs, final_state, final_sequence_lengths = decoder(
    decoder_embeddings,
    initial_state=encoder_state)
Y_proba = keras.layers.Activation("softmax")(final_outputs.rnn_output)

model = keras.models.Model(inputs=[encoder_inputs, decoder_inputs],
                           outputs=[Y_proba])
optimizer = keras.optimizers.Nadam()
model.compile(loss="sparse_categorical_crossentropy", optimizer=optimizer,
              metrics=["accuracy"])
history = model.fit([X_train, X_train_decoder], Y_train, epochs=15,
                    validation_data=([X_valid, X_valid_decoder], Y_valid))

Epoch 1/15
Epoch 2/15
Epoch 3/15
Epoch 4/15
Epoch 5/15
Epoch 6/15
Epoch 7/15
Epoch 8/15
Epoch 9/15
Epoch 10/15
Epoch 11/15
Epoch 12/15
Epoch 13/15
Epoch 14/15
Epoch 15/15


In [None]:
predict_date_strs(["July 14, 1789", "May 01, 2020"])

['1789-07-14', '2020-05-01']

In [None]:
inference_sampler = tfa.seq2seq.sampler.GreedyEmbeddingSampler(
    embedding_fn=decoder_embedding_layer)
inference_decoder = tfa.seq2seq.basic_decoder.BasicDecoder(
    decoder_cell, inference_sampler, output_layer=output_layer,
    maximum_iterations=max_output_length)
batch_size = tf.shape(encoder_inputs)[:1]
start_tokens = tf.fill(dims=batch_size, value=sos_id)
final_outputs, final_state, final_sequence_lengths = inference_decoder(
    start_tokens,
    initial_state=encoder_state,
    start_tokens=start_tokens,
    end_token=0)

inference_model = keras.models.Model(inputs=[encoder_inputs],
                                     outputs=[final_outputs.sample_id])

In [None]:
def fast_predict_date_strs(date_strs):
    X = prepare_date_strs_padded(date_strs)
    Y_pred = inference_model.predict(X)
    return ids_to_date_strs(Y_pred)

In [None]:
fast_predict_date_strs(["July 14, 1789", "May 01, 2020"])

['1789-07-14', '2020-05-01']

In [None]:
%timeit predict_date_strs(["July 14, 1789", "May 01, 2020"])

1 loop, best of 3: 454 ms per loop


In [None]:
%timeit fast_predict_date_strs(["July 14, 1789", "May 01, 2020"])

10 loops, best of 3: 44.8 ms per loop


# Greedy Search Vs. Beam Search - 선택적 실습

In [None]:
from math import log
from numpy import array
from numpy import argmax

In [None]:
# 단어 집합의 크기가 5.
# 길이 10까지의 시퀀스가 예측된 상태라고 하였을 때, 확률 분포를 통해 각 단어를 예측한다고 해보자.

data = [[0.1, 0.2, 0.3, 0.4, 0.5],
		[0.5, 0.4, 0.3, 0.2, 0.1],
		[0.1, 0.2, 0.3, 0.4, 0.5],
		[0.5, 0.4, 0.3, 0.2, 0.1],
		[0.1, 0.2, 0.3, 0.4, 0.5],
		[0.5, 0.4, 0.3, 0.2, 0.1],
		[0.1, 0.2, 0.3, 0.4, 0.5],
		[0.5, 0.4, 0.3, 0.2, 0.1],
		[0.1, 0.2, 0.3, 0.4, 0.5],
		[0.5, 0.4, 0.3, 0.2, 0.1]]
    
data = array(data)

## Greedy Search

In [None]:
# 그리디 디코더는 가장 확률이 높은 인덱스를 리턴한다.
def greedy_decoder(data):
	return [argmax(s) for s in data]

In [None]:
result = greedy_decoder(data)
print(result)

[4, 0, 4, 0, 4, 0, 4, 0, 4, 0]


## Beam Search

주어진 확률 시퀀스와 빔 크기 k에 대해 빔 탐색을 수행하는 함수를 작성한다.  

- 각 후보 시퀀스는 가능한한 모든 다음 스텝들에 대해 확장된다.  
- 각 후보는 확률을 곱함으로써 점수가 매겨진다.  
- 가장 확률이 높은 k 시퀀스가 선택되고, 다른 모든 후보들은 제거된다.  
- 위 절차들을 시퀀스가 끝날때까지 반복한다.  

In [None]:
# beam search
def beam_search_decoder(data, k):
	sequences = [[list(), 0.0]]
	# walk over each step in sequence
	for row in data:
		all_candidates = list()
		# expand each current candidate
		for i in range(len(sequences)):
			seq, score = sequences[i]
			for j in range(len(row)):
				candidate = [seq + [j], score - log(row[j])]
				all_candidates.append(candidate)
		# order all candidates by score
		ordered = sorted(all_candidates, key=lambda tup:tup[1])
		# select k best
		sequences = ordered[:k]
	return sequences

In [None]:
result = beam_search_decoder(data, 3)

for seq in result:
  print(seq)

[[4, 0, 4, 0, 4, 0, 4, 0, 4, 0], 6.931471805599453]
[[4, 0, 4, 0, 4, 0, 4, 0, 4, 1], 7.154615356913663]
[[4, 0, 4, 0, 4, 0, 4, 0, 3, 0], 7.154615356913663]
