### 라이브러리 사용
---
glob와 os는 데이터를 읽어오기 위한 목적입니다.\
re는 정규식을 이용하여 문자열 수정을 하기 위함입니다.\
tensorflow는 토큰화 및 문장 생성을 위함입니다.\
train_test_split은 학습용 자료와 시험용 자료를 나누기 위함입니다.

In [413]:
import glob
import os
import re
import tensorflow as tf
from sklearn.model_selection import train_test_split

### 데이터 읽어보기
---
4-7의 방법대로 모든 텍스트를 읽어온 후 문장단위로 리스트에 저장했습니다.\
변경사항은 없습니다.

In [382]:


txt_file_path = os.getenv('HOME')+'/aiffel/lyricist/data/lyrics/*'

txt_list = glob.glob(txt_file_path)

raw_corpus = []

# 여러개의 txt 파일을 모두 읽어서 raw_corpus 에 담습니다.
for txt_file in txt_list:
    with open(txt_file, "r") as f:
        raw = f.read().splitlines()
        raw_corpus.extend(raw)

print("데이터 크기:", len(raw_corpus))
print("Examples:\n", raw_corpus[:150])

데이터 크기: 187088
Examples:
 [' There must be some kind of way outta here', 'Said the joker to the thief', "There's too much confusion", "I can't get no relief Business men, they drink my wine", 'Plowman dig my earth', 'None were level on the mind', 'Nobody up at his word', 'Hey, hey No reason to get excited', 'The thief he kindly spoke', 'There are many here among us', 'Who feel that life is but a joke', "But, uh, but you and I, we've been through that", 'And this is not our fate', "So let us stop talkin' falsely now", "The hour's getting late, hey All along the watchtower", 'Princes kept the view', 'While all the women came and went', 'Barefoot servants, too', 'Outside in the cold distance', 'A wildcat did growl', 'Two riders were approaching', 'And the wind began to howl [Intro]', 'Hey Joe', 'Where you going with that gun in your hand?', 'Hey Joe', 'I said where you going with that gun in your hand? [Verse 1]', "I'm going down to shoot my old lady", 'You know, I caught her messing arou

### 문장 정제
---
기존의 인공지능 대본 제작기의 문장 정제용 함수를 그대로 갖고왔으나,\
텍스트 확인 결과 어퍼스트로피(apostrophe)가 누락되는 결과를 발견하여\
네번째 sentence 선언부에 어퍼스트로피를 공백으로 치환되지 않도록 했습니다.

In [383]:
def preprocess_sentence(sentence):
    sentence = sentence.lower().strip() # 1
    sentence = re.sub(r"([?.!,¿])", r" \1 ", sentence) # 2
    sentence = re.sub(r'[" "]+', " ", sentence) # 3
    sentence = re.sub(r"[^a-zA-Z?.!,¿,']+", " ", sentence) # 4
    sentence = sentence.strip() # 5
    sentence = '<start> ' + sentence + ' <end>' # 6
    return sentence

# 이 문장이 어떻게 필터링되는지 확인해 보세요.
print(preprocess_sentence("This @_is ;;;sample        sentence."))

<start> this is sample sentence . <end>


### 토큰 갯수 제한
---
토큰화 했을 때 토큰의 개수가 15개를 넘는 문장을 제외하기위해 조건문을 추가했습니다.\
공백의 개수를 세어 조건을 설정했습니다.\
다만 다양한 시도를 했음에도 실습란에 있던 정확한 숫자를 맞추는데는 실패했습니다.\
왜 숫자를 맞출 수 없었는지에 대해서는 아직도 궁금하게 생각합니다.

In [384]:
# 여기에 정제된 문장을 모을겁니다
corpus = []

for sentence in raw_corpus:
    # 우리가 원하지 않는 문장은 건너뜁니다
    if len(sentence) == 0: continue
#     if len(sentence) > 17: continue
#     if sentence[-1] == ":": print(sentence)
#     if sentence.count(' ') > 14: continue
    
    # 정제를 하고 담아주세요
    preprocessed_sentence = preprocess_sentence(sentence)
    if 1 < preprocessed_sentence.count(' ') < 15:
        corpus.append(preprocessed_sentence)
        
# 정제된 결과를 10개만 확인해보죠
corpus[:300]
# corpus[3].count(' ')
# corpus[3]
# corpus[:15]
# print(corpus[0])
# print(len(corpus[0]))
# print(len(corpus))

['<start> there must be some kind of way outta here <end>',
 '<start> said the joker to the thief <end>',
 "<start> there's too much confusion <end>",
 "<start> i can't get no relief business men , they drink my wine <end>",
 '<start> plowman dig my earth <end>',
 '<start> none were level on the mind <end>',
 '<start> nobody up at his word <end>',
 '<start> hey , hey no reason to get excited <end>',
 '<start> the thief he kindly spoke <end>',
 '<start> there are many here among us <end>',
 '<start> who feel that life is but a joke <end>',
 "<start> but , uh , but you and i , we've been through that <end>",
 '<start> and this is not our fate <end>',
 "<start> so let us stop talkin' falsely now <end>",
 "<start> the hour's getting late , hey all along the watchtower <end>",
 '<start> princes kept the view <end>',
 '<start> while all the women came and went <end>',
 '<start> barefoot servants , too <end>',
 '<start> outside in the cold distance <end>',
 '<start> a wildcat did growl <end>'

### 토큰 함수 제작
---
단어장의 크기를 12000이상이라고 정해줬기에 num_words를 12000으로 수정했고,\
문장 정제를 전부 거쳤기에 실습예제의 코드를 그대로 썼습니다.


In [385]:
def tokenize(corpus):
    tokenizer = tf.keras.preprocessing.text.Tokenizer(
        num_words=12000, 
        filters=' ',
        oov_token="<unk>"
    )
    tokenizer.fit_on_texts(corpus)
    tensor = tokenizer.texts_to_sequences(corpus)   
    tensor = tf.keras.preprocessing.sequence.pad_sequences(tensor, padding='post')  
    
    return tensor, tokenizer

tensor, tokenizer = tokenize(corpus)

### 토큰 확인
---
실습과 같이 토큰에 해당하는 단어들을 확인했습니다.

In [386]:
for idx in tokenizer.index_word:
    print(idx, ":", tokenizer.index_word[idx])

    if idx >= 10: break

1 : <unk>
2 : <start>
3 : <end>
4 : ,
5 : the
6 : i
7 : you
8 : and
9 : a
10 : to


### source와 target 자료 생성
---
실습예제와 같이 모델에 들어갈 source자료와 target자료를 생성했고, 이 중 첫 번째 자료를 출력했습니다.

In [387]:
src_input = tensor[:, :-1]
# tensor에서 <start>를 잘라내서 타겟 문장을 생성합니다.
tgt_input = tensor[:, 1:]    

print(src_input[0])
print(tgt_input[0])

[  2  84 285  25  91 534  18  83 772  92   3   0   0   0]
[ 84 285  25  91 534  18  83 772  92   3   0   0   0   0]


### 학습자료와 시험자료의 분배
---
과제에서 요구한 대로 학습자료와 시험자료를 8:2의 비율로 나눴습니다.

In [388]:
enc_train, enc_val, dec_train, dec_val = train_test_split(src_input,
                                                          tgt_input,
                                                    test_size=0.2, 
                                                    random_state=12)

### 자료 분배 결과
---
자료분배결과는 4-7과 달랐으며, 맞출 수 없었습니다. 따라서 토큰 길이를 맞추기만 했습니다.

In [389]:
print("Source Train:", enc_train.shape)
print("Target Train:", dec_train.shape)

Source Train: (127099, 14)
Target Train: (127099, 14)


### 모델 hyperparameter 입력
---
모델 생성을 위한 hyperparameter를 입력했습니다.\
batch_size가 원래 256이었는데, 느리다고 생각해서 1024로 수정했지만 딱히 빨라지지는 않았습니다.

In [397]:
BUFFER_SIZE = len(src_input)
BATCH_SIZE = 1024
steps_per_epoch = len(src_input) // BATCH_SIZE

VOCAB_SIZE = tokenizer.num_words + 1   

# https://www.tensorflow.org/api_docs/python/tf/data/Dataset
dataset = tf.data.Dataset.from_tensor_slices((src_input, tgt_input))
dataset = dataset.shuffle(BUFFER_SIZE)
dataset = dataset.batch(BATCH_SIZE, drop_remainder=True)
# dataset
print(steps_per_epoch)

155


### 모델 생성
---
모델을 생성했습니다. embedding_size가 단어벡터 차원수라고 하는데 왜 256인지는 아직 이해가 가진 않습니다.\
그저 모델이 단어를 구분하는 추상적인 특징수를 지정한 것이 아닌가 생각하고 있습니다.

In [398]:
class TextGenerator(tf.keras.Model):
    def __init__(self, vocab_size, embedding_size, hidden_size):
        super().__init__()
        
        self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_size)
        self.rnn_1 = tf.keras.layers.LSTM(hidden_size, return_sequences=True)
        self.rnn_2 = tf.keras.layers.LSTM(hidden_size, return_sequences=True)
        self.linear = tf.keras.layers.Dense(vocab_size)
        
    def call(self, x):
        out = self.embedding(x)
        out = self.rnn_1(out)
        out = self.rnn_2(out)
        out = self.linear(out)
        
        return out
    
embedding_size = 256
hidden_size = 1024
model = TextGenerator(tokenizer.num_words + 1, embedding_size , hidden_size)

### 모델 학습
---
모델을 학습시킵니다. 시간이 매우 오래 걸려서 많이 돌려보지는 않았습니다.
다행히도 평가기준의 2.2이하로 loss가 떨어진 것을 확인했습니다.

In [399]:

optimizer = tf.keras.optimizers.Adam()
loss = tf.keras.losses.SparseCategoricalCrossentropy(
    from_logits=True,
    reduction='none'
)

model.compile(loss=loss, optimizer=optimizer)
model.fit(dataset, epochs=30)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<tensorflow.python.keras.callbacks.History at 0x7fe0bc0b0bd0>

### 작사 함수
---
역시 실습예제의 코드를 그대로 가져왔습니다. 
매개변수로 받은 처음 문장을 통해 이후 문장을 생성하는 함수입니다.

In [400]:
def generate_text(model, tokenizer, init_sentence="<start>", max_len=20):
    # 테스트를 위해서 입력받은 init_sentence도 텐서로 변환합니다
    test_input = tokenizer.texts_to_sequences([init_sentence])
    test_tensor = tf.convert_to_tensor(test_input, dtype=tf.int64)
    end_token = tokenizer.word_index["<end>"]

    # 단어 하나씩 예측해 문장을 만듭니다
    #    1. 입력받은 문장의 텐서를 입력합니다
    #    2. 예측된 값 중 가장 높은 확률인 word index를 뽑아냅니다
    #    3. 2에서 예측된 word index를 문장 뒤에 붙입니다
    #    4. 모델이 <end>를 예측했거나, max_len에 도달했다면 문장 생성을 마칩니다
    while True:
        # 1
        predict = model(test_tensor) 
        # 2
        predict_word = tf.argmax(tf.nn.softmax(predict, axis=-1), axis=-1)[:, -1] 
        # 3 
        test_tensor = tf.concat([test_tensor, tf.expand_dims(predict_word, axis=0)], axis=-1)
        # 4
        if predict_word.numpy()[0] == end_token: break
        if test_tensor.shape[1] >= max_len: break

    generated = ""
    # tokenizer를 이용해 word index를 단어로 하나씩 변환합니다 
    for word_index in test_tensor[0].numpy():
        generated += tokenizer.index_word[word_index] + " "

    return generated

### 실행결과
---
실행시킨 결과 문장이 생성되는 것을 확인 할 수 있었습니다.\
maxlen의 변경으로 더 긴 문장을 생성해내는 것은 아니란 것을 확인했습니다.

In [410]:
generate_text(model, tokenizer, init_sentence="<start> i love", max_len=55)

'<start> i love you , liberian girl <end> '

In [414]:
generate_text(model, tokenizer, init_sentence="<start> i love", max_len=55)

'<start> you love me , i love you <end> '

In [415]:
generate_text(model, tokenizer, init_sentence="<start> the love", max_len=55)

'<start> the love machine will you go ? <end> '

### 마치며
---
과제를 하며 한번 TFMaster 수업을 받았지만, 여전히 모르는 것 투성이인 과제라는 점을 파악했습니다.\
그래도 NLP의 첫 형태를 겪어봤다는 점에서 매우 기분이 좋은 과제였습니다.\
또한 문법적인 규칙을 직접 지정하지 않아도 컴퓨터가 스스로 문장구성을 한다는 점은 매우 신비롭게 느껴졌습니다.