# E6 멋진 작사가 만들기

일시: 2020.01.26

# Step 1. 데이터 다운로드

- 파일을 다운로드 받아 압축을 풀어줍니다.

```
$ wget https://aiffelstaticprd.blob.core.windows.net/media/documents/song_lyrics.zip
$ unzip song_lyrics.zip -d ~/aiffel/lyricist/data/lyrics
```

# Step 2. 데이터 읽어오기

- glob 를 활용하여 모든 txt 파일을 읽어온 후, raw_corpus 리스트에 문장 단위로 저장합니다.

In [1]:
import glob
import os

txt_file_path = os.getenv('HOME')+'/aiffel/lyricist/data/lyrics/*'

txt_list = glob.glob(txt_file_path)

raw_corpus = []

# 여러 개의 txt 파일을 모두 읽어서 raw_corpus에 담기.
for txt_file in txt_list:
    with open(txt_file, "r") as f:
        raw = f.read().splitlines()
        raw_corpus.extend(raw)

print("데이터 크기:", len(raw_corpus))
print("Examples:\n", raw_corpus[:3])

데이터 크기: 187088
Examples:
 ['I. LIFE.', '', '']


# Step 3. 데이터 정제

In [2]:
for idx, sentence in enumerate(raw_corpus):
    if len(sentence) == 0: continue   # 길이가 0인 문장은 건너뜀.

    if idx > 9: break   # 10개 문장 확인.
        
    print(sentence)

I. LIFE.
I.
SUCCESS.


In [3]:
import re

def preprocess_sentence(sentence):
    sentence = sentence.lower().strip() # 소문자로 변경, 양쪽 공백 삭제.
  
    sentence = re.sub(r"([?.!,¿])", r" \1 ", sentence) # 패턴의 특수문자를 만나면 특수문자 양쪽에 공백 추가.
    sentence = re.sub(r'[" "]+', " ", sentence) # 공백 패턴을 만나면 스페이스 1개로 치환.
    sentence = re.sub(r"[^a-zA-Z?.!,¿]+", " ", sentence) # a-zA-Z?.!,¿ 패턴을 제외한 모든 문자(공백문자까지도)를 스페이스 1개로 치환.

    sentence = sentence.strip()

    sentence = '<start> ' + sentence + ' <end>'
    
    return sentence

print(preprocess_sentence("This @_is ;;;sample        sentence."))   # 이 문장으로 필터링 확인.

<start> this is sample sentence . <end>


In [4]:
corpus = []

for sentence in raw_corpus:
    if len(sentence) == 0: continue
        
    corpus.append(preprocess_sentence(sentence))

corpus[:10]

['<start> i . life . <end>',
 '<start> i . <end>',
 '<start> success . <end>',
 '<start> published in a masque of poets <end>',
 '<start> at the request of h . h . , the author s <end>',
 '<start> fellow townswoman and friend . <end>',
 '<start> success is counted sweetest <end>',
 '<start> by those who ne er succeed . <end>',
 '<start> to comprehend a nectar <end>',
 '<start> requires sorest need . <end>']

- ```tokenize()```함수로 데이터를 Tensor로 변환합니다.

In [5]:
import tensorflow as tf 
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np

def tokenize(corpus):
    # 텐서플로우에서 제공하는 Tokenizer 패키지 생성.
    tokenizer = tf.keras.preprocessing.text.Tokenizer(
        num_words = 12000, # 전체 단어의 개수. 
        filters = ' ', # 별도 전처리 로직 없음.
        oov_token = "<unk>"  # out-of-vocabulary.
    )
    tokenizer.fit_on_texts(corpus) # 구축한 corpus로부터 Tokenizer가 사전을 자동구축.

    # 이후 tokenizer를 활용하여 모델에 입력할 데이터셋을 구축.
    tensor = tokenizer.texts_to_sequences(corpus)   
    # tokenizer는 구축한 사전으로부터 corpus를 해석해 Tensor로 변환.

    # 입력 데이터의 시퀀스 길이를 일정하게 맞추기 위한 padding 메소드를 제공.
    # maxlen는 start와 end가 빠질 것을 감안하여 16개로 지정.
    tensor = tf.keras.preprocessing.sequence.pad_sequences(tensor, padding = 'post', maxlen = 16, truncating = 'post')  

    print(tensor,tokenizer)
    return tensor, tokenizer

tensor, tokenizer = tokenize(corpus)
print(tensor.shape)

[[   2    5   20 ...    0    0    0]
 [   2    5   20 ...    0    0    0]
 [   2 2762   20 ...    0    0    0]
 ...
 [   2  240    1 ...    0    0    0]
 [   2   10  502 ...    0    0    0]
 [   2  129   21 ...    0    0    0]] <keras_preprocessing.text.Tokenizer object at 0x7f8f48767ad0>
(175986, 16)


In [6]:
print(tensor[:3, :10]) # 확인용.

[[   2    5   20  102   20    3    0    0    0    0]
 [   2    5   20    3    0    0    0    0    0    0]
 [   2 2762   20    3    0    0    0    0    0    0]]


In [7]:
for idx in tokenizer.index_word: # 인덱스 확인.
    print(idx, ":", tokenizer.index_word[idx])

    if idx >= 10: break 

1 : <unk>
2 : <start>
3 : <end>
4 : ,
5 : i
6 : the
7 : you
8 : and
9 : a
10 : to


In [8]:
src_input = tensor[:, :-1]  # tensor에서 마지막 토큰을 잘라내 소스 문장을 생성.
tgt_input = tensor[:, 1:]    # tensor에서 <start>를 잘라내서 타겟 문장을 생성.

print(src_input[0])
print(tgt_input[0])

[  2   5  20 102  20   3   0   0   0   0   0   0   0   0   0]
[  5  20 102  20   3   0   0   0   0   0   0   0   0   0   0]


# Step 4. 평가 데이터셋 분리

- ```sklearn```모듈의 train_test_split() 함수를 사용해 훈련 데이터와 평가 데이터를 분리합니다.

In [9]:
from sklearn.model_selection import train_test_split

enc_train, enc_val, dec_train, dec_val = train_test_split(src_input, tgt_input, test_size = 0.2)

print("Source Train:", enc_train.shape)
print("Target Train:", dec_train.shape)

Source Train: (140788, 15)
Target Train: (140788, 15)


- 텐서로 ```tf.data.Dataset```객체를 생성합니다. ```tf.data.Dataset.from_tensor_slices()```메소드를 사용합니다. 

In [10]:
BUFFER_SIZE = len(src_input)
BATCH_SIZE = 256
steps_per_epoch = len(src_input) // BATCH_SIZE

VOCAB_SIZE = tokenizer.num_words + 1    # tokenizer가 구축한 단어사전 내 12000개와, 여기 포함되지 않은 0:<pad>를 포함하여 12001개

train_dataset = tf.data.Dataset.from_tensor_slices((enc_train, dec_train)).shuffle(BUFFER_SIZE)
train_dataset = train_dataset.batch(BATCH_SIZE, drop_remainder=True)
val_dataset = tf.data.Dataset.from_tensor_slices((enc_val, dec_val)).shuffle(BUFFER_SIZE)
val_dataset = val_dataset.batch(BATCH_SIZE, drop_remainder=True)
print(train_dataset)
print(val_dataset)

<BatchDataset shapes: ((256, 15), (256, 15)), types: (tf.int32, tf.int32)>
<BatchDataset shapes: ((256, 15), (256, 15)), types: (tf.int32, tf.int32)>


# Step 5. 인공지능 만들기 

In [11]:
class TextGenerator(tf.keras.Model):
    def __init__(self, vocab_size, embedding_size, hidden_size):
        super(TextGenerator, self).__init__()
        
        self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_size)
        self.rnn_1 = tf.keras.layers.LSTM(hidden_size, return_sequences=True)
        self.rnn_2 = tf.keras.layers.LSTM(hidden_size, return_sequences=True)
        self.linear = tf.keras.layers.Dense(vocab_size)
        
    def call(self, x):
        out = self.embedding(x)
        out = self.rnn_1(out)
        out = self.rnn_2(out)
        out = self.linear(out)
        
        return out
    
embedding_size = 256 # 조절가능
hidden_size = 1024 # 조절가능
model = TextGenerator(tokenizer.num_words + 1, embedding_size , hidden_size)

- 모델의 최종 출력은 shape = (256, 15, 12001)입니다.

In [12]:
for src_sample, tgt_sample in train_dataset.take(1): break
model(src_sample)

<tf.Tensor: shape=(256, 15, 12001), dtype=float32, numpy=
array([[[ 1.77243201e-05,  1.54104418e-05,  2.71609257e-04, ...,
          1.90677474e-05, -1.71439839e-04, -1.46155100e-04],
        [ 7.98682449e-05,  2.02207593e-05,  2.49341305e-04, ...,
         -1.18406915e-05, -5.32128441e-04, -4.27197374e-05],
        [ 1.46607214e-04,  9.26985813e-05,  2.04527372e-04, ...,
          7.44328281e-06, -7.92041363e-04, -5.30144898e-05],
        ...,
        [-1.41038297e-04, -4.52314387e-04,  9.20595630e-06, ...,
         -4.12322406e-04, -4.50879365e-04, -5.03543066e-04],
        [-1.26562110e-04, -5.20382659e-04,  3.19952436e-04, ...,
         -4.75726731e-04, -2.63735419e-04, -7.65580568e-04],
        [ 5.67763345e-06, -4.78416361e-04,  2.09088757e-04, ...,
         -1.66343249e-04,  4.54165856e-05, -7.41570489e-04]],

       [[ 1.77243201e-05,  1.54104418e-05,  2.71609257e-04, ...,
          1.90677474e-05, -1.71439839e-04, -1.46155100e-04],
        [ 1.98155278e-04,  1.62825105e-04,  2

In [13]:
model.summary()

Model: "text_generator"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        multiple                  3072256   
_________________________________________________________________
lstm (LSTM)                  multiple                  5246976   
_________________________________________________________________
lstm_1 (LSTM)                multiple                  8392704   
_________________________________________________________________
dense (Dense)                multiple                  12301025  
Total params: 29,012,961
Trainable params: 29,012,961
Non-trainable params: 0
_________________________________________________________________


In [14]:
optimizer = tf.keras.optimizers.Adam()
loss = tf.keras.losses.SparseCategoricalCrossentropy(
    from_logits=True,
    reduction='none'
)

model.compile(loss=tf.keras.losses.SparseCategoricalCrossentropy(
    from_logits=True, reduction='none'), optimizer=optimizer)

history = model.fit(train_dataset, epochs = 5, validation_data = val_dataset, verbose = 1) # 10번 시도에 val_loss 2.2 이하 만들기

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
 59/549 [==>...........................] - ETA: 16:47 - loss: 2.6784

KeyboardInterrupt: 

# 평가하기

In [15]:
def generate_text(model, tokenizer, init_sentence="<start>", max_len=20):
    # 테스트를 위해서 입력받은 init_sentence도 일단 텐서로 변환.
    test_input = tokenizer.texts_to_sequences([init_sentence])
    test_tensor = tf.convert_to_tensor(test_input, dtype=tf.int64)
    end_token = tokenizer.word_index["<end>"]

    # 텍스트를 실제로 생성할때는 루프를 돌면서 단어 하나씩 생성해야 함. 
    while True:
        predict = model(test_tensor)  # 입력받은 문장의 텐서를 입력. 
        predict_word = tf.argmax(tf.nn.softmax(predict, axis=-1), axis=-1)[:, -1]   
        # 우리 모델이 예측한 마지막 단어가 새롭게 생성한 단어가 됨.

        # 우리 모델이 새롭게 예측한 단어를 입력 문장의 뒤에 붙여줌.
        test_tensor = tf.concat([test_tensor, tf.expand_dims(predict_word, axis=0)], axis=-1)

        # 우리 모델이 <end>를 예측했거나, max_len에 도달하지 않았다면  while 루프를 또 돌면서 다음 단어를 예측해야 합니다.
        if predict_word.numpy()[0] == end_token: break
        if test_tensor.shape[1] >= max_len: break

    generated = ""
    # 생성된 tensor 안에 있는 word index를 tokenizer.index_word 사전을 통해 실제 단어로 하나씩 변환합니다. 
    for word_index in test_tensor[0].numpy():
        generated += tokenizer.index_word[word_index] + " "

    return generated   # 이것이 최종적으로 모델이 생성한 자연어 문장입니다.

In [16]:
generate_text(model, tokenizer, init_sentence = "<start> i love", max_len = 20)

'<start> i love you , i m a <unk> <end> '

# 루브릭 평가

1. 가사 텍스트 생성 모델이 정상적으로 동작하는가? 텍스트 제너레이션 결과가 그럴듯한 문장으로 생성되는가?

도출된 문장은 다음과 같습니다. 

< start > i love you , i m a < unk > < end > (임의로 띄어쓰기)

결과는 많이 부족한 것 같습니다. 더 구체적인 가사가 나올 수 있을 것 같다는 생각이 듭니다. 모델은 정상작동 했으나, 표현이 풍부하지 못한 가장 큰 이유는 epoch를 5번 밖에 돌리지 못했기 때문으로 판단됩니다. 

2. 데이터의 전처리와 데이터셋 구성 과정이 체계적으로 진행되었는가? 특수문자 제거, 토크나이저 생성, 패딩 처리 등의 과정이 빠짐없이 진행되었는가?

전처리와 데이터셋 구성 과정은 체계적으로 진행되었다고 생각합니다. 제가 epoch를 5번 밖에 돌리지 못한 이유도 여기에 있습니다. 저는 계속 ```tf.data.Dataset``` 객체를 생성 과정이 ```train_test_split()```로 데이터셋을 분리하는 과정보다 앞이라고 생각했습니다. 그러니 dataset을 기껏 만들어놨것만, 훈련 데이터와 시험 데이터로 분리하는 데에 사용하지 않아서 dataset의 쓸모에 대해 생각하느라 제출 시간 임박까지 모델을 돌리지 못했습니다. 조원의 도움으로 ```tf.data.Dataset``` 객체를 생성 과정 데이터셋 분류 뒤에 일어나는 일임을 알게 되어 제출 시간이 임박해서야 모델을 돌려볼 수 있었습니다. 

3. 텍스트 생성모델이 안정적으로 학습되었는가? 텍스트 생성모델의 validation loss가 2.2 이하로 낮아졌는가?

학습 면에서는 평가 항목에 미달인 것 같습니다. 우선 Val-loss는 2.2 이하에 도달하지 못했습니다. 하이퍼파라미터를 조정하지 않았고, epoch도 5로 낮은 수기 때문입니다. 안정적으로 학습되었는지 평가하기는 어려운 것 같습니다. 그리고 우선 제출을 위해 모델을 돌리는 도중에 멈췄습니다.

# 회고

일을 미뤄서 하면 안된다는 것을 배운 프로젝트였습니다. 나름 저번주 할 때는 굉장히 재밌었고, 또 응용해볼만한 좋은 노드라고 생각했습니다. 그리고 다른 것들보다 쉽다고 생각했습니다. 그게 큰 실수였던 것 같습니다. 제출시간이 다됐는데, epoch가 도는 시간을 미처 예상하지 못해서 모델을 채 돌리기도 전에 제출합니다! 모델 훈련 시간을 줄이는 방법... 앞으로는 연구해서 꼭 학습이 빨리 끝나는 모델을 만들겁니다.     
이 노드는 나중에 자기소개서 써주는 인공지능으로 한번 만들어보고 싶습니다. 이 인공지능으로 자기소개서를 써서 내면 그 자체로 포트폴리오가 아닐까요...?