# 6-7. 프로젝트: 멋진 작사가 만들기

### Step 1. 데이터 다운로드

---

먼저 아래 링크에서 **Song Lyrics** 데이터를 다운로드해 주세요! 저장된 파일을 **압축 해제**한 후, 모든 `txt` 파일을 `lyrics` 폴더를 만들어 그 속에 저장해주세요!

- [Song Lyrics](https://www.kaggle.com/paultimothymooney/poetry/data)

아래의 명령어를 실행하셔도 됩니다.

```
$ wget https://aiffelstaticprd.blob.core.windows.net/media/documents/song_lyrics.zip
$ unzip song_lyrics.zip -d ~/aiffel/lyricist/data/lyrics  #lyrics 폴더에 압축풀기
```

### Step 2. 데이터 읽어오기

---

`glob` 모듈을 사용하면 파일을 읽어오는 작업을 하기가 아주 용이해요. `glob` 를 활용하여 모든 `txt` 파일을 읽어온 후, `raw_corpus` 리스트에 문장 단위로 저장하도록 할게요!

In [1]:
import glob
import os
import re  # 정규표현식을 위한 Regex 지원 모듈 (문장 데이터를 정돈하기 위해)
import numpy as np  # 변환된 문장 데이터(행렬)을 편하게 처리하기 위해
import tensorflow as tf  # 대망의 텐서플로우!
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [2]:
txt_file_path = os.getenv('HOME')+'/lyricist/data/lyrics/*'

txt_list = glob.glob(txt_file_path)

raw_corpus = []

# 여러개의 txt 파일을 모두 읽어서 raw_corpus 에 담습니다.
for txt_file in txt_list:
    with open(txt_file, "r") as f:
        raw = f.read().splitlines()
        raw_corpus.extend(raw)

print("데이터 크기:", len(raw_corpus))
print("Examples:\n", raw_corpus[:3])

데이터 크기: 187088
Examples:
 ["I'mma start it from the bottom", "I'll show you how to flip a dollar", 'I got food in my dining room']


### Step 3. 데이터 정제

---

**앞서 배운 테크닉들을 활용해 문장 생성에 적합한 모양새로 데이터를 정제하세요!**

`preprocess_sentence()` 함수를 만든 것을 기억하시죠? 이를 활용해 데이터를 정제하도록 하겠습니다.

추가로 지나치게 긴 문장은 다른 데이터들이 과도한 Padding을 갖게 하므로 제거합니다. 너무 긴 문장은 노래가사 작사하기에 어울리지 않을수도 있겠죠.  
그래서 이번에는 문장을 **토큰화 했을 때 토큰의 개수가 15개를 넘어가는 문장을 학습데이터에서 제외하기**를 권합니다.

In [3]:
def preprocess_sentence(sentence):
    sentence = sentence.lower().strip()  # 소문자로 바꾸고 양쪽 공백을 삭제

    # 아래 3단계를 거쳐 sentence는 스페이스 1개를 delimeter로 하는 소문자 단어 시퀀스로 바뀝니다.
    # 패턴의 특수문자를 만나면 특수문자 양쪽에 공백을 추가
    sentence = re.sub(r"([?.!,¿])", r" \1 ", sentence)
    # 공백 패턴을 만나면 스페이스 1개로 치환
    sentence = re.sub(r'[" "]+', " ", sentence)
    # a-zA-Z?.!,¿ 패턴을 제외한 모든 문자(공백문자까지도)를 스페이스 1개로 치환
    sentence = re.sub(r"[^a-zA-Z?.!,¿]+", " ", sentence)

    sentence = sentence.strip()

    # 이전 스텝에서 본 것처럼 문장 앞뒤로 <start>와 <end>를 단어처럼 붙여 줍니다
    sentence = '<start> ' + sentence + ' <end>'

    return sentence

In [4]:
corpus = []

for sentence in raw_corpus:
    if len(sentence) == 0:
        continue  # 길이가 0인 문장은 건너뜁니다.

    # 문장을 토큰화했을 때 토큰의 갯수가 15개를 넘어가는 문장을 학습데이터에서 제외
    elif len(text_to_word_sequence(sentence)) >= 15:
        continue

    corpus.append(preprocess_sentence(sentence))

In [5]:
len(corpus)

166098

In [6]:
corpus[:10]

['<start> i mma start it from the bottom <end>',
 '<start> i ll show you how to flip a dollar <end>',
 '<start> i got food in my dining room <end>',
 '<start> i m better , i m better , i m better <end>',
 '<start> it s another day , another chance <end>',
 '<start> i wake up , i wanna dance <end>',
 '<start> so as long as i got my friends <end>',
 '<start> i m better , i m better , i m better he say i m hot , i m so fuego <end>',
 '<start> pull up on him in my vehicle <end>',
 '<start> he say i m pretty , i m pretty <end>']

### Step 4. 평가 데이터셋 분리

---

**훈련 데이터와 평가 데이터를 분리하세요!**

`tokenize()` 함수로 데이터를 Tensor로 변환한 후, `sklearn` 모듈의 `train_test_split()` 함수를 사용해 훈련 데이터와 평가 데이터를 분리하도록 하겠습니다. **단어장의 크기는 12,000 이상**으로 설정하세요! **총 데이터의 20%** 를 평가 데이터셋으로 사용해 주세요!

```
enc_train, enc_val, dec_train, dec_val = <코드 작성>
```

여기까지 올바르게 진행했을 경우, 아래 실행 결과를 확인할 수 있습니다.

```
print("Source Train:", enc_train.shape)
print("Target Train:", dec_train.shape)
```

```
out:

Source Train: (124960, 14)
Target Train: (124960, 14)
```

만약 결과가 다르다면 천천히 과정을 다시 살펴 동일한 결과를 얻도록 하세요! 만약 학습데이터 갯수가 124960보다 크다면 위 Step 3.의 데이터 정제 과정을 다시한번 검토해 보시기를 권합니다.

In [7]:
def tokenize(corpus):
    # 텐서플로우에서 제공하는 Tokenizer 패키지를 생성
    tokenizer = tf.keras.preprocessing.text.Tokenizer(
        num_words=12000,  # 전체 단어의 개수
        filters=' ',  # 별도로 전처리 로직을 추가할 수 있습니다. 이번에는 사용하지 않겠습니다.
        oov_token="<unk>"  # out-of-vocabulary, 사전에 없었던 단어는 어떤 토큰으로 대체할지
    )
    # 우리가 구축한 corpus로부터 Tokenizer가 사전을 자동구축하게 됩니다.
    tokenizer.fit_on_texts(corpus)

    # 이후 tokenizer를 활용하여 모델에 입력할 데이터셋을 구축하게 됩니다.
    # tokenizer는 구축한 사전으로부터 corpus를 해석해 Tensor로 변환합니다.
    tensor = tokenizer.texts_to_sequences(corpus)

    # 입력 데이터의 시퀀스 길이를 일정하게 맞추기 위한 padding 메소드를 제공합니다.
    # maxlen의 디폴트값은 None입니다. 이 경우 corpus의 가장 긴 문장을 기준으로 시퀀스 길이가 맞춰집니다.
    tensor = tf.keras.preprocessing.sequence.pad_sequences(
        tensor, padding='post')

    print(tensor, tokenizer)
    return tensor, tokenizer


tensor, tokenizer = tokenize(corpus)

[[  2   5 527 ...   0   0   0]
 [  2   5  61 ...   0   0   0]
 [  2   5  40 ...   0   0   0]
 ...
 [  2   5  61 ...   0   0   0]
 [  2 112 654 ...   0   0   0]
 [  2   8  50 ...   0   0   0]] <keras_preprocessing.text.Tokenizer object at 0x7f105266a4d0>


In [8]:
for idx in tokenizer.index_word:
    print(idx, ":", tokenizer.index_word[idx])

    if idx >= 10:
        break

1 : <unk>
2 : <start>
3 : <end>
4 : ,
5 : i
6 : the
7 : you
8 : and
9 : a
10 : to


In [9]:
# tensor에서 마지막 토큰을 잘라내서 소스 문장을 생성합니다. 마지막 토큰은 <end>가 아니라 <pad>일 가능성이 높습니다.
src_input = tensor[:, :-1]
# tensor에서 <start>를 잘라내서 타겟 문장을 생성합니다.
tgt_input = tensor[:, 1:]

In [10]:
enc_train, enc_val, dec_train, dec_val = train_test_split(
    src_input, tgt_input, test_size=0.2, random_state=42)

In [11]:
print("Source Train:", enc_train.shape)
print("Target Train:", dec_train.shape)
print("Source val:", enc_val.shape)
print("Target val:", dec_val.shape)

Source Train: (132878, 32)
Target Train: (132878, 32)
Source val: (33220, 32)
Target val: (33220, 32)


In [12]:
# train data의 dataset 구성

BUFFER_SIZE = len(enc_train)
BATCH_SIZE = 256
steps_per_epoch = len(enc_train) // BATCH_SIZE

# tokenizer가 구축한 단어사전 내 7000개와, 여기 포함되지 않은 0:<pad>를 포함하여 7001개
VOCAB_SIZE = tokenizer.num_words + 1

dataset_train = tf.data.Dataset.from_tensor_slices(
    (enc_train, dec_train)).shuffle(BUFFER_SIZE)
dataset_train = dataset_train.batch(BATCH_SIZE, drop_remainder=True)
dataset_train

<BatchDataset shapes: ((256, 32), (256, 32)), types: (tf.int32, tf.int32)>

In [13]:
# validation data의 dataset 구성

dataset_val = tf.data.Dataset.from_tensor_slices(
    (enc_val, dec_val)).shuffle(len(enc_val))
dataset_val = dataset_val.batch(BATCH_SIZE, drop_remainder=True)
dataset_val

<BatchDataset shapes: ((256, 32), (256, 32)), types: (tf.int32, tf.int32)>

### Step 5. 인공지능 만들기

---

모델의 Embedding Size와 Hidden Size를 조절하며 10 Epoch 안에 `val_loss` 값을 2.2 수준으로 줄일 수 있는 모델을 설계하세요! (Loss는 아래 제시된 Loss 함수를 그대로 사용!)

그리고 멋진 모델이 생성한 가사 한 줄을 제출하시길 바랍니다!

```
#Loss

loss = tf.keras.losses.SparseCategoricalCrossentropy(
    from_logits=True, reduction='none')
```

데이터가 커서 훈련하는 데 시간이 제법 걸릴 겁니다. 여유를 가지고 작업하시면 좋아요 :)

```
generate_text(lyricist, tokenizer, init_sentence="<start> i love", max_len=20)
```

In [14]:
class TextGenerator(tf.keras.Model):
    def __init__(self, vocab_size, embedding_size, hidden_size):
        super(TextGenerator, self).__init__()

        self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_size)
        self.rnn_1 = tf.keras.layers.LSTM(hidden_size, return_sequences=True)
        self.rnn_2 = tf.keras.layers.LSTM(hidden_size, return_sequences=True)
        self.linear = tf.keras.layers.Dense(vocab_size)

    def call(self, x):
        out = self.embedding(x)
        out = self.rnn_1(out)
        out = self.rnn_2(out)
        out = self.linear(out)

        return out


embedding_size = 256
hidden_size = 1024
model = TextGenerator(tokenizer.num_words + 1, embedding_size, hidden_size)

In [15]:
for src_sample, tgt_sample in dataset_train.take(1):
    break
model(src_sample)

<tf.Tensor: shape=(256, 32, 12001), dtype=float32, numpy=
array([[[ 6.63508763e-05, -1.52854831e-04, -2.58919841e-04, ...,
          3.40278290e-04, -1.12680864e-04, -1.74796151e-06],
        [ 9.66413063e-05, -4.46117658e-04, -2.44455150e-04, ...,
          5.94076060e-04, -2.03549498e-04,  1.74588247e-04],
        [ 9.95145892e-05, -6.24081178e-04, -3.45498673e-04, ...,
          8.16683751e-04, -2.89644395e-05,  1.51480999e-04],
        ...,
        [ 3.39795533e-03, -3.66014079e-03, -7.96074513e-04, ...,
         -1.23832654e-03, -1.63283257e-03,  1.71662541e-03],
        [ 3.37327947e-03, -3.71946907e-03, -8.14292871e-04, ...,
         -1.24039664e-03, -1.63142371e-03,  1.76012889e-03],
        [ 3.34898615e-03, -3.76919401e-03, -8.27768527e-04, ...,
         -1.23979175e-03, -1.62838970e-03,  1.79660670e-03]],

       [[ 6.63508763e-05, -1.52854831e-04, -2.58919841e-04, ...,
          3.40278290e-04, -1.12680864e-04, -1.74796151e-06],
        [ 1.48001855e-04, -1.64073310e-04, -2

In [16]:
model.summary()

Model: "text_generator"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        multiple                  3072256   
_________________________________________________________________
lstm (LSTM)                  multiple                  5246976   
_________________________________________________________________
lstm_1 (LSTM)                multiple                  8392704   
_________________________________________________________________
dense (Dense)                multiple                  12301025  
Total params: 29,012,961
Trainable params: 29,012,961
Non-trainable params: 0
_________________________________________________________________


In [18]:
optimizer = tf.keras.optimizers.Adam()
loss = tf.keras.losses.SparseCategoricalCrossentropy(
    from_logits=True, reduction='none')

model.compile(loss=loss, optimizer=optimizer)
model.fit(dataset_train, epochs=10, validation_data=dataset_val)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f10547bbb90>

In [19]:
def generate_text(model, tokenizer, init_sentence="<start>", max_len=20):
    # 테스트를 위해서 입력받은 init_sentence도 일단 텐서로 변환합니다.
    test_input = tokenizer.texts_to_sequences([init_sentence])
    test_tensor = tf.convert_to_tensor(test_input, dtype=tf.int64)
    end_token = tokenizer.word_index["<end>"]

    # 텍스트를 실제로 생성할때는 루프를 돌면서 단어 하나씩 생성해야 합니다.
    while True:
        predict = model(test_tensor)  # 입력받은 문장의 텐서를 입력합니다.
        # 우리 모델이 예측한 마지막 단어가 바로 새롭게 생성한 단어가 됩니다.
        predict_word = tf.argmax(tf.nn.softmax(
            predict, axis=-1), axis=-1)[:, -1]

        # 우리 모델이 새롭게 예측한 단어를 입력 문장의 뒤에 붙여 줍니다.
        test_tensor = tf.concat(
            [test_tensor, tf.expand_dims(predict_word, axis=0)], axis=-1)

        # 우리 모델이 <end>를 예측했거나, max_len에 도달하지 않았다면  while 루프를 또 돌면서 다음 단어를 예측해야 합니다.
        if predict_word.numpy()[0] == end_token:
            break
        if test_tensor.shape[1] >= max_len:
            break

    generated = ""
    # 생성된 tensor 안에 있는 word index를 tokenizer.index_word 사전을 통해 실제 단어로 하나씩 변환합니다.
    for word_index in test_tensor[0].numpy():
        generated += tokenizer.index_word[word_index] + " "

    return generated  # 이것이 최종적으로 모델이 생성한 자연어 문장입니다.

In [37]:
generate_text(model, tokenizer, init_sentence="<start> i love", max_len=20)

'<start> i love you <end> '

> **Q4. 모델이 생성한 가사 한 줄을 제출하세요.**  
>  
> i love you

---

# 루브릭

아래의 기준을 바탕으로 프로젝트를 평가합니다.

|평가문항|상세기준|
|:---|:---|
|1. 가사 텍스트 생성 모델이 정상적으로 동작하는가?|텍스트 제너레이션 결과가 그럴듯한 문장으로 생성되는가?|
|2. 데이터의 전처리와 데이터셋 구성 과정이 체계적으로 진행되었는가?|특수문자 제거, 토크나이저 생성, 패딩처리 등의 과정이 빠짐없이 진행되었는가?|
|3. 텍스트 생성모델이 안정적으로 학습되었는가?|텍스트 생성모델의 validation loss가 2.2 이하로 낮아졌는가?|

---

# 후기

- 문장을 토큰화했을 때 토큰의 갯수가 15개를 넘어가는 문장을 학습데이터에서 제외하는 부분을 노드에서 원하는 것과 똑같이 구현하려고 하다가 포기했다. 완전히 똑같게 구현하려면 내 수준에서는 코드가 비효율적으로 변경될 것 같아서.. 하지만 요구하는 바에 맞게 구현하기는 했다.


- validation loss는 운이 좋아 처음부터 2.2 이하로 나왔다.


- 전반적으로 이번 노드는 친절한 가이드 덕분에 구현하기 수월했다. 그리고 운이 좋아 잘 끝났다.


- 가사 텍스트 생성 모델이 정상적으로 동작한다. 돌려보면 사전 데이터에 있는 단어로 시작하면 제법 그럴싸한 문장이 나오는데, 없는 단어로 시작하면 그 단어를 반복하는 모습을 보여주는 줄 알았는데 그냥 cake가 너무 먹고 싶었나보다. cake를 쓰면 cake를 연발하는 모습을 볼 수 있었다. 없는 단어로 시작하면 \<unk>가 나온다.