# Exploration 06_작사가 인공지능 만들기       


## 이 노드의 루브릭   

1. 가사 텍스트 생성 모델이 정상적으로 동작하는가?     
    -> "텍스트 제너레이션 결과가 그럴듯한 문장으로 생성되는가?       
    

2. 데이터의 전처리와 데이터셋 구성 과정이 체계적으로 진행되었는가?     
    -> "특수문자 제거, 토크나이저 생성, 패딩처리 등의 과정이 빠짐없이 진행되었는가?"          
    

3. 텍스트 생성모델이 안정적으로 학습되었는가?     
    -> "텍스트 생성모델의 validation loss가 2.2 이하로 낮아졌는가?"   

* 위의 루브릭에 주의하며 작사가 인공지능을 만들어 보자!

### 1. 데이터 가져오기          

- 데이터가 잘 준비되었음을 알 수 있다.

![데이터 준비](./PostingPic/데이터준비.png)

### 2. 데이터 읽어오기    

* 데이터를 raw_corpus에 담는다.(가사를 정제해서 텐서화 시킬 raw_corpus)

In [5]:
import glob
import os

txt_path = os.getenv('HOME')+'/SUBMIT_MISSION_GIT/ex6_Composer/lyrics/*'
txt_list = glob.glob(txt_path)

print("위치 : " ,txt_path)

raw_corpus =[]

for txt_file in txt_list:
    
    with open(txt_file, "r") as f:
        raw = f.read().splitlines()
        
        #리스트.extend(내용), 리스트 끝에 raw의 모든 항목을 넣는다.
        raw_corpus.extend(raw)
        
print("데이터 크기 : ", len(raw_corpus))
print("Examples : ", raw_corpus[:3])

위치 :  /home/ssac23/SUBMIT_MISSION_GIT/ex6_Composer/lyrics/*
데이터 크기 :  187088
Examples :  ['', '', '[Spoken Intro:]']


* 번외(궁금해서 해봤다)  

- 새로운 파이썬 문법.. raw_corpus.extend(raw)가 나와서 검색해봤더니, append와 비슷한 거라고 한다.   
- 근데, 어떤 부분이 다른거지? 그걸 알기 위해 한 번 해봤더니...!

![궁금해서 해봤더니](./PostingPic/append할때.png)   


- 위에서 raw는 
  1. lyrics 폴더의 모든 텍스트 리스트(txt_list)에서 가져온     
  2. 하나의 텍스트 파일(txt_file)에서 읽어온 splitlines() 이다.    
---
- 얘를 append 하면 하나의 파일만 읽어오고,    
- 얘를 extend 하면 그 폴더의 모든 파일의 데이터가 읽어와진다.    
---
__WHY?__
> - append : object(그 해당 오브젝트)를 맨 뒤에 추가한다.    
> - extend : iterable객체(리스트, 튜플, 딕셔너리)의 원소를 list에 appending 한다.

### 3. 데이터 정제하기    

* preprocess_sentence() 함수에서 나타난 다양한 스킬들을 통해 데이터를 정제한다.    
* 단, 문장을 토큰화했을 때 토큰의 개수가 15개가 넘어가는 문장은 학습데이터에서 제외한다.

In [9]:
import re
import numpy as np
import tensorflow as tf

### 3-1. 데이터 정제하기

####  혹시 모를 특수문자, 대소문자, 문장부호를 정제하고, 소스 첫단과 끝단에 start와 end를 붙여준다.

In [13]:
def preprocess_sentence(sentence):
    sentence = sentence.lower().strip()
    
    sentence = re.sub("([?.!,?,¿])", r" \1 ", sentence)
    sentence = re.sub('[" "]+', " ", sentence)
    sentence = re.sub("[^a-zA-Z?.!,¿]+", " ", sentence)
    
    sentence = sentence.strip()
    
    sentence = '<start> ' + sentence + ' <end>'
    
    return sentence

In [15]:
#정제된 표현을 담을 new_corpus 배열을 선언한다.

new_corpus = []

for sentence in raw_corpus :
    new_corpus.append(preprocess_sentence(sentence))
    
print("정제 후 new_corpus의 길이 : ", len(new_corpus))
new_corpus[3:10]

정제 후 new_corpus의 길이 :  187088


['<start> you ever want something <end>',
 '<start> that you know you shouldn t have <end>',
 '<start> the more you know you shouldn t have it , <end>',
 '<start> the more you want it <end>',
 '<start> and then one day you get it , <end>',
 '<start> it s so good too <end>',
 '<start> but it s just like my girl <end>']

#### 정제한 문장을 토큰화하고, 단어 사전을 만들며, 데이터를 숫자로 변환하기 == "토큰화하기"

In [49]:
def tokenize(corpus):
    
    #순서대로 전체 단어의 개수, 추가할 전처리 로직, out-of vocabulary(사전에 없는 단어를 무엇으로 대체할지)
    tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words =12000, filters='' , oov_token="<unk>")
    
    #우리가 정제한 corpus를 토큰화하여 사전으로 변환
    tokenizer.fit_on_texts(corpus)
    tensor = tokenizer.texts_to_sequences(corpus)
    
    #입력 데이터의 시퀀스 길이를 맞추기 위해 padding 메소드 적용
    #maxlen의 default 값은 None으로, corpus의 가장 긴 문장을 기준으로 시퀀스 길이를 맞춤
    tensor = tf.keras.preprocessing.sequence.pad_sequences(tensor, padding='post')
    
    print(tensor, tokenizer)
    return tensor, tokenizer

tensor, tokenizer = tokenize(new_corpus)

[[   2    3    0 ...    0    0    0]
 [   2    3    0 ...    0    0    0]
 [   2 2706 2589 ...    0    0    0]
 ...
 [   2  130    5 ...    0    0    0]
 [   2   23   89 ...    0    0    0]
 [   2    7   34 ...    0    0    0]] <keras_preprocessing.text.Tokenizer object at 0x7fb5f922e8d0>


> 첫단은 2(start)로, 뒤에는 '패딩' 이 들어간 것을 확인할 수 있다.

In [50]:
print(len(tensor))
print(tensor)

187088
[[   2    3    0 ...    0    0    0]
 [   2    3    0 ...    0    0    0]
 [   2 2706 2589 ...    0    0    0]
 ...
 [   2  130    5 ...    0    0    0]
 [   2   23   89 ...    0    0    0]
 [   2    7   34 ...    0    0    0]]


#### 토큰화했을때, 너무 긴 문장은 작사하는데 맞지 않을 수 있다. 길이가 15가 넘어가는 데이터는 지우자!        

- 위에서 변환된 텐서를 출력해보았을 때, 187088개의 데이터가 무사히 텐서로 변환되었지만     
- 변환된 텐서의 끝에 공백이 0 이 들어가는 데이터가 너무 많아 문제인 것을 알 수 있다.     
- 모델의 성능에 영향을 미칠 수 있으므로 공백기준 15개 미만의 단어만 tensor 안에 넣어주고,     
- 텐서의 개수를 출력해보도록 한다.

In [51]:
temp_corpus = []

#혹시 몰라서 <start>, <end>를 빼서 계산했다.
for sentences in new_corpus:
    if len(sentences.split(' ')) < 13:
        temp_corpus.append(sentences)
        
tensor, tokenizer = tokenize(temp_corpus)
print(len(tensor))

[[   2    3    0 ...    0    0    0]
 [   2    3    0 ...    0    0    0]
 [   2 2569 2160 ...    0    0    0]
 ...
 [   2  677   30 ...  428    3    0]
 [   2    4  124 ...   10    7    3]
 [   2    7   37 ...    0    0    0]] <keras_preprocessing.text.Tokenizer object at 0x7fb5f6ff2150>
142296


- 142296개의 텐서가 생성되었다!

### 4.  평가 데이터셋 분리          

- sklearn 모듈의 train_test_split() 함수를 사용해 훈련 데이터와 평가 데이터를 분리하도록 한다.     
- 단어장의 크기는 12,000개, 총 데이터의 20%는 평가 데이터셋이 된다.

In [52]:
#사용할 라이브러리 import
from sklearn.model_selection import train_test_split

#소스데이터와 타겟데이터 
#텐서의 끝 end 데이터를 잘라 source_data로,
#텐서의 앞 start 데이터를 잘라 target_data로 변환
sor_data = tensor[:, :-1]
tar_data = tensor[:, 1:]

enc_train, enc_val, dec_train, dec_val = train_test_split(sor_data, tar_data, test_size=0.2, random_state=28)

#노드에서 명시한 데이터셋보다는 조금 다르긴 한데...!
print("Source_train : " , enc_train.shape)
print("Target_train : ", dec_train.shape)

Source_train :  (113836, 11)
Target_train :  (113836, 11)


#### 데이터셋 객체 생성하기     

- 텐서를 dataset으로 변환해준다.

In [67]:
Buffer_size = len(enc_train)
Batch_size = 256

steps_per_epoch = len(enc_train)//Batch_size

#토크나이저가 구축한 단어사전 내 12000개와, 여기 포함되지 않은 <pad> 까지 7,001개
Vocab_size = tokenizer.num_words+1
print("Vocab size : " , Vocab_size)

dataset = tf.data.Dataset.from_tensor_slices((enc_train, dec_train)).shuffle(Buffer_size)
dataset = dataset.batch(Batch_size, drop_remainder=True)
dataset

Vocab size :  12001


<BatchDataset shapes: ((256, 11), (256, 11)), types: (tf.int32, tf.int32)>

### 5. 인공지능 만들기        

- 모델의 Embedding Size와 Hidden Size를 조절하여 __10Epoch 안에 val_loss 값을 2.2 수준으로 줄이는 모델__ 을 설계한다.

In [60]:
#일단 첫번째 시도에서는 embedding size와 hidden size를 기본(노드 실습 때의 설정)으로 둔 뒤, val_loss가 얼마나 나오는지 본다.
class TextGenerator(tf.keras.Model):
    def __init__(self, vocab_size, embedding_size, hidden_size):
        super(TextGenerator, self).__init__()
        
        self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_size)
        self.rnn_1 = tf.keras.layers.LSTM(hidden_size, return_sequences=True)
        self.rnn_2 = tf.keras.layers.LSTM(hidden_size, return_sequences=True)
        self.linear = tf.keras.layers.Dense(vocab_size)
        
    def call(self, x):
        out = self.embedding(x)
        out = self.rnn_1(out)
        out = self.rnn_2(out)
        out = self.linear(out)
        
        return out
    
embedding_size = 256
hidden_size = 1024
model = TextGenerator(tokenizer.num_words +1, embedding_size, hidden_size)
print("wow! 모델세팅 완료")

wow! 모델세팅 완료


In [65]:
optimizer = tf.keras.optimizers.Adam()
loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True, reduction='none')

model.compile(loss=loss, optimizer=optimizer)

> 주어진 요건에 맞게 첫 모델을 compile 했다.

In [68]:
#훈련 전 샘플!
for enc_train, dec_train in dataset.take(1):
    break
    
model(enc_train)

<tf.Tensor: shape=(256, 11, 12001), dtype=float32, numpy=
array([[[-3.22062901e-04,  4.12608206e-05,  9.85148799e-05, ...,
         -5.86009155e-05, -1.44538324e-04, -2.25622662e-05],
        [-6.19117345e-04,  4.19090138e-05,  2.99521838e-04, ...,
         -1.19447395e-04, -4.06953885e-04, -5.45289622e-05],
        [-8.20669753e-04,  1.54263558e-04,  4.75376757e-04, ...,
          2.63935617e-05, -4.47625906e-04, -1.16864736e-04],
        ...,
        [-1.02281990e-03,  6.36482611e-04,  1.39067555e-03, ...,
          1.86405994e-03,  6.56221819e-04,  8.27232798e-05],
        [-1.01015985e-03,  6.32838812e-04,  1.55789941e-03, ...,
          2.10645865e-03,  8.47418385e-04,  1.58480529e-04],
        [-1.00023532e-03,  6.16948877e-04,  1.72287656e-03, ...,
          2.31856480e-03,  1.02033431e-03,  2.27079989e-04]],

       [[-3.22062901e-04,  4.12608206e-05,  9.85148799e-05, ...,
         -5.86009155e-05, -1.44538324e-04, -2.25622662e-05],
        [-7.21390243e-04, -3.11465883e-05,  3

In [69]:
model.summary()

Model: "text_generator_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_2 (Embedding)      multiple                  3072256   
_________________________________________________________________
lstm_4 (LSTM)                multiple                  5246976   
_________________________________________________________________
lstm_5 (LSTM)                multiple                  8392704   
_________________________________________________________________
dense_2 (Dense)              multiple                  12301025  
Total params: 29,012,961
Trainable params: 29,012,961
Non-trainable params: 0
_________________________________________________________________


## 궁금한 점 : model.summary() 가 안된다   

- if(68번 코드를 실행하지 않으면) : model.summary() 가 오류난다.
- 왜일까?
- 한번 찾아봐야겠다.

![서머리오류메세지](./PostingPic/6_서머리오류.png)

## 인공지능 훈련, 10epoch로 val_loss 2.2 이하로 만들기.     

- 도전!

In [70]:
model.fit(dataset, epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7fb5f7101dd0>

* 첫 시도에서 나쁘지 않게 나왔다. 하지만 저 과정에서 느꼈을 감정을 서술하시오(5점)    

![10번째 epoch](./PostingPic/6_10번째에폭.png)

- 무엇을 고쳐봐야 더 괜찮게 나올까?       
- 임베딩 데이터는 단어가 추상적으로 표현되는 크기이며, 히든 사이즈는 얼마나 x인풋(히든 레이어에서)을 줄 것인지를 의미한다.     
- 임베딩 데이터의 크기를 더 늘려보자.(단어의 표현 강도를 최대 5점 만점에서 10점 만점으로 늘리는 것처럼)  

> 기존의 embedding_size = 256, hidden_size = 1024에서       
> embedding_size = 512로 바꿔본다!

In [71]:
embedding_size = 512
hidden_size = 1024
model2 = TextGenerator(tokenizer.num_words +1, embedding_size, hidden_size)
print("wow! 모델세팅 완료")

wow! 모델세팅 완료


In [72]:
optimizer = tf.keras.optimizers.Adam()
loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True, reduction='none')

model2.compile(loss=loss, optimizer=optimizer)

In [73]:
for enc_train, dec_train in dataset.take(1):
    break
    
model2(enc_train)

<tf.Tensor: shape=(256, 11, 12001), dtype=float32, numpy=
array([[[-2.13754392e-04, -3.39395447e-05, -9.05460474e-05, ...,
         -8.88166396e-05,  2.15033055e-04, -3.14734716e-05],
        [ 5.24531897e-05,  1.21936122e-04,  3.16820806e-04, ...,
         -1.25118924e-04,  5.19435620e-04, -1.06318221e-04],
        [ 7.25991151e-04,  7.85286102e-05,  2.61733163e-04, ...,
         -3.97211898e-06,  6.36752869e-04, -3.72508162e-04],
        ...,
        [ 7.58138834e-04,  8.83960456e-05,  1.63524121e-03, ...,
          2.49146658e-04,  1.44285278e-03, -1.91889441e-04],
        [ 8.93491495e-04, -6.30720751e-05,  2.17490876e-03, ...,
          1.21575154e-04,  1.42013980e-03, -1.49681102e-04],
        [ 9.55307041e-04,  4.30408458e-04,  2.04905705e-03, ...,
          2.98852829e-04,  1.37665437e-03, -2.85403017e-04]],

       [[-2.13754392e-04, -3.39395447e-05, -9.05460474e-05, ...,
         -8.88166396e-05,  2.15033055e-04, -3.14734716e-05],
        [-6.06535759e-04,  2.41541420e-05, -4

In [74]:
model2.summary()

Model: "text_generator_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_3 (Embedding)      multiple                  6144512   
_________________________________________________________________
lstm_6 (LSTM)                multiple                  6295552   
_________________________________________________________________
lstm_7 (LSTM)                multiple                  8392704   
_________________________________________________________________
dense_3 (Dense)              multiple                  12301025  
Total params: 33,133,793
Trainable params: 33,133,793
Non-trainable params: 0
_________________________________________________________________


In [75]:
#2차 시도
model.fit(dataset, epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7fb5f68eafd0>

### 결과가 나왔다!!!! 1.62의 loss이다.  

#### 이제 작사를 좀 시켜보자. 제시어는 노드에 있던 'i love'

In [77]:
def generate_text(model, tokenizer, init_sentence="<start>", max_len=20):
    
    # 테스트를 위해서 입력받은 init_sentence도 일단 텐서로 변환한다.
    test_input = tokenizer.texts_to_sequences([init_sentence])
    test_tensor = tf.convert_to_tensor(test_input, dtype=tf.int64)
    end_token = tokenizer.word_index["<end>"]


    while True:
        # 입력받은 문장의 텐서를 입력하고, 
        predict = model(test_tensor)   
        predict_word = tf.argmax(tf.nn.softmax(predict, axis=-1), axis=-1)[:, -1]  

        # 새로 예측한 단어를 입력 단어 뒤에 붙여준다(RNN 순환)
        test_tensor = tf.concat([test_tensor, tf.expand_dims(predict_word, axis=0)], axis=-1)

        # 우리 모델이 <end>를 예측했거나, max_len에 도달하지 않았다면  
        # while 루프를 또 돌면서 다음 단어를 예측하게 한다.
        if predict_word.numpy()[0] == end_token: break
        if test_tensor.shape[1] >= max_len: break

    generated = ""
   
    # 생성된 tensor 안에 있는 word index를 tokenizer.index_word 사전을 통해 사람이 이해 가능한 문자로 변환한다.
    for word_index in test_tensor[0].numpy():
        generated += tokenizer.index_word[word_index] + " "

    return generated 

In [80]:
generate_text(model, tokenizer, init_sentence="<start> i love", max_len=20)

'<start> i love you more than i did <end> '

In [81]:
generate_text(model2, tokenizer, init_sentence="<start> i love", max_len=20)

'<start> i love aieeah aieeah shared shared switches clumsy clumsy maxwell brag brag brag brag compete compete carousel carousel carousel '

* 혹시 몰라서 val_loss가 2.2에 근접했던 model1과, 목표달성에 성공한 model2를 동시에 돌렸더니     
* 결과가 이렇게 나왔다.      

### 왜 이러는걸까?     

- ~model2는 사랑에 실패한 게 분명하다~

In [82]:
generate_text(model2, tokenizer, init_sentence="<start> today ", max_len=20)

'<start> today lag murderers murderers ktown nobody nobody ktown tragedies tragedies tragedies tragedies tragedies chased fundamental fundamental fundamental fundamental diggin '

In [83]:
generate_text(model, tokenizer, init_sentence="<start> today ", max_len=20)

'<start> today , today , it s too late <end> '

#### 작사는 model 니가 해, model2는 하기 싫은가보다

- 둘 사이에 달라진거라고는 임베딩 사이즈 뿐인데, 뭔가 이상하다.    
- 검색과 하이퍼파라미터 변경을 통해, 같은 조건(val_loss 2.2 이하) 잘 작사하는 모델으로 보완해보겠다.  