# 데이터 준비

In [1]:
import glob
import os
import re                  # 정규표현식을 위한 Regex 지원 모듈 (문장 데이터를 정돈하기 위해) 
import numpy as np         # 변환된 문장 데이터(행렬)을 편하게 처리하기 위해
import tensorflow as tf    # 대망의 텐서플로우!


txt_file_path = os.getenv('HOME')+'/mini_projects/_E-06_lyricist/song/*'

txt_list = glob.glob(txt_file_path)

raw_corpus = []

# 여러개의 txt 파일을 모두 읽어서 raw_corpus 에 담습니다.
for txt_file in txt_list:
    with open(txt_file, "r") as f:
        raw = f.read().splitlines()
        raw_corpus.extend(raw)

print("데이터 크기:", len(raw_corpus))
print("Examples:\n", raw_corpus[:100])

데이터 크기: 187088
Examples:
 ['', '', '[Spoken Intro:]', 'You ever want something ', "that you know you shouldn't have ", "The more you know you shouldn't have it, ", 'The more you want it ', 'And then one day you get it, ', "It's so good too ", "But it's just like my girl ", "When she's around me ", 'I just feel so good, so good ', 'But right now I just feel cold, so cold ', 'Right down to my bones ', "'Cause ooh... ", "Ain't no sunshine when she's gone ", "It's not warm when she's away ", "Ain't no sunshine when she's gone ", "And she's always gone too long ", 'Anytime she goes away ', '', "Wonder this time where she's gone ", "Wonder if she's gone to stay ", "Ain't no sunshine when she's gone ", "And this house just ain't no home ", 'Anytime she goes away ', '', 'I know, I know, I know, I know, ', 'I know, know, know, know, know, ', 'I know, I know, ', 'Hey I ought to leave ', 'I ought to leave her alone ', "Ain't no sunshine when she's gone ", '', "Ain't no sunshine when she's gone ",

# 데이터 전처리

In [2]:
def preprocess_sentence(sentence):
        
    sentence = sentence.lower().strip()       # 소문자로 바꾸고 양쪽 공백을 삭제
    # 아래 3단계를 거쳐 sentence는 스페이스 1개를 delimeter로 하는 소문자 단어 시퀀스로 바뀝니다.
    sentence = re.sub(r"([?.!,¿])", r" \1 ", sentence)        # 패턴의 특수문자를 만나면 특수문자 양쪽에 공백을 추가
    sentence = re.sub(r'[" "]+', " ", sentence)                  # 공백 패턴을 만나면 스페이스 1개로 치환
    sentence = re.sub(r"[^a-zA-Z?.!,¿]+", " ", sentence)  # a-zA-Z?.!,¿ 패턴을 제외한 모든 문자(공백문자까지도)를 스페이스 1개로 치환
    
    sentence = sentence.strip()

    sentence = '<start> ' + sentence + ' <end>'      # 이전 스텝에서 본 것처럼 문장 앞뒤로 <start>와 <end>를 단어처럼 붙여 줍니다
    
    return sentence

print(preprocess_sentence("This @_is ;;;sample        sentence."))   # 이 문장이 어떻게 필터링되는지 확인해 보세요.

<start> this is sample sentence . <end>


# 정제 데이터 구축

In [3]:
corpus = []

for sentence in raw_corpus:
    if len(sentence) == 0: continue
    if sentence[-1] == ":": continue
    if sentence[0] == "[" : continue # 이거  추가하기 전엔 175749. 
    if sentence.count(" ") > 10 : continue  # 이거 추가하기 전엔 175171
        
    corpus.append(preprocess_sentence(sentence))
        
corpus[:10]

['<start> you ever want something <end>',
 '<start> that you know you shouldn t have <end>',
 '<start> the more you know you shouldn t have it , <end>',
 '<start> the more you want it <end>',
 '<start> and then one day you get it , <end>',
 '<start> it s so good too <end>',
 '<start> but it s just like my girl <end>',
 '<start> when she s around me <end>',
 '<start> i just feel so good , so good <end>',
 '<start> but right now i just feel cold , so cold <end>']

In [4]:
len(corpus)

150691

# 토크나이즈

In [5]:
def tokenize(corpus):
    # 텐서플로우에서 제공하는 Tokenizer 패키지를 생성
    tokenizer = tf.keras.preprocessing.text.Tokenizer(
        num_words=20000,  # 전체 단어의 개수 
        filters=' ',    # 별도로 전처리 로직을 추가할 수 있습니다. 이번에는 사용하지 않겠습니다.
        oov_token="<unk>"  # out-of-vocabulary, 사전에 없었던 단어는 어떤 토큰으로 대체할지
    )
    tokenizer.fit_on_texts(corpus)   # 우리가 구축한 corpus로부터 Tokenizer가 사전을 자동구축하게 됩니다.

    # 이후 tokenizer를 활용하여 모델에 입력할 데이터셋을 구축하게 됩니다.
    tensor = tokenizer.texts_to_sequences(corpus)   # tokenizer는 구축한 사전으로부터 corpus를 해석해 Tensor로 변환합니다.

    # 입력 데이터의 시퀀스 길이를 일정하게 맞추기 위한 padding  메소드를 제공합니다.
    # maxlen의 디폴트값은 None입니다. 이 경우 corpus의 가장 긴 문장을 기준으로 시퀀스 길이가 맞춰집니다.
    tensor = tf.keras.preprocessing.sequence.pad_sequences(tensor, padding='post', maxlen=15)  

    print(tensor,tokenizer)
    return tensor, tokenizer

tensor, tokenizer = tokenize(corpus)

[[  2   7 162 ...   0   0   0]
 [  2  17   7 ...   0   0   0]
 [  2   6  97 ...   0   0   0]
 ...
 [  2  43 922 ...   0   0   0]
 [  2  43  64 ...   0   0   0]
 [  2   8  82 ...   0   0   0]] <keras_preprocessing.text.Tokenizer object at 0x7f9c1619ca50>


In [6]:
tensor.shape

(150691, 15)

In [7]:
print(tensor[:10, :])

[[   2    7  162   65  195    3    0    0    0    0    0    0    0    0
     0]
 [   2   17    7   36    7 1667   15   76    3    0    0    0    0    0
     0]
 [   2    6   97    7   36    7 1667   15   76   11    4    3    0    0
     0]
 [   2    6   97    7   65   11    3    0    0    0    0    0    0    0
     0]
 [   2    8   98   60  118    7   45   11    4    3    0    0    0    0
     0]
 [   2   11   16   31  110  101    3    0    0    0    0    0    0    0
     0]
 [   2   35   11   16   32   24   13   81    3    0    0    0    0    0
     0]
 [   2   47   46   16  134   12    3    0    0    0    0    0    0    0
     0]
 [   2    5   32  104   31  110    4   31  110    3    0    0    0    0
     0]
 [   2   35   86   52    5   32  104  343    4   31  343    3    0    0
     0]]


In [8]:
len(tensor[0])

15

In [9]:
for idx in tokenizer.index_word:
    print(idx, ":", tokenizer.index_word[idx])

    if idx >= 10: break

1 : <unk>
2 : <start>
3 : <end>
4 : ,
5 : i
6 : the
7 : you
8 : and
9 : a
10 : to


# 소스  /  타겟 문장 생성

In [10]:
src_input = tensor[:, :-1]  # tensor에서 마지막 토큰을 잘라내서 소스 문장을 생성합니다. 마지막 토큰은 <end>가 아니라 <pad>일 가능성이 높습니다.
tgt_input = tensor[:, 1:]    # tensor에서 <start>를 잘라내서 타겟 문장을 생성합니다.

print(src_input[0])
print(tgt_input[0])

[  2   7 162  65 195   3   0   0   0   0   0   0   0   0]
[  7 162  65 195   3   0   0   0   0   0   0   0   0   0]


# train / test set 분리

In [11]:
from sklearn.model_selection import train_test_split

enc_train, enc_val, dec_train, dec_val = train_test_split(src_input,
                                                         tgt_input,
                                                         test_size=0.2,
                                                         shuffle=True)
print("Source Train:", enc_train.shape)
print("Target Train:", dec_train.shape)

Source Train: (120552, 14)
Target Train: (120552, 14)


# 훈련 데이터 셋 생성

In [12]:
BUFFER_SIZE = len(enc_train)
BATCH_SIZE = 512
steps_per_epoch = len(enc_train) // BATCH_SIZE

VOCAB_SIZE = tokenizer.num_words + 1    # tokenizer가 구축한 단어사전 내 7000개와, 여기 포함되지 않은 0:<pad>를 포함하여 7001개

dataset = tf.data.Dataset.from_tensor_slices((enc_train, dec_train)).shuffle(BUFFER_SIZE)
dataset = dataset.batch(BATCH_SIZE, drop_remainder=True)
dataset

<BatchDataset shapes: ((512, 14), (512, 14)), types: (tf.int32, tf.int32)>

# 텍스트 생성 모델

In [13]:
class TextGenerator(tf.keras.Model):
    def __init__(self, vocab_size, embedding_size, hidden_size):
        super(TextGenerator, self).__init__()
        
        self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_size)
        self.rnn_1 = tf.keras.layers.LSTM(hidden_size, return_sequences=True)
        self.rnn_2 = tf.keras.layers.LSTM(hidden_size, return_sequences=True)
        self.linear = tf.keras.layers.Dense(vocab_size)
        
    def call(self, x):
        out = self.embedding(x)
        out = self.rnn_1(out)
        out = self.rnn_2(out)
        out = self.linear(out)
        
        return out
    
embedding_size = 512
hidden_size = 3072
model = TextGenerator(tokenizer.num_words + 1, embedding_size , hidden_size)

In [14]:
for src_sample, tgt_sample in dataset.take(1): break
model(src_sample)

<tf.Tensor: shape=(512, 14, 20001), dtype=float32, numpy=
array([[[ 7.1678653e-05, -6.2685831e-05, -6.4311098e-06, ...,
         -1.7581582e-04, -1.3023868e-04, -1.7823395e-04],
        [ 2.1119753e-04, -5.4232140e-05,  1.3922836e-04, ...,
         -3.2008902e-04, -3.0532060e-04,  4.5801236e-05],
        [ 1.8744014e-04,  1.5029067e-04,  2.1425651e-04, ...,
         -2.5212139e-04, -3.9736545e-04,  5.7020388e-06],
        ...,
        [ 3.8216100e-04, -2.9035631e-04,  4.8033631e-04, ...,
         -2.0785474e-03,  6.0372782e-04, -1.2940018e-03],
        [ 3.9879777e-04, -3.9511238e-04,  7.2299340e-04, ...,
         -2.4178473e-03,  4.0005794e-04, -1.7941239e-03],
        [ 4.7312368e-04, -5.5164046e-04,  9.4836898e-04, ...,
         -2.7159462e-03,  1.4825485e-04, -2.2624708e-03]],

       [[ 7.1678653e-05, -6.2685831e-05, -6.4311098e-06, ...,
         -1.7581582e-04, -1.3023868e-04, -1.7823395e-04],
        [ 4.2497658e-04, -2.3679255e-04, -2.5238024e-04, ...,
         -1.2300345e-04, 

In [15]:
model.summary()

Model: "text_generator"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        multiple                  10240512  
_________________________________________________________________
lstm (LSTM)                  multiple                  44052480  
_________________________________________________________________
lstm_1 (LSTM)                multiple                  75509760  
_________________________________________________________________
dense (Dense)                multiple                  61463073  
Total params: 191,265,825
Trainable params: 191,265,825
Non-trainable params: 0
_________________________________________________________________


# 모델 훈련

In [16]:
optimizer = tf.keras.optimizers.Adam()
loss = tf.keras.losses.SparseCategoricalCrossentropy(
    from_logits=True,
    reduction='none'
)

model.compile(loss=loss, optimizer=optimizer)
model.fit(dataset, epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f9c1345ced0>

# 테스트 데이터 셋 생성

In [17]:
BUFFER_SIZE = len(enc_val)
BATCH_SIZE = 512
steps_per_epoch = len(enc_val) // BATCH_SIZE

VOCAB_SIZE = tokenizer.num_words + 1    # tokenizer가 구축한 단어사전 내 20000개와, 여기 포함되지 않은 0:<pad>를 포함하여 20001개

test_dataset = tf.data.Dataset.from_tensor_slices((enc_val, dec_val)).shuffle(BUFFER_SIZE)
test_dataset = test_dataset.batch(BATCH_SIZE, drop_remainder=True)
test_dataset

<BatchDataset shapes: ((512, 14), (512, 14)), types: (tf.int32, tf.int32)>

# 테스트 셋 평가

In [18]:
results=model.evaluate(test_dataset)



# 문장 생성기

In [19]:
def generate_text(model, tokenizer, init_sentence="<start>", max_len=15):
    # 테스트를 위해서 입력받은 init_sentence도 일단 텐서로 변환합니다.
    test_input = tokenizer.texts_to_sequences([init_sentence])
    test_tensor = tf.convert_to_tensor(test_input, dtype=tf.int64)
    end_token = tokenizer.word_index["<end>"]

    # 텍스트를 실제로 생성할때는 루프를 돌면서 단어 하나씩 생성해야 합니다. 
    while True:
        predict = model(test_tensor)  # 입력받은 문장의 텐서를 입력합니다. 
        predict_word = tf.argmax(tf.nn.softmax(predict, axis=-1), axis=-1)[:, -1]   # 우리 모델이 예측한 마지막 단어가 바로 새롭게 생성한 단어가 됩니다. 

        # 우리 모델이 새롭게 예측한 단어를 입력 문장의 뒤에 붙여 줍니다. 
        test_tensor = tf.concat([test_tensor, 
                                                                 tf.expand_dims(predict_word, axis=0)], axis=-1)

        # 우리 모델이 <end>를 예측했거나, max_len에 도달하지 않았다면  while 루프를 또 돌면서 다음 단어를 예측해야 합니다.
        if predict_word.numpy()[0] == end_token: break
        if test_tensor.shape[1] >= max_len: break

    generated = ""
    # 생성된 tensor 안에 있는 word index를 tokenizer.index_word 사전을 통해 실제 단어로 하나씩 변환합니다. 
    for word_index in test_tensor[0].numpy():
        generated += tokenizer.index_word[word_index] + " "

    return generated   # 이것이 최종적으로 모델이 생성한 자연어 문장입니다.

In [20]:
generate_text(model, tokenizer, init_sentence="<start> you")

'<start> you know i m bad , i m bad you know it <end> '

# 프로젝트 진행 과정 및 결과   
   
1. 전체 토큰 수를 줄이기 위해서 전처리 시 if sentence.count(" ") > 10 : continue 이러한 코드를 사용했다.   
   
   
2. 전체적으로 무난했다. 진행이 막혀 크게 어려움을 겪은 구간이 없었다. (그래서 한편으론 두렵다. 잘한게 맞나?)   
   
   
   
**1차 시기** : batch size = 256, hidden size = 2048 , embedding size = 512 ----> val loss = 2.31   

**2차 시기** : batch size = 512, hidden_size = 3072 , embedding_size = 512 ----> val loss = 2.21   


# 프로젝트 진행 중 의문점

1. 정규표현식으로 만들어보고 싶은데 좀 더 공부가 필요하다. **공부할 것**   
   

2. 데이터셋 생성 코드가 아직 잘 이해되지 않는다. steps_per_epoch, tf.data.Dataset.from_tensor_slices 의 역할이 아직 분명히 와닿지 않는다   
훈련셋, 테스트셋을 분리하는 것과 데이터셋 생성의 차이가 무엇인가? **공부할 것**   
   
3. 문장생성기 코드도 완벽하게 파악이 안 됐다. **공부할 것**


# 회고   
   
매일 매일 다른 이유로 스트레스를 받고 있었다.   
주말엔 풀잎 머신러닝 강의가 이해되지 않아서,   
그저께는 복습할 게 너무 밀려 있었서,   
어제는 오늘 노드가 이해가지 않아서,   
오늘은 프로젝트에 진전이 없어서,   
지금 하고 있는 모든 것들을 하나하나 이해하면서 앞으로 나아가기 보다   
일단 되게 하고 나중에 생각해보는 방식으로 진행하게 되면서 오는 불만족도 큰 몫을 차지했다.   
   
그 중에서도 가장 날 힘들게 했던 건 프로젝트였다.   
공식 LMS가 끝나고 지시딥 스터디를 마치자마자 저녁을 먹고   
곧바로 새벽 두시 세시까지 뭔가를 계속 하지만 머리 속에 남는 느낌이 들지 않았다.   
accuracy 몇%, loss몇% 한 두 줄이 뜨는 걸 보기 위해 겪는 시행착오들에서 뭔가를 배운다는 느낌보단 (물론 배우는 게 있긴 하지만)   
결국 그냥 뭔갈 '되게' 하고 말 뿐, 그것이 어떻게 왜 그렇게 되는지에 대한 이해는 한 켠에 제쳐져있다는 불쾌감이 더 컸다.   
   
일단 끝까지 가보는 것 역시 나쁜 방법은 아니다.   
그러나 지금은 선을 넘었다.   
바닥이 있는 데서 위로 올라가다 떨어지면, 팔다리 하나가 부러질지언정 바닥을 딛고 다시 올라갈 수 있다.   
허나 바닥이 없이 위로 올라가다 떨어지면, 죽기 전까지 계속 떨어지기만 할 뿐이다.   
좀 뒤쳐져도 어쩔 수 없다.   
그동안 쌓아둔 걸 해치우고 넘어가지 않고선 안되겠다.   

   
   