In [8]:
import glob
import re
import numpy as np
import tensorflow as tf

txt_file_path = 'word2vec/all_lyrics_text.txt'

txt_list = glob.glob(txt_file_path)

In [9]:
raw_corpus = []

for txt_file in txt_list:
    with open(txt_file, "r", encoding='UTF8') as f:
        raw = f.read().splitlines()
        raw_corpus.extend(raw)

print("데이터 크기:", len(raw_corpus))
print("Examples:\n", raw_corpus[:10])

데이터 크기: 84196
Examples:
 ['무얼 믿은 걸까 부족했던 내게서', '나조차 못 믿던 내게 여태 머문 사람', '무얼 봤던 걸까 가진 것도 없던 내게', '무작정 내 손을 잡아 날 이끈 사람', '최고였어', '그대 눈 속에 비친 내 모습', '이제는 내게서 그댈 비춰줄게', '궂은 비가 오면', '세상 가장 큰 그대 우산이 될게', '그댄 편히 걸어가요']


In [13]:
corpus= []

for idx, sentence in enumerate(raw_corpus):
    if len(sentence) == 0: continue           # 길이가 0인 문장 제외
    if ('[' and ']') in sentence: continue    # 대괄호가 들어가는 문장 제외
    
    corpus.append(sentence)


print(f'원래 데이터 크기 : {len(raw_corpus)}')
print(f'공백인 문장, 대괄호 포함된 문장 제외한 데이터 크기 : {len(corpus)}')

corpus = list(set(corpus))          # 중복불가한 set의 특성을 이용하여 중복되는 문장 제외 후 다시 리스트로 변환
print(f'중복되는 문장 제외한 데이터 크기 : {len(corpus)}')

원래 데이터 크기 : 84196
공백인 문장, 대괄호 포함된 문장 제외한 데이터 크기 : 81088
중복되는 문장 제외한 데이터 크기 : 35528


In [17]:
def preprocess_sentence(sentence):
    sentence = sentence.strip()                     # 1
    sentence = re.sub(r"([?.!,¿])", r" \1 ", sentence)     # 2
    sentence = re.sub(r'[" "]+', " ", sentence)             # 3
    sentence = re.sub(r"[^가-힣?.!,¿]+", " ", sentence)   # 4
    sentence = sentence.strip()                             # 5
    sentence = '<start> ' + sentence + ' <end>'             # 6
    return sentence

In [19]:
corpus_tokenized = []

for sentence in corpus:
    # 데이터 정제
    preprocessed_sentence = preprocess_sentence(sentence)
    corpus_tokenized.append(preprocessed_sentence)
        
# 정제된 결과를 10개만 확인
corpus_tokenized[:10]

['<start> 울 엄마의 빈자리를 채워주신 할무니 <end>',
 '<start> 내마음 물어보지만 <end>',
 '<start> 예쁜 꽃이요 장미꽃처럼 <end>',
 '<start> 널 위해 내가 살 수 있다면 <end>',
 '<start> 코스모스 반겨주는 <end>',
 '<start> 딴 생각 같은 건 할 수 없게 <end>',
 '<start> 바람 부는 갈대 숲을 지나 <end>',
 '<start>  <end>',
 '<start> 우리집 비번 자기 생일 들어와 <end>',
 '<start> 좋은 일은 제일 먼저 축하를 <end>']

In [20]:
def tokenize(corpus):
    tokenizer = tf.keras.preprocessing.text.Tokenizer(
        num_words=15000,         # 15000개 단어를 기억할 수 있음
        filters=' ',
        oov_token="<unk>"        # 포함되지 않는 단어는 <unk> 으로 표현
    )
    
    # corpus를 이용해 tokenizer 내부의 단어장을 완성
    tokenizer.fit_on_texts(corpus)
    
    # 준비한 tokenizer를 이용해 corpus를 Tensor로 변환
    tensor = tokenizer.texts_to_sequences(corpus)   
    
    tensor = tf.keras.preprocessing.sequence.pad_sequences(tensor, padding='post', maxlen=15)  # 토큰 15개 초과 제외
    
    print(tensor,tokenizer)
    return tensor, tokenizer

tensor, tokenizer = tokenize(corpus_tokenized)

[[    2   296  1963 ...     0     0     0]
 [    2   340  5406 ...     0     0     0]
 [    2   259 12491 ...     0     0     0]
 ...
 [    2    56     1 ...     0     0     0]
 [    2  2540  1170 ...     0     0     0]
 [    2  1753  1753 ...     0     0     0]] <keras.preprocessing.text.Tokenizer object at 0x000001A5E4BAE9A0>


In [21]:
for idx in tokenizer.index_word:
    print(idx, ":", tokenizer.index_word[idx])

    if idx >= 10: break

1 : <unk>
2 : <start>
3 : <end>
4 : 내
5 : 그
6 : 이
7 : 내가
8 : 사랑
9 : 나는
10 : 그대


In [22]:
src_input = tensor[:, :-1] # 소스문장 생성 

tgt_input = tensor[:, 1:]  # 타켓 문장 생성

print(src_input[0])
print(tgt_input[0])

[    2   296  1963  7486 12490  5405     3     0     0     0     0     0
     0     0]
[  296  1963  7486 12490  5405     3     0     0     0     0     0     0
     0     0]


In [23]:
from sklearn.model_selection import train_test_split
enc_train, enc_val, dec_train, dec_val = train_test_split(src_input, 
                                                          tgt_input,
                                                          test_size=0.2,       # 데이트셋 비율
                                                          shuffle=True, 
                                                          random_state=34)     # 결과를 일정하게 보여주기위해 지정

In [24]:
print("Source Train:", enc_train.shape)
print("Target Train:", dec_train.shape)

Source Train: (28422, 14)
Target Train: (28422, 14)


In [25]:
from tensorflow.keras.layers import Embedding, LSTM, Dense


class TextGenerator(tf.keras.Model):
    def __init__(self, vocab_size, embedding_size, hidden_size):
        super(TextGenerator, self).__init__()
        
        self.embedding = Embedding(vocab_size, embedding_size)
        self.rnn_1 = LSTM(hidden_size, return_sequences=True)
        self.rnn_2 = LSTM(hidden_size, return_sequences=True)
        self.linear = Dense(vocab_size)
        
    def call(self, x):
        out = self.embedding(x)
        out = self.rnn_1(out)
        out = self.rnn_2(out)
        out = self.linear(out)
        
        return out

In [26]:
embedding_size = 256
hidden_size = 2048
model = TextGenerator(tokenizer.num_words + 1, embedding_size , hidden_size)

In [None]:
optimizer = tf.keras.optimizers.Adam()
loss = tf.keras.losses.SparseCategoricalCrossentropy(
    from_logits=True,
    reduction='none'
)

model.compile(loss=loss, optimizer=optimizer)
model.fit(enc_train, dec_train, epochs=10)

Epoch 1/10
  1/889 [..............................] - ETA: 11:32:49 - loss: 9.6155

In [None]:
def generate_text(model, tokenizer, init_sentence="<start>", max_len=20):
    # 테스트를 위해서 입력받은 init_sentence도 일단 텐서로 변환합니다.
    test_input = tokenizer.texts_to_sequences([init_sentence])
    test_tensor = tf.convert_to_tensor(test_input, dtype=tf.int64)
    end_token = tokenizer.word_index["<end>"]

    # 텍스트를 실제로 생성할때는 루프를 돌면서 단어 하나씩 생성해야 합니다. 
    while True:
        predict = model(test_tensor)  # 입력받은 문장의 텐서를 입력합니다. 
        predict_word = tf.argmax(tf.nn.softmax(predict, axis=-1), axis=-1)[:, -1]   # 우리 모델이 예측한 마지막 단어가 바로 새롭게 생성한 단어가 됩니다. 

        # 우리 모델이 새롭게 예측한 단어를 입력 문장의 뒤에 붙여 줍니다. 
        test_tensor = tf.concat([test_tensor, tf.expand_dims(predict_word, axis=0)], axis=-1)

        # 우리 모델이 <end>를 예측했거나, max_len에 도달하지 않았다면  while 루프를 또 돌면서 다음 단어를 예측해야 합니다.
        if predict_word.numpy()[0] == end_token: break
        if test_tensor.shape[1] >= max_len: break

    generated = ""
    # 생성된 tensor 안에 있는 word index를 tokenizer.index_word 사전을 통해 실제 단어로 하나씩 변환합니다. 
    for word_index in test_tensor[0].numpy():
        generated += tokenizer.index_word[word_index] + " "

    return generated   # 이것이 최종적으로 모델이 생성한 자연어 문장입니다.

In [None]:
generate_text(model, tokenizer, init_sentence="<start> 나는", max_len=20)