연극의 대사를 학습해 스스로 연극 대사 문장 생성해내는 언어 모델 만들기

## 1. 데이터 다듬기

In [None]:
# $ mkdir -p ~/aiffel/lyricist/models
# $ ln -s ~/data ~/aiffel/lyricist/data

In [19]:
import os, re
import numpy as np
import tensorflow as tf

# 파일을 읽기 모드로 열고
# 라인 단위로 끊어 list 형태로 읽어오기
file_path = os.getenv('HOME') + '/aiffel/lyricist/data/shakespeare.txt'
with open(file_path, 'r') as f:
    raw_corpus = f.read().splitlines() # 라인 단위로 끊기

# 10라인만 출력해보기
print(raw_corpus[:10])

['First Citizen:', 'Before we proceed any further, hear me speak.', '', 'All:', 'Speak, speak.', '', 'First Citizen:', 'You are all resolved rather to die than to famish?', '', 'All:']


##### 우리는 대사(문장)를 원하기 때문에 화자 이름, 공백 만 들어있는 정보는 필요 없다.
- 화자 이름은 ':'로 끝날 것이고,
- 공백은 길이가 0일 것이다.

In [2]:
for idx, sentence in enumerate(raw_corpus):
    if len(sentence) == 0: continue # 길이가 0인 공백 문장은 건너뛰기
    if sentence[-1] == ':': continue # 문장의 끝이 :인 문장은 건너뛰기
        
    if idx > 9: break # 일단 문장 10개만 확인해보기
    
    print(sentence)

Before we proceed any further, hear me speak.
Speak, speak.
You are all resolved rather to die than to famish?


### 토큰화(Tokenize)

띄어쓰기 기준으로 나누었을 때 발생하는 문제 해결
1. 문장 부호 문제 -> 문장 부호 양쪽에 공백 추가하자
2. 대소문자 문제 -> 모든 문자들을 소문자로 변환하자
3. 특수문자 문제 -> 특수문자들은 모두 제거하자

### 정규표현식(Regex)을 이용한 필터링

입력된 문장을
1. 소문자로 바꾸고, 양쪽에 공백 지우기
2. 특수문자의 양쪽에 공백 넣기
3. 여러 개의 공백 -> 하나의 공백으로
4. a-zA-Z?.!,¿가 아닌 모든 문자를 하나의 공백으로 바꾸기
5. 다시 양쪽 공백 지우기
6. 문장 시작에는 < start >를, 끝에는 < end >를 추가

In [16]:
def preprocess_sentence(sentence):
    sentence = sentence.lower().strip() # 1
    sentence = re.sub(r"([?.!,¿])", r" \1 ", sentence) # 2
    sentence = re.sub(r'[" "]+', " ", sentence) # 3
    sentence = re.sub(r"[^a-zA-Z?.!,¿]+", " ", sentence) # 4
    sentence = sentence.strip() # 5
    sentence = '<start> ' + sentence + ' <end>' # 6
    return sentence

##### 여기서 re.sub(pattern, new_text, text) 란?
text에서 pattern을 new_text로 대체(replace)하라

In [11]:
# 이 문장으로 확인해보기
print(preprocess_sentence("This @_is ;;;sample        sentence."))

<start> this is sample sentence . <end>


In [20]:
# 여기에 정제된 문자를 모을 것
corpus = []

for sentence in raw_corpus:
    # 원하지 않는 문장은 건너 뛰기
    if len(sentence) == 0: continue
    if sentence[-1] == ':': continue
    
    # 정제 후 담아주기
    preprocessed_sentence = preprocess_sentence(sentence)
    corpus.append(preprocessed_sentence)

# 정제된 결과 10개만 확인해보기
corpus[:10]

['<start> before we proceed any further , hear me speak . <end>',
 '<start> speak , speak . <end>',
 '<start> you are all resolved rather to die than to famish ? <end>',
 '<start> resolved . resolved . <end>',
 '<start> first , you know caius marcius is chief enemy to the people . <end>',
 '<start> we know t , we know t . <end>',
 '<start> let us kill him , and we ll have corn at our own price . <end>',
 '<start> is t a verdict ? <end>',
 '<start> no more talking on t let it be done away , away ! <end>',
 '<start> one word , good citizens . <end>']

##### tf.keras.preprocesing.text.Tokenizer
- 벡터화(vectorize): 정제된 데이터를 토큰화하고, vocab dictionary를 만들어주며, 데이터를 숫자로 변환해줌
- 텐서(tensor): 숫자로 변환된 데이터

In [25]:
# 토큰화: 텐서플로우의 Tokenizer와 pad_sequences 사용

def tokenize(corpus):
    # 7000개 단어를 기억할 수 있는 tokenizer 생성
    # 이미 문장을 정제했으니 filters가 필요하지 x
    # 7000개 단어에 포함되지 못한 단어는 '<unk>'로 바꿔주기
    tokenizer = tf.keras.preprocessing.text.Tokenizer(
        num_words=7000,
        filters=' ',
        oov_token="<unk>"
    )
    
    # corpus를 이용해 tokenizer 내부의 단어장 완성하기
    tokenizer.fit_on_texts(corpus)
    
    # + 텐서가 어떤식으로 형성되었는지 궁금해서 추가해봤다.
    word_index = tokenizer.word_index
    
    # 준비한 tokenizer를 이용해 corpus를 Tensor로 변환하기
    tensor = tokenizer.texts_to_sequences(corpus)
    
    # 입력 데이터의 시퀀스 길이 일정하게 맞춰주기
    # if 시퀀스 길이 짧다면, 문장 뒤에 패딩 붙여 길이 맞추기
    # 문장 앞에 패딩 붙여 길이 맞추고 싶다면 padding='pre' 사용하기
    tensor = tf.keras.preprocessing.sequence.pad_sequences(tensor, padding='post')
    
    print(tensor, tokenizer, word_index)
    return tensor, tokenizer, word_index


tensor, tokenizer, word_index = tokenize(corpus)

[[   2  143   40 ...    0    0    0]
 [   2  110    4 ...    0    0    0]
 [   2   11   50 ...    0    0    0]
 ...
 [   2  149 4553 ...    0    0    0]
 [   2   34   71 ...    0    0    0]


In [26]:
print(tensor[:3, :10])

[[   2  143   40  933  140  591    4  124   24  110]
 [   2  110    4  110    5    3    0    0    0    0]
 [   2   11   50   43 1201  316    9  201   74    9]]


In [27]:
# 위에서 word_index 안 쓰고 이런식으로도 확인 가능하구나!

for idx in tokenizer.index_word:
    print(idx, ':', tokenizer.index_word[idx])
    
    if idx >= 10: break

1 : <unk>
2 : <start>
3 : <end>
4 : ,
5 : .
6 : the
7 : and
8 : i
9 : to
10 : of


In [28]:
# 길이가 짧은 경우 0으로 패딩

# tensor에서 마지막 토큰을 잘라 소스 문장 생성하기
# 마지막 토큰은 <end>가 아니라 <pad>일 가능성이 높다.
src_input = tensor[:, :-1]
# tensor에서 <start>를 잘라내 타겟 문장 생성하기
tgt_input = tensor[:, 1:]

print(src_input[0])
print(tgt_input[0])

[  2 143  40 933 140 591   4 124  24 110   5   3   0   0   0   0   0   0
   0   0]
[143  40 933 140 591   4 124  24 110   5   3   0   0   0   0   0   0   0
   0   0]


source 문장은 2(<start>)에서 시작해 3(<end>)로 끝나고 0(<pad>)로 채워져 있다. <br/>
target 문장은 2로 시작하지 않고 source를 왼쪽으로 shift한 형태를 취함

In [30]:
BUFFER_SIZE = len(src_input)
BATCH_SIZE = 256
steps_per_epoch = len(src_input) // BATCH_SIZE

# tokenizer가 구축한 단어사전 내 7000개와, 여기 포함되지 않은 0:<pad>를 포함해 7001개
VOCAB_SIZE = tokenizer.num_words + 1

# 준비한 데이터 소스로부터 데이터셋 만들기 (자세히 알 수록 중요함)
dataset = tf.data.Dataset.from_tensor_slices((src_input, tgt_input))
dataset = dataset.shuffle(BUFFER_SIZE)
dataset = dataset.batch(BATCH_SIZE, drop_remainder=True)
dataset

<BatchDataset shapes: ((256, 20), (256, 20)), types: (tf.int32, tf.int32)>

## 2. 인공지능 학습시키기

우리가 만들 모델은 tf.keras.Model을 Subclassing하는 방식
- 1개의 Embedding 레이어, 2개의 LSTM 레이어, 1개의 Dense 레이어

In [31]:
class TextGenerator(tf.keras.Model):
    def __init__(self, vocab_size, embedding_size, hidden_size):
        super().__init__()
        
        self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_size)
        self.rnn_1 = tf.keras.layers.LSTM(hidden_size, return_sequences=True)
        self.rnn_2 = tf.keras.layers.LSTM(hidden_size, return_sequences=True)
        self.linear = tf.keras.layers.Dense(vocab_size)
    
    def call(self, x): # 순환 신경망의 구조가 잘 나타나는듯!
        out = self.embedding(x)
        out = self.rnn_1(out)
        out = self.rnn_2(out)
        out = self.linear(out)
        return out
    
embedding_size = 256
hidden_size = 1024
model = TextGenerator(tokenizer.num_words + 1, embedding_size, hidden_size)

In [32]:
# 데이터셋에서 데이터 한 배치만 불러오는 방법
for src_sample, tgt_sample in dataset.take(1): break

# 한 배치만 불러온 데이터를 모델에 넣어보기
model(src_sample)

<tf.Tensor: shape=(256, 20, 7001), dtype=float32, numpy=
array([[[ 2.79369968e-04,  3.09945695e-04,  1.04803126e-04, ...,
         -1.18157011e-04,  9.63466446e-05, -1.74842047e-04],
        [ 5.43742673e-04,  3.82172409e-04,  4.35125228e-04, ...,
         -3.17329075e-04,  4.02750651e-04, -4.36436057e-05],
        [ 1.12722139e-03,  5.09059289e-04,  5.69417840e-04, ...,
         -3.11080745e-04,  4.64187324e-04, -1.06255548e-05],
        ...,
        [-1.79333671e-03, -3.05638183e-04,  5.65724797e-04, ...,
         -2.80893204e-04,  1.21275370e-03, -8.36153980e-04],
        [-2.24487041e-03, -1.90346764e-04,  4.79244336e-04, ...,
         -3.99823824e-04,  1.27588841e-03, -1.19361223e-03],
        [-2.65781395e-03, -6.22252701e-05,  4.19784861e-04, ...,
         -5.45182789e-04,  1.32514618e-03, -1.50815735e-03]],

       [[ 2.79369968e-04,  3.09945695e-04,  1.04803126e-04, ...,
         -1.18157011e-04,  9.63466446e-05, -1.74842047e-04],
        [ 2.46772484e-04,  1.34482907e-04,  3.

shape가 (256, 20, 7001)이다.
- 7001: Dense 레이어의 출력 차원수
- 256: 배치 사이즈
- 20
    - return_sequences=True
    - LSTM은 자신에게 입력된 시퀀스 길이만큼 동일한 길이의 시퀀스 출력함
    - 데이터셋의 max_len이 20일 것

In [33]:
model.summary()

Model: "text_generator"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        multiple                  1792256   
_________________________________________________________________
lstm (LSTM)                  multiple                  5246976   
_________________________________________________________________
lstm_1 (LSTM)                multiple                  8392704   
_________________________________________________________________
dense (Dense)                multiple                  7176025   
Total params: 22,607,961
Trainable params: 22,607,961
Non-trainable params: 0
_________________________________________________________________


output shape을 정확히 알려주지 않음
- 입력 시퀀스의 길이를 모르기 때문에!

In [34]:
# 양이 많고 어려우므로 지금 보는 것은 비추한다고 합니다 (15분 정도 소요)
optimizer = tf.keras.optimizers.Adam()
loss = tf.keras.losses.SparseCategoricalCrossentropy(
    from_logits=True,
    reduction='none'
)

model.compile(loss=loss, optimizer=optimizer)
model.fit(dataset, epochs=30)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<keras.callbacks.History at 0x7f67e0bff490>

loss가 점점 줄어든다.

## 3. 잘 만들어졌는지 평가하기
직접 작문을 시켜보고 직접 평가하기

In [38]:
def generate_text(model, tokenizer, init_sentence="<start>", max_len=20):
    
    # 테스트를 위해 입력받은 init_sentence도 텐서로 변환하기
    test_input = tokenizer.texts_to_sequences([init_sentence])
    test_tensor = tf.convert_to_tensor(test_input, dtype=tf.int64)
    end_token = tokenizer.word_index["<end>"]
    
    # 단어 하나씩 예측해 문장 만들기
        # 1. 입력받은 문장의 텐서 입력
        # 2. 예측된 값 중 가장 높은 확률인 word index 뽑기
        # 3. 2에서 예측된 word index를 문장 뒤에 붙이기
        # 4. 모델이 <end>를 예측했거나, max_len에 도달했다면 문장 생성 끝내기

    while True:
        predict = model(test_tensor) # 1
        
        predict_word = tf.argmax(tf.nn.softmax(predict, axis=-1), axis=-1)[:, -1] # 2
        
        test_tensor = tf.concat([test_tensor, tf.expand_dims(predict_word, axis=0)], axis=-1) # 3

        if predict_word.numpy()[0] == end_token: break # 4
        if test_tensor.shape[1] >= max_len: break
    
    generated = ""
    # tokenizer를 이용해 word index를 단어로 하나씩 변환하기
    for word_index in test_tensor[0].numpy():
        generated += tokenizer.index_word[word_index] + " "
    
    return generated


In [39]:
generate_text(model, tokenizer, init_sentence="<start> he")

'<start> he is a <unk> , and the <unk> <unk> <end> '

'<start> he'라는 init sentence가 위와 같은 문장으로 작문되었다!