In [1]:
# 아주 간단한 언어생성모델 with RNN

import numpy as np
import pandas as pd
from keras.models import Sequential
from keras.layers import SimpleRNN, Dense
from keras.utils import to_categorical # one-hot encoding

In [2]:
# 예시 훈련 데이터
text = '오늘 우리는 언어모델을 공부했어요. 수업이 끝났습니다. 나는 집에 갑니다. 다음에 또 만나요.'


In [6]:
# 문자와 index를 mapping >> dictionary 생성(단어 사전 생성)
# 문자 단위(char 단위)

chars = sorted(list(set(text))) # 중복제거 후 리스트로 변환, 정렬
chars

[' ',
 '.',
 '갑',
 '공',
 '끝',
 '나',
 '났',
 '는',
 '늘',
 '니',
 '다',
 '델',
 '또',
 '리',
 '만',
 '모',
 '부',
 '수',
 '습',
 '어',
 '언',
 '업',
 '에',
 '오',
 '요',
 '우',
 '을',
 '음',
 '이',
 '집',
 '했']

In [9]:
# 정수 인코딩 <-> 문자로 변환

char_to_idx = {char : idx for idx, char in enumerate(chars)}
char_to_idx
    

{' ': 0,
 '.': 1,
 '갑': 2,
 '공': 3,
 '끝': 4,
 '나': 5,
 '났': 6,
 '는': 7,
 '늘': 8,
 '니': 9,
 '다': 10,
 '델': 11,
 '또': 12,
 '리': 13,
 '만': 14,
 '모': 15,
 '부': 16,
 '수': 17,
 '습': 18,
 '어': 19,
 '언': 20,
 '업': 21,
 '에': 22,
 '오': 23,
 '요': 24,
 '우': 25,
 '을': 26,
 '음': 27,
 '이': 28,
 '집': 29,
 '했': 30}

In [10]:
# 문자 <-> 정수 인코딩으로 변환

idx_to_char = {idx : char for idx, char in enumerate(chars)}
idx_to_char

{0: ' ',
 1: '.',
 2: '갑',
 3: '공',
 4: '끝',
 5: '나',
 6: '났',
 7: '는',
 8: '늘',
 9: '니',
 10: '다',
 11: '델',
 12: '또',
 13: '리',
 14: '만',
 15: '모',
 16: '부',
 17: '수',
 18: '습',
 19: '어',
 20: '언',
 21: '업',
 22: '에',
 23: '오',
 24: '요',
 25: '우',
 26: '을',
 27: '음',
 28: '이',
 29: '집',
 30: '했'}

In [11]:
vocab_size = len(chars)
print('vocab size :', vocab_size)

vocab size : 31


In [12]:
# hyper parameter : 문장의 길이 설정
seq_length = 5

# 데이터 전처리
input_data = []
target_data = []

for i in range(len(text) - seq_length) :
    # 전체 문장 중에서 seq_length(5개) 씩 빼온다.
    input_seq = text[i: i+seq_length]
    target_char = text[i+seq_length]
    
    input_data.append([char_to_idx[char] for char in input_seq])
    target_data.append([char_to_idx[target_char]])

input_data = np.array(input_data)
target_data = to_categorical(target_data, num_classes=len(chars))

In [13]:
input_data.shape

(47, 5)

In [14]:
target_data.shape

(47, 31)

In [15]:
print(input_data)
print()
print(target_data)

[[23  8  0 25 13]
 [ 8  0 25 13  7]
 [ 0 25 13  7  0]
 [25 13  7  0 20]
 [13  7  0 20 19]
 [ 7  0 20 19 15]
 [ 0 20 19 15 11]
 [20 19 15 11 26]
 [19 15 11 26  0]
 [15 11 26  0  3]
 [11 26  0  3 16]
 [26  0  3 16 30]
 [ 0  3 16 30 19]
 [ 3 16 30 19 24]
 [16 30 19 24  1]
 [30 19 24  1  0]
 [19 24  1  0 17]
 [24  1  0 17 21]
 [ 1  0 17 21 28]
 [ 0 17 21 28  0]
 [17 21 28  0  4]
 [21 28  0  4  6]
 [28  0  4  6 18]
 [ 0  4  6 18  9]
 [ 4  6 18  9 10]
 [ 6 18  9 10  1]
 [18  9 10  1  0]
 [ 9 10  1  0  5]
 [10  1  0  5  7]
 [ 1  0  5  7  0]
 [ 0  5  7  0 29]
 [ 5  7  0 29 22]
 [ 7  0 29 22  0]
 [ 0 29 22  0  2]
 [29 22  0  2  9]
 [22  0  2  9 10]
 [ 0  2  9 10  1]
 [ 2  9 10  1  0]
 [ 9 10  1  0 10]
 [10  1  0 10 27]
 [ 1  0 10 27 22]
 [ 0 10 27 22  0]
 [10 27 22  0 12]
 [27 22  0 12  0]
 [22  0 12  0 14]
 [ 0 12  0 14  5]
 [12  0 14  5 24]]

[[0. 0. 0. ... 0. 0. 0.]
 [1. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 1. 0. ... 0. 0. 0

In [17]:
input_data[0]

array([23,  8,  0, 25, 13])

In [19]:
[idx_to_char[idx] for idx in input_data[0]]

['오', '늘', ' ', '우', '리']

In [20]:
print('정답 데이터', target_data[0])

정답 데이터 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0.]


In [21]:
# 모델링 및 학습

# 모델 생성
model = Sequential()
model.add(SimpleRNN(64, input_shape=(seq_length, 1), activation='tanh'))
model.add(Dense(vocab_size, activation='softmax'))

In [22]:
# 모델 컴파일(다중분류)
model.compile(loss = 'categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [23]:
# 모델 학습
model.fit(input_data, target_data, epochs = 200, batch_size=1, verbose=2)

Epoch 1/200
47/47 - 2s - loss: 3.6829 - accuracy: 0.0638 - 2s/epoch - 47ms/step
Epoch 2/200
47/47 - 0s - loss: 2.9672 - accuracy: 0.2340 - 118ms/epoch - 3ms/step
Epoch 3/200
47/47 - 0s - loss: 2.7127 - accuracy: 0.2340 - 109ms/epoch - 2ms/step
Epoch 4/200
47/47 - 0s - loss: 2.5050 - accuracy: 0.2553 - 95ms/epoch - 2ms/step
Epoch 5/200
47/47 - 0s - loss: 2.3568 - accuracy: 0.2766 - 96ms/epoch - 2ms/step
Epoch 6/200
47/47 - 0s - loss: 2.2216 - accuracy: 0.2766 - 89ms/epoch - 2ms/step
Epoch 7/200
47/47 - 0s - loss: 2.1145 - accuracy: 0.3617 - 81ms/epoch - 2ms/step
Epoch 8/200
47/47 - 0s - loss: 2.0130 - accuracy: 0.3830 - 83ms/epoch - 2ms/step
Epoch 9/200
47/47 - 0s - loss: 1.9200 - accuracy: 0.4043 - 80ms/epoch - 2ms/step
Epoch 10/200
47/47 - 0s - loss: 1.8275 - accuracy: 0.4468 - 88ms/epoch - 2ms/step
Epoch 11/200
47/47 - 0s - loss: 1.7494 - accuracy: 0.4468 - 84ms/epoch - 2ms/step
Epoch 12/200
47/47 - 0s - loss: 1.6505 - accuracy: 0.4894 - 83ms/epoch - 2ms/step
Epoch 13/200
47/47 - 0s 

<keras.callbacks.History at 0x1eaa164a520>

In [37]:
seed = '오늘 우리'
# 시드 문자열 길이를 seq_length와 동일하게 설정

generated_text = seed

In [38]:
input_seq = np.array([char_to_idx[char] for char in seed ])

input_seq
# seed의 문자를 정수 인덱스로 변경

array([23,  8,  0, 25, 13])

In [39]:
input_seq = input_seq.reshape(1, seq_length)
input_seq

array([[23,  8,  0, 25, 13]])

In [40]:
for _ in range(60) :
    predicted_idx = np.argmax(model.predict(input_seq))
    predicted_char = idx_to_char[predicted_idx]
    generated_text += predicted_char
    
    print('input_seq :', input_seq)
    print('predicted_idx :', predicted_idx)
    
    predicted_idx = np.array(predicted_idx).reshape(1,1)
    input_seq = np.concatenate((input_seq[:, 1:], predicted_idx), axis = 1)
    # 맨 앞에 단어 빼고 그다음 단어부터 5개씩 불러오게하는 코드

input_seq : [[23  8  0 25 13]]
predicted_idx : 7
input_seq : [[ 8  0 25 13  7]]
predicted_idx : 0
input_seq : [[ 0 25 13  7  0]]
predicted_idx : 20
input_seq : [[25 13  7  0 20]]
predicted_idx : 19
input_seq : [[13  7  0 20 19]]
predicted_idx : 15
input_seq : [[ 7  0 20 19 15]]
predicted_idx : 11
input_seq : [[ 0 20 19 15 11]]
predicted_idx : 26
input_seq : [[20 19 15 11 26]]
predicted_idx : 0
input_seq : [[19 15 11 26  0]]
predicted_idx : 3
input_seq : [[15 11 26  0  3]]
predicted_idx : 16
input_seq : [[11 26  0  3 16]]
predicted_idx : 30
input_seq : [[26  0  3 16 30]]
predicted_idx : 19
input_seq : [[ 0  3 16 30 19]]
predicted_idx : 24
input_seq : [[ 3 16 30 19 24]]
predicted_idx : 1
input_seq : [[16 30 19 24  1]]
predicted_idx : 0
input_seq : [[30 19 24  1  0]]
predicted_idx : 17
input_seq : [[19 24  1  0 17]]
predicted_idx : 21
input_seq : [[24  1  0 17 21]]
predicted_idx : 28
input_seq : [[ 1  0 17 21 28]]
predicted_idx : 0
input_seq : [[ 0 17 21 28  0]]
predicted_idx : 4
input_se

In [41]:
generated_text

'오늘 우리는 언어모델을 공부했어요. 수업이 끝났습니다. 나는 집에 갑니다. 다음에 또 만나요.끝부했어 또 만나요.끝부'