In [3]:
text = """경마장에 있는 말이 뛰고 있다\n
그의 말이 법이다\n
가는 말이 고와야 오는 말이 곱다"""

- 토큰화

In [4]:
from tensorflow.keras.preprocessing.text import Tokenizer

t = Tokenizer()
# 문장 분석
t.fit_on_texts([text])

# 분석된 단어의 목록을 확인
t.word_docs

defaultdict(int,
            {'법이다': 1,
             '말이': 1,
             '있다': 1,
             '오는': 1,
             '뛰고': 1,
             '있는': 1,
             '그의': 1,
             '고와야': 1,
             '가는': 1,
             '곱다': 1,
             '경마장에': 1})

In [5]:
# 단어의 수를 저장
vocab_size = len(t.word_docs) + 1

vocab_size

12

- 정수 인코딩

In [6]:
seq = []

# 문장을 한 줄씩 읽어온다
for line in text.split("\n") :
  encoded = t.texts_to_sequences([line])[0]

  # 조합 가능한 단어 조합을 생성
  for i in range(1, len(encoded)) :
    s = encoded[:i+1]
    seq.append(s)

seq    

# 경마장에 있는 말이 뛰고 있다
#    경마장에 있는
#    경마장에 있는 말이
#    경마장에 있는 말이 뛰고
#    경마장에 있는 말이 뛰고 있다
# 그의 말이 법이다
#    그의 말이
#    그의 말이 법이다
# 가는 말이 고와야 오는 말이 곱다
#     가는 말이
#     가는 말이 고와야
#     가는 말이 고와야 오는
#     가는 말이 고와야 오는 말이
#     가는 말이 고와야 오는 말이 곱다

[[2, 3],
 [2, 3, 1],
 [2, 3, 1, 4],
 [2, 3, 1, 4, 5],
 [6, 1],
 [6, 1, 7],
 [8, 1],
 [8, 1, 9],
 [8, 1, 9, 10],
 [8, 1, 9, 10, 1],
 [8, 1, 9, 10, 1, 11]]

- 인코딩된 결과를 같은 길이로 만듬

In [7]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 최대 길이의 문자의 단어수
max_len = 6

sequence = pad_sequences(seq, maxlen=max_len)
sequence

array([[ 0,  0,  0,  0,  2,  3],
       [ 0,  0,  0,  2,  3,  1],
       [ 0,  0,  2,  3,  1,  4],
       [ 0,  2,  3,  1,  4,  5],
       [ 0,  0,  0,  0,  6,  1],
       [ 0,  0,  0,  6,  1,  7],
       [ 0,  0,  0,  0,  8,  1],
       [ 0,  0,  0,  8,  1,  9],
       [ 0,  0,  8,  1,  9, 10],
       [ 0,  8,  1,  9, 10,  1],
       [ 8,  1,  9, 10,  1, 11]], dtype=int32)

- 특성데이터와 라벨데이터로 분리

In [8]:
X = sequence[:, :-1]
y = sequence[:, -1]

X.shape, y.shape

((11, 5), (11,))

- y를 원핫인코딩

In [9]:
# 값이 수치 형태의 데이터인 경우에만 원핫인코딩
from tensorflow.keras.utils import to_categorical

y_en = to_categorical(y, num_classes=vocab_size)

y_en.shape

(11, 12)

In [10]:
y_en

array([[0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]], dtype=float32)

In [11]:
y_en.shape

(11, 12)

- 신경망 설계

In [12]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, SimpleRNN, Dense

model1 = Sequential()

model1.add(Embedding(vocab_size, 10, input_length=5))

model1.add(SimpleRNN(32))

model1.add(Dense(12, activation="softmax"))

model1.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 5, 10)             120       
                                                                 
 simple_rnn (SimpleRNN)      (None, 32)                1376      
                                                                 
 dense (Dense)               (None, 12)                396       
                                                                 
Total params: 1,892
Trainable params: 1,892
Non-trainable params: 0
_________________________________________________________________


In [13]:
model1.compile(loss="categorical_crossentropy",
               optimizer="adam",
               metrics=["accuracy"])

In [14]:
h1 = model1.fit(X, y_en, epochs=200)

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

- 문장을 생성하는 함수

In [23]:
import numpy as np

# model : 사용한 모델
# t : 사용한 Tonkenizer
# word : 입력단어
# n : 입력단어로부터 예측할 단어 수
def generate_seqence(model, t, current_word, n) :
  init_word = current_word  # 입력된 단어로 시작해야 하므로 입력단어를 먼저 저장

  # 생성한 문장을 저장할 변수 초기화
  seq = ""

  for _ in range(n) :
    # 현재 단어를 인코딩하고 padding 처리를 수행
    encoded = t.texts_to_sequences([current_word])[0]
    encoded = pad_sequences([encoded], maxlen=max_len-1)

    # 현재 단어로 다음 단어를 예측 (인덱스 반환)
    result = np.argmax(model.predict(encoded))

    #print(result)  
    for word, index in t.word_index.items() :
      # 예측한 단어와 동일한 인덱스의 단어가 있다면 종료
      if index == result :
        break
      
    # 현재단어와 예측한 단어를 연결
    current_word = current_word + " " + word

    seq = seq + " " + word

  seq = init_word + seq

  return seq 

In [31]:
generate_seqence(model1, t, "오는 말이", 2)



'오는 말이 고와야 오는'