In [34]:
# 한국어 임베딩
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np
# 예제
text = """과일 가게에 사과가 많이 진열되어 있다
그녀가 나에게 사과한 후, 우리는 친해졌다
애플은 사과 모양을 로고로 사용한다\n"""

In [35]:
# 텍스트에 대한 인코더를 진행하기 위해 토큰화
tok = Tokenizer()
tok.fit_on_texts([text])    # 단어 단위로 토큰화를 딕셔너리에 저장, []를 사용하지 않으면 한 글자 단위로 인코딩됨

vocSize = len(tok.word_index) + 1

seqs = list()
for word in text.split('\n'):
    print(word)
    encoded = tok.texts_to_sequences([word])[0]     # 텍스트를 숫자로 변환
    print(encoded)
    for i in range(1, len(encoded)):
        seq = encoded[:i+1]
        seqs.append(seq)

maxLen = max(len(s) for s in seqs)
seqs = pad_sequences(seqs, maxlen=maxLen, padding='pre')
seqs

과일 가게에 사과가 많이 진열되어 있다
[1, 2, 3, 4, 5, 6]
그녀가 나에게 사과한 후, 우리는 친해졌다
[7, 8, 9, 10, 11, 12]
애플은 사과 모양을 로고로 사용한다
[13, 14, 15, 16, 17]

[]


array([[ 0,  0,  0,  0,  1,  2],
       [ 0,  0,  0,  1,  2,  3],
       [ 0,  0,  1,  2,  3,  4],
       [ 0,  1,  2,  3,  4,  5],
       [ 1,  2,  3,  4,  5,  6],
       [ 0,  0,  0,  0,  7,  8],
       [ 0,  0,  0,  7,  8,  9],
       [ 0,  0,  7,  8,  9, 10],
       [ 0,  7,  8,  9, 10, 11],
       [ 7,  8,  9, 10, 11, 12],
       [ 0,  0,  0,  0, 13, 14],
       [ 0,  0,  0, 13, 14, 15],
       [ 0,  0, 13, 14, 15, 16],
       [ 0, 13, 14, 15, 16, 17]])

In [36]:
seqs = np.array(seqs)
x = seqs[:, :-1]

In [37]:
from tensorflow.keras.utils import to_categorical
y = seqs[:, -1]
y = to_categorical(y, num_classes=vocSize)

In [38]:
# 위에서 준비된 데이터를 토대로 모델 생성 및 훈련
from tensorflow.keras.models import Sequential, Model
from tensorflow.keras.layers import LSTM, Dense, Embedding, Flatten

# 모델 정의
model = Sequential()
model.add(Embedding(vocSize, 10, input_length=maxLen-1))
model.add(LSTM(32))
model.add(Dense(vocSize, activation='softmax'))

# 모델 컴파일
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

model.fit(x, y, epochs=200)
model.summary()

Epoch 1/200




[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2s/step - accuracy: 0.0714 - loss: 2.8900
Epoch 2/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 70ms/step - accuracy: 0.0714 - loss: 2.8882
Epoch 3/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 69ms/step - accuracy: 0.0714 - loss: 2.8864
Epoch 4/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 49ms/step - accuracy: 0.1429 - loss: 2.8846
Epoch 5/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 69ms/step - accuracy: 0.2857 - loss: 2.8828
Epoch 6/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 56ms/step - accuracy: 0.2857 - loss: 2.8810
Epoch 7/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 56ms/step - accuracy: 0.2143 - loss: 2.8791
Epoch 8/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 72ms/step - accuracy: 0.2143 - loss: 2.8773
Epoch 9/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s

In [39]:
# 단어 예측 함수
def sentGen(model, tok, word, n):       # 모델, 토크나이저, 입력 단어, 예측 단어 개수를 파라미터르 사용
    sent = ""       # 예측 단어 반환값 저장
    word2 = word        # 예측을 위한 입력 단어
    for _ in range(n):      # n번 반복하여 예측 단어의 개수만큼 반환
        encoded = tok.texts_to_sequences([word])[0]       # 입력 단어에 대한 인코딩
        encoded = pad_sequences([encoded], maxlen=5, padding='pre')      # 패딩
        res = np.argmax(model.predict(encoded), axis=-1)       # 예측 단어

        for w, i in tok.word_index.items():
            if i == res:
                word = word + ' ' + w
                sent = sent + ' ' + w
    sent = word2 + sent
    return sent

In [42]:
sentGen(model, tok, '과일', 4)          # '과일' 다음 2개의 단어 예측

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 48ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 54ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 63ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 52ms/step


'과일 가게에 사과가 많이 진열되어'