In [1]:
import numpy as np
import re

In [2]:
data = """
나라의 말이 중국과 달라 문자와 서로 통하지 아니하기에 이런 까닭으로 어리석은 백성이 이르고자 할 바가 있어도 마침내 제 뜻을 능히 펴지 못할 사람이 많으니라 내가 이를 위해 가엾이 여겨 새로 스물여덟 글자를 만드노니 사람마다 하여 쉬이 익혀 날로 씀에 편안케 하고자 할 따름이니라
"""

In [3]:
def data_preprocessing(data):
    data = re.sub('[^가-힣]', ' ', data)
    tokens = data.split()
    vocab = list(set(tokens))
    vocab_size = len(vocab)

    word_to_ix = {word: i for i, word in enumerate(vocab)}
    ix_to_word = {i: word for i, word in enumerate(vocab)}

    return tokens, vocab_size, word_to_ix, ix_to_word

In [4]:
def init_weights(h_size, vocab_size):
    U = np.random.randn(h_size, vocab_size) * 0.01
    W = np.random.randn(h_size, h_size) * 0.01
    V = np.random.randn(vocab_size, h_size) * 0.01
    return U,W,V

In [5]:
def feedforward(inputs, targets, hprev):
    loss = 0
    xs, hs, ps, ys = {}, {}, {}, {}
    hs[-1] = np.copy(hprev)
    for i in range(seq_len):
        xs[i] = np.zeros((vocab_size, 1))
        xs[i][inputs[i]] = 1  # 각각의 word에 대한 one hot coding 
        hs[i] = np.tanh(np.dot(U, xs[i]) + np.dot(W, hs[i - 1]))
        ys[i] = np.dot(V, hs[i])
        ps[i] = np.exp(ys[i]) / np.sum(np.exp(ys[i]))  # softmax계산
        loss += -np.log(ps[i][targets[i], 0])
    return loss, ps, hs, xs

In [6]:
def backward(ps, hs, xs):

    # Backward propagation through time (BPTT)
    # 처음에 모든 가중치들은 0으로 설정
    dV = np.zeros(V.shape)
    dW = np.zeros(W.shape)
    dU = np.zeros(U.shape)

    for i in range(seq_len)[::-1]:
        output = np.zeros((vocab_size, 1))
        output[targets[i]] = 1
        ps[i] = ps[i] - output.reshape(-1, 1)
        # 매번 i스텝에서 dL/dVi를 구하기
        dV_step_i = ps[i] @ (hs[i]).T  # (y_hat - y) @ hs.T - for each step

        dV = dV + dV_step_i  # dL/dVi를 다 더하기

        # 각i별로 V와 W를 구하기 위해서는
        # 먼저 공통적으로 계산되는 부분을 delta로 해서 계산해두고
        # 그리고 시간을 거슬러 dL/dWij와 dL/dUij를 구한 뒤
        # 각각을 합하여 dL/dW와 dL/dU를 구하고 
        # 다시 공통적으로 계산되는 delta를 업데이트

        # i번째 스텝에서 공통적으로 사용될 delta
        delta_recent = (V.T @ ps[i]) * (1 - hs[i] ** 2)

        # 시간을 거슬러 올라가서 dL/dW와 dL/dU를 구하
        for j in range(i + 1)[::-1]:
            dW_ij = delta_recent @ hs[j - 1].T

            dW = dW + dW_ij

            dU_ij = delta_recent @ xs[j].reshape(1, -1)
            dU = dU + dU_ij

            # 그리고 다음번 j번째 타임에서 공통적으로 계산할 delta를 업데이트
            delta_recent = (W.T @ delta_recent) * (1 - hs[j - 1] ** 2)

        for d in [dU, dW, dV]:
            np.clip(d, -1, 1, out=d)
    return dU, dW, dV, hs[len(inputs) - 1]

In [7]:
def predict(word, length):
    x = np.zeros((vocab_size, 1))
    x[word_to_ix[word]] = 1
    ixes = []
    h = np.zeros((h_size,1))

    for t in range(length):
        h = np.tanh(np.dot(U, x) + np.dot(W, h))
        y = np.dot(V, h)
        p = np.exp(y) / np.sum(np.exp(y))    # 소프트맥스
        ix = np.argmax(p)                    # 가장 높은 확률의 index를 리턴
        x = np.zeros((vocab_size, 1))        # 다음번 input x를 준비
        x[ix] = 1
        ixes.append(ix) 
    pred_words = ' '.join(ix_to_word[i] for i in ixes)
    return pred_words

In [8]:
# 기본적인 parameters
epochs = 10000
h_size = 100
seq_len = 3
learning_rate = 1e-2

In [9]:
tokens, vocab_size, word_to_ix, ix_to_word = data_preprocessing(data)

In [10]:
ix_to_word

{0: '하고자',
 1: '씀에',
 2: '어리석은',
 3: '바가',
 4: '따름이니라',
 5: '아니하기에',
 6: '나라의',
 7: '제',
 8: '중국과',
 9: '서로',
 10: '많으니라',
 11: '통하지',
 12: '만드노니',
 13: '이를',
 14: '능히',
 15: '글자를',
 16: '내가',
 17: '사람이',
 18: '달라',
 19: '뜻을',
 20: '여겨',
 21: '사람마다',
 22: '마침내',
 23: '이런',
 24: '가엾이',
 25: '못할',
 26: '하여',
 27: '할',
 28: '스물여덟',
 29: '까닭으로',
 30: '날로',
 31: '백성이',
 32: '새로',
 33: '문자와',
 34: '이르고자',
 35: '편안케',
 36: '쉬이',
 37: '말이',
 38: '익혀',
 39: '있어도',
 40: '펴지',
 41: '위해'}

In [12]:
U, W, V = init_weights(h_size, vocab_size) # 학습해야할 가중치

In [13]:
p = 0
hprev = np.zeros((h_size, 1))
for epoch in range(epochs):

    for p in range(len(tokens)-seq_len):
        inputs = [word_to_ix[tok] for tok in tokens[p:p + seq_len]]
        targets = [word_to_ix[tok] for tok in tokens[p + 1:p + seq_len + 1]]

        loss, ps, hs, xs = feedforward(inputs, targets, hprev)

        dU, dW, dV, hprev = backward(ps, hs, xs)

        # Update weights and biases using gradient descent
        W -= learning_rate * dW
        U -= learning_rate * dU
        V -= learning_rate * dV

        # p += seq_len

    if epoch % 100 == 0:
        print(f'epoch {epoch}, loss: {loss}')

epoch 0, loss: 11.212595204699813
epoch 100, loss: 1.9755354057074195
epoch 200, loss: 0.2642002258370004
epoch 300, loss: 0.13381121744400643
epoch 400, loss: 0.08618063287090691
epoch 500, loss: 0.06328666777984322
epoch 600, loss: 0.0510343924522835
epoch 700, loss: 0.04302657791085474
epoch 800, loss: 0.06872060929125684
epoch 900, loss: 0.041077596447223697
epoch 1000, loss: 0.03031668642315866
epoch 1100, loss: 0.02446655965506627
epoch 1200, loss: 0.020800923526575726
epoch 1300, loss: 0.018258231054130113
epoch 1400, loss: 0.016354352319536945
epoch 1500, loss: 0.014850894596336747
epoch 1600, loss: 0.013623378075662669
epoch 1700, loss: 0.012600278695647893
epoch 1800, loss: 0.011734073157245789
epoch 1900, loss: 0.010989193074415165
epoch 2000, loss: 0.010338019954615245
epoch 2100, loss: 0.009759564954741302
epoch 2200, loss: 0.009238399268566025
epoch 2300, loss: 0.00876344900221213
epoch 2400, loss: 0.008326951536785377
epoch 2500, loss: 0.00792362853761014
epoch 2600, los

In [14]:
while 1:
    try:
        user_input = input("input: ")
        if user_input == 'break':
            break
        response = predict(user_input,40)
        print(response)
    except:
        print('Uh oh try again!')

input:  나라의


말이 중국과 달라 문자와 달라 문자와 서로 문자와 서로 통하지 서로 통하지 아니하기에 통하지 아니하기에 이런 아니하기에 이런 까닭으로 어리석은 까닭으로 어리석은 백성이 어리석은 백성이 이르고자 백성이 이르고자 할 이르고자 할 바가 있어도 바가 있어도 마침내 있어도 마침내 제 마침내


input:  중국과


달라 문자와 달라 문자와 서로 문자와 서로 통하지 서로 통하지 아니하기에 통하지 아니하기에 이런 까닭으로 이런 까닭으로 어리석은 까닭으로 어리석은 백성이 어리석은 백성이 이르고자 백성이 이르고자 할 바가 할 바가 있어도 바가 있어도 마침내 있어도 마침내 제 마침내 제 뜻을


input:  뜻을


능히 펴지 못할 마침내 제 마침내 제 뜻을 서로 문자와 서로 통하지 서로 통하지 아니하기에 통하지 아니하기에 이런 아니하기에 이런 까닭으로 어리석은 까닭으로 어리석은 백성이 어리석은 백성이 이르고자 백성이 이르고자 할 이르고자 할 바가 있어도 바가 있어도 마침내 있어도 마침내


input:  마침내


제 뜻을 제 마침내 제 마침내 제 뜻을 익혀 사람이 익혀 사람이 새로 스물여덟 글자를 스물여덟 글자를 스물여덟 글자를 만드노니 글자를 만드노니 사람마다 만드노니 사람마다 하여 사람마다 하여 쉬이 하여 쉬이 익혀 쉬이 익혀 날로 익혀 날로 씀에 날로 씀에


input:  break
