In [1]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
import tensorflow 
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical

In [3]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Dense, SimpleRNN

In [4]:
text="""박교수가 NLP 강의를 한다
학생들이 NLP 강의를 듣는다
학생들이 NLP 강의를 이해 못한다"""

In [5]:
tokenizer=Tokenizer()
tokenizer.fit_on_texts([text]) #fit_on_texts: 문자 데이터를 입력받아서 리스트의 형태로 변환

In [6]:
tokenizer.word_index #word_index: 단어와 숫자의 키-값 쌍을 포함하는 딕셔너리를 반환

{'nlp': 1,
 '강의를': 2,
 '학생들이': 3,
 '박교수가': 4,
 '한다': 5,
 '듣는다': 6,
 '이해': 7,
 '못한다': 8}

In [7]:
vocab_size=len(tokenizer.word_index)+1
print("단어 집합의 크기 : %d" % vocab_size)

단어 집합의 크기 : 9


In [8]:
text.split('\n')

['박교수가 NLP 강의를 한다', '학생들이 NLP 강의를 듣는다', '학생들이 NLP 강의를 이해 못한다']

In [9]:
tokenizer.texts_to_sequences([text.split('\n')[0]])

[[4, 1, 2, 5]]

In [10]:
tokenizer.texts_to_sequences([text.split('\n')[0]])[0] #texts_to_sequences: text 문장을 숫자로 이루어진 리스트로 만든다. 

[4, 1, 2, 5]

In [11]:
encoded_results=list()
for line in text.split('\n'): #\n, 줄바꿈 기준으로 문장 토큰화
    encoded=tokenizer.texts_to_sequences([line])[0]
    
    for i in range(1,len(encoded)):
        sequence=encoded[:i+1]
        encoded_results.append(sequence)

print("학습에 사용할 샘플의 개수: %d" % len(encoded_results))

학습에 사용할 샘플의 개수: 10


In [12]:
encoded_results

[[4, 1],
 [4, 1, 2],
 [4, 1, 2, 5],
 [3, 1],
 [3, 1, 2],
 [3, 1, 2, 6],
 [3, 1],
 [3, 1, 2],
 [3, 1, 2, 7],
 [3, 1, 2, 7, 8]]

In [13]:
max_len=max(len(i) for i in encoded_results)

In [16]:
pad_sequences=pad_sequences(encoded_results, maxlen=max_len, padding='pre') #pre:0을 앞에다가

In [17]:
pad_sequences

array([[0, 0, 0, 4, 1],
       [0, 0, 4, 1, 2],
       [0, 4, 1, 2, 5],
       [0, 0, 0, 3, 1],
       [0, 0, 3, 1, 2],
       [0, 3, 1, 2, 6],
       [0, 0, 0, 3, 1],
       [0, 0, 3, 1, 2],
       [0, 3, 1, 2, 7],
       [3, 1, 2, 7, 8]])

In [18]:
pad_sequences=np.array(pad_sequences)
X=pad_sequences[:,:-1] 
Y=pad_sequences[:,-1] #마지막 컬럼만

In [19]:
X

array([[0, 0, 0, 4],
       [0, 0, 4, 1],
       [0, 4, 1, 2],
       [0, 0, 0, 3],
       [0, 0, 3, 1],
       [0, 3, 1, 2],
       [0, 0, 0, 3],
       [0, 0, 3, 1],
       [0, 3, 1, 2],
       [3, 1, 2, 7]])

In [20]:
#to_categorical: 원-핫 인코딩을 해주는 함수
y_cate=to_categorical(Y,num_classes=vocab_size) #9개의 카테고리

In [21]:
Y

array([1, 2, 5, 1, 2, 6, 1, 2, 7, 8])

In [22]:
y_cate

array([[0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1.]], dtype=float32)

In [23]:
embedding_layer=Embedding(vocab_size, 4, trainable=True, input_length=max_len) #4개짜리 크기의 벡터

In [24]:
embedding_dim=4
hidden_units=10

RNN=Sequential()
RNN.add(embedding_layer)

RNN.add(SimpleRNN(units=hidden_units, activation='relu')) #units:히든 레이어의 히든 노드 개수
RNN.add(Dense(vocab_size, activation='softmax')) #9개의 단어에 대한 확률값을 뱉어줌

In [25]:
print(RNN.summary())

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 5, 4)              36        
_________________________________________________________________
simple_rnn (SimpleRNN)       (None, 10)                150       
_________________________________________________________________
dense (Dense)                (None, 9)                 99        
Total params: 285
Trainable params: 285
Non-trainable params: 0
_________________________________________________________________
None


In [26]:
RNN.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy']) #멀티 클래스 문제기이 때문에 categorical_crossentropy 사용

In [27]:
RNN.fit(X,y_cate, epochs=200, verbose=1)

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

Epoch 79/200
Epoch 80/200
Epoch 81/200
Epoch 82/200
Epoch 83/200
Epoch 84/200
Epoch 85/200
Epoch 86/200
Epoch 87/200
Epoch 88/200
Epoch 89/200
Epoch 90/200
Epoch 91/200
Epoch 92/200
Epoch 93/200
Epoch 94/200
Epoch 95/200
Epoch 96/200
Epoch 97/200
Epoch 98/200
Epoch 99/200
Epoch 100/200
Epoch 101/200
Epoch 102/200
Epoch 103/200
Epoch 104/200
Epoch 105/200
Epoch 106/200
Epoch 107/200
Epoch 108/200
Epoch 109/200
Epoch 110/200
Epoch 111/200
Epoch 112/200
Epoch 113/200
Epoch 114/200
Epoch 115/200
Epoch 116/200
Epoch 117/200
Epoch 118/200
Epoch 119/200
Epoch 120/200
Epoch 121/200
Epoch 122/200
Epoch 123/200
Epoch 124/200
Epoch 125/200
Epoch 126/200
Epoch 127/200
Epoch 128/200
Epoch 129/200
Epoch 130/200
Epoch 131/200
Epoch 132/200
Epoch 133/200
Epoch 134/200
Epoch 135/200
Epoch 136/200
Epoch 137/200
Epoch 138/200
Epoch 139/200
Epoch 140/200
Epoch 141/200
Epoch 142/200
Epoch 143/200
Epoch 144/200
Epoch 145/200
Epoch 146/200
Epoch 147/200
Epoch 148/200
Epoch 149/200
Epoch 150/200
Epoch 151/200

Epoch 161/200
Epoch 162/200
Epoch 163/200
Epoch 164/200
Epoch 165/200
Epoch 166/200
Epoch 167/200
Epoch 168/200
Epoch 169/200
Epoch 170/200
Epoch 171/200
Epoch 172/200
Epoch 173/200
Epoch 174/200
Epoch 175/200
Epoch 176/200
Epoch 177/200
Epoch 178/200
Epoch 179/200
Epoch 180/200
Epoch 181/200
Epoch 182/200
Epoch 183/200
Epoch 184/200
Epoch 185/200
Epoch 186/200
Epoch 187/200
Epoch 188/200
Epoch 189/200
Epoch 190/200
Epoch 191/200
Epoch 192/200
Epoch 193/200
Epoch 194/200
Epoch 195/200
Epoch 196/200
Epoch 197/200
Epoch 198/200
Epoch 199/200
Epoch 200/200


<tensorflow.python.keras.callbacks.History at 0x1e105fcbd30>

In [14]:
test_encode=tokenizer.texts_to_sequences(['학생들이 NLP 강의를'])[0]

In [15]:
pad_test_encode=pad_sequences([test_encode], maxlen=4, padding='pre')

In [28]:
pad_test_encode

array([[0, 3, 1, 2]])

In [29]:
pred_prob=RNN.predict(pad_test_encode)



In [30]:
tokenizer.word_index

{'nlp': 1,
 '강의를': 2,
 '학생들이': 3,
 '박교수가': 4,
 '한다': 5,
 '듣는다': 6,
 '이해': 7,
 '못한다': 8}

In [31]:
pred_prob

array([[0.00567153, 0.0097875 , 0.05740198, 0.00508699, 0.00042935,
        0.3087412 , 0.32722867, 0.14627023, 0.1393824 ]], dtype=float32)

In [32]:
pred_class=np.argmax(pred_prob, axis=1) #argmax:가장 큰 숫자의 해당하는 인덱스를 알려줌

In [33]:
pred_class

array([6], dtype=int64)