In [15]:
from keras.preprocessing.text import one_hot
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Flatten
from keras.layers.embeddings import Embedding

In [16]:
# define documents
docs = ['Well done!',
        'Good work',
        'Great effort',
        'nice work',
        'Excellent!',
        'Weak',
        'Poor effort!',
        'not good',
        'poor work',
        'Could have done better.']
# define class labels
labels = [1,1,1,1,1,0,0,0,0,0]

In [17]:
# integer encode the documents  !! doucment의 word들을 max 100의 index에서 random하게 배분함
vocab_size = 100
encoded_docs = [one_hot(d,vocab_size) for d in docs]
print(encoded_docs)

[[69, 55], [32, 6], [8, 16], [69, 6], [43], [83], [49, 16], [40, 32], [49, 6], [10, 86, 55, 67]]


In [18]:
# pad documents to a max length of 4 words
max_length = 4
padded_docs = pad_sequences(encoded_docs, maxlen=max_length, padding='post')
print(padded_docs)

[[69 55  0  0]
 [32  6  0  0]
 [ 8 16  0  0]
 [69  6  0  0]
 [43  0  0  0]
 [83  0  0  0]
 [49 16  0  0]
 [40 32  0  0]
 [49  6  0  0]
 [10 86 55 67]]


In [19]:
model = Sequential()
# Vocab_size : index화된 word의 largest number + 1 // 
# ex) vocab_size = 100이면 0~ 99까지 index화된 word들이 들어가서 vector로 변환된다
model.add(Embedding(vocab_size, 8, input_length = max_length))
# Embedding한 값들을 hidden layer에 전달해주기전에는 무조건 Flatten을 해야된다.
model.add(Flatten())
# 여기서는 그냥 Embedding후 바로 출력단에 출력을 한다
# Dense에 1이라고 되어있으면 출력층이 1임 
# 지금 이문제에서는 sentence를 0또는 1로 출력할 것이기때문에 출력층의 노드는 1개면 됨
# 출력층의 ouput activation 은 sigmoid를 사용하면 0~1사이의 값을 출력
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_3 (Embedding)      (None, 4, 8)              800       
_________________________________________________________________
flatten_3 (Flatten)          (None, 32)                0         
_________________________________________________________________
dense_3 (Dense)              (None, 1)                 33        
Total params: 833
Trainable params: 833
Non-trainable params: 0
_________________________________________________________________


In [22]:
# fit the model
# 이 예제의 모델을 TEST/ TRAIN 구분없이 50의 적은 epoch으로만 만들었다.
# 그래서 결과값이 유의미하지는 않고
# 50인 epoch을 반복해서 돌려주면 accuracy의 값이 높아지다가 1로 수렴함
model.fit(padded_docs, labels, epochs=50, verbose=1)
# evaluate the model
# verbose = 1이라고하면 아래와같이 출력됨
loss, accuracy = model.evaluate(padded_docs, labels, verbose=1)
print('Accuracy: ', accuracy)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50
Accuracy:  1.0
