In [22]:
import numpy as np
import tensorflow as tf
from numpy import array
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding

docs = ['너무 재밌네요', '최고예요', '참 잘 만든 영화에요', '추천하고 싶은 영화입니다.',
       '한번 더 보고싶네요', '글쎄요', '별로에요', '생각보다 지루하네요',
       '연기가 어색해요', '재미없어요']

In [23]:
classes = array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

In [24]:
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화에요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한번': 11, '더': 12, '보고싶네요': 13, '글쎄요': 14, '별로에요': 15, '생각보다': 16, '지루하네요': 17, '연기가': 18, '어색해요': 19, '재미없어요': 20}


- 너무 재밌네요
- 최고예요
- 참 잘 만든 영화에요
- 추천하고 싶은 영화입니다
- 한번 더 보고싶네요
- 글쎄요
- 별로에요
- 생각보다 지루하네요
- 연기가 어색해요
- 재미없어요

In [62]:
# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스를 지정하기
classes = array([1,1,1,1,1,0,0,0,0,0])

In [67]:
x = token.texts_to_sequences(docs)
print("\n리뷰 텍스트, 토큰화 결과:\n",  x)


리뷰 텍스트, 토큰화 결과:
 [[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13], [14], [15], [16, 17], [18, 19], [20]]


In [25]:
# 패딩, 서로 다른 길이의 데이터를 4로 맞춤 -> pad_sequences() 함수 사용

padded_x = pad_sequences(x, 4)
"\n패딩 결과\n", print(padded_x)

[[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [ 0 11 12 13]
 [ 0  0  0 14]
 [ 0  0  0 15]
 [ 0  0 16 17]
 [ 0  0 18 19]
 [ 0  0  0 20]]


('\n패딩 결과\n', None)

In [45]:
# 몇개의 인덱스가 '입력'되어야 하는지 정하는 과정. 몇개의 단어집합에서(입력), 단어 앞에 0이 나와야 하므로 +1 꼭 해주기
word_size = len(token.word_index)+1
word_size

21

In [69]:
token.word_index

{'너무': 1,
 '재밌네요': 2,
 '최고예요': 3,
 '참': 4,
 '잘': 5,
 '만든': 6,
 '영화에요': 7,
 '추천하고': 8,
 '싶은': 9,
 '영화입니다': 10,
 '한번': 11,
 '더': 12,
 '보고싶네요': 13,
 '글쎄요': 14,
 '별로에요': 15,
 '생각보다': 16,
 '지루하네요': 17,
 '연기가': 18,
 '어색해요': 19,
 '재미없어요': 20}

In [71]:
x

[[1, 2],
 [3],
 [4, 5, 6, 7],
 [8, 9, 10],
 [11, 12, 13],
 [14],
 [15],
 [16, 17],
 [18, 19],
 [20]]

In [73]:
x2 = token.texts_to_sequences(token.word_index)
x2

[[1],
 [2],
 [3],
 [4],
 [5],
 [6],
 [7],
 [8],
 [9],
 [10],
 [11],
 [12],
 [13],
 [14],
 [15],
 [16],
 [17],
 [18],
 [19],
 [20]]

In [63]:
from keras.utils import to_categorical

word_size = len(token.word_index)+1
x = to_categorical(x, num_classes = word_size)

print(x)

ValueError: setting an array element with a sequence.

In [50]:
from keras.utils import np_utils

np_utils.to_categorical(token.texts_to_sequences(docs))



ValueError: setting an array element with a sequence.

In [65]:
# 모델 만들고 결과 출력하기
model = Sequential()
# word_size값은 임의로 정했음. 몇개의 임베딩 결과를 사용할지 출력하는 과정, 매번 입력될 '단어수' 정하기. 패딩으로 길이 4개맞춰주었으므로 4 사용
model.add(Embedding(word_size, 8, input_length = 4))
model.add(Flatten())
model.add(Dense(1, activation = 'sigmoid'))
model.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])
model.fit(padded_x, classes, epochs = 20)

print("\n Accuracy: %.4f" % (model.evaluate(padded_x, classes)[1]))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

 Accuracy: 0.9000


In [55]:
print(padded_x)

[[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [ 0 11 12 13]
 [ 0  0  0 14]
 [ 0  0  0 15]
 [ 0  0 16 17]
 [ 0  0 18 19]
 [ 0  0  0 20]]


In [64]:
print(classes)

[1 1 1 1 1 0 0 0 0 0]
