# 영화 텍스트 리뷰

In [1]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding

In [2]:
docs = ["너무 재밌네요","최고예요","참 잘 만든 영화예요","추천하고 싶은 영화입니다","한번 더 보고싶네요","글쎄요","별로예요","생각보다 지루하네요","연기가 어색해요","재미없어요"]
token = Tokenizer()
token.fit_on_texts(docs)
x = token.texts_to_sequences(docs)
print(x)

[[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13], [14], [15], [16, 17], [18, 19], [20]]


## 긍정 리뷰는 1, 부정 리뷰는 0으로 label 값 지정

In [3]:
y = np.array([1,1,1,1,1,0,0,0,0,0])

## padding
- 각 텍스트의 길이가 다름 -> 학습시키기 위해서는 길이가 모두 같아야 함
- pad_sequences(sequence, maxlen=None, padding='pre')
- maxlen 지정안해주면 제일 긴 텍스트의 길이에 자동으로 맞춰줌
- padding='pre' : 앞에서부터 0을 채워주는 것
- padding='post' : 뒤에서부터 0을 채워주는 것

In [9]:
pad_x = pad_sequences(x, maxlen=4, padding='pre')
pad_x

array([[ 0,  0,  1,  2],
       [ 0,  0,  0,  3],
       [ 4,  5,  6,  7],
       [ 0,  8,  9, 10],
       [ 0, 11, 12, 13],
       [ 0,  0,  0, 14],
       [ 0,  0,  0, 15],
       [ 0,  0, 16, 17],
       [ 0,  0, 18, 19],
       [ 0,  0,  0, 20]])

## embadding
- '입력', '출력', '단어 수' 파라미터 필요함
- '입력' : 총 몇 개의 단어 집합인지 -> 전체 단어의 맨 앞에 0이 먼저 나와야 하므로 총 단어 수에 1을 더해야함
- '출력' : 몇 개의 임베딩 결과를 사용할 것인지 -> 데이터에 따라 적절한 값으로 설정 (내부에서 계산하여 딥러닝의 레이어로 활용됨)
- '단어 수' : 매번 입력될 단어 수는 몇 개로 할 것인지 -> 패딩 과정을 거쳐 4개의 길이로 맞춰 주었으므로 4개의 단어가 들어가게 설정

In [12]:
word_size = len(token.word_index) + 1

In [15]:
model = Sequential()
model.add(Embedding(word_size, 8, input_length=4))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

model.fit(pad_x, y, epochs=20)
print('\n Accuracy: %.4f' % (model.evaluate(pad_x, y)[1]))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

 Accuracy: 0.9000
