# 영화리뷰 딥러닝 학습을 통한 리뷰 예측

## Read Evaluate Print Loop

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Flatten, Dense, Embedding
from tensorflow.keras.models import Sequential
import numpy as np

In [2]:
docs = ["너무 재밌네요","최고예요","참 잘 만든 영화예요","추천하고 싶은 영화입니다","한번 더 보고싶네요","글쎄요","별로예요","생각보다 지루하네요","연기가 어색해요","재미없어요"]

# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스 지정
classes = np.array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

In [3]:
# 토큰화 과정 진행
token = Tokenizer()

In [4]:
token.fit_on_texts(docs)
display(token.word_index) # 토큰화된 결과 출력

{'글쎄요': 14,
 '너무': 1,
 '더': 12,
 '만든': 6,
 '별로예요': 15,
 '보고싶네요': 13,
 '생각보다': 16,
 '싶은': 9,
 '어색해요': 19,
 '연기가': 18,
 '영화예요': 7,
 '영화입니다': 10,
 '잘': 5,
 '재미없어요': 20,
 '재밌네요': 2,
 '지루하네요': 17,
 '참': 4,
 '최고예요': 3,
 '추천하고': 8,
 '한번': 11}

In [5]:
# 토큰에 지정된 인덱스로 새로운 배열을 생성
x = token.texts_to_sequences(docs)
display(x)

[[1, 2],
 [3],
 [4, 5, 6, 7],
 [8, 9, 10],
 [11, 12, 13],
 [14],
 [15],
 [16, 17],
 [18, 19],
 [20]]

In [7]:
# 딥러닝 모델을 교육시킬 데이터는 길이가 동일해야 하므로 
# 길이를 맞춰주는 padding작업이 필요
padded_x = pad_sequences(x, 4) # 가장 큰 4자리로 자릿수를 맞춤
display(padded_x)

array([[ 0,  0,  1,  2],
       [ 0,  0,  0,  3],
       [ 4,  5,  6,  7],
       [ 0,  8,  9, 10],
       [ 0, 11, 12, 13],
       [ 0,  0,  0, 14],
       [ 0,  0,  0, 15],
       [ 0,  0, 16, 17],
       [ 0,  0, 18, 19],
       [ 0,  0,  0, 20]], dtype=int32)

In [8]:
# 단어 임베딩을 포함하여 딥러닝 모델을 만들고 결과를 출력
word_size = len(token.word_index) + 1

model = Sequential()

# 입력값 : word_size만큼의 입력값
# output_dim : 8개의 임베딩 결과 
# input_length : 패딩과정을 4개의 길이로 맞춰줌.
model.add(Embedding(word_size, 8, input_length=4))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer = 'adam',
              loss='binary_crossentropy',
              metrics = ['accuracy'])
model.fit(padded_x, classes, epochs = 20)
print("\n accruracy : %.4f" % (model.evaluate(padded_x, classes)[1]))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

 accruracy : 0.9000


## 영화리뷰 분석 함수화 

In [None]:
## 영화리뷰 학습 및 예측 
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Flatten, Dense, Embedding
from tensorflow.keras.models import Sequential
import numpy as np

def predict_moviereview():
  docs = ["너무 재밌네요","최고예요","참 잘 만든 영화예요","추천하고 싶은 영화입니다","한번 더 보고싶네요","글쎄요","별로예요","생각보다 지루하네요","연기가 어색해요","재미없어요"]

  # 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스 지정
  classes = np.array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

  # 1.토큰화
  token = Tokenizer()
  token.fit_on_texts(docs)
  print(token.word_index)

  # 2.서로 다른 길이의 데이터를 4로 맞춰줌.(패딩)
  x = token.texts_to_sequences(docs)
  padded_x = pad_sequences(x, 4)

  print("\n 패딩 결과 \n", padded_x)

  # 임베딩에 입력될 단어 수 지정
  word_size = len(token.word_index) + 1

  # 단어 임베딩을 포함하여 딥러닝 모델을 만들고 결과를 출력
  # 인공신경망 쌓기
  model = Sequential()
  model.add(Embedding(word_size, 8, input_length=4))
  model.add(Flatten())
  model.add(Dense(1, activation='sigmoid'))

  # 모델 컴파일 및 학습
  model.compile(optimizer = 'adam',
                loss='binary_crossentropy',
                metrics=['accuracy'])
  model.fit(padded_x, classes, epochs = 20)

  #평가
  print("\n Accuracy : %.4f" % (model.evaluate(padded_x, classes)[1]))
  

In [None]:
predict_moviereview()

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한번': 11, '더': 12, '보고싶네요': 13, '글쎄요': 14, '별로예요': 15, '생각보다': 16, '지루하네요': 17, '연기가': 18, '어색해요': 19, '재미없어요': 20}

 패딩 결과 
 [[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [ 0 11 12 13]
 [ 0  0  0 14]
 [ 0  0  0 15]
 [ 0  0 16 17]
 [ 0  0 18 19]
 [ 0  0  0 20]]
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

 Accuracy : 1.0000
