<a href="https://colab.research.google.com/github/ChaelinL/Deeplearning_for_everyone/blob/main/17%EC%9E%A5_%EC%8B%A4%EC%8A%B5(2).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 영화 리뷰가 긍정적인지 부정적인지 예측하기

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding
from tensorflow.keras.utils import to_categorical
from numpy import array

In [None]:
# 텍스트 리뷰 자료를 지정
docs = ['너무 재밌네요', '최고예요', '참 잘 만든 영화예요', '추천하고 싶은 영화입니다', '한 번 더 보고싶네요', '글쎄요', '별로예요', '생각보다 지루하네요', '연기가 어색해요', '재미없어요']

# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스를 지정
classes = array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

# 토큰화
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)  # 토큰화된 결과를 출력해 확인

x = token.texts_to_sequences(docs)
print("\n 리뷰 텍스트, 토큰화 결과: \n", x)

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한': 11, '번': 12, '더': 13, '보고싶네요': 14, '글쎄요': 15, '별로예요': 16, '생각보다': 17, '지루하네요': 18, '연기가': 19, '어색해요': 20, '재미없어요': 21}

 리뷰 텍스트, 토큰화 결과: 
 [[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13, 14], [15], [16], [17, 18], [19, 20], [21]]


In [None]:
# 패딩 (서로 다른 길이의 데이터를 맞춰주기)
padded_x = pad_sequences(x, 4)  # 배열의 길이를 4로 통일해서 맞추기

print("\n 패딩 결과: \n", padded_x)


 패딩 결과: 
 [[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [11 12 13 14]
 [ 0  0  0 15]
 [ 0  0  0 16]
 [ 0  0 17 18]
 [ 0  0 19 20]
 [ 0  0  0 21]]


In [None]:
# 임베딩에 입력될 단어의 수 지정
word_size = len(token.word_index) + 1

# 단어 임베딩을 포함해 딥러닝 모델 구현 및 결과 출력
model = Sequential()
model.add(Embedding(word_size, 8, input_length=4))  # word_size만큼 입력값을 이용해 8개의 임베딩 결과 만들게 설정. 패딩을 4로 맞췄기 때문에 4개의 단어가 들어가게 설정
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))
model.summary()

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(padded_x, classes, epochs=20)
print(f"\n Accuracy: {round(model.evaluate(padded_x, classes)[1], 4)}")

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 4, 8)              176       
                                                                 
 flatten (Flatten)           (None, 32)                0         
                                                                 
 dense (Dense)               (None, 1)                 33        
                                                                 
Total params: 209
Trainable params: 209
Non-trainable params: 0
_________________________________________________________________
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

 Accuracy: 0.9
