# 케라스와 텐서플로 허브를 사용한 영화 리뷰 텍스트 분류하기

-  영화 리뷰(review) 텍스트를 *긍정*(positive) 또는 *부정*(negative)으로 분류. 이 예제는 *이진*(binary)-또는 클래스(class)가 두 개인- 분류 문제. 


-  텐서플로 허브(TensorFlow Hub)와 케라스(Keras)를 사용한 전이 학습(transfer learning) 


- [인터넷 영화 데이터베이스](https://www.imdb.com/)(Internet Movie Database)에서 수집한 50,000개의 영화 리뷰 텍스트를 담은 [IMDB 데이터셋](https://www.tensorflow.org/api_docs/python/tf/keras/datasets/imdb)을 사용. 25,000개 리뷰는 훈련용으로, 25,000개는 테스트용. 긍정적인 리뷰와 부정적인 리뷰의 개수는 동일(균형 잡힌 dataset).  

- 레이블(label)은 정수 0 또는 1. 0은 부정적인 리뷰이고 1은 긍정적인 리뷰.


- [tf.keras](https://www.tensorflow.org/guide/keras)와 전이 학습 라이브러리이자 플랫폼인 [텐서플로 허브](https://www.tensorflow.org/hub)를 사용 

In [6]:
import numpy as np

import tensorflow as tf

import tensorflow_hub as hub
import tensorflow_datasets as tfds

print("버전: ", tf.__version__)
print("허브 버전: ", hub.__version__)
print("GPU", "사용 가능" if tf.config.experimental.list_physical_devices("GPU") else "사용 불가능")

버전:  2.4.1
허브 버전:  0.12.0
GPU 사용 가능


## IMDB 데이터셋 다운로드

- IMDB 데이터셋은 [imdb reviews](https://www.tensorflow.org/datasets/catalog/imdb_reviews) 또는 [텐서플로 데이터셋](https://www.tensorflow.org/datasets)(TensorFlow datasets)에 포함되어 있다. 

- 다음 코드는 IMDB 데이터셋을 컴퓨터(또는 Colab 런타임)에 다운로드.

In [22]:
train_data, test_data = tfds.load(
    name="imdb_reviews", 
    split=('train', 'test'),
    as_supervised=True)

len(train_data), len(test_data)

(25000, 25000)

## 데이터 탐색

처음 1개의 샘플을 출력해 보겠습니다.

In [8]:
train_examples_batch, train_labels_batch = next(iter(train_data.batch(1)))
train_examples_batch, train_labels_batch

(<tf.Tensor: shape=(1,), dtype=string, numpy=
 array([b"This was an absolutely terrible movie. Don't be lured in by Christopher Walken or Michael Ironside. Both are great actors, but this must simply be their worst role in history. Even their great acting could not redeem this movie's ridiculous storyline. This movie is an early nineties US propaganda piece. The most pathetic scenes were those when the Columbian rebels were making their cases for revolutions. Maria Conchita Alonso appeared phony, and her pseudo-love affair with Walken was nothing but a pathetic emotional plug in a movie that was devoid of any real meaning. I am disappointed that there are movies like this, ruining actor's like Christopher Walken's good name. I could barely sit through it."],
       dtype=object)>, <tf.Tensor: shape=(1,), dtype=int64, numpy=array([0])>)

## 모델 구성

* 전이 학습의 장점을 이용하므로 텍스트 전처리에 대해 신경 쓸 필요 없다.
* 임베딩은 고정 크기이기 때문에 처리 과정이 단순.

[텐서플로 허브](https://www.tensorflow.org/hub)에 있는 **사전 훈련된 텍스트 임베딩 모델**인 [google/tf2-preview/gnews-swivel-20dim/1](https://tfhub.dev/google/tf2-preview/gnews-swivel-20dim/1)을 사용.

- 문장을 임베딩시키기 위해 텐서플로 허브 모델을 사용하는 케라스 층을 작성하고 몇 개의 샘플을 입력하여 테스트


- 입력 텍스트의 길이에 상관없이 임베딩의 출력 크기는 `(num_examples, embedding_dimension)`가 된다.

In [23]:
embedding = "https://tfhub.dev/google/tf2-preview/gnews-swivel-20dim/1"

hub_layer = hub.KerasLayer(embedding, input_shape=[], 
                           dtype=tf.string, trainable=True)

hub_layer(train_examples_batch[:3])













<tf.Tensor: shape=(1, 20), dtype=float32, numpy=
array([[ 2.209591  , -2.7093675 ,  3.6802928 , -1.0291991 , -4.1671185 ,
        -2.4566064 , -2.2519937 , -0.36589956,  1.9485804 , -3.1104462 ,
        -2.4610963 ,  1.3139242 , -0.9161584 , -0.16625322, -3.723651  ,
         1.8498232 ,  3.499562  , -1.2373022 , -2.8403084 , -1.213074  ]],
      dtype=float32)>

### 전체 모델 작성

1. 첫 번째 층은 텐서플로 허브 층. 이 층은 사전 훈련된 모델을 사용하여 하나의 문장을 임베딩 벡터로 매핑.   
    - 여기서 사용하는 사전 훈련된 텍스트 임베딩 모델([google/tf2-preview/gnews-swivel-20dim/1](https://tfhub.dev/google/tf2-preview/gnews-swivel-20dim/1))은 하나의 문장을 토큰(token)으로 나누고 각 토큰의 임베딩을 연결하여 반환
    - 최종 차원은 `(num_examples, embedding_dimension)`
    
    
2. 이 고정 크기의 출력 벡터는 16개의 은닉 유닛(hidden unit)을 가진 완전 연결 층(`Dense`)으로 주입된다.  


3. 마지막 층은 하나의 출력 노드를 가진 완전 연결 층. `sigmoid` 활성화 함수를 사용하므로 확률 또는 신뢰도 수준을 표현하는 0~1 사이의 실수 출력.

In [10]:
model = tf.keras.Sequential()
model.add(hub_layer)
model.add(tf.keras.layers.Dense(16, activation='relu'))
model.add(tf.keras.layers.Dense(1))

model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
keras_layer_1 (KerasLayer)   (None, 20)                400020    
_________________________________________________________________
dense (Dense)                (None, 16)                336       
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 17        
Total params: 400,373
Trainable params: 400,373
Non-trainable params: 0
_________________________________________________________________


### 손실 함수와 옵티마이저

- 이진 분류 문제이고 모델이 확률을 출력하므로 `binary_crossentropy` 손실 함수를 사용.

In [11]:
model.compile(optimizer='adam',
              loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
              metrics=['accuracy'])

## 모델 훈련

- 512개의 샘플로 이루어진 미니배치(mini-batch)에서 20번의 에포크(epoch) 동안 훈련  

- 훈련하는 동안 10,000개의 검증 세트에서 모델의 손실과 정확도를 모니터

In [12]:
history = model.fit(train_data.shuffle(10000).batch(512),
                    epochs=20,
                    validation_data=test_data.batch(512),
                    verbose=1)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


## 모델 평가

- 손실과 정확도 반환

In [13]:
results = model.evaluate(test_data.batch(512), verbose=0)

for name, value in zip(model.metrics_names, results):
  print("%s: %.3f" % (name, value))

loss: 0.300
accuracy: 0.871


In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))

ax1.plot(history.history['accuracy'])
ax1.plot(history.history['val_accuracy'])
ax1.set_xlabel('Epochs')
ax1.set_ylabel('accuracy')
ax1.legend(['accuarcy', 'val_accuracy'])

ax2.plot(history.history['loss'])
ax2.plot(history.history['val_loss'])
ax2.set_xlabel('Epochs')
ax2.set_ylabel('loss')
ax2.legend(['loss', 'val_loss'])
plt.show()