# 150. Tensorflow Hub 를 사용한 영화 리뷰 텍스트 분류하기

### 텐서플로 허브(TensorFlow Hub)와 케라스(Keras)를 사용한 기초적인 전이 학습(transfer learning)

-  영화 리뷰(review) 텍스트를 *긍정*(positive) 또는 *부정*(negative)으로 분류. 이 예제는 *이진*(binary)-또는 클래스(class)가 두 개인- 분류 문제. 


-  텐서플로 허브(TensorFlow Hub)와 케라스(Keras)를 사용한 전이 학습(transfer learning) 


- [인터넷 영화 데이터베이스](https://www.imdb.com/)(Internet Movie Database)에서 수집한 50,000개의 영화 리뷰 텍스트를 담은 [IMDB 데이터셋](https://www.tensorflow.org/api_docs/python/tf/keras/datasets/imdb)을 사용. 25,000개 리뷰는 훈련용으로, 25,000개는 테스트용. 긍정적인 리뷰와 부정적인 리뷰의 개수는 동일(균형 잡힌 dataset).  

- 레이블(label)은 정수 0 or 1. 0 은 부정적인 리뷰, 1은 긍정적 리뷰.


- [tf.keras](https://www.tensorflow.org/guide/keras)와 전이 학습 라이브러리이자 플랫폼인 [텐서플로 허브](https://www.tensorflow.org/hub)를 사용 

In [1]:
import numpy as np

import tensorflow as tf
from tensorflow.keras.layers import Dense

import tensorflow_hub as hub
import tensorflow_datasets as tfds

print("버전: ", tf.__version__)
print("허브 버전: ", hub.__version__)
print("GPU", "사용 가능" if tf.config.experimental.list_physical_devices("GPU") else "NOT AVAILABLE")

버전:  2.5.1
허브 버전:  0.9.0
GPU NOT AVAILABLE


## IMDB 데이터셋 다운로드

- IMDB 데이터셋은 [imdb reviews](https://www.tensorflow.org/datasets/catalog/imdb_reviews) 또는 [텐서플로 데이터셋](https://www.tensorflow.org/datasets)(TensorFlow datasets)에 포함되어 있다. 

- 훈련 세트를 6대 4로 나눔 
- train 15,000, validation 10,000, test 25,000

In [2]:
dataset, info = tfds.load("imdb_reviews", with_info=True, as_supervised=True)
train_data, test_data = dataset['train'], dataset['test']

## 데이터 탐색

- 처음 3개의 샘플을 출력해 보겠습니다.

In [3]:
train_examples_batch, train_labels_batch = next(iter(train_data.batch(3)))
print(train_examples_batch)
print()
print(train_labels_batch)

tf.Tensor(
[b"This was an absolutely terrible movie. Don't be lured in by Christopher Walken or Michael Ironside. Both are great actors, but this must simply be their worst role in history. Even their great acting could not redeem this movie's ridiculous storyline. This movie is an early nineties US propaganda piece. The most pathetic scenes were those when the Columbian rebels were making their cases for revolutions. Maria Conchita Alonso appeared phony, and her pseudo-love affair with Walken was nothing but a pathetic emotional plug in a movie that was devoid of any real meaning. I am disappointed that there are movies like this, ruining actor's like Christopher Walken's good name. I could barely sit through it."
 b'I have been known to fall asleep during films, but this is usually due to a combination of things including, really tired, being warm and comfortable on the sette and having just eaten a lot. However on this occasion I fell asleep because the film was rubbish. The plot de

## 모델 구성


- 첫 번째 층으로 사전 훈련(pre-trained)된 텍스트 임베딩을 사용  |


- pre-trained embedding 의 장점

    * 텍스트 전처리에 대해 신경 쓸 필요가 없음
    * 전이 학습의 장점을 이용합니다.
    * 임베딩은 고정 크기이기 때문에 처리 과정이 단순해집니다.
    

- [텐서플로 허브](https://www.tensorflow.org/hub)에 있는 **사전 훈련된 텍스트 임베딩 모델**인 [google/tf2-preview/gnews-swivel-20dim/1](https://tfhub.dev/google/tf2-preview/gnews-swivel-20dim/1)을 사용

    - English Google News 130GB corpus 에서 train 된 text embedding 

테스트해 볼 수 있는 사전 훈련된 모델이 세 개 더 있습니다:

* [google/tf2-preview/gnews-swivel-20dim-with-oov/1](https://tfhub.dev/google/tf2-preview/gnews-swivel-20dim-with-oov/1) --> 
[google/tf2-preview/gnews-swivel-20dim/1](https://tfhub.dev/google/tf2-preview/gnews-swivel-20dim/1)와 동일하지만 어휘 사전(vocabulary)의 2.5%가 OOV 버킷(bucket)으로 변환되었음. 이는 해당 문제의 어휘 사전과 모델의 어휘 사전이 완전히 겹치지 않을 때 도움이 된다.
* [google/tf2-preview/nnlm-en-dim50/1](https://tfhub.dev/google/tf2-preview/nnlm-en-dim50/1) --> 더 큰 모델. 차원 크기는 50이고 어휘 사전의 크기는 1백만 개 이하.
* [google/tf2-preview/nnlm-en-dim128/1](https://tfhub.dev/google/tf2-preview/nnlm-en-dim128/1) --> 훨씬 더 큰 모델. 차원 크기는 128이고 어휘 사전의 크기는 1백만 개 이하.

- 문장을 임베딩시키기 위해 텐서플로 허브 모델을 사용하는 케라스 층을 작성하고 몇 개의 샘플을 입력하여 테스트.  
- 입력 텍스트의 길이에 상관없이 임베딩의 출력 크기는 `(num_examples, embedding_dimension)`가 된다.

In [4]:
embedding = "https://tfhub.dev/google/tf2-preview/gnews-swivel-20dim/1"

hub_layer = hub.KerasLayer(embedding, input_shape=[], dtype=tf.string, trainable=True)

hub_layer(train_examples_batch)

<tf.Tensor: shape=(3, 20), dtype=float32, numpy=
array([[ 1.765786  , -3.882232  ,  3.9134233 , -1.5557289 , -3.3362343 ,
        -1.7357955 , -1.9954445 ,  1.2989551 ,  5.081598  , -1.1041286 ,
        -2.0503852 , -0.72675157, -0.65675956,  0.24436149, -3.7208383 ,
         2.0954835 ,  2.2969332 , -2.0689783 , -2.9489717 , -1.1315987 ],
       [ 1.8804485 , -2.5852382 ,  3.4066997 ,  1.0982676 , -4.056685  ,
        -4.891284  , -2.785554  ,  1.3874227 ,  3.8476458 , -0.9256538 ,
        -1.896706  ,  1.2113281 ,  0.11474707,  0.76209456, -4.8791065 ,
         2.906149  ,  4.7087674 , -2.3652055 , -3.5015898 , -1.6390051 ],
       [ 0.71152234, -0.6353217 ,  1.7385626 , -1.1168286 , -0.5451594 ,
        -1.1808156 ,  0.09504455,  1.4653089 ,  0.66059524,  0.79308075,
        -2.2268345 ,  0.07446612, -1.4075904 , -0.70645386, -1.907037  ,
         1.4419787 ,  1.9551861 , -0.42660055, -2.8022065 ,  0.43727064]],
      dtype=float32)>

### Model 생성


1. 첫 번째 층은 텐서플로 허브 층. 이 층은 사전 훈련된 모델을 사용하여 하나의 문장을 임베딩 벡터로 매핑.   
    - 여기서 사용하는 사전 훈련된 텍스트 임베딩 모델([google/tf2-preview/gnews-swivel-20dim/1](https://tfhub.dev/google/tf2-preview/gnews-swivel-20dim/1))은 하나의 문장을 토큰(token)으로 나누고 각 토큰의 임베딩을 연결하여 반환
    - 최종 차원은 `(num_examples, embedding_dimension)`
    
    
2. 이 고정 크기의 출력 벡터는 16개의 은닉 유닛(hidden unit)을 가진 완전 연결 층(`Dense`)으로 주입된다.  


3. 마지막 층은 하나의 출력 노드를 가진 완전 연결 층. `sigmoid` 활성화 함수를 사용하므로 확률 또는 신뢰도 수준을 표현하는 0~1 사이의 실수 출력.

In [5]:
model = tf.keras.Sequential()
model.add(hub_layer)
model.add(tf.keras.layers.Dense(64, activation='relu'))
model.add(tf.keras.layers.Dense(1, activation='sigmoid'))

model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
keras_layer (KerasLayer)     (None, 20)                400020    
_________________________________________________________________
dense (Dense)                (None, 64)                1344      
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 65        
Total params: 401,429
Trainable params: 401,429
Non-trainable params: 0
_________________________________________________________________


### 손실 함수와 옵티마이저

- 이진 분류 문제이고 모델이 확률을 출력하므로 `binary_crossentropy` 손실 함수를 사용.

In [6]:
model.compile(optimizer='adam',
              loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
              metrics=['accuracy'])

## 모델 훈련

- 512개의 샘플로 이루어진 미니배치(mini-batch)에서 20번의 에포크(epoch) 동안 훈련  

- 훈련하는 동안 10,000개의 검증 세트에서 모델의 손실과 정확도를 모니터

In [7]:
history = model.fit(train_data.shuffle(10000).batch(512),
                    epochs=20,
                    validation_data=test_data.batch(512),
                    verbose=1)

Epoch 1/20


  '"`binary_crossentropy` received `from_logits=True`, but the `output`'


Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


## 모델 평가

- 손실과 정확도 반환

In [8]:
results = model.evaluate(test_data.batch(512), verbose=2)

for name, value in zip(model.metrics_names, results):
  print("%s: %.3f" % (name, value))

49/49 - 2s - loss: 0.3498 - accuracy: 0.8648
loss: 0.350
accuracy: 0.865


이 예제는 매우 단순한 방식으로 87% 정도의 정확도를 달성했습니다. 

In [9]:
model.predict(["It's terrible. I would not recommend the movie."])

array([[0.03158325]], dtype=float32)

In [10]:
model.predict(['The movie was fantastic. Have fun.'])

array([[0.99139166]], dtype=float32)

In [11]:
model.predict(['The animation was out of the world'])

array([[0.5590752]], dtype=float32)