In [1]:
import tensorflow_datasets as tfds
import tensorflow as tf

In [2]:
#영화 리뷰 데이터, 긍정 혹은 부정으로 이진분류 되어있는 데이터(클래스가 두 개인 데이터)
dataset, info = tfds.load("imdb_reviews/subwords8k", with_info = True, as_supervised = True)
train_dataset, test_dataset = dataset['train'], dataset['test']



In [3]:
#텍스트는 토큰 단위로 매칭 되어있음, 그러므로 encoder에 텍스트의 매칭되는 값들 저장
encoder = info.features['text'].encoder

In [4]:
#vocabulary의 size확인
print('Voca size: {}'.format(encoder.vocab_size))

Voca size: 8185


In [5]:
#string을 인코딩, 디코딩해서 벡터 확인 -> 인코딩과 디코딩은 가역적임
sample_string = 'Hello Tensorflow.'

encoded_string = encoder.encode(sample_string)
print('Encoded string is {}'.format(encoded_string))

original_string = encoder.decode(encoded_string)
print('The original string is {}'.format(original_string))

Encoded string is [4025, 222, 6307, 2327, 2934, 7975]
The original string is Hello Tensorflow.


In [6]:
#토큰 단위가 어떻게 매칭되는지 확인

for idx in encoded_string:
  print('{} ----> {}'.format(idx, encoder.decode([idx])))

4025 ----> Hell
222 ----> o 
6307 ----> Ten
2327 ----> sor
2934 ----> flow
7975 ----> .


# Data spliting

In [7]:
#인코딩된 문자열을 학습, 테스트 값으로 분할
buffer_size = 10000
batch_size = 64

train_dataset = train_dataset.shuffle(buffer_size)
train_dataset = train_dataset.padded_batch(batch_size)

test_dataset = test_dataset.padded_batch(batch_size)

# RNN

In [8]:
#모델 -> 임베딩 벡터, 양방향 RNN 레이어, Dense 레이어로 구성
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(encoder.vocab_size, 64),
    tf.keras.layers.Bidirectional(tf.keras.layers.SimpleRNN(64)),
    tf.keras.layers.Dense(64, activation = 'relu'),
    tf.keras.layers.Dense(1)
])


In [9]:
# loss는 binary cross-entropy, optimizer는 Adam optimizer
model.compile(loss = tf.keras.losses.BinaryCrossentropy(from_logits = True),
              optimizer = tf.keras.optimizers.Adam(1e-4),
              metrics = ['accuracy'])

In [10]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, None, 64)          523840    
                                                                 
 bidirectional (Bidirectiona  (None, 128)              16512     
 l)                                                              
                                                                 
 dense (Dense)               (None, 64)                8256      
                                                                 
 dense_1 (Dense)             (None, 1)                 65        
                                                                 
Total params: 548,673
Trainable params: 548,673
Non-trainable params: 0
_________________________________________________________________


In [13]:
#모델의 학습 진행
model.fit(train_dataset, epochs = 10, 
          validation_data = test_dataset,
          validation_steps = 30)


Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f39401222c0>

In [14]:
#test data에 대한 정확도와 loss 파악
test_loss, test_acc = model.evaluate(test_dataset)

print('Test Loss: {}'.format(test_loss))
print('Test Accuracy: {}'.format(test_acc))

Test Loss: 0.6378470063209534
Test Accuracy: 0.8246399760246277


# LSTM

In [15]:
#RNN은 장기기억에 단점을 가지고 있음 -> vanishing gradient 발생 -> LSTM으로 보완을 해봄
model1 = tf.keras.Sequential([
    tf.keras.layers.Embedding(encoder.vocab_size, 64),
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64)),
    tf.keras.layers.Dense(64, activation = 'relu'),
    tf.keras.layers.Dense(1)
])


In [16]:
# loss는 binary cross-entropy, optimizer는 Adam optimizer
model1.compile(loss = tf.keras.losses.BinaryCrossentropy(from_logits = True),
              optimizer = tf.keras.optimizers.Adam(1e-4),
              metrics = ['accuracy'])

In [17]:
model1.fit(train_dataset, epochs = 10, 
           validation_data = test_dataset, 
           validation_steps = 30)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f393034bc40>

In [18]:
#test data에 대한 정확도와 loss 파악
test_loss, test_acc = model1.evaluate(test_dataset)

print('Test Loss: {}'.format(test_loss))
print('Test Accuracy: {}'.format(test_acc))

Test Loss: 0.46565738320350647
Test Accuracy: 0.8571599721908569
