In [12]:
%%time
import tensorflow as tf
from tensorflow import keras

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Flatten, Dense
from tensorflow.keras.datasets import imdb
from tensorflow.keras import preprocessing



# Embedding 층의 객체 생성하기

embedding_layer = Embedding(1000, 64)
    # 임베딩 층은 적어도 2개의 매개변수를 받는다. 가능한 토큰의 개수(여기서는 1000으로 단어 인덱스 +1)와 임베딩 차원(여기서 64)
    # Embedding 층은 (samples, sequence_length)인 2D 정수 텐서를 입력,
    # (samples, sequence_length, embedding_dimensionality)인 3D 실수형 텐서 반환




# Embedding 층에 사용할 IMDB 데이터 로드

max_features = 10000 # 특성으로 사용할 단어의 수
maxlen = 20 # 사용할 텍스트의 길이(가장 빈번한 max_features개의 단어만 사용)

imdb_data = tf.keras.datasets.imdb
(x_train, y_train), (x_test, y_test) = imdb_data.load_data(num_words = max_features)

x_train = preprocessing.sequence.pad_sequences(x_train, maxlen = maxlen)
x_test = preprocessing.sequence.pad_sequences(x_test, maxlen = maxlen)
    # 리스트를 (samples, maxlen)크기의 2D 정수 텐서로 변환
    # pad_sequence() 함수에는 패딩을 넣을 위치를 지정하는 padding 매개변수가 있다. 기본값 'pre'는 시퀀스 왼쪽에, 'post'는 오른쪽에 추가
    # 여기서는 문장에서 20개 단어만 사용하므로 실제 패딩되는 샘플은 없다.
    
# IMDB 데이터에 Embedding 층과 분류기 사용하기

model = Sequential()
model.add(Embedding(10000, 8, input_length = maxlen)) # Flatten층 사용 위해 input_length 지정
model.add(Flatten()) # 3D Embedding 텐서를 (samples, maxlen*8) 크기의 2D 텐서로 펼친다.

model.add(Dense(1, activation = 'sigmoid'))
model.compile(optimizer = 'rmsprop', loss = 'binary_crossentropy', metrics = ['binary_accuracy'])
model.summary()

history = model.fit(x_train, y_train, epochs = 10, batch_size = 32, validation_split = 0.2)

Model: "sequential_10"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_21 (Embedding)     (None, 1000, 8)           80000     
_________________________________________________________________
flatten_10 (Flatten)         (None, 8000)              0         
_________________________________________________________________
dense_10 (Dense)             (None, 1)                 8001      
Total params: 88,001
Trainable params: 88,001
Non-trainable params: 0
_________________________________________________________________
Train on 20000 samples, validate on 5000 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
CPU times: user 29.9 s, sys: 3.07 s, total: 32.9 s
Wall time: 16.3 s
