In [1]:
from tensorflow.keras.layers import Embedding

#  Embedding層の引数は少なくとも２つ
# 有効なトークンの数：　この場合は1,000（１＋単語のインデックスの最大値）
# 埋め込みの次元の数：この場合は64

embedding_layer = Embedding(1000, 64)


In [5]:
# Embedding層で使用するIMdbデータセットを読み込む
from tensorflow.keras.datasets import imdb
from tensorflow.keras import preprocessing

# 特徴量として考慮する単語の数
max_features = 10000

# max_features個の最も出現頻度の高い単語のうち，
# この数の単語を残してテキストをカット
max_len = 20

# データを複数の整数リストとして読み込む
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)

# 整数のリストを形状が(samples, max_len)の二次元整数テンソルに変換
x_train = preprocessing.sequence.pad_sequences(x_train, maxlen=max_len)
x_test = preprocessing.sequence.pad_sequences(x_train, maxlen=max_len)

In [12]:
# IMdbデータでEmbeddingそうと分類器を使用

from tensorflow.keras import Sequential
from tensorflow.keras.layers import Flatten, Dense, Embedding

model = Sequential()

# 後から埋め込みの入力を平坦化できるように
# Embedding層の入力の長さとしてmax_lenを指定
# Embedding層の後，活性化の形状は(samples, max_len, 8)になる
model.add(Embedding(10000, 8, input_length=max_len))

# 埋め込みの三次元テンソルを形状が(samples, max_len * 8)の二次元テンソルに変換
model.add(Flatten())

# 最後に分類機を追加
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='rmsprop',
             loss='binary_crossentropy',
             metrics=['acc'])
model.summary()
history = model.fit(x_train, y_train,
                   epochs=10,
                   batch_size=32,
                   validation_split=0.2)

Model: "sequential_4"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_5 (Embedding)      (None, 20, 8)             80000     
_________________________________________________________________
flatten_4 (Flatten)          (None, 160)               0         
_________________________________________________________________
dense_4 (Dense)              (None, 1)                 161       
Total params: 80,161
Trainable params: 80,161
Non-trainable params: 0
_________________________________________________________________
Train on 20000 samples, validate on 5000 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
