In [None]:
'''
这几个参数的具体含义包括：
    input_dim: 输入的维度，对于字词嵌入来说就是词汇量的大小；
    output_dim: 产出的维度，简单来说就是对单词嵌入产生的向量的长度；
    embeddings_initializer： 如何对嵌入进行初始化；
    embeddings_regularizer： 嵌入的正则化项，比如之前的L2正则化。
'''
tf.keras.layers.Embedding(
    input_dim, output_dim, embeddings_initializer='uniform',
    embeddings_regularizer=None
)

In [None]:
layer = tf.keras.layers.Embedding(100, 5)  # 100表示词汇量大小，5表示产出维度
print(layer(tf.constant([1,2,3,4,5])).numpy())

In [None]:
import tensorflow as tf

# 使用内置API获取数据，同时规定最大的词汇量为10000
(train_data, train_labels), (test_data, test_labels) = tf.keras.datasets.imdb.load_data(num_words=10000)


# 预处理：文本数据对齐
train_data = tf.keras.preprocessing.sequence.pad_sequences(train_data, value=0, padding='post', maxlen=256)
test_data = tf.keras.preprocessing.sequence.pad_sequences(test_data, value=0, padding='post', maxlen=256)


# 模型构建与编译
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(10000, 32),
    tf.keras.layers.GlobalAveragePooling1D(),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])

model.summary()

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 训练与测试
history = model.fit(train_data, train_labels, epochs=30, batch_size=64)
results = model.evaluate(test_data, test_labels)

print(results)
