# Embedding层文本集向量化

## 1. 将文本集变换为词索引向量矩阵

### 1.1 定义文本集

In [1]:
# 定义文档集
documents = ['Well done!',
             'Good work',
             'Great effort',
             'nice work',
             'Excetllent!',
             'Weak',
             'Poor effort!',
             'not good',
             'poor work',
             'Could have done better.']

### 1.2 文本集词索引向量化

In [2]:
from keras.preprocessing.text import Tokenizer
# 实例化Tokenizer对象
tokenizer = Tokenizer()
# 构建词汇表
tokenizer.fit_on_texts(documents)
# 向量化文本集
encodeDocuments = tokenizer.texts_to_sequences(documents)
# 输出文本集向量
print("文本集\n", encodeDocuments)

Using TensorFlow backend.


文本集
 [[6, 2], [3, 1], [7, 4], [8, 1], [9], [10], [5, 4], [11, 3], [5, 1], [12, 13, 2, 14]]


In [3]:
# 固定句子长度为4个单词
from keras.preprocessing.sequence import pad_sequences
max_length = 4
paddedDocuments = pad_sequences(encodeDocuments, maxlen=max_length, padding='post')
print("文本集\n", paddedDocuments)

文本集
 [[ 6  2  0  0]
 [ 3  1  0  0]
 [ 7  4  0  0]
 [ 8  1  0  0]
 [ 9  0  0  0]
 [10  0  0  0]
 [ 5  4  0  0]
 [11  3  0  0]
 [ 5  1  0  0]
 [12 13  2 14]]


## 2. 设计嵌入层

In [4]:
from keras.models import Sequential
from keras.layers.embeddings import Embedding

In [5]:
model = Sequential()
model.add(Embedding(input_dim=len(tokenizer.word_index),  # 输入的文本集构建的词索引的最大值，也就是嵌入层参数矩阵的行数
                    output_dim=8,  # 输出时每个词语的维度，这个值就是嵌入层参数矩阵的列数
                    input_length=max_length, # 输入时一篇文本的单词数，也就是词索引矩阵的列数
                    trainable=True))  # 由于这里嵌入层参数矩阵没有使用词嵌入模型，因此嵌入层参数也就是每个词的词向量需要模型进行训练。
model.summary()


Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, 4, 8)              112       
Total params: 112
Trainable params: 112
Non-trainable params: 0
_________________________________________________________________


In [6]:
print("1篇文本所含的词语数量: ", model.get_layer('embedding_1').input_length)
print("One-Hot表示1个词所需的维度: ", model.get_layer('embedding_1').input_dim)
print("词汇表长度: ", len(tokenizer.word_index))

1篇文本所含的词语数量:  4
One-Hot表示1个词所需的维度:  14
词汇表长度:  14
