参考 https://keras-cn-docs.readthedocs.io/zh_CN/latest/blog/word_embedding/

### 什么是词向量?
”词向量”（词嵌入）是将一类将词的语义映射到向量空间中去的自然语言处理技术。即将一个词用特定的向量来表示，向量之间的距离（例如，任意两个向量之间的L2范式距离或更常用的余弦距离）一定程度上表征了的词之间的语义关系。由这些向量形成的几何空间被称为一个嵌入空间。

例如，“椰子”和“北极熊”是语义上完全不同的词，所以它们的词向量在一个合理的嵌入空间的距离将会非常遥远。但“厨房”和“晚餐”是相关的话，所以它们的词向量之间的距离会相对小。

理想的情况下，在一个良好的嵌入空间里，从“厨房”向量到“晚餐”向量的“路径”向量会精确地捕捉这两个概念之间的语义关系。在这种情况下，“路径”向量表示的是“发生的地点”，所以你会期望“厨房”向量 - “晚餐"向量（两个词向量的差异）捕捉到“发生的地点”这样的语义关系。基本上，我们应该有向量等式：晚餐 + 发生的地点 = 厨房（至少接近）。如果真的是这样的话，那么我们可以使用这样的关系向量来回答某些问题。例如，应用这种语义关系到一个新的向量，比如“工作”，我们应该得到一个有意义的等式，工作+ 发生的地点 = 办公室，来回答“工作发生在哪里？”。

词向量通过降维技术表征文本数据集中的词的共现信息。方法包括神经网络(“Word2vec”技术)，或矩阵分解。

### Cut

In [1]:
import jieba

text = '第六届泰迪杯数据挖掘挑战赛'
texts = [' '.join(jieba.cut(text))]
texts

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 1.086 seconds.
Prefix dict has been built succesfully.


['第六届 泰迪杯 数据挖掘 挑战赛']

### Tokenizer

In [2]:
from keras.preprocessing.text import Tokenizer

MAX_NB_WORDS = 10
tokenizer = Tokenizer(num_words=MAX_NB_WORDS, lower=False)
tokenizer.fit_on_texts(texts)
tokenizer.word_index

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


{'挑战赛': 4, '数据挖掘': 3, '泰迪杯': 2, '第六届': 1}

### Sequences

In [3]:
text1 = '泰迪杯 数据挖掘'
text2 = '数据挖掘 挑战赛'

sequences = tokenizer.texts_to_sequences([text1, text2])
sequences

[[2, 3], [3, 4]]

### Padding

In [4]:
from keras.preprocessing.sequence import pad_sequences

MAX_SEQUENCE_LENGTH = 10
data = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGTH)
data

array([[0, 0, 0, 0, 0, 0, 0, 0, 2, 3],
       [0, 0, 0, 0, 0, 0, 0, 0, 3, 4]], dtype=int32)

经过上面的过程 tokenizer保存了语料中出现过的词的编号映射。