参考 https://keras-cn-docs.readthedocs.io/zh_CN/latest/blog/word_embedding/

### 什么是词向量?
”词向量”（词嵌入）是将一类将词的语义映射到向量空间中去的自然语言处理技术。即将一个词用特定的向量来表示，向量之间的距离（例如，任意两个向量之间的L2范式距离或更常用的余弦距离）一定程度上表征了的词之间的语义关系。由这些向量形成的几何空间被称为一个嵌入空间。

例如，“椰子”和“北极熊”是语义上完全不同的词，所以它们的词向量在一个合理的嵌入空间的距离将会非常遥远。但“厨房”和“晚餐”是相关的话，所以它们的词向量之间的距离会相对小。

理想的情况下，在一个良好的嵌入空间里，从“厨房”向量到“晚餐”向量的“路径”向量会精确地捕捉这两个概念之间的语义关系。在这种情况下，“路径”向量表示的是“发生的地点”，所以你会期望“厨房”向量 - “晚餐"向量（两个词向量的差异）捕捉到“发生的地点”这样的语义关系。基本上，我们应该有向量等式：晚餐 + 发生的地点 = 厨房（至少接近）。如果真的是这样的话，那么我们可以使用这样的关系向量来回答某些问题。例如，应用这种语义关系到一个新的向量，比如“工作”，我们应该得到一个有意义的等式，工作+ 发生的地点 = 办公室，来回答“工作发生在哪里？”。

词向量通过降维技术表征文本数据集中的词的共现信息。方法包括神经网络(“Word2vec”技术)，或矩阵分解。

### 分词

In [64]:
import jieba

text = '小时候，乡愁是一枚小小的邮票，我在这头，母亲在那头。长大后，乡愁是一张窄窄的船票，我在这头，新娘在那头。后来啊，乡愁是一方矮矮的坟墓，我在外头，母亲在里头。而现在，乡愁是一湾浅浅的海峡，我在这头，大陆在那头。'
texts = [' '.join(jieba.cut(text))]
texts

['小时候 ， 乡愁 是 一枚 小小的 邮票 ， 我 在 这头 ， 母亲 在 那头 。 长大 后 ， 乡愁 是 一张 窄窄的 船票 ， 我 在 这头 ， 新娘 在 那头 。 后来 啊 ， 乡愁 是 一方 矮矮的 坟墓 ， 我 在 外头 ， 母亲 在 里头 。 而 现在 ， 乡愁 是 一湾 浅浅的 海峡 ， 我 在 这头 ， 大陆 在 那头 。']

### Tokenizer

In [68]:
from keras.preprocessing.text import Tokenizer

MAX_NB_WORDS = 50
tokenizer = Tokenizer(num_words=MAX_NB_WORDS, lower=False)
tokenizer.fit_on_texts(texts)
tokenizer.word_index

{'。': 6,
 '一张': 16,
 '一方': 22,
 '一枚': 11,
 '一湾': 29,
 '乡愁': 3,
 '后': 15,
 '后来': 20,
 '啊': 21,
 '在': 2,
 '坟墓': 24,
 '外头': 25,
 '大陆': 32,
 '小小的': 12,
 '小时候': 10,
 '我': 5,
 '新娘': 19,
 '是': 4,
 '母亲': 9,
 '浅浅的': 30,
 '海峡': 31,
 '现在': 28,
 '矮矮的': 23,
 '窄窄的': 17,
 '而': 27,
 '船票': 18,
 '这头': 7,
 '那头': 8,
 '邮票': 13,
 '里头': 26,
 '长大': 14,
 '，': 1}

### sequences

In [74]:
text1 = '乡愁 母亲'
text2 = '矮矮的 坟墓'

sequences = tokenizer.texts_to_sequences([text1, text2])
sequences

[[3, 9], [23, 24]]

### padding

In [73]:
from keras.preprocessing.sequence import pad_sequences

MAX_SEQUENCE_LENGTH = 10
data = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGTH)
data

array([[ 0,  0,  0,  0,  0,  0,  0,  0,  3,  9],
       [ 0,  0,  0,  0,  0,  0,  0,  0, 23, 24]], dtype=int32)

经过上面的过程 tokenizer保存了语料中出现过的词的编号映射。