-------
学习资料：[ Keras中文文档](http://keras-cn.readthedocs.io/en/latest/)

------

# 1 数据处理模块：`keras.preprocessing`
包含 `text`、`sequence`、`image` 三个子库。

In [6]:
import keras

## 1.1 文字预处理
- [文本预处理](http://keras-cn.readthedocs.io/en/latest/preprocessing/text/)

在文字建模中，一般都需要把原始文字拆解成单字、单词或词组，然后将这些拆分后的要素进行索引、标记化供机器学习算法使用。这种预处理叫做**标注**（Tokenize）。Keras 提供了现成的方法，既方便，又高效。一般来说，对于已经读入的文字的预处理包含以下几个步骤：
1. 文字拆分
2. 建立索引
3. 序列补奇（Padding）
4. 转换为矩阵
5. 使用标注类批量处理文本文件

所有跟文字相关的预处理函数都在 `keras.preprocessing.txt` 这个子库里。但是这是为英文设计的，如果处理中文，建议使用结巴分词里提供的切分函数 `cut` 来进行文字拆分。

### 文字拆分
使用 `text_to_word_sequence` 函数，将一段文字根据预定义的分隔符（不能为空值）切分成字符串或者单词（英文）。
- 返回一个单词列表，但是会先预处理一下，比如将过滤表中的字符过滤掉，或者将字符都转换为小写字母等。

In [8]:
import keras.preprocessing.text as text

In [50]:
txt = 'Those that come through the Ivory Gate cheat us with empty promises that never see fullfillment.Those that come\
through the Gate of Horn inform the dreamer of truth'

In [51]:
out1 = text.text_to_word_sequence(txt)
print(out1[:6])

['those', 'that', 'come', 'through', 'the', 'ivory']


In [16]:
out2 = text.text_to_word_sequence(txt, lower= False)
out2[:6]

['Those', 'that', 'come', 'through', 'the', 'Ivory']

In [18]:
out3 = text.text_to_word_sequence(txt, lower= False, filters= 'Tha')
out3[:6]

['ose', 't', 't', 'come', 't', 'roug']

#### 中文分词—— `jieba`
- 基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG）
- 采用动态规划查找最大概率路径，找出基于词频的最大切分组合
- 对于未登陆词，采用了基于汉字成词能力的 HMM 模型，使用 Viterbi 算法。

结巴分词提供了两种分词方法：
1. `cut` 对应的返回列表是 `lcut`。
2. `cut_for_search` 是为搜索引擎构造索引所采用的比精确分词模式颗粒度略细的分词方法，返回一个可迭代的生成器（Generator）对象，可以使用 `for` 循环来获取分割后的单词。对应的返回列表是 `lcut_for_search`。

In [22]:
import jieba

In [23]:
chn= '夫医道所兴，其来久矣。上古神农始尝草木而知百药。黄帝咨访岐伯，伯高，少俞之徒，内考五脏六腑，外综经络血气色候，参之天地，验之人物，\
本性命，穷神极变，而针道生焉。其论至妙，雷公受业传之於后。伊尹以亚圣之才，撰用《神农本草》，以为《汤液》。中古名医有俞跗，医缓，扁鹊，\
秦有医和，汉有仓公。其论皆经理识本，非徒诊病而已。汉有华佗，张仲景，华佗奇方异治，施世者多，亦不能尽记其本末。若知直祭酒刘季琰病发於畏恶，\
治之而瘥。云：“后九年季琰病应发，发当有感，仍本於畏恶，病动必死。”终如其言。仲景见侍中王仲宣时年二十余。谓曰：“君有病，四十当眉落，\
眉落半年而死。”令含服五石汤可免。仲宣嫌其言忤，受汤勿服。居三日，仲景见仲宣谓曰：“服汤否？”仲宣曰：“已服。”仲景曰：\
“色候固非服汤之诊，君何轻命也！”仲宣犹不信。后二十年果眉落，后一百八十七日而死，终如其言。此二事虽扁鹊，仓公无以加也。\
华佗性恶矜技，终以戮死。 仲景论广伊尹《汤液》为十数卷，用之多验。近代太医令王叔和撰次仲景遗论甚精，皆可施用。\
按《七略》艺文志，《黄帝内经》十八卷。今有《针经》九卷，《素问》九卷，二九十八卷，即《内经》也。亦有所亡失，其论遐远，\
然称述多而切事少，有不编次。比按仓公传，其学皆出於《素问》，《素问》论病精微，《九卷》是原本经脉，其义深奥，不易览也。\
又有《明堂孔穴针灸治要》，皆黄帝岐伯遗事也。三部同归，文多重複，错互非一。甘露中，吾病风加苦聋百日，方治要皆浅近。\
乃撰集三部，使事类相从，删其浮辞，除其重複，论其精要，至为十二卷。《易》曰：“观其所聚，而天地之情事见矣。”况物理乎。\
事类相从，聚之义也。夫受先人之体，有八尺之躯，而不知医事，此所谓游魂耳！若不精通於於医道，虽有忠孝之心，仁慈之性，君父危困，\
赤子涂地，无以济之，此固圣贤所以精思极论尽其理也。由此言之，焉可忽乎。其本论其文有理，虽不切於近事，不甚删也。若必精要，\
俟其闲暇，当撰核以为教经云尔。'

`lcut/cut` 接受三个参数，分别是：需要分割的 Unicode 字符串、分词是否采用细颗粒度模式和是否使用 HMM 模型。

In [24]:
chnout1 = jieba.lcut(chn, cut_all= False)
print(len(chnout1), chnout1[:8])

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\xiner\AppData\Local\Temp\jieba.cache
Loading model cost 1.135 seconds.
Prefix dict has been built succesfully.


532 ['夫', '医道', '所兴', '，', '其来', '久', '矣', '。']


In [27]:
chnout2 = jieba.lcut(chn, cut_all= True)
print(len(chnout1), chnout2[:15])

532 ['夫', '医道', '所', '兴', '', '', '其', '来', '久', '矣', '', '', '上古', '古神', '神农']


In [28]:
chnout3 = jieba.lcut(chn, cut_all= True, HMM= True)
print(len(chnout3), chnout1[:15])

843 ['夫', '医道', '所兴', '，', '其来', '久', '矣', '。', '上古', '神农', '始尝', '草木', '而', '知百药', '。']


### 建立索引
完成分词以后，得到的单字或者单词并不能直接用于建模，还需要将他们转换为数字序号，才能进行后续处理。这就是建立索引。

方法：对拆分出来的每个单字或单词，排序之后编号即可。

In [54]:
import numpy as np
out1.sort(reverse= True)
k = list(zip(out1, np.arange(len(out1))))
k

[('with', 0),
 ('us', 1),
 ('truth', 2),
 ('through', 3),
 ('those', 4),
 ('those', 5),
 ('the', 6),
 ('the', 7),
 ('the', 8),
 ('that', 9),
 ('that', 10),
 ('that', 11),
 ('see', 12),
 ('promises', 13),
 ('of', 14),
 ('of', 15),
 ('never', 16),
 ('ivory', 17),
 ('inform', 18),
 ('horn', 19),
 ('gate', 20),
 ('gate', 21),
 ('fullfillment', 22),
 ('empty', 23),
 ('dreamer', 24),
 ('comethrough', 25),
 ('come', 26),
 ('cheat', 27)]

In [56]:
dict(k)

{'cheat': 27,
 'come': 26,
 'comethrough': 25,
 'dreamer': 24,
 'empty': 23,
 'fullfillment': 22,
 'gate': 21,
 'horn': 19,
 'inform': 18,
 'ivory': 17,
 'never': 16,
 'of': 15,
 'promises': 13,
 'see': 12,
 'that': 11,
 'the': 8,
 'those': 5,
 'through': 3,
 'truth': 2,
 'us': 1,
 'with': 0}

建立索引也可以使用 One Hot 编码法，即对于 $K$ 个不同的单字或者单词，依次设定一个 $1$ 到 $K$ 的数值来索引这 $K$ 个单字或者单词构成的词汇表。使用 `one_hot` 函数很容易实现：

In [57]:
xin = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13]
tout = (text.text_to_word_sequence(str(xin)))
tout

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13']

In [58]:
xout = text.one_hot(str(xin), 5)
xout

[2, 1, 3, 4, 2, 2, 2, 2, 1, 1, 4, 2, 4, 2]

In [41]:
for s in range(len(xin)):
    print(s, hash(tout[s])%(5-1), xout[s])

0 1 2
1 0 1
2 2 3
3 3 4
4 1 2
5 1 2
6 1 2
7 1 2
8 0 1
9 0 1
10 3 4
11 1 2
12 3 4
13 1 2


`one_hot` 函数有两个参数：一个是待索引的字符串列表；一个是最大索引值 $n$。这个函数将输入的字符串列表按照规则将其分配给 $0,\cdots, n-1$ 共 $n$ 个索引值之一。

一般要将大量不同的数据映射到一个有限的空间中，通常采用的方法是：哈希表，`one_hot` 函数也不例外。

### 序列补齐

使用 `` 函数，其输入的要素为列表串（list of list）。

In [59]:
from keras.preprocessing.sequence import pad_sequences

In [60]:
x = [[1, 2, 3], [4, 5], [6, 7, 8, 9]]

In [61]:
y0 = pad_sequences(x)
y0

array([[0, 1, 2, 3],
       [0, 0, 4, 5],
       [6, 7, 8, 9]])

In [62]:
y1 = pad_sequences(x, maxlen= 5, padding= 'post')
y1

array([[1, 2, 3, 0, 0],
       [4, 5, 0, 0, 0],
       [6, 7, 8, 9, 0]])

In [63]:
y2 = pad_sequences(x, maxlen= 3, padding= 'post')
y2

array([[1, 2, 3],
       [4, 5, 0],
       [7, 8, 9]])

In [64]:
y3 = pad_sequences(x, maxlen= 3, padding= 'pre')
y3

array([[1, 2, 3],
       [0, 4, 5],
       [7, 8, 9]])

### 转换为矩阵
- `pad_sequences` 方法

```python
max_sentence_len = 50
X = []
for sentences in texts:
    x = [word_idx(w) for w in sentences]
    X.append(x)
    
pad_sequences(X, maxlen= max_sentence_len)
```
- 使用标注类 

### 使用标注类批量处理文本文件
标注类（Tokenizer class）

```python
from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(nb_words= 1000)
tokenizer.fit_on_text(alltext)  # 文本文件列表
```

`fit_on_text` 函数的作用是对输入的文本计算一些关键统计量，并对里面的元素进行索引。
1. 依次遍历文本列表变量元素，对于每个字符串元素，使用 `text_to_word_sequence` 函数进行拆分，并统一为小写字符。
2. 计算单词出现的总频率和在不同文件中出现的频率，并对单词表排序。
3. 计算总的单词量，并对每一个单词建立一个总的索引和一个在不同文件中的索引。

完成上述工作后，就可以对整个列表中的元素进行拆分了。

```python
word_sequences = tokenizer.texts_to_sequences(alltext)
```

转换为矩阵：
- `Tokenizer.texts_to_matrix` 
- `Tokenizer.sequences_to_matrix`

## 1.2 序列数据预处理
**跳跃语法**（Skip Gram） 模型：是一种单词表述（Word Representation）模型，它把每个单词映射到一个 $M$ 维的空间，即 `Word2Vec`。

在 Keras 的预处理模块中有一个 `skipgrams` 函数，将词向量索引标号，按照两种可选方式转换为一系列两两元素的组合 $(w1, w2)$ 和标注 $z$。如果$w2$ 跟 $w1$ 是紧挨着的，则标注 $z$ 为 $1$，为正样本；如果 $w2$ 是从不相邻的其他元素中随机抽取的，则标注为 $0$，即负样本。

- [序列预处理](http://keras-cn.readthedocs.io/en/latest/preprocessing/sequence/)

In [69]:
from keras.preprocessing.sequence import skipgrams

In [70]:
z = skipgrams([1, 2, 3], 3)
z

([[3, 2],
  [2, 1],
  [1, 3],
  [3, 1],
  [1, 2],
  [2, 3],
  [2, 1],
  [3, 2],
  [1, 1],
  [3, 1],
  [2, 1],
  [1, 2]],
 [0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1])

In [71]:
res = list(zip(z[0], z[1]))
for s in res:
    print(s)

([3, 2], 0)
([2, 1], 1)
([1, 3], 1)
([3, 1], 0)
([1, 2], 0)
([2, 3], 1)
([2, 1], 0)
([3, 2], 1)
([1, 1], 0)
([3, 1], 1)
([2, 1], 0)
([1, 2], 1)


## 1.3 图片数据的输入
`keras.preprocessing.image.ImageDataGenerator` 类生成一个数据生成器（Generator）对象，依照循环批量产生对应于图像信息的多维矩阵。
- [图片预处理](http://keras-cn.readthedocs.io/en/latest/preprocessing/image/)

# 2 Keras 中的模型
依据拓扑结构分为：
- 序列模型（Sequential 类）：属于通用模型的一个子类。
- 通用模型（Model 类）

## 2.1 序列模型
这种模型各层之间是依次顺序的线性关系，在第 $k$ 层和 $k+1$ 层之间可以加上各种元素来构造神经网络。这些元素可以通过一个列表来制定，然后作为参数传递给序列模型来生成相应的模型。

In [74]:
from keras.models import Sequential
from keras.layers import Dense, Activation

In [75]:
layers = [Dense(32, input_shape= (784,)), 
         Activation('relu'),
         Dense(10),
         Activation('softmax')]
model = Sequential(layers)

除了直接在一个列表中指定所有元素外，也可以像下面这样逐层添加：

In [76]:
model = Sequential()
model.add(Dense(32, input_shape= (784,)))
model.add(Activation('relu'))
model.add(Dense(10))
model.add(Activation('softmax'))

## 2.2 通用模型
通用模型可以用来设计非常复杂、任意拓扑结构的神经网络，例如有向无环网络、共享层网络等。类似于序列模型，通用模型通过函数化的应用接口来定义模型。

在定义的时候，从输入的多维矩阵开始，然后定义各层及其要素，最后定义输出层。将输入层与输出层作为参数纳入通用模型中就可以定义一个模型对象，并进行编译和拟合。