# 4.1 Keras 

In [8]:
import keras

# 4.2 Keras中数据处理 

## 4.2.1 文字预处理 

### 4.2.1.1 字符拆分 

In [9]:
# 导入keras文字预处理函数
import keras.preprocessing.text as tp
import numpy as np

txt1 = "Those that come through the Ivory Gate cheat us with empty promises that never see fulfillment." 
txt2 = " Those that come through the Gate of Horn inform the dreamer of truth."
txt = txt1 + txt2

# 字符拆分
out1 = tp.text_to_word_sequence(txt)
print(out1[:6])

# 允许大小写
out2 = tp.text_to_word_sequence(txt,lower=False)
print(out2[:6])

# 设置 分割符为 T h a
out3 = tp.text_to_word_sequence(txt,lower=False, filters="Tha")
print(out3[:6])

['those', 'that', 'come', 'through', 'the', 'ivory']
['Those', 'that', 'come', 'through', 'the', 'Ivory']
['ose', 't', 't', 'come', 't', 'roug']


In [10]:
# 导入中文分词包 jieba分词
import jieba
chn = "此开卷第一回也。作者自云：曾历过一番梦幻之后，故将真事隐去，而借通灵说此《石头记》一书也，故曰“甄士隐”云云。但书中所记何事何人?自己又云：“今风尘碌碌，一事无成，忽念及当日所有之女子：一一细考较去，觉其行止见识皆出我之上。我堂堂须眉诚不若彼裙钗，我实愧则有馀，悔又无益，大无可如何之日也。当此日，欲将已往所赖天恩祖德，锦衣纨之时，饫甘餍肥之日，背父兄教育之恩，负师友规训之德，以致今日一技无成、半生潦倒之罪，编述一集，以告天下；知我之负罪固多，然闺阁中历历有人，万不可因我之不肖，自护己短，一并使其泯灭也。所以蓬牖茅椽，绳床瓦灶，并不足妨我襟怀；况那晨风夕月，阶柳庭花，更觉得润人笔墨。我虽不学无文，又何妨用假语村言敷演出来?亦可使闺阁昭传。复可破一时之闷，醒同人之目，不亦宜乎？”故曰“贾雨村”云云。"

out4 = jieba.lcut(chn, cut_all=False)
print (len(out4), out4[:8])
# 细颗粒分割
out5 = jieba.lcut(chn, cut_all=True)
print (len(out5), out5[:15])
# 使用HMM模型
out6 = jieba.lcut(chn, cut_all=True, HMM=True)
print (len(out6), out6[:15])

228 ['此', '开卷', '第一回', '也', '。', '作者', '自云', '：']
324 ['此', '开卷', '第一', '第一回', '一回', '也', '', '', '作者', '自', '云', '', '', '曾', '历']
324 ['此', '开卷', '第一', '第一回', '一回', '也', '', '', '作者', '自', '云', '', '', '曾', '历']


## 4.2.1.2 建立索引 

In [11]:
# 通过 text_to_word_sequence 生成的变量，直接可按以下方式生成索引
# 对分割字符串进行反向排序
out1.sort(reverse = True)

# 1. zip命令将每个单词依次与序号配对，其中np.arange生成一个out1长度大小的numpy数组
# 2. list命令将配对的数据改为列表
# 3. dict命令将列表修改为字典
dict(list(zip(out1, np.arange(len(out1)))))

{'cheat': 28,
 'come': 27,
 'dreamer': 25,
 'empty': 24,
 'fulfillment': 23,
 'gate': 22,
 'horn': 20,
 'inform': 19,
 'ivory': 18,
 'never': 17,
 'of': 16,
 'promises': 14,
 'see': 13,
 'that': 12,
 'the': 9,
 'those': 6,
 'through': 4,
 'truth': 2,
 'us': 1,
 'with': 0}

In [12]:
# 试用OneHot编码法，建立索引
# 示例
xin = [0,1,2,3,4,5,6,7,8,9,10,11,12,13]
tout =(tp.text_to_word_sequence(str(xin)))

# one_hot(x,y)  --  x:待索引的字符串列表,y:最大索引值n
xout = tp.one_hot(str(xin),5)
for s in range(len(xin)):
    print(s, hash(tout[s]) % (5-1), xout[s])

0 1 2
1 2 3
2 2 3
3 1 2
4 1 2
5 2 3
6 1 2
7 0 1
8 0 1
9 0 1
10 1 2
11 2 3
12 2 3
13 0 1


### 4.2.1.3 序列补齐

In [13]:
from keras.preprocessing.sequence import pad_sequences
x = [[1,2,3],[4,5],[6,7,8,9]]
y0 = pad_sequences(x)

# maxlen 指定补齐序列的长度，默认按照最长的列表长度来设定（如y0）；
#                            若设定长度超出列表元素长度则以value属性指定的填充符来扩充（如y1，以88作为填充符来补长）；
#                            若设定长度小于列表元素长度则产生截断（如y2、y3），截断标准为如果补齐序列长度为k，则保留列表元素最后k个索引，如y3；
#
# padding 指定是从后面(post，如y1、y2)还是前面补齐(pre，如y3；默认从前面补齐,如y0)，补齐索引数字默认为 0 -- 可通过value修改；
y1 = pad_sequences(x, maxlen=5, padding='post', value=88)
y2 = pad_sequences(x, maxlen=3, padding='post')
y3 = pad_sequences(x, maxlen=3 ,padding='pre')

print("{}\n====".format(y0))
print("{}\n====".format(y1))
print("{}\n====".format(y2))
print("{}\n====".format(y3))

[[0 1 2 3]
 [0 0 4 5]
 [6 7 8 9]]
====
[[ 1  2  3 88 88]
 [ 4  5 88 88 88]
 [ 6  7  8  9 88]]
====
[[1 2 3]
 [4 5 0]
 [7 8 9]]
====
[[1 2 3]
 [0 4 5]
 [7 8 9]]
====


### 4.2.1.4 转换矩阵

In [14]:
# 使用pad_sequences转换矩阵
max_sentence_len = 50
x =[]
for sentences in txt:
    x = [word_idx[w] for w in sentences]
    x.append(x)
pad_sequences(x, maxlen = max_sentence_len)

NameError: name 'word_idx' is not defined