**文本预处理**

- 句子分割text_to_word_sequence
- one-hot编码 
- 分词器Tokenizer

# 1 句子分割text_to_word_sequence


```python
keras.preprocessing.text.text_to_word_sequence(text,
                                               filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n',
                                               lower=True,
                                               split=" ")
```

- text：字符串，待处理的文本
- filters：需要滤除的字符的列表或连接形成的字符串，例如标点符号。默认值为 '!"#$%&()*+,-./:;<=>?@[]^_`{|}~\t\n'，包含标点符号，制表符和换行符等
- lower：布尔值，是否将序列设为小写形式
- split：字符串，单词的分隔符，如空格
                                               
**返回值**
- 字符串列表                                               

In [1]:
from keras.preprocessing.text import text_to_word_sequence

sentence = 'Near is a good name, you should always be near to someone to save'
text_to_word_sequence(sentence)

Using TensorFlow backend.


['near',
 'is',
 'a',
 'good',
 'name',
 'you',
 'should',
 'always',
 'be',
 'near',
 'to',
 'someone',
 'to',
 'save']

In [8]:
sentence = """
你是人间四月天
是的
"""
text_to_word_sequence(sentence)

['你是人间四月天', '是的']

## 2 one-hot编码

```python
keras.preprocessing.text.one_hot(text,
                                 n,
                                 filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n',
                                 lower=True,
                                 split=" ")
                                 
```
参数

n：整数，字典长度
返回值

整数列表，每个整数是[1,n]之间的值，代表一个单词（不保证唯一性，即如果词典长度不够，不同的单词可能会被编为同一个码）。

In [13]:
from keras.preprocessing.text import one_hot
sentence = 'Near is a good name, you should always be near to someone to save'
one_hot(sentence, n=20) 

[6, 3, 9, 9, 17, 5, 19, 4, 15, 6, 2, 16, 2, 1]

In [16]:
from keras.preprocessing.text import one_hot
sentence = """
你是人间四月天
是的
不是吧
恩
"""
one_hot(sentence, n=20) 

[14, 16, 1, 2]

## 3 Tokenizer

```python
keras.preprocessing.text.Tokenizer(num_words=None,
                                   filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n',
                                   lower=True,
                                   split=" ",
                                   char_level=False)
```


构造参数

与text_to_word_sequence同名参数含义相同
- num_words：None或整数，处理的最大单词数量。若被设置为整数，则分词器将被限制为待处理数据集中最常见的num_words个单词
- char_level: 如果为 True, 每个字符将被视为一个标记
类方法

- fit_on_texts(texts)
    - texts：要用以训练的文本列表
- texts_to_sequences(texts)
    - texts：待转为序列的文本列表
    - 返回值：序列的列表，列表中每个序列对应于一段输入文本
    
- texts_to_sequences_generator(texts)
    - 本函数是texts_to_sequences的生成器函数版
    - texts：待转为序列的文本列表
    - 返回值：每次调用返回对应于一段输入文本的序列
- texts_to_matrix(texts, mode)：
    - texts：待向量化的文本列表
    - mode：‘binary’，‘count’，‘tfidf’，‘freq’之一，默认为‘binary’
    - 返回值：形如(len(texts), nb_words)的numpy array
- fit_on_sequences(sequences):
    - sequences：要用以训练的序列列表
- sequences_to_matrix(sequences):
    - sequences：待向量化的序列列表
    - mode：‘binary’，‘count’，‘tfidf’，‘freq’之一，默认为‘binary’
    - 返回值：形如(len(sequences), nb_words)的numpy array


In [18]:
from keras.preprocessing.text import Tokenizer

sentence1 = 'I am kira'
sentence2 = 'I am the Lord of the new world'
text = [sentence1,sentence2]

tok = Tokenizer(num_words=None)
tok.fit_on_texts(text)
# print tok attributes
print(f"tok.word_counts:{tok.word_counts}") # 每个word出现了几次
print(f"tok.word_docs:{tok.word_docs}") # 每个word出现在几个文档中
print(f"tok.word_index:{tok.word_index}") # 每个word对应的index，字典映射
print(f"tok.document_count:{tok.document_count}") # 一共有多少文档
# print vectorized text
print(f"tok.texts_to_matrix(text):{tok.texts_to_matrix(text)}") # 返回一个【文档数×num_words】的mat

tok.word_counts:OrderedDict([('i', 2), ('am', 2), ('kira', 1), ('the', 2), ('lord', 1), ('of', 1), ('new', 1), ('world', 1)])
tok.word_docs:defaultdict(<class 'int'>, {'am': 2, 'i': 2, 'kira': 1, 'lord': 1, 'the': 1, 'of': 1, 'world': 1, 'new': 1})
tok.word_index:{'i': 1, 'am': 2, 'the': 3, 'kira': 4, 'lord': 5, 'of': 6, 'new': 7, 'world': 8}
tok.document_count:2
tok.texts_to_matrix(text):[[0. 1. 1. 0. 1. 0. 0. 0. 0.]
 [0. 1. 1. 1. 0. 1. 1. 1. 1.]]
