# Keras Tokenizer 演示

### [分词器 Tokenizer](https://keras-cn.readthedocs.io/en/latest/preprocessing/text/)
``` python
keras.preprocessing.text.Tokenizer(num_words=None,
                                   filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n',
                                   lower=True,
                                   split=" ",
                                   char_level=False)
```
Tokenizer是一个用于向量化文本，或将文本转换为序列（即单词在字典中的下标构成的列表，从1算起）的类。

#### 构造参数
- **num_words**：None或整数，处理的最大单词数量。若被设置为整数，则分词器将被限制为待处理数据集中最常见的**num_words**个单词
- **char_level**: 如果为 True, 每个字符将被视为一个标记


---

## 定义数据

In [1]:
docs = ['Well done!',
		'Good work',
		'Great effort',
		'nice work',
		'Excellent!',
		'Weak',
		'Poor effort!',
		'not good',
		'poor work',
		'Could have done better.']

## 建立一个Tokenizer并训练之
有两种训练方式：
 - **fit_on_texts()**
 - **fit_on_sequences()**   
 
这里主要用到的是前者

In [2]:
from keras.preprocessing.text import Tokenizer
t = Tokenizer()
t.fit_on_texts(docs)

Using TensorFlow backend.


然后就可以测试一下各种好用的功能了

## 都有些什么功能？
### text to XXX

In [3]:
t.texts_to_sequences(docs)

[[6, 2],
 [3, 1],
 [7, 4],
 [8, 1],
 [9],
 [10],
 [5, 4],
 [11, 3],
 [5, 1],
 [12, 13, 2, 14]]

In [4]:
t.texts_to_sequences_generator(docs)

<generator object Tokenizer.texts_to_sequences_generator at 0x000002174D25B678>

In [5]:
t.texts_to_matrix(docs)

array([[0., 0., 1., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 1., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1.]])

### sequences to XXX

In [6]:
t.sequences_to_texts(t.texts_to_sequences(docs))

['well done',
 'good work',
 'great effort',
 'nice work',
 'excellent',
 'weak',
 'poor effort',
 'not good',
 'poor work',
 'could have done better']

In [7]:
t.sequences_to_matrix(t.texts_to_sequences(docs))

array([[0., 0., 1., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 1., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1.]])

In [8]:
t.sequences_to_texts_generator(t.texts_to_sequences(docs))

<generator object Tokenizer.sequences_to_texts_generator at 0x000002174D25B308>

### 将其information转换为一个json字符串
看看里面都有些啥

In [9]:
infor = t.to_json()
print(type(infor))  # 是个字符串
infor

<class 'str'>


'{"class_name": "Tokenizer", "config": {"num_words": null, "filters": "!\\"#$%&()*+,-./:;<=>?@[\\\\]^_`{|}~\\t\\n", "lower": true, "split": " ", "char_level": false, "oov_token": null, "document_count": 10, "word_counts": "{\\"well\\": 1, \\"done\\": 2, \\"good\\": 2, \\"work\\": 3, \\"great\\": 1, \\"effort\\": 2, \\"nice\\": 1, \\"excellent\\": 1, \\"weak\\": 1, \\"poor\\": 2, \\"not\\": 1, \\"could\\": 1, \\"have\\": 1, \\"better\\": 1}", "word_docs": "{\\"well\\": 1, \\"done\\": 2, \\"good\\": 2, \\"work\\": 3, \\"effort\\": 2, \\"great\\": 1, \\"nice\\": 1, \\"excellent\\": 1, \\"weak\\": 1, \\"poor\\": 2, \\"not\\": 1, \\"could\\": 1, \\"better\\": 1, \\"have\\": 1}", "index_docs": "{\\"6\\": 1, \\"2\\": 2, \\"3\\": 2, \\"1\\": 3, \\"4\\": 2, \\"7\\": 1, \\"8\\": 1, \\"9\\": 1, \\"10\\": 1, \\"5\\": 2, \\"11\\": 1, \\"12\\": 1, \\"14\\": 1, \\"13\\": 1}", "index_word": "{\\"1\\": \\"work\\", \\"2\\": \\"done\\", \\"3\\": \\"good\\", \\"4\\": \\"effort\\", \\"5\\": \\"poor\\", \\"

直接看字符串实在是阅读不友好，我们将json的字符串格式直接转换为json格式本身

In [10]:
import json
infor_dic = json.loads(infor)
print(type(infor_dic))  # 是个字典
infor_dic

<class 'dict'>


{'class_name': 'Tokenizer',
 'config': {'num_words': None,
  'filters': '!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
  'lower': True,
  'split': ' ',
  'char_level': False,
  'oov_token': None,
  'document_count': 10,
  'word_counts': '{"well": 1, "done": 2, "good": 2, "work": 3, "great": 1, "effort": 2, "nice": 1, "excellent": 1, "weak": 1, "poor": 2, "not": 1, "could": 1, "have": 1, "better": 1}',
  'word_docs': '{"well": 1, "done": 2, "good": 2, "work": 3, "effort": 2, "great": 1, "nice": 1, "excellent": 1, "weak": 1, "poor": 2, "not": 1, "could": 1, "better": 1, "have": 1}',
  'index_docs': '{"6": 1, "2": 2, "3": 2, "1": 3, "4": 2, "7": 1, "8": 1, "9": 1, "10": 1, "5": 2, "11": 1, "12": 1, "14": 1, "13": 1}',
  'index_word': '{"1": "work", "2": "done", "3": "good", "4": "effort", "5": "poor", "6": "well", "7": "great", "8": "nice", "9": "excellent", "10": "weak", "11": "not", "12": "could", "13": "have", "14": "better"}',
  'word_index': '{"work": 1, "done": 2, "good": 3, "effort": 4, "

看起来好一些了，还有更好的：发挥jupyter的潜能吧

In [11]:
from IPython.display import JSON
JSON(infor_dic)

<IPython.core.display.JSON object>

**注意**：不要直接给JSON输入json字符串，它只接受dic和list。否则会抛出warning。

### Tokenizer的config也可以直接获取到

In [12]:
t.word_counts  # 词频统计

OrderedDict([('well', 1),
             ('done', 2),
             ('good', 2),
             ('work', 3),
             ('great', 1),
             ('effort', 2),
             ('nice', 1),
             ('excellent', 1),
             ('weak', 1),
             ('poor', 2),
             ('not', 1),
             ('could', 1),
             ('have', 1),
             ('better', 1)])

In [13]:
t.word_docs

defaultdict(int,
            {'well': 1,
             'done': 2,
             'good': 2,
             'work': 3,
             'effort': 2,
             'great': 1,
             'nice': 1,
             'excellent': 1,
             'weak': 1,
             'poor': 2,
             'not': 1,
             'could': 1,
             'better': 1,
             'have': 1})

In [14]:
t.word_index

{'work': 1,
 'done': 2,
 'good': 3,
 'effort': 4,
 'poor': 5,
 'well': 6,
 'great': 7,
 'nice': 8,
 'excellent': 9,
 'weak': 10,
 'not': 11,
 'could': 12,
 'have': 13,
 'better': 14}

In [15]:
t.index_word

{1: 'work',
 2: 'done',
 3: 'good',
 4: 'effort',
 5: 'poor',
 6: 'well',
 7: 'great',
 8: 'nice',
 9: 'excellent',
 10: 'weak',
 11: 'not',
 12: 'could',
 13: 'have',
 14: 'better'}

In [16]:
t.split

' '

In [17]:
t.char_level

False

In [18]:
t.document_count

10

In [19]:
t.filters

'!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n'

In [20]:
t.lower

True

---
## fit_on_sequences()
前面使用fit_on_texts()训练的，如果语料是纯数字序列，可以用fit_on_sequences()训练

In [21]:
seqs = t.texts_to_sequences(docs[:5])  # 得到数字序列
seqs

[[6, 2], [3, 1], [7, 4], [8, 1], [9]]

In [22]:
t2 = Tokenizer()
t2.fit_on_sequences(seqs)     # 借用t生成的sequence来训练t2
t2.sequences_to_texts(seqs)   # 原来就是senquences,肯定拿不到

['', '', '', '', '']

看一下t2的config信息，就都懂了

In [23]:
JSON(json.loads(t2.to_json()))

<IPython.core.display.JSON object>