<a href="https://colab.research.google.com/github/yenlung/Deep-Learning-Basics/blob/master/colab03c%20%E6%89%93%E9%80%A0%E8%87%AA%E5%B7%B1%E7%9A%84%20tokenizer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### 1. 讀入相關套件

我們最主要是需要 `tf.keras` 中的 `Tokenizer`。

In [2]:
from tensorflow.keras.preprocessing.text import Tokenizer

我們使用 `urllib.request` 的 `urlretrieve` 把在 GitHub 上的一個檔案當成在自己硬碟上的檔案使用, 讀入《紅樓夢》。另外, 做好的 Tokenizer 要存起來 (很重要! 很重要! 很重要!) 這裡用 Python 標準的 `pickle` 儲存。

In [3]:
from urllib.request import urlretrieve
import pickle

### 2. 讀入我們收集到所有的文本

我們收集許多資料, 比如說粉專上的留言討論。這裡要做的就是把所有文字合併成一個檔案。

In [4]:
urlretrieve("https://github.com/yenlung/Deep-Learning-Basics/raw/master/data/dream.txt", 
            "dream.txt")

('dream.txt', <http.client.HTTPMessage at 0x7f3137deb550>)

然後就可以像開正常檔案般使用。

In [5]:
f = open('dream.txt', 'r')
lines = f.readlines()
f.close()

這裡面就會是一段段《紅樓夢》。察看後發現, 每段開頭會有用於縮排的 "\u3000\u3000" 我們想要去掉。

In [7]:
text_lines = [x.lstrip('\u3000\u3000') for x in lines]

再把每一段整合起來。

In [8]:
text = ''.join(text_lines)

### 3. 打造我們的 tokenizer

Tokenizer 本身也是個函數學習機, 因此就標準的建構、訓練、預測 (使用) 三部曲。

#### 第一部曲: 打造 tokenizer 函數學習機

設 `char_level=True` 意思是每一個字 (包括標點), 都有一個代號 (token)。

In [9]:
tokenizer = Tokenizer(char_level=True)

#### 第二部曲: 訓練

就把所有文字丟進去就好。

In [10]:
tokenizer.fit_on_texts([text])

#### 第三部曲: 預測 (使用)

我們可丟一句話 (texts) 進去, 就可回傳對應的一串代碼 (sequence) 回來。

In [11]:
tokenizer.texts_to_sequences(["我打造了一個函數學習機。"])

[[15, 99, 721, 3, 6, 26, 597, 362, 1061, 912, 2]]

反過來也可以 sequences to texts。

In [12]:
tokenizer.sequences_to_texts([[15, 99, 721, 3, 6, 26, 597, 362, 1061, 912, 2]])

['我 打 造 了 一 個 數 學 習 機 。']

我們也發現，沒有訓練過的字出現就忽略不計。

### 4. 把我們的 tokenizer 存起來

In [13]:
from google.colab import drive

drive.mount('/content/drive')

Mounted at /content/drive


In [14]:
%cd "/content/drive/MyDrive/Colab Notebooks/"

/content/drive/MyDrive/Colab Notebooks


In [15]:
f = open('MyTokenizer.pkl', 'wb')
pickle.dump(tokenizer, f)
f.close()

之後要用 `pickle` 讀回我們訓練好的 tokenizer 是這樣:

```python
f = open('tokenizer.pkl', 'rb')
tokenizer = pickle.load(f)
f.close()
```