<a href="https://colab.research.google.com/github/jumbokh/ML-Class/blob/main/notebook/colab03b%20%E4%BD%BF%E7%94%A8%E7%B4%85%E6%A8%93%E5%A4%A2%E7%94%9F%E6%88%90%E5%99%A8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 1. 讀入使用套件

第一輪是讀進我們基本套件, 第二輪是 TensorFlow 用到的套件。

In [None]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
import tensorflow as tf
import pickle

from tensorflow.keras.models import load_model, model_from_json

### 2. 讀入訓練好的 RNN 紅樓夢生成器

這裡是參考[《精通機器學習-使用 Scikit-Learn, Keras 與 TensorFlow》](https://www.books.com.tw/products/0010854043?sloc=main)這本書中莎士比亞生成器的部份寫成的。架構很簡單,就每輸入 100 個字, 預測下一個字是什麼。雙層 LSTM, 每層 128 個神經元。訓練 10 次, 在 1080Ti GPU 的電腦上大概花了 10 個小時。

以下會從我的 GitHub 重新讀入模型, 已下載模型請直接跳到下一段。


In [None]:
from urllib.request import urlretrieve

In [None]:
urlretrieve("https://raw.githubusercontent.com/yenlung/Deep-Learning-Basics/master/dream_rnn_architecture.json", "architecture.json")
urlretrieve("https://github.com/yenlung/Deep-Learning-Basics/raw/master/dream_rnn_weights.h5", "weights.h5")
urlretrieve("https://github.com/yenlung/Deep-Learning-Basics/raw/master/dream_tokenizer2.pkl", "tokenizer.pkl")

('tokenizer.pkl', <http.client.HTTPMessage at 0x7f1a7f4a5f10>)

In [None]:
f = open('architecture.json', 'r')
loaded_model = f.read()
f.close()

In [None]:
model = model_from_json(loaded_model)



In [None]:
model.load_weights("weights.h5")

In [None]:
f = open('tokenizer.pkl', 'rb')
tokenizer = pickle.load(f)
f.close()

#### 【已下載紅樓夢生成器請執行這段】

如果你已經在[我的 GitHub](https://github.com/yenlung/Deep-Learning-Basics) 中下載紅樓夢生成模型, 這包括:

1. `dream_rnn` 資料夾, 這是模型和訓練好的權重。
2. `dream_tokenizer2.pkl` 檔案, 這是模型使用的 tokenizer。

存到你的 Google Drive, 放 Colab 程式的地方 (預設是 `Colab Notebooks` 資料夾)。那執行下面這一段, 不用再讀入一次模型資料。

In [None]:
#from google.colab import drive

#drive.mount('/content/drive')

In [None]:
#%cd '/content/drive/MyDrive/Colab Notebooks/'

In [None]:
#model = load_model('dream_rnn')

In [None]:
#f = open('dream_tokenizer2.pkl', 'rb')
#tokenizer = pickle.load(f)
#f.close()

### 4. 製造紅樓夢生成器

首先 `max_id` 是記錄《紅樓夢》用到的所有不同的中文字字數, 包括新式標點符號。很讓人驚訝 (?) 的是, 字數並沒有想像中多。

In [None]:
max_id = len(tokenizer.word_index)

接下來是一段文字, 我們用事先訓練好的 tokenizer 換成一段數字, 最後用 one-hot encoding 回傳。

In [None]:
def preprocess(texts):
    X = np.array(tokenizer.texts_to_sequences([texts]))-1
    return tf.one_hot(X, max_id)

這段程式主要依輸入的一段文字, 用我們的 model 去預測下一個字。注意像平常的分類問題, 這裡輸出是每人個字出現機率最高的。但都照這樣, 我們輸入同一段文字, 之後出現的文字永遠是一樣的! 常用的手法是去設定 `temperature`, `temperature` 接近 0, 大致上就取機率最高的字; `temperature` 越大就越隨機。太隨機就變成亂數取字! 一般 `temperature`設 1 左右效果最佳。

In [None]:
def next_char(texts, temperature=1):
    X_new = preprocess(texts)
    y_predict = model.predict(X_new)[0, -1:, :]
    rescaled_logits = tf.math.log(y_predict) / temperature
    char_id = tf.random.categorical(rescaled_logits, num_samples=1) + 1
    return tokenizer.sequences_to_texts(char_id.numpy())[0]

最後就一段文字進來，再產生 `n_chars` 這麼多個字。我們原本一段文字只能生一個字, 那就一次生一個字, 最後要生多少個字就生多少個字。

原本訓練我們一段是 100 個字去訓練的, 這裡超過 100 字時我們就取最後 100 個字丟入模型。

In [None]:
def complete_text(texts, n_chars=50, temperature=1):
    n_chars=int(n_chars)
    for _ in range(n_chars):
        texts = texts + next_char(texts[-100:], temperature)
    return texts

做成 web app 前, 先來測試一下。

In [None]:
complete_text("自孫悟空從石頭中蹦出來之後，", n_chars=300, temperature=0.2)

'自孫悟空從石頭中蹦出來之後，說道：「寶玉既有如此，但未知之言，但未知之方，可不是遁世離群、無關之處，望二二叔之基，就是寶玉之處，或者塵中勞動，聊倩鳥呼歸去；山靈好客，更從石化飛來，亦未可知。」雨村聽了，益發驚異：「你們不知道此，何以如此？」士隱道：「神仙名長，何如此？」士隱道：「此事不知。」雨村聽了，益發驚異：「請問仙長，何必如此？」士隱道：「此事不知。」雨村聽了，益發驚異：「請問仙長，何必如此？」士隱道：「此事傳出，夙世前因，自有一概不知。但是敝族閨秀，如此之多，何元妃以下，凡事的事，託他傳遍，知道奇而不奇，俗而不俗，真而不真，假而不假。或者塵夢勞人，聊倩鳥呼歸去；山靈好客，更從石化飛來，亦未可知。」雨村聽畢，仍舊擲下'

### 5. 用 `gradio` 做成一個網路 app

我們準備用 [`gradio`](https://gradio.app/) 套件, 神速做完一個 web app。最酷的是, 最後出現 `https://xxxx.gradio.app` 那個網址, 在你的 Colab 還在執行的時候, 任何人都可以用任何瀏覽器連進來使用!

In [None]:
!pip install gradio

Collecting gradio
[?25l  Downloading https://files.pythonhosted.org/packages/a2/31/9fc0bfcfb5e3be94350917640a709daca53ab3b35440d4ed67e60bf05567/gradio-2.1.2-py3-none-any.whl (2.5MB)
[K     |████████████████████████████████| 2.5MB 6.8MB/s 
[?25hCollecting paramiko
[?25l  Downloading https://files.pythonhosted.org/packages/95/19/124e9287b43e6ff3ebb9cdea3e5e8e88475a873c05ccdf8b7e20d2c4201e/paramiko-2.7.2-py2.py3-none-any.whl (206kB)
[K     |████████████████████████████████| 215kB 36.7MB/s 
[?25hCollecting Flask-Cors>=3.0.8
  Downloading https://files.pythonhosted.org/packages/db/84/901e700de86604b1c4ef4b57110d4e947c218b9997adf5d38fa7da493bce/Flask_Cors-3.0.10-py2.py3-none-any.whl
Collecting ffmpy
  Downloading https://files.pythonhosted.org/packages/bf/e2/947df4b3d666bfdd2b0c6355d215c45d2d40f929451cb29a8a2995b29788/ffmpy-0.3.0.tar.gz
Collecting flask-cachebuster
  Downloading https://files.pythonhosted.org/packages/74/47/f3e1fedfaad965c81c2f17234636d72f71450f1b4522ca26d2b7eb4a0a74/F

In [None]:
import gradio as gr

In [None]:
iface = gr.Interface(
    fn=complete_text,
    inputs=[
        "text",
        gr.inputs.Slider(50, 200, 1, 50),
        gr.inputs.Slider(0.2, 2, 0.2, 1)],
    outputs="text",
    title="紅樓夢生成器",
    description="起個頭, 幫你完成一段紅樓夢。可以改變 temperature, 越小生出的字越固定, 越大越隨機。")
iface.launch(share=True)

Colab notebook detected. To show errors in colab notebook, set `debug=True` in `launch()`
This share link will expire in 24 hours. If you need a permanent link, visit: https://gradio.app/introducing-hosted (NEW!)
Running on External URL: https://15970.gradio.app
Interface loading below...


(<Flask 'gradio.networking'>,
 'http://127.0.0.1:7860/',
 'https://15970.gradio.app')