## 安裝模組

In [None]:
%%bash

# .\venv\Scripts\activate
pip install requests
pip install bs4
pip install tqdm

## 前置設定

因為這個 Demo 可能產生很長的文本，所以透過以下設定讓輸出自動換行。

[Reference: StackOverflow - Line Wrapping in Collaboratory Google results](https://stackoverflow.com/a/61401455/4893895)

In [1]:
# from IPython.display import HTML, display

# def set_css():
#     display(HTML("<style> pre { white-space: pre-wrap; } </style>"))

# get_ipython().events.register("pre_run_cell", set_css)

## 準備文本

[來源：開放文學 - 三國演義](http://open-lit.com/book.php?bid=12)

In [2]:
import requests
from bs4 import BeautifulSoup as BS
from tqdm import tqdm

corpus = list()
for iid in tqdm(range(67, 186 + 1)):
    data = {"bid": 12, "id": iid}
    res = requests.post("http://open-lit.com/GETbook.php", data=data)
    res = BS(res.text)
    corpus.append(res.text)

100%|██████████| 120/120 [00:07<00:00, 15.35it/s]


## 展示文本



In [3]:
print(corpus[0][:188])

 第一回　　　　　宴桃園豪傑三結義　斬黃巾英雄首立功
			　　　　滾滾長江東逝水，浪花淘盡英雄。是非成敗轉頭空。青山依舊在，幾度夕陽紅。白髮漁樵江渚上，慣看秋月春風。一壺濁酒喜相逢。古今多少事，都付笑談中。
　　　　——調寄《臨江仙》

　　話說天下大勢，分久必合，合久必分。周末七國分爭，併入於秦。及秦滅之後，楚、漢分爭，又併入於漢。漢朝自高祖斬白蛇而起義，一統天下


## 建立 Bigram 模型



In [4]:
from collections import Counter, defaultdict

# \u3000 為全形空白
skip_symbols = ["\u3000", "\r", "\t", "\n"]
bigram = defaultdict(Counter)
for data in corpus:
    # 將空白字元移除
    for sym in skip_symbols:
        data = data.replace(sym, "")

    # 以 <BOS> 代表文本開頭，開始統計整份文本
    prev_char = "<BOS>"
    for ch in data:
        bigram[prev_char][ch] += 1
        prev_char = ch

    # 以 <EOS> 代表文本結尾
    ch = "<EOS>"
    bigram[prev_char][ch] += 1

## 生成文本

透過前一步驟建立的 Bigram 模型進行文本生成，可以試著多執行幾次，每次生成的結果都不一樣。

這裡生成的文字看起來似乎有模有樣，但真的是這樣嗎？

In [5]:
import random

generate = str()
curr_ch = "<BOS>"
while curr_ch != "<EOS>":
    generate += curr_ch
    prob = bigram[curr_ch]
    elements = [k for k in prob]
    weights = [prob[k] for k in prob]
    curr_ch = random.choices(elements, weights=weights, k=1)[0]
print(generate + curr_ch)

<BOS> 第二將慶賀為首，汝可焚。及船下觀玄德問曰：「吾至半晌，操甚驚曰：「可！」修箋，忽報赤心死戰，四郡吏兵來軍從公孫堅守將軍無益巴丘儉令守漢中少不可勝耶？」玄德苦勸陛下恥。關。」操曰司馬懿頸血不絕於側。忽然。閒，不肯發。生死不住。兩川收則皆賞四子，乃人慌忙滾滾鞍下將。」當夜關興兵之時分舉妄奏天歎曰：「不住馬，都是朝功蓋安，魏延低聲大怒曰：「既愈加費亭、張曰：「我等一鼓譟吶喊聲起兵至，只有高位，化外十鎮守。』！非百官武士仁勝負如此必有失，下馬，哭。卻不當之心中而未幾何用計魏延從大雨連夜前進黎陽平、夏侯曾往襄平明自退去，孫權，事，說孔文武，山谷，拍馬謂玄德問曰：「姜維之。盛寒且說東，兵不過橋時，布來投北軍馬驟馬行至玉硯摔為主辱陛下馬，使，而走。未見玄德匹馬蹄，科稅錢糧足矣。李嚴趕，毋乃『人馬超以不過陣』衡哉？」急召其餘，以鞭鞭出路同盟。」權，身軀，合之。通拜賀喜曰：「今可因此相持鎗而迎。且作客人於地，卻說曹丕大王聞將荊州越中，甚當日逢金珠步矣。」眾位，如遲。同進攻，漸可輕之，又欲酌。徐晃，乃與夏侯張聲曰：「若死首大叫屈太守；其不手數，奪路總路大開肉取敗，截住了小船停喪，卻說：「某來劫上馬鄧芝問琰，轉出城池為太后何？」禕感瘴甚喜，懿聞知今奉帝柩於暗度，連夜歸降。當面頰。諸將謂伊籍也。維奮然背小徑分墨間，新野縣令當，正是魏延而逃命而去無可與陳登門旗幡數丈夫人有謀害說馬倒行間大將虛已畢。虞松賣耳。肅強梁州之勞仙機密書來人擊魏寨盡焚香木刻綵，由不仁，無物盡知昨日先取了雷，皆殄滅矣！」雲長又被吾與酒至綿，超閃出箭射身如此事，將曰：「吾身邊一將軍，分解其言，絕。卻是諸葛祭酒肉食，布曰：「老將軍士，面皮功，先行計』之，姦淫宮，立旌旗，鎮，按劍閣看。三四面令，無不動三年幼躁之，可當頭裹其時必領數十州求免死。授與同至，字曰：「吾乃大驅馳驅兵來張讓魏寨北地；卻門。帝之。吾當拱立幼好，何職？此耶？」說東一年紀皆帶五，未知都投筆於門上消動，自刎。郃與丁奉老生徒以人決一見書，伏地。」松當有帶弓弩。且容再救兵馬匹，城上車十里，欺我汲水旱，滅，肉，隨流涕泣謂孔明公方始知。」策也。孔明，犒三尺，無人稱奇，雍州大哭，捲八陣勢窮吾那時袁紹覽一人同曰：「汝等，進而無光祖居民，都披髮仗此賊，殺之，題反叛人坐下拜伏睹也。若以密書送滿寨；然投。其文若何足，各束手下之計。」紫鬚倒，是夜只恐孔明笑曰：「大怒耶！

## 觀察

雖然生成的文字乍看之下好像有那麼一回事，但其實稍微看一下就會發現很多問題：

1. 文本的內容根本不成章法。
2. 上下括號並不成對
3. 若有多試幾次就會發現，`<BOS>` 後面接的必定是「第」。

我將其中一段生成的文字送入 [ChatGPT](https://chat.openai.com/share/331f901b-8e04-4c1f-93b6-42d7b24d407d) 請他解釋，他還真的開始跟我這個胡亂生成的文本一搭一唱起來。