<a href="https://colab.research.google.com/github/howard-haowen/NLP-demos/blob/main/NQU_tokenization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 邁向NLP的第一步：中文分詞實作

![](https://github.com/howard-haowen/NLP-demos/raw/main/img/NQU_tokenization.png)

### 目標

- <font size="10">學習中文分詞的工具與方法</font>
- <font size="10">了解用程式解決問題的基本方法</font>
- <font size="10">培養人文觀點的數據思維</font>

## 大綱

- <font size="10">什麼是分詞</font>
- <font size="10">如何使用程式分詞</font>
- <font size="10">如何訓練分詞模型</font>

## 什麼是分詞

### 分詞的顆粒度

- 三種常見的分詞顆粒度

![](https://www.freecodecamp.org/news/content/images/size/w2000/2021/10/IMG_0079.jpg)

### 分詞的應用

- 詞頻分析與詞雲

![](https://resilienteducator.com/wp-content/uploads/2015/09/Revising-With-Pictures-How-Word-Clouds-Help-Students-Become-Better-Writers.jpg)

- 相似文本查找

![](https://miro.medium.com/max/926/1*u2ZZPh5er5YbmOg7k-s0-A.png)

- 文本自動分類
![](https://miro.medium.com/max/1400/1*Vjw0aSQDfmoclwgkiU3dfA.png)

- 意圖理解
![](https://www.interactions.com/wp-content/uploads/2020/03/nlp_graphics_2.svg)

- NLP技術應用的第一步都是分詞
![](https://www.xenonstack.com/hubfs/nlp-applications.png)

### 分詞的手段


- <font size="8"><font size="8">幾種分詞的手段</font></font>
<font size="8"></font>
    - <font size="8">使用套裝軟體，例如[TagAnt](https://www.laurenceanthony.net/software/tagant/)</font>
    - <font size="8">使用線上工具，例如[TOCFL華語詞彙通](http://huayutools.mtc.ntnu.edu.tw/ts/TextSegmentation.aspx)或是[我寫的網頁應用程式](https://howard-haowen-spacy-streamlit-app-c97wq4.streamlit.app/Mandarin)</font>
    - <font size="8">使用程式語言，例如Python</font>

## 如何使用程式分詞

### 中文分詞模型

- <font size="8">幾個代表性的中文分詞模型</font>
    - <font size="8">結巴 jieba</font>
    - <font size="8">北大分詞 PKUSeg </font>
    - <font size="8">中研院 CKIP Transformers</font>

### NLP框架

- 使用NLP框架`spaCy`整合各種模型的使用

![](https://d33wubrfki0l68.cloudfront.net/3ad0582d97663a1272ffc4ccf09f1c5b335b17e9/7f49c/pipeline-fde48da9b43661abcdf62ab70a546d71.svg)

In [1]:
#@title
!pip install -q -U pip setuptools wheel
!pip install -q -U spacy
!python -m spacy download zh_core_web_sm

[0m2022-11-17 14:17:06.038963: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting zh-core-web-sm==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/zh_core_web_sm-3.4.0/zh_core_web_sm-3.4.0-py3-none-any.whl (48.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.4/48.4 MB[0m [31m12.2 MB/s[0m eta [36m0:00:00[0m
[0m[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('zh_core_web_sm')


In [2]:
#@title

from spacy.lang.zh import Chinese

def text2tokens(text, 
                segmenter="char", 
                seperator="|",
                pkuseg_model="mixed"):
    
    tokenizers = ["jieba", "pkuseg"]
    pkuseg_models = ["mixed", "news", "web", "tourism", "spacy_ontonotes"]

    if segmenter == "char":
        nlp = Chinese()
    else:
        if segmenter in tokenizers:
            cfg = {"segmenter": segmenter}
            nlp = Chinese.from_config({"nlp": {"tokenizer": cfg}})
        else:
            print("Use /jieba/ or /pkuseg/ for the segmenter parameter!")
            pass

        if (segmenter == "pkuseg") and (pkuseg_model in pkuseg_models):
            nlp.tokenizer.initialize(pkuseg_model=pkuseg_model)

    doc = nlp(text)
    tokens = [token.text for token in doc]
    print(f"Tokens by {segmenter}:")
    print("=====")
    print(f"{seperator}".join(tokens))

### 以字為切分單位

In [3]:
TEST = "宜家家居新店店店長的名字好長喔"
text2tokens(TEST, 
            segmenter="char", 
            seperator="|")

Tokens by char:
=====
宜|家|家|居|新|店|店|店|長|的|名|字|好|長|喔


### 使用spaCy內建的jieba模型斷詞

In [4]:
TEST = "宜家家居新店店店長的名字好長喔"
text2tokens(TEST, 
            segmenter="jieba", 
            seperator="|")

Building prefix dict from the default dictionary ...
DEBUG:jieba:Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
DEBUG:jieba:Dumping model to file cache /tmp/jieba.cache
Loading model cost 1.214 seconds.
DEBUG:jieba:Loading model cost 1.214 seconds.
Prefix dict has been built successfully.
DEBUG:jieba:Prefix dict has been built successfully.


Tokens by jieba:
=====
宜家|家居|新店|店店|長|的|名字|好長|喔


### ✍ 練習時間

- 在TEST的引號內輸入一段文字
- 在seperator的引號內輸入一個符號
- 刪除頭尾的 """ 之後執行

In [5]:
"""
TEST = ""
text2tokens(TEST, 
            segmenter="jieba", 
            seperator="")
"""

'\nTEST = ""\ntext2tokens(TEST, \n            segmenter="jieba", \n            seperator="")\n'

### 使用spaCy內建的PKUSeg模型斷詞

In [6]:
TEST = "宜家家居新店店店長的名字好長喔"
text2tokens(TEST, 
            segmenter="pkuseg", 
            seperator="|",
            pkuseg_model="mixed")

Downloading: "https://github.com/lancopku/pkuseg-python/releases/download/v0.0.16/mixed.zip" to /root/.pkuseg/mixed.zip
100%|██████████| 47330222/47330222 [00:03<00:00, 15626661.33it/s]


Tokens by pkuseg:
=====
宜家|家居|新店|店|店長|的|名字|好長|喔


#### PKUSeg的多領域模型

- PKUSeg內建的幾種領域文本模型
    - 混合領域: `mixed`
    - 新聞領域: `news`
    - 網路領域: `web`
    - 旅遊領域: `tourism`
- spaCy根據[OntoNotes 5.0](https://catalog.ldc.upenn.edu/LDC2013T19)語料訓練的模型: `spacy_ontonotes`

In [7]:
TEST = """前年九月，打著金門大學新生的名號，我來到了中外馳名的離島金門。\n  初來乍到，我看到金門有許多與台灣不同的人事物，像是古色古香的閩南建築；像是富思古幽情的眾多古蹟；像是慎終追遠的大小宗祠；像是令人口頰留香的傳統美食……等。"""
TEST

'前年九月，打著金門大學新生的名號，我來到了中外馳名的離島金門。\n  初來乍到，我看到金門有許多與台灣不同的人事物，像是古色古香的閩南建築；像是富思古幽情的眾多古蹟；像是慎終追遠的大小宗祠；像是令人口頰留香的傳統美食……等。'

In [8]:
text2tokens(TEST, 
            segmenter="pkuseg", 
            seperator="|",
            pkuseg_model="mixed")



Tokens by pkuseg:
=====
前年|九月|，|打著|金門|大學|新生|的|名號|，|我|來到|了|中外|馳名|的|離島|金門|。|
  |初來|乍到|，|我|看到|金門|有|許|多|與|台灣|不同|的|人|事物|，|像是|古色古香|的|閩南|建築|；|像是|富思古|幽情|的|眾多|古蹟|；|像是|慎終|追遠|的|大小|宗祠|；|像是|令|人口|頰留香|的|傳統|美食|……|等|。


In [9]:
text2tokens(TEST, 
            segmenter="pkuseg", 
            seperator="|",
            pkuseg_model="news")

Downloading: "https://github.com/lancopku/pkuseg-python/releases/download/v0.0.16/news.zip" to /root/.pkuseg/news.zip
100%|██████████| 43767759/43767759 [00:01<00:00, 36648913.37it/s]


Tokens by pkuseg:
=====
前年九月|，|打著|金門|大學|新生|的|名號|，|我|來|到|了|中外|馳名|的|離島|金門|。|
  |初來|乍|到|，|我|看到|金|門|有|許|多|與|台灣|不同|的|人|事物|，|像|是|古色古香|的|閩|南|建|築|；|像|是|富思|古|幽情|的|眾|多|古蹟|；|像|是|慎終|追遠|的|大小|宗祠|；|像|是|令人|口頰|留|香|的|傳統|美食|……|等|。


In [10]:
text2tokens(TEST, 
            segmenter="pkuseg", 
            seperator="|",
            pkuseg_model="web")

Downloading: "https://github.com/lancopku/pkuseg-python/releases/download/v0.0.16/web.zip" to /root/.pkuseg/web.zip
100%|██████████| 17478354/17478354 [00:00<00:00, 38405921.44it/s]


Tokens by pkuseg:
=====
前年|九月|，|打著|金門|大學|新生|的|名號|，|我|來到|了|中外|馳名|的|離島|金門|。|
  |初來|乍到|，|我|看到|金門|有|許多|與|台灣|不同|的|人|事物|，|像|是|古色古香|的|閩南|建築|；|像|是|富思古|幽情|的|眾多|古蹟|；|像是|慎終|追遠|的|大小|宗祠|；|像是|令|人|口頰|留香|的|傳統|美食|……|等|。


In [11]:
text2tokens(TEST, 
            segmenter="pkuseg", 
            seperator="|",
            pkuseg_model="tourism")

Downloading: "https://github.com/lancopku/pkuseg-python/releases/download/v0.0.16/tourism.zip" to /root/.pkuseg/tourism.zip
100%|██████████| 45390798/45390798 [00:03<00:00, 12713984.74it/s]


Tokens by pkuseg:
=====
前年|九月|，|打著|金門|大學|新生|的|名號|，|我|來|到|了|中外|馳名|的|離島|金門|。|
  |初|來|乍到|，|我|看到|金門|有|許|多|與|台灣|不同|的|人|事物|，|像|是|古色古香|的|閩南|建築|；|像|是|富思古|幽情|的|眾多|古蹟|；|像|是|慎終|追遠|的|大小|宗祠|；|像|是|令|人口|頰留香|的|傳統|美食|……|等|。


In [12]:
text2tokens(TEST, 
            segmenter="pkuseg", 
            seperator="|",
            pkuseg_model="spacy_ontonotes")

Downloading: "https://github.com/explosion/spacy-pkuseg/releases/download/v0.0.26/spacy_ontonotes.zip" to /root/.pkuseg/spacy_ontonotes.zip
100%|██████████| 34567143/34567143 [00:01<00:00, 30710338.75it/s]


Tokens by pkuseg:
=====
前年|九月|，|打著|金門|大學|新生|的|名號|，|我|來到|了|中外|馳名|的|離島|金門|。|
  |初來|乍到|，|我|看到|金門|有|許|多|與|台灣|不同|的|人|事物|，|像是|古色古香|的|閩南|建築|；|像是|富思古|幽情|的|眾多|古蹟|；|像是|慎終|追遠|的|大小|宗祠|；|像|是|令|人口|頰|留香|的|傳統|美食|……|等|。


#### ✍ 練習時間

- 在TEST的引號內輸入一段文字
- 在seperator的引號內輸入一個符號
- 在pkuseg_model的引號內輸入以下任何一個
    - `mixed`
    - `news`
    - `web`
    - `tourism`
    - `spacy_ontonotes`
- 刪除頭尾的 """ 之後執行
- 至少比較三種模型的結果差異

In [13]:
"""
TEST = ""
text2tokens(TEST, 
            segmenter="pkuseg", 
            seperator="",
            pkuseg_model="")
"""

'\nTEST = ""\ntext2tokens(TEST, \n            segmenter="pkuseg", \n            seperator="",\n            pkuseg_model="")\n'

### 更新詞典修改分詞結果

#### 小量更新

In [14]:
#@title
def init_pkuseg(pkuseg_model="mixed"):
    cfg = {"segmenter": "pkuseg"}
    nlp = Chinese.from_config({"nlp": {"tokenizer": cfg}})
    nlp.tokenizer.initialize(pkuseg_model=pkuseg_model)
    return nlp

In [15]:
#@title
def update_pkuseg(nlp, wordlist):
    nlp.tokenizer.pkuseg_update_user_dict(wordlist)
    return nlp

In [16]:
#@title
def show_tokens(nlp, text, seperator="|"):
    doc = nlp(text)
    tokens = [token.text for token in doc]
    print(f"{seperator}".join(tokens))

In [17]:
default_nlp = init_pkuseg()
show_tokens(default_nlp, TEST)



前年|九月|，|打著|金門|大學|新生|的|名號|，|我|來到|了|中外|馳名|的|離島|金門|。|
  |初來|乍到|，|我|看到|金門|有|許|多|與|台灣|不同|的|人|事物|，|像是|古色古香|的|閩南|建築|；|像是|富思古|幽情|的|眾多|古蹟|；|像是|慎終|追遠|的|大小|宗祠|；|像是|令|人口|頰留香|的|傳統|美食|……|等|。


In [18]:
WORDLIST = ["思古幽情", "口頰留香"]
updated_nlp = update_pkuseg(default_nlp, WORDLIST)
show_tokens(updated_nlp, TEST)

前年|九月|，|打著|金門|大學|新生|的|名號|，|我|來到|了|中外|馳名|的|離島|金門|。|
  |初來|乍到|，|我|看到|金門|有|許|多|與|台灣|不同|的|人|事物|，|像是|古色古香|的|閩南|建築|；|像是|富|思古幽情|的|眾多|古蹟|；|像是|慎終|追遠|的|大小|宗祠|；|像是|令|人|口頰留香|的|傳統|美食|……|等|。


In [19]:
TEST = "金門貢糖真美味口頰留香的味道令人懷念不已"
show_tokens(updated_nlp, TEST)

金門|貢糖|真|美味|口頰留香|的|味道|令|人|懷念|不已


#### ✍ 練習時間

- 在TEST的引號內輸入一段文字
- 刪除頭尾的 """ 之後執行

In [20]:
"""
TEST = ""
show_tokens(default_nlp, TEST)
"""

'\nTEST = ""\nshow_tokens(default_nlp, TEST)\n'

- 找出上面錯誤的分詞結果，並且把正確的詞加到WORDLIST列表當中的引號內
- 刪除頭尾的 """ 之後執行
- 比較更新辭典前後的分詞結果

In [21]:
"""
WORDLIST = ["", ""]
updated_nlp = update_pkuseg(default_nlp, WORDLIST)
show_tokens(updated_nlp, TEST)
"""

'\nWORDLIST = ["", ""]\nupdated_nlp = update_pkuseg(default_nlp, WORDLIST)\nshow_tokens(updated_nlp, TEST)\n'

#### 大量更新

- 詞表來源
  - [教育部成語典原始資料](https://github.com/BuzzAcademy/idioms-moe-unformatted-data/tree/master/basic-idiom-list)
  - [結巴繁體中文詞表](https://raw.githubusercontent.com/ldkrsi/jieba-zh_TW/master/jieba/dict.txt)

In [22]:
!wget https://raw.githubusercontent.com/BuzzAcademy/idioms-moe-unformatted-data/master/basic-idiom-list/5.txt -O idioms.txt

--2022-11-17 14:18:05--  https://raw.githubusercontent.com/BuzzAcademy/idioms-moe-unformatted-data/master/basic-idiom-list/5.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.111.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 870 [text/plain]
Saving to: ‘idioms.txt’


2022-11-17 14:18:05 (29.0 MB/s) - ‘idioms.txt’ saved [870/870]



In [23]:
TEST = "他痛心疾首不願同流合汙隨後便脫胎換骨令人嘆為觀止"
show_tokens(default_nlp, TEST)

他|痛心疾首|不|願|同|流合|汙隨|後|便|脫胎|換骨|令|人|嘆為|觀止


In [24]:
#@title
def init_pkuseg_with_dict(dict_path, pkuseg_model="mixed"):
    cfg = {"segmenter": "pkuseg"}
    nlp = Chinese.from_config({"nlp": {"tokenizer": cfg}})
    nlp.tokenizer.initialize(pkuseg_model=pkuseg_model,
                             pkuseg_user_dict=dict_path)
    return nlp

In [25]:
DICT_PATH = "./idioms.txt"
user_nlp = init_pkuseg_with_dict(DICT_PATH, pkuseg_model="mixed")
show_tokens(user_nlp, TEST)



他|痛心疾首|不|願|同流合汙|隨後|便|脫胎換骨|令|人|嘆為觀止


#### ✍ 練習時間

- 從[教育部成語典原始資料](https://github.com/BuzzAcademy/idioms-moe-unformatted-data/tree/master/basic-idiom-list)選擇另一個詞表
- 修改TEST的文字內容後重複上面三個動作

#### 儲存模型

In [26]:
MODEL_PATH = "./my_nlp"
user_nlp.to_disk(MODEL_PATH)

#### 載入模型

In [27]:
loaded_nlp = Chinese().from_disk(MODEL_PATH)
show_tokens(loaded_nlp, TEST)

他|痛心疾首|不|願|同流合汙|隨後|便|脫胎換骨|令|人|嘆為觀止


## 如何訓練分詞模型

### 監督式學習

- <font size="8">需要人工驗證過的正確答案</font>
- <font size="8">模型表現較佳</font>
- <font size="8">但取得正確標記的資料需消耗較多的人力（財力）</font>
![](https://miro.medium.com/max/1400/0*BxXP6WPtwl8sgA03)

### 非監督式學習

- <font size="8">不需要人工驗證過的正確答案</font>
- <font size="8">模型表現較差</font>
- <font size="8">但可以快速取得初步結果，再逐步優化</font>
![](https://learn.g2crowd.com/hubfs/unsupervised-learning.png)

### 準備文本

In [28]:
#@title
import requests
import pandas as pd

def fetch_data(keyword, limit='100'):
    payload = {'limit': limit, 
               'offset': '0',
               'keyword': keyword}
    url = f"https://api10.daoyidh.com/yhl/zh-tw/search/keyword/1.0"
    resp = requests.get(url, params=payload)
    data = resp.json().get("data")
    df = pd.DataFrame(data)
    return df

In [29]:
KEYWORD = "金門大學"
df = fetch_data(KEYWORD)
df

Unnamed: 0,date,artId,author,label,dataset,content
0,2022-06-11,ART34335,陳長慶,珍惜活在當下的每一個時光 ──《浯鄉縮影：陳長慶散文集2014~2021》自序,副刊文學,《浯鄉縮影》是我從2014至2021年，陸續在報刊發表的散文作品。即使只有少數的二十三篇，然...
1,2022-05-18,ART34425,魏千宸,首次訪金，首次穿梭特色金大校園,副刊文學,首次乘著飛機盤桓在這座古稱浯洲的上空，正當飛機下了雲層，地表上漸漸清晰之際，首先映入眼簾的是...
2,2022-05-18,ART34424,洪春柳,認識自我 有取有捨 ──訪金中輔導老師李瓊芳談生活小道,副刊文學,輔導的精義：在一段時間裡，陪伴一個人，盡力地幫一個人認識自己。輔導學生認識自我，肯定自我。輔...
3,2022-05-06,ART34478,陳為學,金嶝親橋一線牽,副刊文學,金門大學前院長陳益源教授於2018年4月29日，在金門日報的「浯江夜話」發表他借調金門後的第...
4,2022-03-29,ART34641,黃克全,知人論世和以意逆志——談楊樹清、陳慶瀚與吳鈞堯,副刊文學,楊樹清竟是一個不折不扣的阜內思。我閱讀波赫士這篇小說時有兩張臉重疊著，意思是以下的敘述主體可...
...,...,...,...,...,...,...
95,2015-05-21,ART45069,陳麗玉,話說后宅洋樓,副刊文學,洋樓的滄桑與興修_x000D_\n 「王金城洋樓」於民國21年興建完工，當時因王金鎖等兄弟...
96,2015-05-09,ART45110,蔡宜庭,DOBGFamily,副刊文學,對我們身邊很多人來說，金門離島亂遠的，到底是國內還是國外傻傻分不清楚，十分不解大部分的我們怎...
97,2015-05-08,ART45112,李金振,眾志成城共創金大奇蹟（下）,副刊文學,五、從落榜生到榜首_x000D_\n辦學的最終目的是得天下英才而教育之。本校創設之單純目的，...
98,2015-05-08,ART45113,莊舒惠,建立和諧的人際關係──非暴力溝通,副刊文學,在我們的日常生活中難免會與他人發生爭執，歸究其原因，也許是我們習慣以先入為主的觀念做比較與批...


### 文本前處理

In [30]:
MODEL_FDR = './models'
DATA_FDR = './data'
!mkdir {MODEL_FDR} {DATA_FDR}

mkdir: cannot create directory ‘./models’: File exists
mkdir: cannot create directory ‘./data’: File exists


In [31]:
MODEL_A = 'lines_bpe'
MODEL_B = 'sentences_bpe'

#### 使用規則斷句

In [32]:
sample_text = df.at[1, 'content']
sample_text

'首次乘著飛機盤桓在這座古稱浯洲的上空，正當飛機下了雲層，地表上漸漸清晰之際，首先映入眼簾的是行駛在海上的一艘艘貨船，宛若風中小筏，乘風而前欲往之處。飛機隨一秒秒的時間靠近金門島上，一幢幢紅屋瓦舍屋頂漸現，空中彷彿流竄著一絲絲閩風，空中散發出與台灣不同的氣氛，像是穿越時光與空間，穿越到當年陶淵明所述的桃花源，心中滿滿是說不出的感動及雀躍，正因飛機即將降落的是我未來即將要生活多年的地方─金門。\n\xa0\xa0剛出尚義機場，薰風迎面而來，或許是風獅爺的庇佑，矗立在風頭的島鄉竟風不比號稱風城的故土新竹，浯洲的風是柔情的風、是舒適的風。在金門夏日的蒼穹湛藍無雲，透徹的天際映著蒼茫的海水，大武山特立天際，一排排蒼翠的大樹，短綴著金門獨特的紅土。讓酷熱的夏日，有可以在大樹下休憩的機會。或許是拜當年軍管之賜，雖令浯島居民曾經歷生活不自由的日子，卻意外地將金門最具價值的文化資產，原汁原味的保存下來。\n\xa0\xa0金門的王宅十八間、得月樓等建築聞名全台，位於金寧盤山的金門大學卻意外的令我驚豔，其中幢幢閩式風情的校舍，不只是照片上風格在地化特別的風味，當場觀看，龐大的建築量體，紅磚外牆，黑瓦燕脊，鑲著閩式特有的建築裝飾，富文化特色的校園建築，動人的令我無法自已，有著閩式建築小巧精緻的裝飾特色，又有建築大型量體的氣派，綜合教學大樓正立面上兩旁八角式的處理，增強正立面的氣勢。圖資大樓旁的高台讓人聯想當初聚落為海防而建的得月樓，一棟棟風格相似的校舍宛若一個小型聚落，讓我不禁讚嘆當年設計校舍的建築師是如何發揮此種巧思，也許是金門的建築特色太讓人目眩神迷了吧!\n\xa0\xa0在後現代全球國際主義風潮下的建築，大多都走向幾何建構的極簡風，大多建築乍看之下都有屬於各自的建築設計巧思，卻鮮有應屬於當地特有的建築特色，金門大學所採當地閩風建築為風格建設校舍，我個人認為是台灣各大學中最具有特色的其中之一，雖沒有台大等老校有校內古蹟加持，卻在一片追求新穎、炫麗的現代建築中走出屬於自己的一條路。\n\xa0\xa0許多現代建築師想要創造屬於東方風格建築的風氣，卻常敗筆在大量體建築物與東方傳統小巧結構風格衝突，常造成太過具象化的建築詭譎，像是只是扣著琉璃大盤帽的西方建築，我覺得有時與其將北方傳統大型建築特色硬融入當今建築，不妨參考金大校舍，將閩南地區特有的紅磚、板瓦融入建物中，配合著古代的窗櫺，在

In [33]:
#@title
import re

def text2lines(text, seperators='[，。：；！.\n\xa0]'):
    lines = re.split(seperators, text)
    lines = [line.strip() for line in lines if line.strip()]
    return lines

In [34]:
lines = text2lines(sample_text)
lines

['首次乘著飛機盤桓在這座古稱浯洲的上空',
 '正當飛機下了雲層',
 '地表上漸漸清晰之際',
 '首先映入眼簾的是行駛在海上的一艘艘貨船',
 '宛若風中小筏',
 '乘風而前欲往之處',
 '飛機隨一秒秒的時間靠近金門島上',
 '一幢幢紅屋瓦舍屋頂漸現',
 '空中彷彿流竄著一絲絲閩風',
 '空中散發出與台灣不同的氣氛',
 '像是穿越時光與空間',
 '穿越到當年陶淵明所述的桃花源',
 '心中滿滿是說不出的感動及雀躍',
 '正因飛機即將降落的是我未來即將要生活多年的地方─金門',
 '剛出尚義機場',
 '薰風迎面而來',
 '或許是風獅爺的庇佑',
 '矗立在風頭的島鄉竟風不比號稱風城的故土新竹',
 '浯洲的風是柔情的風、是舒適的風',
 '在金門夏日的蒼穹湛藍無雲',
 '透徹的天際映著蒼茫的海水',
 '大武山特立天際',
 '一排排蒼翠的大樹',
 '短綴著金門獨特的紅土',
 '讓酷熱的夏日',
 '有可以在大樹下休憩的機會',
 '或許是拜當年軍管之賜',
 '雖令浯島居民曾經歷生活不自由的日子',
 '卻意外地將金門最具價值的文化資產',
 '原汁原味的保存下來',
 '金門的王宅十八間、得月樓等建築聞名全台',
 '位於金寧盤山的金門大學卻意外的令我驚豔',
 '其中幢幢閩式風情的校舍',
 '不只是照片上風格在地化特別的風味',
 '當場觀看',
 '龐大的建築量體',
 '紅磚外牆',
 '黑瓦燕脊',
 '鑲著閩式特有的建築裝飾',
 '富文化特色的校園建築',
 '動人的令我無法自已',
 '有著閩式建築小巧精緻的裝飾特色',
 '又有建築大型量體的氣派',
 '綜合教學大樓正立面上兩旁八角式的處理',
 '增強正立面的氣勢',
 '圖資大樓旁的高台讓人聯想當初聚落為海防而建的得月樓',
 '一棟棟風格相似的校舍宛若一個小型聚落',
 '讓我不禁讚嘆當年設計校舍的建築師是如何發揮此種巧思',
 '也許是金門的建築特色太讓人目眩神迷了吧!',
 '在後現代全球國際主義風潮下的建築',
 '大多都走向幾何建構的極簡風',
 '大多建築乍看之下都有屬於各自的建築設計巧思',
 '卻鮮有應屬於當地特有的建築特色',
 '金門大學所採當地閩風建築為風格建設校舍',
 '我個人認為是台灣各大學中最具有特色的其中之一',
 '雖沒有台大

In [35]:
#@title
import itertools

def process_texts(df, custom_func=text2lines):
    nested_lines = [custom_func(row) for row in df['content']]
    flat_lines = list(itertools.chain(*nested_lines))
    return flat_lines

In [36]:
flat_lines = process_texts(df)
len(flat_lines)

17994

In [37]:
#@title
def write_processed_data(lines, file_path):
    with open(file_path, 'w') as f:
        f.write('\n'.join(lines))

In [38]:
write_processed_data(flat_lines, f"{DATA_FDR}/{MODEL_A}.txt")

#### 使用模型斷句

In [39]:
import spacy
nlp = spacy.load('zh_core_web_sm')

In [40]:
def text2sentences(text):
    doc = nlp(sample_text)
    sentences = [sent.text for sent in doc.sents]
    return sentences

In [41]:
sentences = text2sentences(sample_text)
sentences

['首次乘著飛機盤桓在這座古稱浯洲的上空，正當飛機下了雲層，地表上漸漸清晰之際，首先映入眼簾的是行駛在海上的一艘艘貨船，宛若風中小筏，乘風而前欲往之處。',
 '飛機隨一秒秒的時間靠近金門島上，一幢幢紅屋瓦舍屋頂漸現，空中彷彿流竄著一絲絲閩風，空中散發出與台灣不同的氣氛，像是穿越時光與空間，穿越到當年陶淵明所述的桃花源，心中滿滿是說不出的感動及雀躍，正因飛機即將降落的是我未來即將要生活多年的地方─金門。',
 '\n\xa0\xa0剛出尚義機場，薰風迎面而來，或許是風獅爺的庇佑，矗立在風頭的島鄉竟風不比號稱風城的故土新竹，浯洲的風是柔情的風、是舒適的風。',
 '在金門夏日的蒼穹湛藍無雲，透徹的天際映著蒼茫的海水，大武山特立天際，一排排蒼翠的大樹，短綴著金門獨特的紅土。',
 '讓酷熱的夏日，有可以在大樹下休憩的機會。',
 '或許是拜當年軍管之賜，雖令浯島居民曾經歷生活不自由的日子，卻意外地將金門最具價值的文化資產，原汁原味的保存下來。',
 '\n\xa0\xa0金門的王宅十八間、得月樓等建築聞名全台，位於金寧盤山的金門大學卻意外的令我驚豔，其中幢幢閩式風情的校舍，不只是照片上風格在地化特別的風味，當場觀看，龐大的建築量體，紅磚外牆，黑瓦燕脊，鑲著閩式特有的建築裝飾，富文化特色的校園建築，動人的令我無法自已，有著閩式建築小巧精緻的裝飾特色，又有建築大型量體的氣派，綜合教學大樓正立面上兩旁八角式的處理，增強正立面的氣勢。',
 '圖資大樓旁的高台讓人聯想當初聚落為海防而建的得月樓，一棟棟風格相似的校舍宛若一個小型聚落，讓我不禁讚嘆當年設計校舍的建築師是如何發揮此種巧思，也許是金門的建築特色太讓人目眩神迷了吧!',
 '\n\xa0\xa0在後現代全球國際主義風潮下的建築，大多都走向幾何建構的極簡風，大多建築乍看之下都有屬於各自的建築設計巧思，卻鮮有應屬於當地特有的建築特色，金門大學所採當地閩風建築為風格建設校舍，我個人認為是台灣各大學中最具有特色的其中之一，雖沒有台大等老校有校內古蹟加持，卻在一片追求新穎、炫麗的現代建築中走出屬於自己的一條路。',
 '\n\xa0\xa0許多現代建築師想要創造屬於東方風格建築的風氣，卻常敗筆在大量體建築物與東方傳統小巧結構風格衝突，常造成太過具象化的建築詭譎，像是只是扣著琉璃大盤帽的西方建築，我覺得有時與其將北方傳統大型建築特色

In [42]:
flat_sentences = process_texts(df, custom_func=text2sentences)
len(flat_sentences)

1100

In [43]:
write_processed_data(flat_lines, f"{DATA_FDR}/{MODEL_B}.txt")

### Byte Pair Encodings演算法

- 初始狀態
![](https://miro.medium.com/max/1400/1*OrhMLzcmWhUTfuZR2-SFsA.png)

- 合併最高頻的組合
![](https://miro.medium.com/max/1400/1*CdX4npQhK3gfyiulpjLPpg.jpeg)

- 依序結合，直到滿足預先設定的詞彙量
![](https://miro.medium.com/max/1400/1*6ucVXiDhALKRq4P_wNG9AA.png)

### 訓練BPE模型

In [44]:
#@title
!pip -q install sentencepiece

[0m

In [45]:
import sentencepiece as spm

In [46]:
VOCAB_SIZE = 10000
bpe_params = f"""
            --model_type=bpe
            --input={DATA_FDR}/{MODEL_A}.txt
            --model_prefix={MODEL_FDR}/{MODEL_A}
            --vocab_size={VOCAB_SIZE}
            """
bpe_params

'\n            --model_type=bpe\n            --input=./data/lines_bpe.txt\n            --model_prefix=./models/lines_bpe\n            --vocab_size=10000\n            '

In [47]:
#@title
def join_parameters(parameters):
    return " ".join(parameters.split())

In [48]:
bpe_command = join_parameters(bpe_params)
bpe_command

'--model_type=bpe --input=./data/lines_bpe.txt --model_prefix=./models/lines_bpe --vocab_size=10000'

In [49]:
spm.SentencePieceTrainer.train(bpe_command)

### 載入BPE模型

In [50]:
sp_bpe = spm.SentencePieceProcessor()
sp_bpe.load(f'{MODEL_FDR}/{MODEL_A}.model')

True

### 使用BPE模型分詞

In [51]:
TEST = '金門地區以木棟架構見稱的閩南建築'
sp_bpe.encode_as_pieces(TEST)

['▁金門', '地區', '以', '木', '棟', '架', '構', '見', '稱', '的', '閩南', '建築']

- BPE模型詞彙，由長到短排序

In [52]:
vocabs = [sp_bpe.id_to_piece(id) for id in range(sp_bpe.get_piece_size())]
bpe_list = sorted(vocabs, key=lambda x: len(x), reverse=True)
print(bpe_list)

['行政院金馬聯合服務中心', '▁空大金門學習指導中心', '社會工作學系二年級學生', '胡志明市人文社科大學', '金門學國際學術研討會', '大金門學習指導中心', '拿督斯里楊忠禮博士', '陳長慶短篇小說集', '丹斯里楊忠禮博士', '金門縣生命線協會', '為國立金門大學', '行政院金馬聯合', '......」', '國際學術研討會', '胡璉將軍的後代', '國立台灣文學館', '▁......', '▁楊忠禮賢伉儷', '人文與社會科學', '文學獎報導文學', '......', '國立金門大學', '▁楊忠禮博士', '學習指導中心', '▁親愛的金門', '金門技術學院', 'Quemoy', '國立清華大學', '▁金門縣政府', '▁陳開蓉女士', '人文社會學院', '人文社科大學', '▁楊樹清老師', '▁金門大學的', '▁陳益源院長', '楊忠禮博士的', '發生在金門的', '金門縣文化局', '▁李瓊芳老師', '▁李金振校長', '傳統建築測繪', '八三么的女兒', '前後任理事長', '古寧頭戰史館', '國立成功大學', '國賓繩仔鼓店', '活化再利用之', '漂流的文學樹', '的金門馬拉松', '社會工作學系', '終身名譽校長', '翻譯成越南文', '陳益源院長的', '高雄科技學院', '<unk>', '楊忠禮博士', '陳益源院長', '金門大學的', '新書發表會', '短篇小說集', '陳開蓉女士', '睿友文學館', '▁金門大學', '親愛的金門', '台灣文學館', '學術研討會', '王金城洋樓', '金門縣政府', '生命線協會', '▁楊董事長', '▁民國九十', '八二三砲戰', '李金振校長', '▁2017', '挫折與困境', '文學作品展', '金門的歷史', '黎光長主任', '▁2014', '▁2016', '▁如果沒有', '▁飲水思源', '古寧頭戰役', '月二十三日', '楊樹清先生', '浯島文學獎', '王先正老師', '王銀娘女士', '的金門鄉親', '金門育嬰堂', '陵水認真情', '▁2010', '▁2018', '▁對我來說', '▁民國七十', '▁金門社大', '世界金門日', '九龍江酒廠', '人文與社會', '古寧頭北山', 

### ✍ 練習時間

- 仿照上述步驟，使用`./data/sentences_bpe.txt`語料訓練BPE模型
- 載入新訓練的模型
- 使用新訓練的模型分詞，並且比較上述模型的分詞結果
- 比較兩個模型的詞彙

## 結語

![](https://www.azquotes.com/picture-quotes/quote-if-you-re-overwhelmed-by-the-size-of-a-problem-break-it-down-into-smaller-pieces-chuck-close-85-90-60.jpg)