# (CKIP版) 電腦學中文的第一步：斷詞

# [CKIP (CkipTagger)](https://github.com/ckiplab/ckiptagger)

CKIP 是由中研院中文詞知識庫小組所研發，於 2019 年 9 月 4 號正式開源，是目前繁體中文領域中最強大的斷詞工具，在許多自然語言處理競賽中也獲得許多佳績，除了斷詞之外，也支援其他功能，例如詞性標註 (Part-of-Speech tagging)、命名實體識別 (Named entity recognition)。

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=14FwMeSeLKEEktXscCEznDv_mOO2LxP3S' width="500"/>
<figcaption>CKIP performance</figcaption></center>
</figure>




In [1]:
# 首先安裝 ckip 所需套件
!pip3 install ckiptagger
!pip3 install gdown

# 載入 ckip 模型檔案
from ckiptagger import data_utils
data_utils.download_data_gdown("./")
# data_utils.download_data_url("./")

Collecting ckiptagger
  Downloading ckiptagger-0.2.1-py3-none-any.whl (34 kB)
Installing collected packages: ckiptagger
Successfully installed ckiptagger-0.2.1


Downloading...
From (original): https://drive.google.com/uc?id=1efHsY16pxK0lBD2gYCgCTnv1Swstq771
From (redirected): https://drive.google.com/uc?id=1efHsY16pxK0lBD2gYCgCTnv1Swstq771&confirm=t&uuid=6c8733cb-9814-4c28-ad59-9ecfa07b67f2
To: /content/data.zip
100%|██████████| 1.88G/1.88G [00:30<00:00, 62.4MB/s]


## 斷詞 (Tokenization)

斷詞是所有自然語言處理模型必經的前處理過程，斷詞就是將一個句子依照特定規則去斷開，不同語言有不同的斷詞規則，以中文來說，斷完詞之後每個詞依然有自己獨立的意思，例如：

```
'新年快樂' -> ['新年','快樂']
'台灣指定防疫旅館' -> ['台灣','指定','防疫','旅館']
```

以英文來說，最常見的斷詞方式就是用**空白**來斷詞，例如：

```
'long time no see' -> ['long','time','no','see']
```

以斷詞的難易度來說，中文相對於英文困難，因為英文大部分情況下只需要用空白來斷詞即可；而中文是**方塊字**，幾個方塊字組合成一個詞才具有意思，所以早期的中文斷詞需要先有一個中文字典，然後依照中文字典將一個句子斷詞，而目前已經有基於深度學習的斷詞方式，也就是接下來要介紹的中研院 CkipTagger 斷詞。

In [2]:
# 載入斷詞函數
from ckiptagger import WS
ws = WS("./data")

  cell = tf.compat.v1.nn.rnn_cell.LSTMCell(hidden_d, name=name)


In [3]:
text = ["湯瑪斯傑佛遜在26歲打造了蒙蒂沙羅"]

# 進行斷詞
ws_results = ws(text)
print('輸入句子: \n', text)
print('斷詞結果: \n', ws_results)

輸入句子: 
 ['湯瑪斯傑佛遜在26歲打造了蒙蒂沙羅']
斷詞結果: 
 [['湯瑪斯傑佛遜', '在', '26', '歲', '打造', '了', '蒙蒂沙羅']]


In [4]:
text = ["新冠肺炎擴散全球，確診病例與死亡數不斷攀升，各國紛紛祭出防疫政策，試圖阻止疫情蔓延，中華民國也不例外。"]

# 進行斷詞
ws_results = ws(text)
print('輸入句子: \n', text)
print('斷詞結果: \n', ws_results)

輸入句子: 
 ['新冠肺炎擴散全球，確診病例與死亡數不斷攀升，各國紛紛祭出防疫政策，試圖阻止疫情蔓延，中華民國也不例外。']
斷詞結果: 
 [['新冠', '肺炎', '擴散', '全球', '，', '確診', '病例', '與', '死亡數', '不斷', '攀升', '，', '各', '國', '紛紛', '祭出', '防疫', '政策', '，', '試圖', '阻止', '疫情', '蔓延', '，', '中華民國', '也', '不例外', '。']]


## 詞性標註 (Part-of-speech tagging, POS)

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=1bsjUuR-acD4g0NLkK2tsiRVyt5x4o26l' width="500"/>
<figcaption>CKIP pos-tagging list</figcaption></center>
</figure>

Resourec: https://ckip.iis.sinica.edu.tw/service/corenlp/

詞性標註的目的在於針對每一個詞標註一個詞性，詞性標註是語言理解的第一步，有了詞性才能夠知道詞與詞之間的相對關係。

In [5]:
# 載入詞性標註函數
from ckiptagger import POS
pos = POS("./data")

  cell = tf.compat.v1.nn.rnn_cell.LSTMCell(hidden_d, name=name)


In [6]:
text = ["新冠肺炎擴散全球，確診病例與死亡數不斷攀升，各國紛紛祭出防疫政策，試圖阻止疫情蔓延，中華民國也不例外。"]

# 進行詞性標註, 需要使用上面斷詞結果 ws_results
pos_results = pos(ws_results)
print('輸入句子: \n', text)
print('斷詞結果: \n', ws_results)
print('預測詞性: \n', pos_results)

輸入句子: 
 ['新冠肺炎擴散全球，確診病例與死亡數不斷攀升，各國紛紛祭出防疫政策，試圖阻止疫情蔓延，中華民國也不例外。']
斷詞結果: 
 [['新冠', '肺炎', '擴散', '全球', '，', '確診', '病例', '與', '死亡數', '不斷', '攀升', '，', '各', '國', '紛紛', '祭出', '防疫', '政策', '，', '試圖', '阻止', '疫情', '蔓延', '，', '中華民國', '也', '不例外', '。']]
預測詞性: 
 [['Nb', 'Na', 'VH', 'Nc', 'COMMACATEGORY', 'VH', 'Na', 'Caa', 'Na', 'D', 'VCL', 'COMMACATEGORY', 'Nes', 'Nc', 'D', 'VC', 'VA', 'Na', 'COMMACATEGORY', 'VF', 'VC', 'Na', 'VH', 'COMMACATEGORY', 'Nc', 'D', 'VH', 'PERIODCATEGORY']]


## 命名實體識別 (Named entity recognition, NER)

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=1xCdyRNm6fbRRfl3_YujMOicA1bnPe2Bu' width="500"/>
<figcaption>CKIP NER list</figcaption></center>
</figure>

Resourec: https://ckip.iis.sinica.edu.tw/service/corenlp/

輸出格式: `(start, end, entity, name)`

命名實體識別的目標在於辨識實體 (Entity)，所謂的實體意思是說句子中意義特別強烈或是指代性強的詞，例如時間、地名、人名等等，依照不同的專業領域會有不同的實體。例如以某家藥廠來說存在一個實體叫做**藥名**；以某家工廠來說存在一個實體叫做**型號**。

以命名實體識別辨識實體，能夠幫助許多任務，例如搜索未登錄識別詞、聊天機器人等等，以聊天機器人為例，命名實體識別模型必須從句子中判斷出實體：

```
幫我導航到麥當勞 -> ['麥當勞',ORG]
```

以上為例，機器人必須判斷出麥當勞是一個 *ORG(組織)*，才能夠繼續執行任務。

In [7]:
# 載入命名實體識別函數
from ckiptagger import NER
ner = NER("./data")

  cell = tf.compat.v1.nn.rnn_cell.LSTMCell(hidden_d, name=name)


In [8]:
text = ["新冠肺炎擴散全球，確診病例與死亡數不斷攀升，各國紛紛祭出防疫政策，試圖阻止疫情蔓延，中華民國也不例外。"]

# 進行命名實體識別, 需要使用到上面斷詞結果 ws_results 以及 詞性標註結果 pos_results
ner_results = ner(ws_results, pos_results)
print('輸入句子: \n', text)
print('斷詞結果: \n', ws_results)
print('預測詞性: \n', pos_results)
print('預測 NER: \n', ner_results)

輸入句子: 
 ['新冠肺炎擴散全球，確診病例與死亡數不斷攀升，各國紛紛祭出防疫政策，試圖阻止疫情蔓延，中華民國也不例外。']
斷詞結果: 
 [['新冠', '肺炎', '擴散', '全球', '，', '確診', '病例', '與', '死亡數', '不斷', '攀升', '，', '各', '國', '紛紛', '祭出', '防疫', '政策', '，', '試圖', '阻止', '疫情', '蔓延', '，', '中華民國', '也', '不例外', '。']]
預測詞性: 
 [['Nb', 'Na', 'VH', 'Nc', 'COMMACATEGORY', 'VH', 'Na', 'Caa', 'Na', 'D', 'VCL', 'COMMACATEGORY', 'Nes', 'Nc', 'D', 'VC', 'VA', 'Na', 'COMMACATEGORY', 'VF', 'VC', 'Na', 'VH', 'COMMACATEGORY', 'Nc', 'D', 'VH', 'PERIODCATEGORY']]
預測 NER: 
 [{(42, 46, 'GPE', '中華民國')}]
