# 了解如何使用CkipTagger進行斷詞

CkipTagger為台灣中央研究院詞庫小組所開發的NLP(自然語言處理)套件，是個以深度學習模型為基礎而成的NLP(自然語言處理)應用。 其訓練的文本資料來源為中央社、wiki (用舊版套件先進行斷詞) 及 ASBC(Academia Sinica Balanced Corpus)(為期近10年人工標記)。

## 其主要模型功能有:

* `WS: 斷詞`
* `POS: 詞性標注`
* `NER: 實體辨識`

## 下載預訓練模型權重
我們可以由CkipTagger官方Github上提供的連結路近來下載所需的預訓練模型:

* `iis-ckip`
* `gdrive-ckip`
* `gdrive-jacobvsdanniel`

也可以使用CkipTagger中所提供的API來進行模型的下載，在這個範例中我們使用其提供的API來進行模型下載

In [12]:
from ckiptagger import data_utils

In [13]:
data_utils.download_data_gdown('./')

Downloading...
From: https://drive.google.com/uc?id=1efHsY16pxK0lBD2gYCgCTnv1Swstq771
To: /Users/jiaping/Desktop/Coding/1st-NLP100Days/homework/Day007/data.zip
1.88GB [03:25, 9.12MB/s]


In [26]:
# import library
#from ckiptagger import data_utils

#設定儲存路徑(存在與此ipynb相同的目錄下)
#注意: 此模型需2GB的儲存空間
#path_to_store = './'


#我們可以使用提供的API從iis-ckip或gdrive-ckip進行下載
#這裡我們使用gdrive-ckip進行下載

#從iis-ckip下載
#data_utils.download_data_url("./")


#下載到path_to_store並解壓縮(預設下載的壓縮檔為data.zip)
#data_utils.download_data_gdown("./")

---
## 觀察character embedding與word embedding的list

因為CkipTagger是結合了word-level與character-level的方法同時對word跟character進行分析，因此我們可以看到從下載的權重資料夾中(data)包含了embedding_character與embedding_word。 現在我們來觀察一下其所使用的字典資料。

In [5]:
import numpy as np

In [17]:
char_token_list = np.load('data/embedding_character/token_list.npy')
char_vec_list = np.load('data/embedding_character/vector_list.npy')
print(f'單字總數：{len(char_token_list)}\n向量總數：{len(char_vec_list)}')

單字總數：13136
向量總數：13136


In [20]:
print(f'每個單字有 {char_vec_list[0].shape} 維向量')
print(f'第一個單字: {char_token_list[0]}')
print(f'第一個單字向量: {char_vec_list[0]}')

每個單字有 (300,) 維向量
第一個單字: ,
第一個單字向量: [ 9.06846821e-02 -3.91008481e-02 -4.38107513e-02 -2.78249998e-02
 -6.59082830e-03  9.82730538e-02 -3.30615602e-02 -3.32455598e-02
 -8.25216696e-02 -5.97619563e-02 -2.15497568e-01  1.21742591e-01
  8.44441280e-02  6.46698922e-02 -1.73088256e-02  5.60178608e-02
 -4.69524190e-02  3.83560695e-02  2.81602979e-01 -1.05296642e-01
  2.53045380e-01 -1.28228694e-01  4.38064672e-02  8.75911787e-02
  6.25642985e-02 -4.81812134e-02  4.59593609e-02  7.77227730e-02
  1.72905862e-01 -1.51137233e-01 -3.13500345e-01  1.51329324e-01
  3.79214510e-02 -3.17767225e-02 -6.73223007e-03 -1.10702842e-01
  1.52048752e-01  2.12142825e-01 -9.31895450e-02  1.12124726e-01
  1.25201389e-01  5.70141450e-02 -1.24505214e-01 -4.11491245e-02
 -7.26862326e-02 -1.22127883e-01 -1.16852924e-01  8.49076360e-02
 -2.08125204e-01  8.73672292e-02  4.89221141e-02  4.23294865e-02
 -1.74451604e-01 -7.16942502e-03 -1.21610258e-02 -3.41356136e-02
 -3.82989980e-02  1.12134412e-01  8.02825466e-02  9.113

In [22]:
word_token_list = np.load('data/embedding_word/token_list.npy')
word_vec_list = np.load('data/embedding_word/vector_list.npy')

In [24]:
print(f'詞總數：{len(word_token_list)}\n詞向量總數：{len(word_vec_list)}')

詞總數：1355791
詞向量總數：1355791


In [25]:
print(f'每個單字有 {word_vec_list[0].shape} 維向量')
print(f'第一個詞: {word_token_list[0]}')
print(f'第一個詞向量: {word_vec_list[0]}')

每個單字有 (300,) 維向量
第一個詞: ,
第一個詞向量: [-7.04593956e-02  1.47206234e-02 -2.17633303e-02  3.84915806e-02
 -8.14021658e-03 -1.49849132e-01  3.05930376e-01 -1.39948828e-02
 -1.50043756e-01 -7.75195658e-02  8.82805884e-02  3.31495851e-02
 -1.92563668e-01 -9.70893130e-02  8.34631994e-02 -2.34549537e-01
 -2.51720548e-01  1.86242282e-01  1.99081331e-01 -3.67115512e-02
  3.39742601e-02  1.31627202e-01 -2.87195891e-01 -1.11317985e-01
  2.74431705e-01 -2.68862844e-01 -1.16930470e-01 -5.81664294e-02
 -7.40866065e-02  2.82087058e-01  5.21337334e-03  1.59894779e-01
  3.87538560e-02 -1.48833469e-01  7.83642530e-02 -5.95185868e-02
  1.17833622e-01  3.89740840e-02 -2.20493034e-01  3.34199667e-01
 -7.37467557e-02  4.34990935e-02  1.52543530e-01  9.53945145e-02
 -3.00750673e-01 -6.92686364e-02  2.06759721e-01  3.42537582e-01
 -2.41280481e-01 -4.14551914e-01  1.50770664e-01 -1.13943636e-01
 -1.09684713e-01 -2.53322840e-01 -5.62233515e-02  3.54344040e-01
  3.70649211e-02  8.97323266e-02  1.80452034e-01 -1.63081

---
## 使用CkipTagger進行斷詞
因為CkipTagger是基於TensorFlow搭建的Cross-BiLSTM深度學習模型，因此在進行斷詞、詞性標註、命名實體識別時可以使用GPU加速操作。 在此練習中我們會使用CPU的版本進行，對使用GPU有興趣的讀者，可以參照CkipTagger官方Github進行架設。

In [27]:
from ckiptagger import WS, POS, NER

### WS 斷詞

In [44]:
ws = WS('data')

In [45]:
input_zhtw = [
    '小明碩士畢業於國立臺灣大學，現在在日本東京大學進修深造',
     "… 你確定嗎… 不要再騙了……"
]


In [46]:
word_list = ws(
    input_zhtw,
)
print(word_list)

[['小明', '碩士', '畢業', '於', '國立', '臺灣', '大學', '，', '現在', '在', '日本', '東京', '大學', '進修', '深造'], ['…', ' ', '你', '確定', '嗎', '…', ' ', '不要', '再', '騙', '了', '…', '…']]


In [47]:
word_list = ws(
    input_zhtw,
    sentence_segmentation = True, # To consider delimiters
    segment_delimiter_set = {",", "。", ":", "?", "!", ";"} # This is the defualt set of delimiters

)
print(word_list)

[['小明', '碩士', '畢業', '於', '國立', '臺灣', '大學', '，', '現在', '在', '日本', '東京', '大學', '進修', '深造'], ['…', ' ', '你', '確定', '嗎', '…', ' ', '不要', '再', '騙', '了', '…', '…']]


### POS 詞性標註

In [48]:
pos = POS('data')

In [49]:
pos_list = pos(word_list)
print(pos_list)

[['Nb', 'Na', 'VH', 'P', 'A', 'Nc', 'Nc', 'COMMACATEGORY', 'Nd', 'P', 'Nc', 'Nc', 'Nc', 'VC', 'VA'], ['ETCCATEGORY', 'WHITESPACE', 'Nh', 'VK', 'T', 'ETCCATEGORY', 'WHITESPACE', 'D', 'D', 'VC', 'Di', 'ETCCATEGORY', 'ETCCATEGORY']]


### NER 實體辨識

（字串起始位置, 字串結束位置, 命名實體類別, 字串）

In [50]:
ner = NER('data')

In [51]:
entity_list = ner(word_list, pos_list)
print(entity_list)

[{(17, 23, 'ORG', '日本東京大學'), (7, 13, 'ORG', '國立臺灣大學')}, set()]


---
## 帶入自定義字典
如同結巴一樣, CkipTagger 也提供使用者輸入自定義字典。

In [52]:
from ckiptagger import construct_dictionary

In [53]:
word_to_weight = {
    "土地公": 1,
    "土地婆": 1,
    "公有": 2,
    "": 1,
    "來亂的": "啦",
    "國立臺灣大學": 1,
    "日本東京": 1
}

In [54]:
dict1 = construct_dictionary(word_to_weight)

In [57]:
print(dict1)  
# 返回 list(字數, {'字串': 權重})

[(2, {'公有': 2.0}), (3, {'土地公': 1.0, '土地婆': 1.0}), (4, {'日本東京': 1.0}), (6, {'國立臺灣大學': 1.0})]


In [59]:
word_to_weight = {
    "日本東京大學": 1
}
dict2 = construct_dictionary(word_to_weight)
print(dict2)

<class 'list'>


In [61]:
word_list = ws(
    input_zhtw,
    sentence_segmentation = True,
    segment_delimiter_set = {",", "。", ":", "?", "!", ";"},
    recommend_dictionary = dict1,
    coerce_dictionary = dict2
)
print(word_list)

[['小明', '碩士', '畢業', '於', '國立臺灣大學', '，', '現在', '在', '日本東京大學', '進修', '深造'], ['…', ' ', '你', '確定', '嗎', '…', ' ', '不要', '再', '騙', '了', '…', '…']]


自定義字典前：`國立臺灣大學` --> `國立`, `臺灣`, `大學`

自定義字典後：`國立臺灣大學` --> `國立臺灣大學`

使用字典前：`日本東京大學` --> `日本`, `東京`, `大學`

使用建議字典後：`日本東京大學` --> `日本東京`, `大學`

使用強制字典後：`日本東京大學` --> `日本東京大學`（優先使用強制字典）