# CKIP Neural Chinese Word Segmentation, POS Tagging, and NER

台灣人之光:Ckiplab中研院斷詞Python套件

CHINESE KNOWLEDGE AND INFORMATION PROCESSING (詞庫小組)(助研究員馬偉雲)	

中研院資訊所、語言所於民國七十五年成立一個跨所合作的中文計算語言研究小組，共同合作建構中文自然語言處理的資源與研究環境，為國內外中文自然語言處理及其相關研究提供基本的研究資料與知識架構。代表性研究成果包括中文詞知識庫、語料庫及中文處理技術等。網際網路產生大量資訊，但缺乏有效的自動化分析方法及技術足以快速處理。為了達到智慧型的資訊處理，知識為本的訊息處理成為目前研究的核心焦點，本計劃進行五個主要研究方向：深度學習、知識表達、自然語言理解、知識擷取、聊天機器人。

[Official website官網](https://ckip.iis.sinica.edu.tw/project/coreference/)

[What can ckiplab NLP do? Let's take a look.](https://ckip.iis.sinica.edu.tw/service/corenlp/)

![](https://ckip.iis.sinica.edu.tw/images/home/ckip.jpg)

# Setup and download pretrained model (安裝與下載模型檔案)
This open-source library implements neural CKIP-style Chinese NLP tools.

* (WS) word segmentation
* (POS) part-of-speech tagging
* (NER) named entity recognition

[Github Link](https://github.com/ckiplab/ckiptagger)

Requirements:
* python>=3.6
* tensorflow>=1.13.1,<2 / tensorflow-gpu>=1.13.1,<2 (one of them)



In [1]:
!pip show tensorflow

Name: tensorflow
Version: 2.3.0
Summary: TensorFlow is an open source machine learning framework for everyone.
Home-page: https://www.tensorflow.org/
Author: Google Inc.
Author-email: packages@tensorflow.org
License: Apache 2.0
Location: c:\users\clhuang\miniconda3\envs\ai23\lib\site-packages
Requires: wrapt, scipy, astunparse, opt-einsum, absl-py, numpy, grpcio, tensorflow-estimator, h5py, termcolor, wheel, protobuf, keras-preprocessing, six, google-pasta, gast, tensorboard
Required-by: 


    How to install ckiplab tokenization tool(套件安裝)?

    pip install -U ckiptagger
    or 
    pip install -U ckiptagger[tf,gdown]

    GPU version (We don't use GPU in class.)
    pip install -U ckiptagger[tfgpu,gdown]

### Download models 下載模型檔

Downlaod model from one of the sources:
* https://drive.google.com/drive/folders/105IKCb88evUyLKlLondvDBoh7Dy_I1tm
* https://drive.google.com/drive/folders/15BDjL2IaX3eYdFVzT422VwCb743Hrbi3
* http://ckip.iis.sinica.edu.tw/data/ckiptagger/data.zip


* 解壓縮並置放於./ckiplab_model目錄底下 (或是./data目錄)
* 須注意官網是否有新版本的模型檔

# How to use?

In [2]:
from ckiptagger import WS, POS, NER

### Load models 載入中文處理工具包
* (WS) 斷詞
* (POS) 詞性標注
* (NER) 命名實體辨識

In [3]:
# location of models
model_path = 'C:/Users/clhuang/Documents/ckiplab-model-data'

In [4]:
# It takes a moment to load models
#  
ws = WS(model_path)
pos = POS(model_path)
ner = NER(model_path)

In [5]:
type(ws)

ckiptagger.api.WS

# TL;DR

## Three steps

In [6]:
ws(["傅達仁今將執行安樂死"])

[['傅達仁', '今', '將', '執行', '安樂死']]

In [7]:
pos([['傅達仁', '今', '將', '執行', '安樂死']])

[['Nb', 'Nd', 'D', 'VC', 'Na']]

In [8]:
ner([['傅達仁', '今', '將', '執行', '安樂死']], [['Nb', 'Nd', 'D', 'VC', 'Na']])

[{(0, 3, 'PERSON', '傅達仁')}]

## put them together

In [9]:
docs = ["傅達仁今將執行安樂死"]

In [10]:
words = ws(docs)
tagged = pos(words)
ner_result = ner(words, tagged)

In [11]:
words

[['傅達仁', '今', '將', '執行', '安樂死']]

In [12]:
tagged

[['Nb', 'Nd', 'D', 'VC', 'Na']]

In [13]:
ner_result

[{(0, 3, 'PERSON', '傅達仁')}]

## Process multiple documents

we must put documents in a list

In [14]:
# two ducuments
docs = ["高科大、文藻外語大學與故宮自2016年12月攜手辦理人才培育計畫，培養學生擔任中英文導覽及參與故宮南院的實作服務。","美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會，預料她將會很順利通過參議院支持。"]

In [15]:
words = ws(docs)
tagged = pos(words)
ner_result = ner(words, tagged)

In [16]:
words

[['高科大',
  '、',
  '文藻',
  '外語',
  '大學',
  '與',
  '故宮',
  '自',
  '2016年',
  '12月',
  '攜手',
  '辦理',
  '人才',
  '培育',
  '計畫',
  '，',
  '培養',
  '學生',
  '擔任',
  '中英文',
  '導覽',
  '及',
  '參與',
  '故宮',
  '南院',
  '的',
  '實作',
  '服務',
  '。'],
 ['美國',
  '參議院',
  '針對',
  '今天',
  '總統',
  '布什',
  '所',
  '提名',
  '的',
  '勞工部長',
  '趙小蘭',
  '展開',
  '認可',
  '聽證會',
  '，',
  '預料',
  '她',
  '將',
  '會',
  '很',
  '順利',
  '通過',
  '參議院',
  '支持',
  '。']]

In [17]:
tagged

[['Nc',
  'PAUSECATEGORY',
  'Nb',
  'Na',
  'Nc',
  'Caa',
  'Nc',
  'P',
  'Nd',
  'Nd',
  'D',
  'VC',
  'Na',
  'VC',
  'Na',
  'COMMACATEGORY',
  'VC',
  'Na',
  'VG',
  'Na',
  'VC',
  'Caa',
  'VC',
  'Nc',
  'Nc',
  'DE',
  'Nv',
  'Nv',
  'PERIODCATEGORY'],
 ['Nc',
  'Nc',
  'P',
  'Nd',
  'Na',
  'Nb',
  'D',
  'VC',
  'DE',
  'Na',
  'Nb',
  'VC',
  'VC',
  'Na',
  'COMMACATEGORY',
  'VE',
  'Nh',
  'D',
  'D',
  'Dfa',
  'VH',
  'VC',
  'Nc',
  'VC',
  'PERIODCATEGORY']]

In [18]:
ner_result

[{(0, 3, 'ORG', '高科大'),
  (4, 10, 'ORG', '文藻外語大學'),
  (11, 13, 'ORG', '故宮'),
  (14, 22, 'DATE', '2016年12月'),
  (40, 42, 'LANGUAGE', '英文'),
  (47, 51, 'ORG', '故宮南院')},
 {(0, 2, 'GPE', '美國'),
  (2, 5, 'ORG', '參議院'),
  (7, 9, 'DATE', '今天'),
  (11, 13, 'PERSON', '布什'),
  (17, 21, 'ORG', '勞工部長'),
  (21, 24, 'PERSON', '趙小蘭'),
  (42, 45, 'ORG', '參議院')}]

# Word Segmentation 斷詞

In [19]:
ws(["傅達仁今將執行安樂死"])

[['傅達仁', '今', '將', '執行', '安樂死']]

In [20]:
# wrong format: shoud be list not a string! (吃list，不是吃string)
ws("傅達仁今將執行安樂死")

[['傅'], ['達'], ['仁'], ['今'], ['將'], ['執'], ['行'], ['安'], ['樂'], ['死']]

In [21]:
ws(["高科大、文藻外語大學與故宮自2016年12月攜手辦理人才培育計畫，培養學生擔任中英文導覽及參與故宮南院的實作服務。"])

[['高科大',
  '、',
  '文藻',
  '外語',
  '大學',
  '與',
  '故宮',
  '自',
  '2016年',
  '12月',
  '攜手',
  '辦理',
  '人才',
  '培育',
  '計畫',
  '，',
  '培養',
  '學生',
  '擔任',
  '中英文',
  '導覽',
  '及',
  '參與',
  '故宮',
  '南院',
  '的',
  '實作',
  '服務',
  '。']]

In [22]:
ws(["美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會，預料她將會很順利通過參議院支持。"])

[['美國',
  '參議院',
  '針對',
  '今天',
  '總統',
  '布什',
  '所',
  '提名',
  '的',
  '勞工部長',
  '趙小蘭',
  '展開',
  '認可',
  '聽證會',
  '，',
  '預料',
  '她',
  '將',
  '會',
  '很',
  '順利',
  '通過',
  '參議院',
  '支持',
  '。']]

## more than two documents

In [23]:
docs = ["高科大、文藻外語大學與故宮自2016年12月攜手辦理人才培育計畫，培養學生擔任中英文導覽及參與故宮南院的實作服務。","美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會，預料她將會很順利通過參議院支持。"]

In [24]:
ws(docs)

[['高科大',
  '、',
  '文藻',
  '外語',
  '大學',
  '與',
  '故宮',
  '自',
  '2016年',
  '12月',
  '攜手',
  '辦理',
  '人才',
  '培育',
  '計畫',
  '，',
  '培養',
  '學生',
  '擔任',
  '中英文',
  '導覽',
  '及',
  '參與',
  '故宮',
  '南院',
  '的',
  '實作',
  '服務',
  '。'],
 ['美國',
  '參議院',
  '針對',
  '今天',
  '總統',
  '布什',
  '所',
  '提名',
  '的',
  '勞工部長',
  '趙小蘭',
  '展開',
  '認可',
  '聽證會',
  '，',
  '預料',
  '她',
  '將',
  '會',
  '很',
  '順利',
  '通過',
  '參議院',
  '支持',
  '。']]

# POS Tagging詞性標註

In [25]:
pos([['傅達仁', '今', '將', '執行', '安樂死']])

[['Nb', 'Nd', 'D', 'VC', 'Na']]

In [26]:
# wrong format 這樣給資料結果是不對的，會切成一個字一個字
pos(['傅達仁', '今', '將', '執行', '安樂死'])

[['Nb', 'VJ', 'Na'], ['Nd'], ['D'], ['VC', 'VA'], ['D', 'VH', 'VH']]

In [27]:
docs = ["高科大、文藻外語大學與故宮自2016年12月攜手辦理人才培育計畫，培養學生擔任中英文導覽及參與故宮南院的實作服務。"]

# docs = ["美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會，預料她將會很順利通過參議院支持。"]

In [28]:
words = ws(docs)
pos(words)

[['Nc',
  'PAUSECATEGORY',
  'Nb',
  'Na',
  'Nc',
  'Caa',
  'Nc',
  'P',
  'Nd',
  'Nd',
  'D',
  'VC',
  'Na',
  'VC',
  'Na',
  'COMMACATEGORY',
  'VC',
  'Na',
  'VG',
  'Na',
  'VC',
  'Caa',
  'VC',
  'Nc',
  'Nc',
  'DE',
  'Nv',
  'Nv',
  'PERIODCATEGORY']]

In [29]:
words

[['高科大',
  '、',
  '文藻',
  '外語',
  '大學',
  '與',
  '故宮',
  '自',
  '2016年',
  '12月',
  '攜手',
  '辦理',
  '人才',
  '培育',
  '計畫',
  '，',
  '培養',
  '學生',
  '擔任',
  '中英文',
  '導覽',
  '及',
  '參與',
  '故宮',
  '南院',
  '的',
  '實作',
  '服務',
  '。']]

## combine word and pos (將詞與其詞性 搭配一起顯示)

In [30]:
docs = ["高科大、文藻外語大學與故宮自2016年12月攜手辦理人才培育計畫，培養學生擔任中英文導覽及參與故宮南院的實作服務。"]

In [31]:
words = ws(docs)
tagged = pos(words)

In [32]:
len(words)

1

In [33]:
len(tagged)

1

In [34]:
len(words[0])

29

In [35]:
len(tagged[0])

29

In [36]:
word_pos_pair=[]
for i in range(len(words)):
    word_pos_pair.append(list(zip( words[i], tagged[i])))

In [37]:
word_pos_pair

[[('高科大', 'Nc'),
  ('、', 'PAUSECATEGORY'),
  ('文藻', 'Nb'),
  ('外語', 'Na'),
  ('大學', 'Nc'),
  ('與', 'Caa'),
  ('故宮', 'Nc'),
  ('自', 'P'),
  ('2016年', 'Nd'),
  ('12月', 'Nd'),
  ('攜手', 'D'),
  ('辦理', 'VC'),
  ('人才', 'Na'),
  ('培育', 'VC'),
  ('計畫', 'Na'),
  ('，', 'COMMACATEGORY'),
  ('培養', 'VC'),
  ('學生', 'Na'),
  ('擔任', 'VG'),
  ('中英文', 'Na'),
  ('導覽', 'VC'),
  ('及', 'Caa'),
  ('參與', 'VC'),
  ('故宮', 'Nc'),
  ('南院', 'Nc'),
  ('的', 'DE'),
  ('實作', 'Nv'),
  ('服務', 'Nv'),
  ('。', 'PERIODCATEGORY')]]

In [38]:
# same result with one line 
[ list(zip(w,p)) for w,p in zip(words, tagged)]

[[('高科大', 'Nc'),
  ('、', 'PAUSECATEGORY'),
  ('文藻', 'Nb'),
  ('外語', 'Na'),
  ('大學', 'Nc'),
  ('與', 'Caa'),
  ('故宮', 'Nc'),
  ('自', 'P'),
  ('2016年', 'Nd'),
  ('12月', 'Nd'),
  ('攜手', 'D'),
  ('辦理', 'VC'),
  ('人才', 'Na'),
  ('培育', 'VC'),
  ('計畫', 'Na'),
  ('，', 'COMMACATEGORY'),
  ('培養', 'VC'),
  ('學生', 'Na'),
  ('擔任', 'VG'),
  ('中英文', 'Na'),
  ('導覽', 'VC'),
  ('及', 'Caa'),
  ('參與', 'VC'),
  ('故宮', 'Nc'),
  ('南院', 'Nc'),
  ('的', 'DE'),
  ('實作', 'Nv'),
  ('服務', 'Nv'),
  ('。', 'PERIODCATEGORY')]]

# NER (named entity recognition)實體命名辨識
* 例如：人名、地名、組織名，在生醫領域中也可能是藥品名、分子式等等。NER 讓機器能自動找尋文本中提到的我們感興趣的實體，例如公眾人物等，並加以分析，其產出亦作為人工智慧理解自然語言的重要資訊。
* 小明PERSON昨天DATE在中研院FAC附近買了五CARDINAL顆蘋果。

In [39]:
docs = ["高科大、文藻外語大學與故宮自2016年12月攜手辦理人才培育計畫，培養學生擔任中英文導覽及參與故宮南院的實作服務。"]

In [40]:
words = ws(docs)
tagged = pos(words)

In [41]:
ner(words, tagged)

[{(0, 3, 'ORG', '高科大'),
  (4, 10, 'ORG', '文藻外語大學'),
  (11, 13, 'ORG', '故宮'),
  (14, 22, 'DATE', '2016年12月'),
  (40, 42, 'LANGUAGE', '英文'),
  (47, 51, 'ORG', '故宮南院')}]

# User dictionary (自訂字庫)
* 可為斷詞提供想特別關注的詞彙及它們的相對權重

In [42]:
from ckiptagger import construct_dictionary

In [43]:
# 前面的數字表示該詞彙有幾個字，dict裡的數字表示權重
word_to_weight = {
    "土地公": 1,
    "土地婆": 1,
    "公有": 2,
    "": 1,         # wrong format
    "來亂的": "啦", # wrong format
    "緯來體育台": 1,
}
dictionary = construct_dictionary(word_to_weight)
print(dictionary)

[(2, {'公有': 2.0}), (3, {'土地公': 1.0, '土地婆': 1.0}), (5, {'緯來體育台': 1.0})]


In [44]:
docs = [
    "傅達仁今將執行安樂死，卻突然爆出自己20年前遭緯來體育台封殺，他不懂自己哪裡得罪到電視台。",
    "美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會，預料她將會很順利通過參議院支持，成為該國有史以來第一位的華裔女性內閣成員。",
    "",
    "土地公有政策?？還是土地婆有政策。.",
    "… 你確定嗎… 不要再騙了……",
    "最多容納59,000個人,或5.9萬人,再多就不行了.這是環評的結論.",
    "科長說:1,坪數對人數為1:3。2,可以再增加。",
]

In [45]:
ws(docs)

[['傅達仁',
  '今',
  '將',
  '執行',
  '安樂死',
  '，',
  '卻',
  '突然',
  '爆出',
  '自己',
  '20',
  '年',
  '前',
  '遭',
  '緯來',
  '體育台',
  '封殺',
  '，',
  '他',
  '不',
  '懂',
  '自己',
  '哪裡',
  '得罪到',
  '電視台',
  '。'],
 ['美國',
  '參議院',
  '針對',
  '今天',
  '總統',
  '布什',
  '所',
  '提名',
  '的',
  '勞工部長',
  '趙小蘭',
  '展開',
  '認可',
  '聽證會',
  '，',
  '預料',
  '她',
  '將',
  '會',
  '很',
  '順利',
  '通過',
  '參議院',
  '支持',
  '，',
  '成為',
  '該',
  '國',
  '有史以來',
  '第一',
  '位',
  '的',
  '華裔',
  '女性',
  '內閣',
  '成員',
  '。'],
 [],
 ['土地公', '有', '政策', '?', '？', '還是', '土地', '婆', '有', '政策', '。', '.'],
 ['…', ' ', '你', '確定', '嗎', '…', ' ', '不要', '再', '騙', '了', '…', '…'],
 ['最多',
  '容納',
  '59,000',
  '個',
  '人',
  ',',
  '或',
  '5.9萬',
  '人',
  ',',
  '再',
  '多',
  '就',
  '不行',
  '了',
  '.',
  '這',
  '是',
  '環評',
  '的',
  '結論',
  '.'],
 ['科長',
  '說',
  ':1,',
  '坪數',
  '對',
  '人數',
  '為',
  '1:3',
  '。',
  '2',
  ',',
  '可以',
  '再',
  '增加',
  '。']]

In [46]:
ws(docs,
    recommend_dictionary = dictionary, # words in this dictionary are encouraged  吃自訂字庫
)
# 原本 '緯來', '體育台', 變 '緯來體育台'；'土地', '婆' 變 '土地婆'

[['傅達仁',
  '今',
  '將',
  '執行',
  '安樂死',
  '，',
  '卻',
  '突然',
  '爆出',
  '自己',
  '20',
  '年',
  '前',
  '遭',
  '緯來體育台',
  '封殺',
  '，',
  '他',
  '不',
  '懂',
  '自己',
  '哪裡',
  '得罪到',
  '電視台',
  '。'],
 ['美國',
  '參議院',
  '針對',
  '今天',
  '總統',
  '布什',
  '所',
  '提名',
  '的',
  '勞工部長',
  '趙小蘭',
  '展開',
  '認可',
  '聽證會',
  '，',
  '預料',
  '她',
  '將',
  '會',
  '很',
  '順利',
  '通過',
  '參議院',
  '支持',
  '，',
  '成為',
  '該',
  '國',
  '有史以來',
  '第一',
  '位',
  '的',
  '華裔',
  '女性',
  '內閣',
  '成員',
  '。'],
 [],
 ['土地公', '有', '政策', '?', '？', '還是', '土地婆', '有', '政策', '。', '.'],
 ['…', ' ', '你', '確定', '嗎', '…', ' ', '不要', '再', '騙', '了', '…', '…'],
 ['最多',
  '容納',
  '59,000',
  '個',
  '人',
  ',',
  '或',
  '5.9萬',
  '人',
  ',',
  '再',
  '多',
  '就',
  '不行',
  '了',
  '.',
  '這',
  '是',
  '環評',
  '的',
  '結論',
  '.'],
 ['科長',
  '說',
  ':1,',
  '坪數',
  '對',
  '人數',
  '為',
  '1:3',
  '。',
  '2',
  ',',
  '可以',
  '再',
  '增加',
  '。']]