# CkipTagger 中文斷詞工具(中研院 繁體)


## 安裝套件




In [1]:
!pip install -U ckiptagger[tf,gdown] # gdown為google下載

Collecting ckiptagger[gdown,tf]
  Downloading ckiptagger-0.2.1-py3-none-any.whl (34 kB)
Installing collected packages: ckiptagger
Successfully installed ckiptagger-0.2.1


In [None]:
# !pip install -U ckiptagger

## 使用 CKIP



In [2]:
from ckiptagger import data_utils, construct_dictionary, WS, POS, NER

### 1. 下載模型




In [3]:
# Downloads to ./data.zip (2GB) and extracts to ./data/
data_utils.download_data_url("./") # iis-ckip
#data_utils.download_data_gdown("./") # gdrive-ckip

- ./data/model_ner/pos_list.txt -> POS tag list, see [Wiki](https://github.com/ckiplab/ckiptagger/wiki/POS-Tags) / [Technical Report no. 93-05](http://ckip.iis.sinica.edu.tw/CKIP/tr/9305_2013%20revision.pdf)
- ./data/model_ner/label_list.txt -> Entity type list, see [Wiki](https://github.com/ckiplab/ckiptagger/wiki/Entity-Types) / [OntoNotes Release 5.0](https://catalog.ldc.upenn.edu/docs/LDC2013T19/OntoNotes-Release-5.0.pdf)
- ./data/embedding_* -> character/word embeddings, see [Wiki](https://github.com/ckiplab/ckiptagger/wiki/Corpora)


### 2. 載入模型


In [4]:
# To use GPU:
#    1. Install tensorflow-gpu (see Installation)
#    2. Set CUDA_VISIBLE_DEVICES environment variable, e.g. os.environ["CUDA_VISIBLE_DEVICES"] = "0"
#    3. Set disable_cuda=False, e.g. ws = WS("./data", disable_cuda=False)
# To use CPU:
ws = WS("./data") # 斷詞
pos = POS("./data") # 詞性標註
ner = NER("./data") # 命名實體辨識

  cell = tf.compat.v1.nn.rnn_cell.LSTMCell(hidden_d, name=name)
  cell = tf.compat.v1.nn.rnn_cell.LSTMCell(hidden_d, name=name)
  cell = tf.compat.v1.nn.rnn_cell.LSTMCell(hidden_d, name=name)


### 3. 執行 WS(斷詞)-POS(詞性標註)-NER(命名實體辨識) pipeline

In [None]:
sentence_list = [
    "傅達仁今將執行安樂死，卻突然爆出自己20年前遭緯來體育台封殺，他不懂自己哪裡得罪到電視台。",
    "美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會，預料她將會很順利通過參議院支持，成為該國有史以來第一位的華裔女性內閣成員。",
    "",
    "土地公有政策?？還是土地婆有政策。.",
    "… 你確定嗎… 不要再騙了……",
    "最多容納59,000個人,或5.9萬人,再多就不行了.這是環評的結論.",
    "科長說:1,坪數對人數為1:3。2,可以再增加。",
]


In [None]:
word_sentence_list = ws(
    sentence_list,
    # sentence_segmentation = True, # To consider delimiters
    # segment_delimiter_set = {",", "。", ":", "?", "!", ";"}), # This is the defualt set of delimiters
    # recommend_dictionary = dictionary1, # words in this dictionary are encouraged
    # coerce_dictionary = dictionary2, # words in this dictionary are forced
)

In [None]:
print(word_sentence_list)

[['傅達仁', '今', '將', '執行', '安樂死', '，', '卻', '突然', '爆出', '自己', '20', '年', '前', '遭', '緯來', '體育台', '封殺', '，', '他', '不', '懂', '自己', '哪裡', '得罪到', '電視台', '。'], ['美國', '參議院', '針對', '今天', '總統', '布什', '所', '提名', '的', '勞工部長', '趙小蘭', '展開', '認可', '聽證會', '，', '預料', '她', '將', '會', '很', '順利', '通過', '參議院', '支持', '，', '成為', '該', '國', '有史以來', '第一', '位', '的', '華裔', '女性', '內閣', '成員', '。'], [], ['土地公', '有', '政策', '?', '？', '還是', '土地', '婆', '有', '政策', '。', '.'], ['…', ' ', '你', '確定', '嗎', '…', ' ', '不要', '再', '騙', '了', '…', '…'], ['最多', '容納', '59,000', '個', '人', ',', '或', '5.9萬', '人', ',', '再', '多', '就', '不行', '了', '.', '這', '是', '環評', '的', '結論', '.'], ['科長', '說', ':1,', '坪數', '對', '人數', '為', '1:3', '。', '2', ',', '可以', '再', '增加', '。']]


In [None]:
pos_sentence_list = pos(word_sentence_list)

In [None]:
print(pos_sentence_list)

[['Nb', 'Nd', 'D', 'VC', 'Na', 'COMMACATEGORY', 'D', 'D', 'VJ', 'Nh', 'Neu', 'Nf', 'Ng', 'P', 'Nb', 'Na', 'VC', 'COMMACATEGORY', 'Nh', 'D', 'VK', 'Nh', 'Ncd', 'VJ', 'Nc', 'PERIODCATEGORY'], ['Nc', 'Nc', 'P', 'Nd', 'Na', 'Nb', 'D', 'VC', 'DE', 'Na', 'Nb', 'VC', 'VC', 'Na', 'COMMACATEGORY', 'VE', 'Nh', 'D', 'D', 'Dfa', 'VH', 'VC', 'Nc', 'VC', 'COMMACATEGORY', 'VG', 'Nes', 'Nc', 'D', 'Neu', 'Nf', 'DE', 'Na', 'Na', 'Na', 'Na', 'PERIODCATEGORY'], [], ['Nb', 'V_2', 'Na', 'QUESTIONCATEGORY', 'QUESTIONCATEGORY', 'Caa', 'Na', 'Na', 'V_2', 'Na', 'PERIODCATEGORY', 'PERIODCATEGORY'], ['ETCCATEGORY', 'WHITESPACE', 'Nh', 'VK', 'T', 'ETCCATEGORY', 'WHITESPACE', 'D', 'D', 'VC', 'Di', 'ETCCATEGORY', 'ETCCATEGORY'], ['VH', 'VJ', 'Neu', 'Nf', 'Na', 'COMMACATEGORY', 'Caa', 'Neu', 'Na', 'COMMACATEGORY', 'D', 'D', 'D', 'VH', 'T', 'PERIODCATEGORY', 'Nep', 'SHI', 'Na', 'DE', 'Na', 'PERIODCATEGORY'], ['Na', 'VE', 'Neu', 'Na', 'P', 'Na', 'VG', 'Neu', 'PERIODCATEGORY', 'Neu', 'COMMACATEGORY', 'D', 'D', 'VHC', 'P

In [None]:
entity_sentence_list = ner(word_sentence_list, pos_sentence_list) # 抓取專有名詞

In [None]:
print(entity_sentence_list)

[{(23, 28, 'ORG', '緯來體育台'), (0, 3, 'PERSON', '傅達仁'), (18, 22, 'DATE', '20年前')}, {(2, 5, 'ORG', '參議院'), (7, 9, 'DATE', '今天'), (60, 62, 'NORP', '華裔'), (11, 13, 'PERSON', '布什'), (56, 58, 'ORDINAL', '第一'), (0, 2, 'GPE', '美國'), (42, 45, 'ORG', '參議院'), (21, 24, 'PERSON', '趙小蘭'), (17, 21, 'ORG', '勞工部長')}, set(), {(0, 3, 'PERSON', '土地公')}, set(), {(4, 10, 'CARDINAL', '59,000'), (14, 18, 'CARDINAL', '5.9萬')}, {(12, 13, 'CARDINAL', '1'), (4, 6, 'CARDINAL', '1,'), (16, 17, 'CARDINAL', '2'), (14, 15, 'CARDINAL', '3')}]


### 4. 顯示結果


In [6]:
def print_word_pos_sentence(word_sentence, pos_sentence):
    assert len(word_sentence) == len(pos_sentence)
    for word, pos in zip(word_sentence, pos_sentence):
        print(f"{word}({pos})", end="\u3000")
    print()
    return

In [None]:
for i, sentence in enumerate(sentence_list):
    print()
    print(f"'{sentence}'")
    print_word_pos_sentence(word_sentence_list[i],  pos_sentence_list[i])
    for entity in sorted(entity_sentence_list[i]):
        print(entity)


'傅達仁今將執行安樂死，卻突然爆出自己20年前遭緯來體育台封殺，他不懂自己哪裡得罪到電視台。'
傅達仁(Nb)　今(Nd)　將(D)　執行(VC)　安樂死(Na)　，(COMMACATEGORY)　卻(D)　突然(D)　爆出(VJ)　自己(Nh)　20(Neu)　年(Nf)　前(Ng)　遭(P)　緯來(Nb)　體育台(Na)　封殺(VC)　，(COMMACATEGORY)　他(Nh)　不(D)　懂(VK)　自己(Nh)　哪裡(Ncd)　得罪到(VJ)　電視台(Nc)　。(PERIODCATEGORY)　
(0, 3, 'PERSON', '傅達仁')
(18, 22, 'DATE', '20年前')
(23, 28, 'ORG', '緯來體育台')

'美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會，預料她將會很順利通過參議院支持，成為該國有史以來第一位的華裔女性內閣成員。'
美國(Nc)　參議院(Nc)　針對(P)　今天(Nd)　總統(Na)　布什(Nb)　所(D)　提名(VC)　的(DE)　勞工部長(Na)　趙小蘭(Nb)　展開(VC)　認可(VC)　聽證會(Na)　，(COMMACATEGORY)　預料(VE)　她(Nh)　將(D)　會(D)　很(Dfa)　順利(VH)　通過(VC)　參議院(Nc)　支持(VC)　，(COMMACATEGORY)　成為(VG)　該(Nes)　國(Nc)　有史以來(D)　第一(Neu)　位(Nf)　的(DE)　華裔(Na)　女性(Na)　內閣(Na)　成員(Na)　。(PERIODCATEGORY)　
(0, 2, 'GPE', '美國')
(2, 5, 'ORG', '參議院')
(7, 9, 'DATE', '今天')
(11, 13, 'PERSON', '布什')
(17, 21, 'ORG', '勞工部長')
(21, 24, 'PERSON', '趙小蘭')
(42, 45, 'ORG', '參議院')
(56, 58, 'ORDINAL', '第一')
(60, 62, 'NORP', '華裔')

''


'土地公有政策?？還是土地婆有政策。.'
土地公(Nb)　有(V_2)　政策(Na)　?(QUESTIONCATEGORY)　？(QUESTIONCATEGORY)　還是(Caa)　土地(N

# 作業：請使用CKIP套件將從淡江學務處爬下來的5個網頁進行NER關鍵字提取，請列出5個網址及取出之關鍵字。

In [5]:
# 學生事務處各組
urls = ["http://spirit.tku.edu.tw/tku/main.jsp?sectionId=1", # 學務長室
      "http://spirit.tku.edu.tw/tku/main.jsp?sectionId=2", # 生活輔導組
      "http://spirit.tku.edu.tw/tku/main.jsp?sectionId=3", # 課外活動輔導組
      "http://spirit.tku.edu.tw/tku/main.jsp?sectionId=4", # 諮商輔導中心
      "http://spirit.tku.edu.tw/tku/main.jsp?sectionId=6", # 衛生保衛組
      ]

In [25]:
import requests
from bs4 import BeautifulSoup
from ckiptagger import WS, POS, NER
import numpy as np

for url in urls:
  print("網址:", url)
  response = requests.get(url)
  soup = BeautifulSoup(response.text, 'html.parser')
  sentence_list = soup.get_text()
  word_sentence_list = ws([sentence_list])
  pos_sentence_list = pos(word_sentence_list)
  entity_sentence_list = ner(word_sentence_list, pos_sentence_list)
  # print(entity_sentence_list[0])
  # print(np.shape(entity_sentence_list))

  keywords = []
  for entity in entity_sentence_list[0]:
    if entity[2] != 'PRODUCT' and entity[2] != 'DATE' and entity[2] != 'CARDINAL' and entity[2] != 'ORDINAL':
      keywords.append(entity[3])
  print("關鍵字：",keywords)
  print()



網址: http://spirit.tku.edu.tw/tku/main.jsp?sectionId=1
關鍵字： ['淡江大學學生事務處', '新北市']

網址: http://spirit.tku.edu.tw/tku/main.jsp?sectionId=2
關鍵字： ['張國基', '中文版', 'Subsidies for Graduate Students生活教育券補助金碩博士班', 'Rewards and Disciplines on Students\xa0', 'Counseling\xa0', '董俊章', 'Subsidies for Aborigines', '淡大-公館', '王紹新', 'Student Appeal 防制學生藥物濫用資源網Echinacea', 'Transportation Safety校園安全Campus Security防制校園', 'Foundation', '新北市', '役政司', 'Tutoring', 'Outstanding Youth Awards', 'English version', '國防部', '淡江大學學生事務處', '內政部', 'Military Service Illustration']

網址: http://spirit.tku.edu.tw/tku/main.jsp?sectionId=3
關鍵字： ['List of Partner Institutions社團', '英文版', '新北市', 'School Club Leaders\xa0課外組', '中文版', 'College-Assisted Club Development Proj. of High & Elementary Schools\xa0教育部', '英文版', '英文版', '中文版', 'Information about club activity funding\xa0', '中文版', '中文版', '英文版', '中文版', '英文版', '中文版', 'Hall of Fame\xa0', '淡江大學學生事務處', '英文版']

網址: http://spirit.tku.edu.tw/tku/main.jsp?sectionId=4
關鍵字： ['Graduate Future