In [2]:
!pip install -U ckiptagger[tf,gdown]

Collecting ckiptagger[gdown,tf]
  Downloading https://files.pythonhosted.org/packages/6b/bc/5cbf8d019167d5e5e1775069fb8b71a08691ab847e2926bbe7dee9a19010/ckiptagger-0.2.1-py3-none-any.whl
Installing collected packages: ckiptagger
Successfully installed ckiptagger-0.2.1


In [3]:
# import library
from ckiptagger import data_utils

data_utils.download_data_gdown("./")

Downloading...
From: https://drive.google.com/uc?id=1efHsY16pxK0lBD2gYCgCTnv1Swstq771
To: /content/data.zip
1.88GB [00:20, 92.8MB/s]


In [4]:
from ckiptagger import WS, POS, NER
from ckiptagger import construct_dictionary

sentence_list = [
    "傅達仁今將執行安樂死，卻突然爆出自己20年前遭緯來體育台封殺，他不懂自己哪裡得罪到電視台。",
    "美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會，預料她將會很順利通過參議院支持，成為該國有史以來第一位的華裔女性內閣成員。",
    "",
    "土地公有政策?？還是土地婆有政策。.",
    "… 你確定嗎… 不要再騙了……",
    "最多容納59,000個人,或5.9萬人,再多就不行了.這是環評的結論.",
    "科長說:1,坪數對人數為1:3。2,可以再增加。",
]

In [9]:
#創建實例
###<your code>###

#斷詞
ws = WS("./data") #建構斷詞

word_s = ws(
    sentence_list,
    sentence_segmentation = True, # To consider delimiters
    segment_delimiter_set = {",", "。", ":", "?", "!", ";"}) # This is the defualt set of delimiters

print(f'斷詞輸出: {word_s}')
print('\n')

#詞性標注
pos = POS("./data")

word_p = pos(word_s)

print(f'詞性標注輸出: {word_p}')
print('\n')

#命名實體識別
ner = NER("./data")

word_n = ner(word_s, word_p)
print(f'命名實體識別輸出: {word_n}')

斷詞輸出: [['傅達仁', '今', '將', '執行', '安樂死', '，', '卻', '突然', '爆出', '自己', '20', '年', '前', '遭', '緯來', '體育台', '封殺', '，', '他', '不', '懂', '自己', '哪裡', '得罪到', '電視台', '。'], ['美國', '參議院', '針對', '今天', '總統', '布什', '所', '提名', '的', '勞工部長', '趙小蘭', '展開', '認可', '聽證會', '，', '預料', '她', '將', '會', '很', '順利', '通過', '參議院', '支持', '，', '成為', '該', '國', '有史以來', '第一', '位', '的', '華裔', '女性', '內閣', '成員', '。'], [], ['土地公', '有', '政策', '?', '？', '還是', '土地', '婆', '有', '政策', '。', '.'], ['…', ' ', '你', '確定', '嗎', '…', ' ', '不要', '再', '騙', '了', '…', '…'], ['最多', '容納', '59', ',', '000', '個', '人', ',', '或', '5.9萬', '人', ',', '再', '多', '就', '不行', '了', '.', '這', '是', '環評', '的', '結論', '.'], ['科長', '說', ':', '1', ',', '坪數', '對', '人數', '為', '1', ':', '3', '。', '2', ',', '可以', '再', '增加', '。']]


詞性標注輸出: [['Nb', 'Nd', 'D', 'VC', 'Na', 'COMMACATEGORY', 'D', 'D', 'VJ', 'Nh', 'Neu', 'Nf', 'Ng', 'P', 'Nb', 'Na', 'VC', 'COMMACATEGORY', 'Nh', 'D', 'VK', 'Nh', 'Ncd', 'VJ', 'Nc', 'PERIODCATEGORY'], ['Nc', 'Nc', 'P', 'Nd', 'Na', 'Nb', 'D', 'VC', 

In [10]:
#合併顯示輸出結果
def combine_wandp(word_s, word_p):
    assert len(word_s) == len(word_p)
    
    for w, p in zip(word_s, word_p):
        print (f'{w}({p})', end='\u3000')
        
for i, sentence in enumerate(sentence_list):
    print(f'Input sentence: \n {sentence}')
    print('\n')
    
    print(f'Segmentation with PoS: \n')
    combine_wandp(word_s[i], word_p[i])
    
    print ('\n')
    print('Named Entity Recognition:')
    for n in sorted(word_n[i]):
        print (n)
    print ('\n')

Input sentence: 
 傅達仁今將執行安樂死，卻突然爆出自己20年前遭緯來體育台封殺，他不懂自己哪裡得罪到電視台。


Segmentation with PoS: 

傅達仁(Nb)　今(Nd)　將(D)　執行(VC)　安樂死(Na)　，(COMMACATEGORY)　卻(D)　突然(D)　爆出(VJ)　自己(Nh)　20(Neu)　年(Nf)　前(Ng)　遭(P)　緯來(Nb)　體育台(Na)　封殺(VC)　，(COMMACATEGORY)　他(Nh)　不(D)　懂(VK)　自己(Nh)　哪裡(Ncd)　得罪到(VJ)　電視台(Nc)　。(PERIODCATEGORY)　

Named Entity Recognition:
(0, 3, 'PERSON', '傅達仁')
(18, 22, 'DATE', '20年前')
(23, 28, 'ORG', '緯來體育台')


Input sentence: 
 美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會，預料她將會很順利通過參議院支持，成為該國有史以來第一位的華裔女性內閣成員。


Segmentation with PoS: 

美國(Nc)　參議院(Nc)　針對(P)　今天(Nd)　總統(Na)　布什(Nb)　所(D)　提名(VC)　的(DE)　勞工部長(Na)　趙小蘭(Nb)　展開(VC)　認可(VC)　聽證會(Na)　，(COMMACATEGORY)　預料(VE)　她(Nh)　將(D)　會(D)　很(Dfa)　順利(VH)　通過(VC)　參議院(Nc)　支持(VC)　，(COMMACATEGORY)　成為(VG)　該(Nes)　國(Nc)　有史以來(D)　第一(Neu)　位(Nf)　的(DE)　華裔(Na)　女性(Na)　內閣(Na)　成員(Na)　。(PERIODCATEGORY)　

Named Entity Recognition:
(0, 2, 'GPE', '美國')
(2, 5, 'ORG', '參議院')
(7, 9, 'DATE', '今天')
(11, 13, 'PERSON', '布什')
(17, 21, 'ORG', '勞工部長')
(21, 24, 'PERSON', '趙小蘭')
(42, 45, 'ORG', '參議院')
(56, 58, '

In [13]:
#定義字典
word_to_weight = {
    "緯來體育台": 1,
    "年前": 1
}
dictionary2 = construct_dictionary(word_to_weight)
print(dictionary2)

#帶入自定義字典進行斷詞
#ws = WS("../data") #建構斷詞

input_traditional_str = ["傅達仁今將執行安樂死，卻突然爆出自己20年前遭緯來體育台封殺，他不懂自己哪裡得罪到電視台。"]

word_sentence_list = ws(
    input_traditional_str,
    sentence_segmentation = True, # To consider delimiters
    segment_delimiter_set = {",", "。", ":", "?", "!", ";"}, # This is the defualt set of delimiters
    coerce_dictionary = dictionary2) # words in this dictionary are forced 強制使用字典


print(word_sentence_list)

[(2, {'年前': 1.0}), (5, {'緯來體育台': 1.0})]
[['傅達仁', '今', '將', '執行', '安樂死', '，', '卻', '突然', '爆出', '自己', '20', '年前', '遭', '緯來體育台', '封殺', '，', '他', '不', '懂', '自己', '哪裡', '得罪到', '電視台', '。']]
