In [1]:
from ckip_transformers.nlp import CkipWordSegmenter

# 初始化斷詞器
ws_driver = CkipWordSegmenter(model="bert-base")

# 測試文本
text = ["台灣位於東亞，是一個科技創新的重要基地。"]
ws_results = ws_driver(text)

# 輸出結果
for sentence in ws_results:
    print(sentence)

  from .autonotebook import tqdm as notebook_tqdm
Downloading config.json: 100%|██████████| 804/804 [00:00<00:00, 1.54MB/s]
Downloading pytorch_model.bin: 100%|██████████| 388M/388M [00:10<00:00, 38.5MB/s] 
Downloading tokenizer_config.json: 100%|██████████| 301/301 [00:00<00:00, 370kB/s]
Downloading vocab.txt: 100%|██████████| 107k/107k [00:00<00:00, 7.57MB/s]
Downloading special_tokens_map.json: 100%|██████████| 112/112 [00:00<00:00, 663kB/s]
Tokenization: 100%|██████████| 1/1 [00:00<00:00, 9341.43it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00,  4.78it/s]

['台灣', '位於', '東亞', '，', '是', '一', '個', '科技', '創新', '的', '重要', '基地', '。']





In [2]:
from ckip_transformers.nlp import CkipWordSegmenter, CkipPosTagger, CkipNerChunker

2. Load models
We provide several pretrained models for the NLP tools.
我們提供了一些適用於自然語言工具的預訓練的模型。

In [3]:
# Initialize drivers
ws_driver  = CkipWordSegmenter(model="bert-base")
pos_driver = CkipPosTagger(model="bert-base")
ner_driver = CkipNerChunker(model="bert-base")

Downloading config.json: 100%|██████████| 2.79k/2.79k [00:00<00:00, 12.1MB/s]
Downloading pytorch_model.bin: 100%|██████████| 388M/388M [00:11<00:00, 36.5MB/s] 
Downloading tokenizer_config.json: 100%|██████████| 301/301 [00:00<00:00, 619kB/s]
Downloading vocab.txt: 100%|██████████| 107k/107k [00:00<00:00, 625kB/s] 
Downloading special_tokens_map.json: 100%|██████████| 112/112 [00:00<00:00, 689kB/s]
Downloading config.json: 100%|██████████| 3.62k/3.62k [00:00<00:00, 5.50MB/s]
Downloading pytorch_model.bin: 100%|██████████| 388M/388M [00:10<00:00, 40.1MB/s] 
Downloading tokenizer_config.json: 100%|██████████| 301/301 [00:00<00:00, 491kB/s]
Downloading vocab.txt: 100%|██████████| 107k/107k [00:00<00:00, 321kB/s] 
Downloading special_tokens_map.json: 100%|██████████| 112/112 [00:00<00:00, 312kB/s]


也可以運用我們的工具於自己訓練的模型上。

In [None]:
# Initialize drivers with custom checkpoints
ws_driver  = CkipWordSegmenter(model_name="path_to_your_model")
pos_driver = CkipPosTagger(model_name="path_to_your_model")
ner_driver = CkipNerChunker(model_name="path_to_your_model")

可於宣告斷詞等工具時指定 device 以使用 GPU，設為 -1 （預設值）代表不使用 GPU。

In [4]:
# Use CPU
ws_driver = CkipWordSegmenter(device=-1)

3. Run pipeline
斷詞與實體辨識的輸入必須是 list of sentences。
詞性標記的輸入必須是 list of list of words。

In [5]:
# Input text
text = [
   "傅達仁今將執行安樂死，卻突然爆出自己20年前遭緯來體育台封殺，他不懂自己哪裡得罪到電視台。",
   "美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會，預料她將會很順利通過參議院支持，成為該國有史以來第一位的華裔女性內閣成員。",
   "空白 也是可以的～",
]

# Run pipeline
ws  = ws_driver(text)
pos = pos_driver(ws)
ner = ner_driver(text)

Tokenization: 100%|██████████| 3/3 [00:00<00:00, 2360.77it/s]
Inference: 100%|██████████| 1/1 [00:01<00:00,  1.23s/it]
Tokenization: 100%|██████████| 3/3 [00:00<00:00, 4340.43it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00,  1.06it/s]
Tokenization: 100%|██████████| 3/3 [00:00<00:00, 4208.33it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00,  1.21it/s]


詞性標記工具會自動用 '，,。：:；;！!？?' 等字元在執行模型前切割句子（輸出的句子會自動接回）。可設定 delim_set 參數使用別的字元做切割。
另外可指定 use_delim=False 已停用此功能，或於斷詞、實體辨識時指定 use_delim=True 已啟用此功能。

In [6]:
# Enable sentence segmentation
ws  = ws_driver(text, use_delim=True)
ner = ner_driver(text, use_delim=True)

# Disable sentence segmentation
pos = pos_driver(ws, use_delim=False)

# Use new line characters and tabs for sentence segmentation
# pos = pos_driver(ws, delim_set='\n\t')

Tokenization: 100%|██████████| 3/3 [00:00<00:00, 3199.32it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00,  1.22it/s]
Tokenization: 100%|██████████| 3/3 [00:00<00:00, 12384.76it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00,  1.33it/s]
Tokenization: 100%|██████████| 3/3 [00:00<00:00, 19784.45it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00,  1.04it/s]


您亦可設置 batch_size 與 max_length 以更完美的利用您的機器資源。

In [None]:
# Sets the batch size and maximum sentence length
ws = ws_driver(text, batch_size=256, max_length=128)

In [7]:
# Pack word segmentation and part-of-speech results
def pack_ws_pos_sentece(sentence_ws, sentence_pos):
   assert len(sentence_ws) == len(sentence_pos)
   res = []
   for word_ws, word_pos in zip(sentence_ws, sentence_pos):
      res.append(f"{word_ws}({word_pos})")
   return "\u3000".join(res)

# Show results
for sentence, sentence_ws, sentence_pos, sentence_ner in zip(text, ws, pos, ner):
   print(sentence)
   print(pack_ws_pos_sentece(sentence_ws, sentence_pos))
   for entity in sentence_ner:
      print(entity)
   print()

傅達仁今將執行安樂死，卻突然爆出自己20年前遭緯來體育台封殺，他不懂自己哪裡得罪到電視台。
傅達仁(Nb)　今(Nd)　將(D)　執行(VC)　安樂死(Na)　，(COMMACATEGORY)　卻(D)　突然(D)　爆出(VJ)　自己(Nh)　20(Neu)　年(Nd)　前(Ng)　遭(P)　緯來(Nb)　體育台(Na)　封殺(VC)　，(COMMACATEGORY)　他(Nh)　不(D)　懂(VK)　自己(Nh)　哪裡(Ncd)　得罪到(VC)　電視台(Nc)　。(PERIODCATEGORY)
NerToken(word='傅達仁', ner='PERSON', idx=(0, 3))
NerToken(word='20年', ner='DATE', idx=(18, 21))
NerToken(word='緯來體育台', ner='ORG', idx=(23, 28))

美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會，預料她將會很順利通過參議院支持，成為該國有史以來第一位的華裔女性內閣成員。
美國(Nc)　參議院(Nc)　針對(P)　今天(Nd)　總統(Na)　布什(Nb)　所(D)　提名(VC)　的(DE)　勞工部長(Na)　趙小蘭(Nb)　展開(VC)　認可(VC)　聽證會(Na)　，(COMMACATEGORY)　預料(VE)　她(Nh)　將(D)　會(D)　很(Dfa)　順利(VH)　通過(VC)　參議院(Nc)　支持(VC)　，(COMMACATEGORY)　成為(VG)　該(Nes)　國(Nc)　有史以來(D)　第一(Neu)　位(Nf)　的(DE)　華裔(Na)　女性(Na)　內閣(Na)　成員(Na)　。(PERIODCATEGORY)
NerToken(word='美國參議院', ner='ORG', idx=(0, 5))
NerToken(word='今天', ner='LOC', idx=(7, 9))
NerToken(word='布什', ner='PERSON', idx=(11, 13))
NerToken(word='勞工部長', ner='ORG', idx=(17, 21))
NerToken(word='趙小蘭', ner='PERSON', idx=(21, 24))
NerToken(word='認