In [1]:
# -*- coding: utf-8 -*- # 設定編碼方式為UTF-8

# 載入相關套件
from ckip_transformers import __version__  # 載入ckip_transformers套件的版本信息
from ckip_transformers.nlp import CkipWordSegmenter, CkipPosTagger, CkipNerChunker  # 從ckip_transformers.nlp中載入相應模組

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# 初始化 drivers
print("Initializing drivers ... WS")  # 印出初始化Word Segmenter的訊息
ws_driver = CkipWordSegmenter(model="albert-base")  # 初始化Word Segmenter
print("Initializing drivers ... POS")  # 印出初始化Pos Tagger的訊息
pos_driver = CkipPosTagger(model="albert-base")  # 初始化Pos Tagger

Initializing drivers ... WS
Initializing drivers ... POS


In [3]:
def clean(sentence_ws, sentence_pos):  # 定義一個名為clean的函數，用於保留主要詞彙
  short_with_pos = []  # 初始化一個空串列short_with_pos，用於儲存含有詞性的短詞
  short_sentence = []  # 初始化一個空串列short_sentence，用於儲存短詞
  stop_pos = set(['Nep', 'Nh', 'Nb']) # 定義一個包含特定詞性的集合stop_pos

  # 逐詞進行處理
  for word_ws, word_pos in zip(sentence_ws, sentence_pos):
    # 只留名詞和動詞
    is_N_or_V = word_pos.startswith("V") or word_pos.startswith("N")  # 判斷是否為名詞或動詞
    # 去掉名詞裡的某些詞性
    is_not_stop_pos = word_pos not in stop_pos  # 判斷是否為特定詞性
    # 只剩一個字的詞也不留
    is_not_one_charactor = not (len(word_ws) == 1)  # 判斷是否只有一個字母

    # 符合條件的詞加入串列
    if is_N_or_V and is_not_stop_pos and is_not_one_charactor:
      short_with_pos.append(f"{word_ws}({word_pos})")  # 將短詞和詞性以特定格式加入short_with_pos串列
      short_sentence.append(f"{word_ws}")  # 將短詞加入short_sentence串列

  return (" ".join(short_sentence), " ".join(short_with_pos))  # 返回處理後的短詞和含詞性的短詞


In [4]:
def main():
    #語料庫
    text = [
        '經過多年激烈戰事，複製人大戰即將結束。絶地議會派歐比王將導致戰亂的主謀者繩之以法；不料，西斯勢力已悄悄深入銀河系，勢力漸大的議長白卜庭用黑暗勢力的力量，誘惑天行者安納金轉變成黑武士達斯維達，幫助他達成心願建立銀河帝國，剷除絕地武士…【星際大戰】系列電影最後一塊拼圖，喬治盧卡斯不僅要解開黑武士的影壇跨世紀謎團，更要著手打造影史最大星際戰爭。',
    ]
    ws = ws_driver(text)  # 進行斷詞
    pos = pos_driver(ws)  # 進行詞性標注

    print()  # 印出空行，增加可讀性
    for sentence, sentence_ws, sentence_pos in zip(text, ws, pos):  # 逐句進行處理
        print("原文：")
        print(sentence)  # 印出原文
        (short, res) = clean(sentence_ws, sentence_pos)  # 呼叫clean函數進行處理
        print("斷詞後：")
        print(short)  # 印出斷詞後的短詞
        print("斷詞後+詞性標注：")
        print(res)  # 印出含詞性的短詞
        print('='*50)  # 印出分隔線

In [5]:
if __name__ == "__main__":
    main()  # 呼叫main函數執行主程序

Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00,  7.37it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00,  6.82it/s]


原文：
經過多年激烈戰事，複製人大戰即將結束。絶地議會派歐比王將導致戰亂的主謀者繩之以法；不料，西斯勢力已悄悄深入銀河系，勢力漸大的議長白卜庭用黑暗勢力的力量，誘惑天行者安納金轉變成黑武士達斯維達，幫助他達成心願建立銀河帝國，剷除絕地武士…【星際大戰】系列電影最後一塊拼圖，喬治盧卡斯不僅要解開黑武士的影壇跨世紀謎團，更要著手打造影史最大星際戰爭。
斷詞後：
經過 激烈 戰事 複製人 大戰 結束 絶地 議會 派歐比王將 導致 戰亂 主謀 繩之以法 勢力 深入 銀河系 勢力 議長 黑暗 勢力 力量 誘惑 天行 轉變成 黑武士 幫助 達成 心願 建立 銀河 帝國 剷除 絕地 武士 星際 大戰 系列 電影 最後 拼圖 解開 黑武士 影壇 世紀 謎團 著手 打造 影史 星際 戰爭
斷詞後+詞性標注：
經過(VCL) 激烈(VH) 戰事(Na) 複製人(Na) 大戰(Na) 結束(VHC) 絶地(VJ) 議會(Nc) 派歐比王將(VF) 導致(VL) 戰亂(Na) 主謀(Na) 繩之以法(VB) 勢力(Na) 深入(VCL) 銀河系(Nc) 勢力(Na) 議長(Na) 黑暗(Na) 勢力(Na) 力量(Na) 誘惑(VC) 天行(Na) 轉變成(VG) 黑武士(VH) 幫助(VC) 達成(VC) 心願(Na) 建立(VC) 銀河(Na) 帝國(Na) 剷除(VC) 絕地(Na) 武士(Na) 星際(Nc) 大戰(Na) 系列(Na) 電影(Na) 最後(Nd) 拼圖(Na) 解開(VC) 黑武士(VH) 影壇(Nc) 世紀(Na) 謎團(Na) 著手(VF) 打造(VC) 影史(Na) 星際(Nc) 戰爭(Na)





CKIP-Transformers詞性標記：

![Alt text](image-1.png)