# 使用 Jieba 分詞工具
- [jieba](https://github.com/fxsjy/jieba)

In [1]:
# 匯入套件
import jieba

  import pkg_resources


# 嘗式簡單地分詞，以及去除停用詞

In [2]:
# 輸入文本
text = "這是使用 Jieba 和 sklearn 進行中文字預處理的範例。"

# 分詞 (cut 是用於 iteration 的斷詞函式，lcut 是將斷詞以 list 格式回傳)
tokens = jieba.lcut(text)

# 去除停用詞，這邊為了簡化，我們預先定義一個停用詞列表
stop_words = ['和', '的', '是', '這']
tokens = [word for word in tokens if word not in stop_words]

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\darren\AppData\Local\Temp\jieba.cache
Loading model cost 0.904 seconds.
Prefix dict has been built successfully.


# 自定義字典補充

In [3]:
# 讀取自定義的字典
# 格式: 詞語 詞頻(可省略) 詞性(可省略)
# jieba.load_userdict('./dict.txt')

# 自定義字詞 (執行一次就會存在 memory 中，要重啟 kernel 才會失效)
# jieba.add_word('網球史上')
# jieba.add_word('網球運動員')
# jieba.add_word('單打冠軍')
# jieba.add_word('冠軍')
# jieba.add_word('大滿貫')
# jieba.add_word('總決賽')
# jieba.add_word('大師賽')

# Optional: 你也可以移除自定義的字詞
# jieba.del_word('網球史上')

# 輸入文本
text = '''\
羅傑費德勒，已退役的瑞士男子職業網球運動員，費德勒總共贏得20座大滿貫冠軍，單打世界排名第一累計310周，
其中包括連續237周世界排名第一的男子網壇紀錄，為網球史上最佳的男子選手之一。
費德勒生涯贏得103個ATP單打冠軍，含20座大滿貫冠軍和6座ATP年終總決賽冠軍，以及28座大師賽冠軍。
'''

# 分詞 (cut 是用於回傳 generator 的斷詞函式，lcut 是將斷詞以 list 格式回傳)
tokens = jieba.lcut(text)

# 去除停用詞，這邊為了簡化，我們預先定義一個停用詞列表
stop_words = ['和', '的', '是', '這']
tokens = [word for word in tokens if word not in stop_words]

# 中文的 Part-of-Speech tagging
- 資料來源：[https://github.com/fxsjy/jieba?tab=readme-ov-file#%E4%BD%BF%E7%94%A8%E7%A4%BA%E4%BE%8B](https://github.com/fxsjy/jieba?tab=readme-ov-file#%E4%BD%BF%E7%94%A8%E7%A4%BA%E4%BE%8B)

| 標籤 | 意義 | 標籤 | 意義 | 標籤 | 意義 | 標籤 | 意義 |
|---|---|---|---|---|---|---|---|
| n  | 普通名詞 | f  | 方位名詞 | s  | 處所名詞 | t    | 時間 |
| nr | 人名     | ns | 地名     | nt | 機構名   | nw   | 作品名 |
| nz | 其他專名 | v  | 普通動詞 | vd | 動副詞   | vn   | 名動詞 |
| a  | 形容詞   | ad | 副形詞   | an | 名形詞   | d    | 副詞 |
| m  | 數量詞   | q  | 量詞     | r  | 代名詞   | p    | 介詞 |
| c  | 連接詞   | u  | 助詞     | xc | 其他虛詞 | w    | 標點符號 |
| PER | 人名    | LOC | 地名    | ORG | 機構名  | TIME | 時間 |

In [4]:
# POS tagging
import jieba.posseg as pseg

# 假設我們有以下句子
sentence = "我喜歡看電影"

# 使用jieba進行詞性標注
words = pseg.cut(sentence)

# 列印每個詞及其詞性
for word, flag in words:
    print(f'{word} {flag}')

我 r
喜歡 v
看 v
電影 n
