# 使用 Jieba 分詞工具
- [jieba](https://github.com/fxsjy/jieba)

In [12]:
!pip install jieba

Defaulting to user installation because normal site-packages is not writeable


In [1]:
# 匯入套件
import jieba

# 嘗式簡單地分詞，以及去除停用詞

In [6]:
# 輸入文本
text = "這是使用 Jieba 和 sklearn 進行中文字預處理的範例。"

# 文本清洗，去除標點符號與數字等非字母的字符
text = ''.join(c for c in text if c.isalpha())

# 分詞 (cut 是用於 iteration 的斷詞函式， lcut是將斷詞以 list 格式回傳)
tokens = jieba.lcut(text)

# 去除停用詞，這邊為了簡化，我們預先定義一個停用詞列表
stop_words = ['和', '的', '是', '這']
tokens = [word for word in tokens if word not in stop_words]; tokens


['這是', '使用', 'Jieba', 'sklearn', '進行', '中', '文字', '預處理', '範例']

# 自定義字典補充

In [3]:
# 讀取自定義的字典
# jieba.load_userdict('./dict.txt')

# 自定義字詞
jieba.add_word('網球史上')
jieba.add_word('網球運動員')
jieba.add_word('單打冠軍')
jieba.add_word('冠軍')
jieba.add_word('大滿貫')
jieba.add_word('總決賽')
jieba.add_word('大師賽')

# 輸入文本
text = '''羅傑費德勒，已退役的瑞士男子職業網球運動員，費德勒總共贏得20座大滿貫冠軍，單打世界排名第一累計310周，其中包括連續237周世界排名第一的男子網壇紀錄，為網球史上最佳的男子選手之一。費德勒生涯贏得103個ATP單打冠軍，含20座大滿貫冠軍和6座ATP年終總決賽冠軍，以及28座大師賽冠軍。'''

# 分詞 (cut 是用於回傳 generator 的斷詞函式，lcut 是將斷詞以 list 格式回傳)
tokens = jieba.lcut(text)

# 去除停用詞，這邊為了簡化，我們預先定義一個停用詞列表
stop_words = ['和', '的', '是', '這']
tokens = [word for word in tokens if word not in stop_words]; tokens

['羅',
 '傑費',
 '德勒',
 '，',
 '已',
 '退役',
 '瑞士',
 '男子',
 '職業',
 '網球運動員',
 '，',
 '費',
 '德勒',
 '總共贏',
 '得',
 '20',
 '座',
 '大滿貫',
 '冠軍',
 '，',
 '單打',
 '世界排名',
 '第一',
 '累計',
 '310',
 '周',
 '，',
 '其中',
 '包括',
 '連續',
 '237',
 '周',
 '世界排名',
 '第一',
 '男子',
 '網壇',
 '紀錄',
 '，',
 '為',
 '網球史上',
 '最佳',
 '男子',
 '選手',
 '之一',
 '。',
 '費',
 '德勒',
 '生涯',
 '贏得',
 '103',
 '個',
 'ATP',
 '單打冠軍',
 '，',
 '含',
 '20',
 '座',
 '大滿貫',
 '冠軍',
 '6',
 '座',
 'ATP',
 '年終',
 '總決賽',
 '冠軍',
 '，',
 '以及',
 '28',
 '座',
 '大師賽',
 '冠軍',
 '。']

# 補充: 中文的 Part-of-Speech tagging

In [13]:
# POS tagging
import jieba.posseg as pseg

# 假設我們有以下句子
sentence = "我喜歡看電影"

# 使用jieba進行詞性標注
words = pseg.cut(sentence)

# 列印每個詞及其詞性
for word, flag in words:
    print(f'{word} {flag}')

我 r
喜歡 v
看 v
電影 n


In [1]:
import jieba.posseg as pseg

sentence = "我喜歡喝珍奶"

words = pseg.cut(sentence)

for word, flag in words: 
    print(word, flag)



Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\xdxd2\AppData\Local\Temp\jieba.cache
Loading model cost 2.257 seconds.
Prefix dict has been built successfully.


我 r
喜歡 v
喝 vg
珍奶 n
