參考網址：https://ithelp.ithome.com.tw/articles/10192043

In [1]:
import jieba
jieba.set_dictionary('dict.big.txt')
with open('stopWords.txt', 'r', encoding='utf8') as f:  # 中文停用字
    stops = f.read().split('\n')

### 斷詞
結巴的斷詞分成兩個模式：<br>
**精準模式**：只找到系統演算出最精準的斷詞可能<br>
**全斷詞模式**：則是把所有可能的斷詞模式列出來<br>
如果你想要用來做文本分析，句子又沒有很長的的時候，建議可以使用全斷詞模式，可以增加文跟文章之間的可比性<br>

In [2]:
print([t for t in jieba.cut('下雨天留客天留我不留')])
print([t for t in jieba.cut('下雨天留客天留我不留', cut_all=True)])

Building prefix dict from /Users/lihsuanchin/Jupyter/文本分析/自然語言處理/dict.big.txt ...
Loading model from cache /var/folders/9m/v3nylhk51tjdmmzzt4ggzf9h0000gn/T/jieba.u3a50f263214cd7893810860d43cfbfa9.cache
Loading model cost 1.177 seconds.
Prefix dict has been built succesfully.


['下雨天', '留客', '天留', '我', '不留']
['下雨', '下雨天', '雨天', '留客', '天', '留', '我', '不留']


### Import套件並把文章載入

In [2]:
from collections import Counter
import pandas as pd

testStr = pd.read_csv("example.csv", usecols=['Text'])
testStr = list(testStr['Text'])

### 斷詞、去除停用字、計算詞頻

In [4]:
terms = [t for t in jieba.cut(testStr[0], cut_all=True) if t not in stops]
ans = sorted(Counter(terms).items(), key=lambda x:x[1], reverse=True) 

In [5]:
print (ans)

[('比特', 5), ('犬', 5), ('鬥牛', 4), ('法', 3), ('n', 3), ('擋', 2), ('惡', 2), ('領養', 2), ('The', 2), ('Dodo', 2), ('報導', 2), ('蒙特', 2), ('蒙特婁', 2), ('一個', 2), ('法案', 2), ('鬥牛犬', 2), ('完全', 2), ('動物', 2), ('SPCA', 2), ('段', 2), ('繼續', 2), ('家', 2), ('粉絲', 2), ('品種', 2), ('牠', 2), ('更多', 2), ('請', 2), ('蘋果', 2), ('動', 1), ('保', 1), ('團體', 1), ('網站', 1), ('加拿', 1), ('加拿大', 1), ('Montreal', 1), ('當地', 1), ('禁止', 1), ('能到', 1), ('收容', 1), ('收容所', 1), ('安樂', 1), ('安樂死', 1), ('樂死', 1), ('但因', 1), ('防止', 1), ('虐待', 1), ('協會', 1), ('上訴', 1), ('法官', 1), ('暫時', 1), ('推遲', 1), ('律師', 1), ('Sophie', 1), ('Gaillard', 1), ('表示', 1), ('此法', 1), ('廢止', 1), ('路', 1), ('走', 1), ('無疑', 1), ('帶來', 1), ('希望', 1), ('高興', 1), ('幫', 1), ('狗狗', 1), ('找', 1), ('力', 1), ('頁', 1), ('上傳', 1), ('聲援', 1), ('影片', 1), ('強調', 1), ('生來', 1), ('兇惡', 1), ('主人', 1), ('訓練', 1), ('呼籲', 1), ('眾', 1), ('不應', 1), ('應有', 1), ('差別', 1), ('差別待遇', 1), ('待遇', 1), ('支持', 1), ('修', 1), ('Pitbull', 1), ('數種', 1), ('總稱', 1), ('主要', 1), ('美國',

### 詞性

In [6]:
import jieba.posseg as pseg

In [7]:
termsss = [t for t in jieba.posseg.cut(testStr[0]) if t not in stops and t.flag!='x']
t = list(termsss)
# for i in t:
#     print (i.word, i.flag)

In [9]:
for piece in testStr:
    # print (piece)
    seged = jieba.posseg.cut(piece)
    
    partOfWord = []    
    for i in seged:
        if i.word not in stops and i.flag!='x':
            partOfWord.append(i)        
    print (partOfWord)
    print ("----------------------------------------------")

[pair('動保', 'j'), pair('團體', 'n'), pair('擋', 'v'), pair('惡法', 'n'), pair('比特', 'nrt'), pair('犬', 'ng'), pair('領養', 'n'), pair('網站', 'n'), pair('The', 'eng'), pair('Dodo', 'eng'), pair('報導', 'n'), pair('加拿大', 'ns'), pair('蒙特婁', 'nr'), pair('Montreal', 'eng'), pair('一個', 'm'), pair('法案', 'n'), pair('鬥牛犬', 'i'), pair('當地', 's'), pair('完全', 'ad'), pair('禁止', 'v'), pair('收容所', 'n'), pair('領養', 'n'), pair('所內', 'b'), pair('比特', 'nrt'), pair('犬', 'ng'), pair('安樂死', 'nr'), pair('但因為', 'c'), pair('蒙特婁', 'nr'), pair('防止', 'v'), pair('虐待', 'v'), pair('動物', 'n'), pair('協會', 'n'), pair('SPCA', 'eng'), pair('上訴', 'v'), pair('法官', 'n'), pair('暫時', 'd'), pair('推遲', 'v'), pair('法案', 'n'), pair('SPCA', 'eng'), pair('律師', 'n'), pair('Sophie', 'eng'), pair('Gaillard', 'eng'), pair('表示', 'v'), pair('此法', 'r'), pair('完全', 'ad'), pair('廢止', 'v'), pair('段', 'q'), pair('路', 'n'), pair('走', 'v'), pair('無疑', 'd'), pair('帶來', 'v'), pair('希望', 'v'), pair('高興', 'b'), pair('繼續', 'v'), pair('幫', 'v'), pair('狗狗', 'n')