## 使用Jieba 切詞

In [3]:
import jieba

seg_list = jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")
for word in seg_list:
    print(word)

大
巨蛋
案對
市府
同仁
下
封口令
？
　
柯
P
否認


In [4]:
a= ['a', 'b', 'c']
'@'.join(a)

'a@b@c'

In [6]:
import jieba
seg_list = jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")
'/'.join(seg_list)

'大/巨蛋/案對/市府/同仁/下/封口令/？/\u3000/柯/P/否認'

In [7]:
import jieba
seg_list = jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認", cut_all=True)
'/'.join(seg_list)

'大/巨蛋/案/對/市府/同仁/下/封口/封口令/口令////柯/P/否/認'

In [12]:
jieba.load_userdict('userdict.txt')

In [9]:
import jieba
seg_list = jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")
'/'.join(seg_list)

'大巨蛋/案對/市府/同仁/下/封口令/？/\u3000/柯P/否認'

## 使用Posseg 切詞

In [13]:
import jieba.posseg as pseg
words = pseg.cut("大巨蛋案對市府同仁下封口令？　柯P否認")
for w in words:
    print(w.word, w.flag)

大巨蛋 n
案 ng
對 p
市府 n
同仁 nr
下 f
封口令 n
？ x
　 x
柯P n
否認 v


## 做Tokenize

In [15]:
sentence = "大巨蛋案對市府同仁下封口令？　柯P否認"

words = jieba.tokenize(sentence)

for tw in words:
    print(tw[0], tw[1], tw[2])


大巨蛋 0 3
案對 3 5
市府 5 7
同仁 7 9
下 9 10
封口令 10 13
？ 13 14
　 14 15
柯P 15 17
否認 17 19


## 抓出句子中的關鍵詞

In [16]:
import jieba.analyse
tags = jieba.analyse.extract_tags(sentence, 1)
print(",".join(tags))

tags = jieba.analyse.extract_tags(sentence, 1, allowPOS = ['nr'])
print(",".join(tags))


封口令
同仁


In [18]:
#使用n = 2
sentence='那我們酸民婉君也可以報名嗎'

for i in range(0, len(sentence) - 2 + 1):
    print(sentence[i:i+2])

那我
我們
們酸
酸民
民婉
婉君
君也
也可
可以
以報
報名
名嗎


In [19]:
#使用n = 3
for i in range(0, len(sentence) -3 + 1):
    print(sentence[i:i+3])

那我們
我們酸
們酸民
酸民婉
民婉君
婉君也
君也可
也可以
可以報
以報名
報名嗎


In [20]:
#使用n = 4
for i in range(0, len(sentence) -4 + 1):
    print(sentence[i:i+4])

那我們酸
我們酸民
們酸民婉
酸民婉君
民婉君也
婉君也可
君也可以
也可以報
可以報名
以報名嗎


In [22]:
from collections import Counter
a= [1,2,3,1,2,2,1,3,1,2]
c = Counter(a)
c.most_common(2)

[(1, 4), (2, 4)]

## 建立ngram 函式

In [23]:
def ngram(sentence, n = 2):
    word_list  = [] 
    for i in range(0, len(sentence) - n + 1):
        word_list.append(sentence[i:i+n])
    return Counter(word_list)

In [27]:
sentence = '但今日亞洲盤亞股、日圓、金價走勢，卻反映投資人還是不敢肯定希拉蕊必定勝選，畢竟5個月前英脫歐公投前夕，也是風險資產走揚，但投票當天卻因脫歐陣營意外強大，導致股市、新興市場和商品瞬間急轉直下、避險資產急漲'
result = ngram(sentence, 2)
result.most_common(3)

[('脫歐', 2), ('資產', 2), ('險資', 2)]

## 使用正規表達法切句

In [28]:
sentence = '但今日亞洲盤亞股、日圓、金價走勢，卻反映投資人還是不敢肯定希拉蕊必定勝選，畢竟5個月前英脫歐公投前夕，也是風險資產走揚，但投票當天卻因脫歐陣營意外強大，導致股市、新興市場和商品瞬間急轉直下、避險資產急漲'
import re
re.split('、|，', sentence )

['但今日亞洲盤亞股',
 '日圓',
 '金價走勢',
 '卻反映投資人還是不敢肯定希拉蕊必定勝選',
 '畢竟5個月前英脫歐公投前夕',
 '也是風險資產走揚',
 '但投票當天卻因脫歐陣營意外強大',
 '導致股市',
 '新興市場和商品瞬間急轉直下',
 '避險資產急漲']

In [43]:
def ngram(sentence, n = 2):
    word_list  = [] 
    sentence_split = re.split('、|，|。', sentence)
    for s in sentence_split:
        for i in range(0, len(s) - n + 1):
            word_list.append(s[i:i+n])
    return Counter(word_list)

In [44]:
s = '卻反映投資人還是不敢肯定希拉蕊必定勝選'
''.join(s.split('希拉蕊'))

'卻反映投資人還是不敢肯定必定勝選'

In [45]:
def removeKey(text, keyword):
    textAry= text
    for key in keyword:
        textAry = ''.join(textAry.split(key))
    return textAry

In [50]:
sentence = '''
在山上遇到車子出現問題，真的是欲哭無淚，但這個幸運的車主遇到了超暖師生，讓他順利脫困。
車主在臉書《爆料公社》發文表示，本月7日在新竹司馬庫斯時，右前輪突然破了沒氣，當他正急得像熱鍋上的螞蟻時，正好巧遇南港高工汽修科的師生，「師生得知後立即捲起袖子，用自己的補胎工具，熟練的將輪胎缷下進行補胎工作，對於南港高工的熱忱及慷慨解危，感到非常感激。」
車主表示，因為港工汽修科師生的幫忙，他才能順利回到溫暖的家，但對於耽誤師生和司機回鄉的時間感到很抱歉。
網友看了大讚「老師學生都很棒~感謝你們讓台灣感到很溫暖」、「神救援」、「你遇到最美麗風景，他們學到最棒的經驗」、「巧遇汽修科的同學 這是要多幸運的幸運」、「剛好現場教學，學以致用。」（即時新聞中心／綜合報導）
'''

In [52]:
keywords = []
# ngram 從 4 到 2
for n in range(4,1,-1):
    # 移除關鍵詞
    new_sentence   = removeKey(sentence, keywords)
    # 切ngram
    sentence_token = ngram(new_sentence, n)
    for token, cnt in sentence_token.items():
        # 將超過閥值的資料加入keywords 字典中
        if cnt >= 3:
            keywords.append(token)
keywords


['汽修科', '感到', '遇到', '幸運', '車主', '師生']

## 統計字詞出現頻率

In [60]:
jieba.load_userdict('userdict.txt')
s = '''美國民主黨總統候選人希拉蕊‧柯林頓(Hillary Clinton)陣營1名助理表示，約4萬名群眾7日湧入費城的美國獨立紀念館(Independence Mall)，參加希拉蕊的造勢活動，同時希拉蕊的夫婿柯林頓(Bill Clinton)、歐巴馬總統與妻子蜜雪兒也都出席這場造勢活動。
搖滾歌手布魯斯史普林斯汀(Bruce Springsteen)與邦喬飛(Jon Bon Jovi)都在費城這場活動上表演。這是希拉蕊選前最後一天的倒數第二場群眾造勢活動。
競選助理向隨行記者表示，這次的參與人數創下了希拉蕊陣營的新紀錄，先前的紀錄是在俄亥俄州的1場造勢活動，吸引了1萬8,500人參加'''
word_list = []
for word in jieba.cut(s):
    word_list.append(word)


In [62]:
from collections import Counter
c = Counter(word_list)

for word, cnt in c.most_common(100):
    if len(word)>=2 and cnt >= 2:
        print(word, cnt)

活動 5
希拉蕊 5
造勢 3
美國 2
Clinton 2
陣營 2
助理 2
柯林頓 2
參加 2
這場 2
表示 2
費城 2
