## 使用Jieba 切詞

In [3]:
import jieba

seg_list = jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")
for word in seg_list:
    print(word)

大
巨蛋
案對
市府
同仁
下
封口令
？
　
柯
P
否認


In [4]:
a= ['a', 'b', 'c']
'@'.join(a)

'a@b@c'

In [6]:
import jieba
seg_list = jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")
'/'.join(seg_list)

'大/巨蛋/案對/市府/同仁/下/封口令/？/\u3000/柯/P/否認'

In [7]:
import jieba
seg_list = jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認", cut_all=True)
'/'.join(seg_list)

'大/巨蛋/案/對/市府/同仁/下/封口/封口令/口令////柯/P/否/認'

In [12]:
jieba.load_userdict('userdict.txt')

In [9]:
import jieba
seg_list = jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")
'/'.join(seg_list)

'大巨蛋/案對/市府/同仁/下/封口令/？/\u3000/柯P/否認'

## 使用Posseg 切詞

In [13]:
import jieba.posseg as pseg
words = pseg.cut("大巨蛋案對市府同仁下封口令？　柯P否認")
for w in words:
    print(w.word, w.flag)

大巨蛋 n
案 ng
對 p
市府 n
同仁 nr
下 f
封口令 n
？ x
　 x
柯P n
否認 v


## 做Tokenize

In [15]:
sentence = "大巨蛋案對市府同仁下封口令？　柯P否認"

words = jieba.tokenize(sentence)

for tw in words:
    print(tw[0], tw[1], tw[2])


大巨蛋 0 3
案對 3 5
市府 5 7
同仁 7 9
下 9 10
封口令 10 13
？ 13 14
　 14 15
柯P 15 17
否認 17 19


## 抓出句子中的關鍵詞

In [16]:
import jieba.analyse
tags = jieba.analyse.extract_tags(sentence, 1)
print(",".join(tags))

tags = jieba.analyse.extract_tags(sentence, 1, allowPOS = ['nr'])
print(",".join(tags))


封口令
同仁


In [18]:
#使用n = 2
sentence='那我們酸民婉君也可以報名嗎'

for i in range(0, len(sentence) - 2 + 1):
    print(sentence[i:i+2])

那我
我們
們酸
酸民
民婉
婉君
君也
也可
可以
以報
報名
名嗎


In [19]:
#使用n = 3
for i in range(0, len(sentence) -3 + 1):
    print(sentence[i:i+3])

那我們
我們酸
們酸民
酸民婉
民婉君
婉君也
君也可
也可以
可以報
以報名
報名嗎


In [20]:
#使用n = 4
for i in range(0, len(sentence) -4 + 1):
    print(sentence[i:i+4])

那我們酸
我們酸民
們酸民婉
酸民婉君
民婉君也
婉君也可
君也可以
也可以報
可以報名
以報名嗎


In [22]:
from collections import Counter
a= [1,2,3,1,2,2,1,3,1,2]
c = Counter(a)
c.most_common(2)

[(1, 4), (2, 4)]

## 建立ngram 函式

In [23]:
def ngram(sentence, n = 2):
    word_list  = [] 
    for i in range(0, len(sentence) - n + 1):
        word_list.append(sentence[i:i+n])
    return Counter(word_list)

In [27]:
sentence = '但今日亞洲盤亞股、日圓、金價走勢，卻反映投資人還是不敢肯定希拉蕊必定勝選，畢竟5個月前英脫歐公投前夕，也是風險資產走揚，但投票當天卻因脫歐陣營意外強大，導致股市、新興市場和商品瞬間急轉直下、避險資產急漲'
result = ngram(sentence, 2)
result.most_common(3)

[('脫歐', 2), ('資產', 2), ('險資', 2)]

## 使用正規表達法切句

In [28]:
sentence = '但今日亞洲盤亞股、日圓、金價走勢，卻反映投資人還是不敢肯定希拉蕊必定勝選，畢竟5個月前英脫歐公投前夕，也是風險資產走揚，但投票當天卻因脫歐陣營意外強大，導致股市、新興市場和商品瞬間急轉直下、避險資產急漲'
import re
re.split('、|，', sentence )

['但今日亞洲盤亞股',
 '日圓',
 '金價走勢',
 '卻反映投資人還是不敢肯定希拉蕊必定勝選',
 '畢竟5個月前英脫歐公投前夕',
 '也是風險資產走揚',
 '但投票當天卻因脫歐陣營意外強大',
 '導致股市',
 '新興市場和商品瞬間急轉直下',
 '避險資產急漲']

In [43]:
def ngram(sentence, n = 2):
    word_list  = [] 
    sentence_split = re.split('、|，|。', sentence)
    for s in sentence_split:
        for i in range(0, len(s) - n + 1):
            word_list.append(s[i:i+n])
    return Counter(word_list)

In [44]:
s = '卻反映投資人還是不敢肯定希拉蕊必定勝選'
''.join(s.split('希拉蕊'))

'卻反映投資人還是不敢肯定必定勝選'

In [45]:
def removeKey(text, keyword):
    textAry= text
    for key in keyword:
        textAry = ''.join(textAry.split(key))
    return textAry

In [50]:
sentence = '''
在山上遇到車子出現問題，真的是欲哭無淚，但這個幸運的車主遇到了超暖師生，讓他順利脫困。
車主在臉書《爆料公社》發文表示，本月7日在新竹司馬庫斯時，右前輪突然破了沒氣，當他正急得像熱鍋上的螞蟻時，正好巧遇南港高工汽修科的師生，「師生得知後立即捲起袖子，用自己的補胎工具，熟練的將輪胎缷下進行補胎工作，對於南港高工的熱忱及慷慨解危，感到非常感激。」
車主表示，因為港工汽修科師生的幫忙，他才能順利回到溫暖的家，但對於耽誤師生和司機回鄉的時間感到很抱歉。
網友看了大讚「老師學生都很棒~感謝你們讓台灣感到很溫暖」、「神救援」、「你遇到最美麗風景，他們學到最棒的經驗」、「巧遇汽修科的同學 這是要多幸運的幸運」、「剛好現場教學，學以致用。」（即時新聞中心／綜合報導）
'''

In [52]:
keywords = []
# ngram 從 4 到 2
for n in range(4,1,-1):
    # 移除關鍵詞
    new_sentence   = removeKey(sentence, keywords)
    # 切ngram
    sentence_token = ngram(new_sentence, n)
    for token, cnt in sentence_token.items():
        # 將超過閥值的資料加入keywords 字典中
        if cnt >= 3:
            keywords.append(token)
keywords


['汽修科', '感到', '遇到', '幸運', '車主', '師生']

## 統計字詞出現頻率

In [60]:
jieba.load_userdict('userdict.txt')
s = '''美國民主黨總統候選人希拉蕊‧柯林頓(Hillary Clinton)陣營1名助理表示，約4萬名群眾7日湧入費城的美國獨立紀念館(Independence Mall)，參加希拉蕊的造勢活動，同時希拉蕊的夫婿柯林頓(Bill Clinton)、歐巴馬總統與妻子蜜雪兒也都出席這場造勢活動。
搖滾歌手布魯斯史普林斯汀(Bruce Springsteen)與邦喬飛(Jon Bon Jovi)都在費城這場活動上表演。這是希拉蕊選前最後一天的倒數第二場群眾造勢活動。
競選助理向隨行記者表示，這次的參與人數創下了希拉蕊陣營的新紀錄，先前的紀錄是在俄亥俄州的1場造勢活動，吸引了1萬8,500人參加'''
word_list = []
for word in jieba.cut(s):
    word_list.append(word)


In [62]:
from collections import Counter
c = Counter(word_list)

for word, cnt in c.most_common(100):
    if len(word)>=2 and cnt >= 2:
        print(word, cnt)

活動 5
希拉蕊 5
造勢 3
美國 2
Clinton 2
陣營 2
助理 2
柯林頓 2
參加 2
這場 2
表示 2
費城 2


## 分析多篇文章的詞頻

In [63]:
import pandas
news = pandas.read_excel('news.xlsx')

In [68]:
word_list = []
for article in news.content:
    for word in jieba.cut(article):
        word_list.append(word)

In [72]:
from collections import Counter
c = Counter(word_list)
for word, cnt in c.most_common(100):
    if len(word)>=2 and cnt >= 2:
        print(word, cnt)

報導 243
表示 222
台北 147
10 143
時間 113
警方 108
希拉蕊 106
總統 105
調查 103
中心 103
目前 99
台灣 94
今天 92
網友 86
可以 86
今年 84
自己 84
更新 82
政府 82
食品 80
可能 79
發現 79
因為 79


## 計算 TF-IDF


In [75]:
a, abb, abc = ["a"], ["a", "b", "b"], ["a", "b", "c"]
D = [a, abb, abc]

1.0 0.0
0.0


In [None]:
# print(tfidf("a", a, D))
import scipy as sp
tf  = 1 / 1
idf = sp.log(3 / 3 )

print(tf, idf)
print(tf * idf)

In [77]:
#print(tfidf("b", abb, D))
tf = 2 / 3
idf = sp.log(3 / 2)
print(tf*idf)

0.270310072072


In [78]:
#print(tfidf("a", abc, D))
0

0

In [79]:
#print(tfidf("b", abc, D))
tf = 1 / 3
idf = sp.log(3 / 2)
print(tf*idf)

0.135155036036


In [81]:
#print(tfidf("c", abc, D))
tf = 1 / 3
idf = sp.log(3 / 1)
print(tf*idf)

0.366204096223


In [86]:
import scipy as sp
def tfidf(t, d, D):
    tf = float(d.count(t)) / sum(d.count(w) for w in set(d))
    idf = sp.log(float(len(D)) / (len([doc for doc in D if t in doc])))
    return tf * idf
print(tfidf("a", a, D))
print(tfidf("b", abb, D))
print(tfidf("a", abc, D))
print(tfidf("b", abc, D))
print(tfidf("c", abc, D))

0.0
0.270310072072
0.0
0.135155036036
0.366204096223


## 計算詞頻矩陣

In [91]:
import jieba
jieba.load_userdict('userdict.txt')
ary = ['【更新】柯P：洪智坤洩漏公文案還沒看到公文　今處理',
       '留洪智坤 柯：殘障求職不易',
       '人事處議處洪智坤　柯P：不清楚議處結果']

corpus = []
for title in ary:
    corpus.append(' '.join(jieba.cut(title)))


In [92]:
corpus

['【 更新 】 柯P ： 洪智坤 洩漏 公文 案還 沒 看到 公文 \u3000 今處理',
 '留 洪智坤   柯 ： 殘障 求職 不易',
 '人事處 議處 洪智坤 \u3000 柯P ： 不 清楚 議處 結果']

## 使用CountVectorizer 計算詞頻矩陣

In [98]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer() 
X = vectorizer.fit_transform(corpus)

word = vectorizer.get_feature_names() 
#for w in word:
#    print(w,)
print(' '.join(word))
print(X.toarray())

不易 人事處 今處理 公文 更新 柯p 案還 殘障 求職 洩漏 洪智坤 清楚 看到 結果 議處
[[0 0 1 2 1 1 1 0 0 1 1 0 1 0 0]
 [1 0 0 0 0 0 0 1 1 0 1 0 0 0 0]
 [0 1 0 0 0 1 0 0 0 0 1 1 0 1 2]]


## 使用TFIDF Transformer 計算 TF-IDF

In [99]:
from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer()
tfidf  = transformer.fit_transform(X)
weight = tfidf.toarray()    
print(weight)


[[ 0.          0.          0.31738473  0.63476946  0.31738473  0.24137927
   0.31738473  0.          0.          0.31738473  0.18745253  0.
   0.31738473  0.          0.        ]
 [ 0.54645401  0.          0.          0.          0.          0.          0.
   0.54645401  0.54645401  0.          0.32274454  0.          0.          0.
   0.        ]
 [ 0.          0.35517252  0.          0.          0.          0.27011786
   0.          0.          0.          0.          0.20977061  0.35517252
   0.          0.35517252  0.71034504]]


In [100]:
tfidf

<3x15 sparse matrix of type '<class 'numpy.float64'>'
	with 18 stored elements in Compressed Sparse Row format>

In [105]:
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(tfidf[0], tfidf)
#cosine_similarity(tfidf, tfidf)
cosine_similarities = cosine_similarity(tfidf[0], tfidf).flatten()
print(cosine_similarities)


[ 1.          0.06049928  0.10452288]


In [106]:
related_docs_indices = cosine_similarities.argsort()[::-1]
for index in related_docs_indices:
    print(ary[index])


【更新】柯P：洪智坤洩漏公文案還沒看到公文　今處理
人事處議處洪智坤　柯P：不清楚議處結果
留洪智坤 柯：殘障求職不易


In [128]:
a = [2,3,1,4,5]
a.sort()
print(a)

[1, 2, 3, 4, 5]


In [161]:
import numpy as np
a = [2,3,1,4,5]
b = np.array(a).argsort()[-2::-1]
print(b)

[3 1 0 2]


## 找出最類似文章

In [108]:
import pandas
news = pandas.read_excel('news.xlsx')
#news.head()

In [135]:
corpus = []
titles = []
for article in news.iterrows():
    titles.append(article[1].title)
    corpus.append(' '.join(jieba.cut(article[1].content)))

In [136]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer() 
X = vectorizer.fit_transform(corpus)

In [137]:
from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer()
tfidf  = transformer.fit_transform(X)
weight = tfidf.toarray()   

In [151]:
from sklearn.metrics.pairwise import cosine_similarity

cosine_similarities = cosine_similarity(tfidf[8], tfidf).flatten()
related_docs_indices = cosine_similarities.argsort()[-2::-1]

for idx in related_docs_indices:
    if cosine_similarities[idx] > 0.05:
        print(titles[idx], cosine_similarities[idx])

【央廣RTI】選前拋震撼彈 夢工廠巨頭批...(46) 1.0
【央廣RTI】FBI維持不起訴 川普舊調...(985) 0.305619577147
【法廣RFI】 FBI: 電郵門新調查維...(1095) 0.302779689415
希拉蕊電郵案解套　川普怒批FBI(2569) 0.274209134022
【央廣RTI】FBI維持不起訴希拉蕊 墨...(930) 0.264437276947
FBI仍建議不起訴希拉蕊　但傷害已造成(5197) 0.25274064567
【大選片】再查電郵門結果出爐　FBI維持...(56967) 0.236939059422
​美國大選前最新民調　希拉蕊仍領先川普(2285) 0.181472150818
【央廣RTI】若希拉蕊當選 如何稱呼柯林...(56) 0.178684438567
【法廣RFI】川普“竟跑”五個州 希拉蕊...(2470) 0.155995348849
【央廣RTI】大選衝刺 NBA球星詹皇為...(832) 0.140339552229
【美國大選專題】美國史上首位第一先生？(2707) 0.122368752005
【站台片】詹皇忙裡偷閒　幫希拉蕊拉票(3529) 0.0938148451754
觀望美國大選　台幣匯價早盤陷入整理(1086) 0.0742889451802
【民報】有影沒？美頂尖史學家預測川普20...(3051) 0.0741746574282
美國重燃「希」望　避險資產日圓、黃金回跌(2298) 0.0730760173042
【央廣RTI】尼加拉瓜總統大選 奧蒂嘉夫...(391) 0.0686146854748
美總統誰當選？　彭勝竹引美媒體說「用槍自...(2788) 0.0617650408965
電郵門大轉折　台股開高重返9100點(1892) 0.0572423445437
【有片】權值股領軍　台股大漲121點收復...(929) 0.0536958838488


## 建立找尋最相關文章函式

In [162]:
from sklearn.metrics.pairwise import cosine_similarity


def getSimiliarArticle(articleid):
    print('[查詢文章]:{}'.format(titles[articleid]))
    cosine_similarities = cosine_similarity(tfidf[articleid], tfidf).flatten()
    related_docs_indices = cosine_similarities.argsort()[-2::-1]

    for idx in related_docs_indices:
        if cosine_similarities[idx] > 0.05:
            print('[相關文章]:{} {}'.format(titles[idx], cosine_similarities[idx]))

In [174]:
getSimiliarArticle(30)

[查詢文章]:經營職棒比想像複雜　年輕球員將多加薪(3054)
[相關文章]:富邦正式成軍　吉祥物不是老鷹(6526) 0.292471981520166
[相關文章]:補強考慮他隊球員　前興農牛成員將加入(1527) 0.16033741004420532
[相關文章]:富邦勇士吉祥物「籃球保護者」亮相　雄赳赳...(916) 0.13429499363157807
[相關文章]:世界大賽2球星與建仔隊友　有可能被交易(12768) 0.064655878392021
[相關文章]:今天立冬　鄭明典：明天降溫有感(2894) 0.06445545755372571
[相關文章]:【有玄機】今天立冬　達人教你這樣做(5399) 0.06237794539515276
[相關文章]:【天氣片】今立冬高溫飆30℃　周三起北台...(4128) 0.057752093572872754
[相關文章]:評兩岸關係　彭勝竹：外弛內張且持續壓迫我...(760) 0.051283100064320734


In [182]:
from xml.dom   import minidom
from xml.etree import ElementTree
import jieba.analyse

with open('1435449602.xml', 'r', encoding='utf-8') as f:
    events = ElementTree.fromstring(f.read())

corpus = []
ary    = []
for elem in events.findall('./channel/item'):
    title       = elem.find('title').text
    description = elem.find('description').text
    word_list = []
    
    ary.append(title)
    for word in jieba.cut(description):
        if re.match('[\u4e00-\u9fa5]+', word):
            word_list.append(word)
    corpus.append(' '.join(word_list))


In [191]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer() 
X = vectorizer.fit_transform(corpus)

In [192]:
from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer()
tfidf  = transformer.fit_transform(X)
weight = tfidf.toarray()   

In [195]:
word = vectorizer.get_feature_names() 
#print(' '.join(word))

In [194]:
weight.shape

(147, 12248)

In [198]:
from sklearn.metrics.pairwise import cosine_similarity
n_cosine_similarities = cosine_similarity(tfidf, tfidf)

In [200]:
n_cosine_similarities

array([[ 1.        ,  0.10502505,  0.00455773, ...,  0.11666613,
         0.01667092,  0.01242793],
       [ 0.10502505,  1.        ,  0.0153138 , ...,  0.10593473,
         0.01586742,  0.00795129],
       [ 0.00455773,  0.0153138 ,  1.        , ...,  0.00857993,
         0.        ,  0.        ],
       ..., 
       [ 0.11666613,  0.10593473,  0.00857993, ...,  1.        ,
         0.01689612,  0.01757607],
       [ 0.01667092,  0.01586742,  0.        , ...,  0.01689612,
         1.        ,  0.21282872],
       [ 0.01242793,  0.00795129,  0.        , ...,  0.01757607,
         0.21282872,  1.        ]])

In [201]:
from sklearn import cluster
c = cluster.KMeans(n_clusters=4)
k_data = c.fit_predict(weight)


In [226]:
clusters = np.where(k_data == 3)[0].tolist()
for idx in clusters:
    print(ary[idx])

江蕙得「特別貢獻獎」 感恩金曲肯定她
羅志祥哭了 蔡依林讚表現很好
蔡依林淚奪金曲 錦榮傳訊恭喜
陳奕迅、張惠妹稱王封后  蔡依林抱回最大獎
陳奕迅、莫文蔚伴侶均不知阿娜答金曲獲獎
金曲26／陳奕迅二度擊敗張學友　濕身奪歌王
金曲26／蔡依林擒３獎大勝　淚崩再挺婚姻平權
金曲26／張惠妹奪歌后卻失落　要世界感受彩虹力量
金曲26／蔡依林淚奪最佳專輯＋完整得獎名單
僅次Jolin！徐佳瑩入圍6獎全槓被封遺珠
金曲最風光！蔡依林紅毯全勝又獲3獎成大贏家
張惠妹3度封后  想破江蕙紀錄
金曲26／陳奕迅稱王謝台灣　張惠妹封后秒噴淚
蔡依林呸大贏家  金曲最佳專輯獎
陳奕迅二度打敗歌神  金曲歌王好嗨
金曲獎完整得獎名單！阿妹封后 陳奕迅稱王
第26屆金曲獎 陳奕迅奪歌王、阿妹封歌后
金曲最佳國語專輯：呸
《金曲26》2015金曲獎得獎名單 線上直播懶人包


## 讀取新聞資料

In [237]:
import sqlite3
with sqlite3.connect('news.sqlite') as db:
    cur = db.cursor()
    cur.execute('select title, summary, category from news_entry')
    allNews = cur.fetchall()


In [243]:
corpus  = []
ary     = []
tags    = []
for rec in allNews:
    if (rec[2] == '娛樂') or (rec[2] == '社會'):
        ary.append(rec[0])
        corpus.append(' '.join(jieba.cut(rec[1])))
        tags.append(rec[2])

In [245]:
#tags

In [246]:
import jieba
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer() 
X = vectorizer.fit_transform(corpus)
word = vectorizer.get_feature_names() 


In [273]:
from sklearn.cross_validation import train_test_split
train_data, test_data, train_tag, test_tag = train_test_split(X, tags, test_size=0.50, random_state=42)
train_title2, test_title2, train_tag2, test_tag2= train_test_split(ary, tags, test_size=0.50, random_state=42)

In [249]:
X.shape

(346, 17234)

In [251]:
train_data.shape

(173, 17234)

In [254]:
len(train_tag)

173

In [255]:
test_data.shape

(173, 17234)

In [256]:
len(test_tag)

173

In [257]:
from sklearn.naive_bayes import MultinomialNB

clf = MultinomialNB(alpha=0.01)
clf.fit(train_data,train_tag)


MultinomialNB(alpha=0.01, class_prior=None, fit_prior=True)

In [258]:
pred = clf.predict(test_data)

In [262]:
from sklearn.metrics import confusion_matrix 
#test_tag
#pred
confusion_matrix(test_tag, pred)

array([[ 56,   1],
       [  2, 114]])

In [263]:
from sklearn.metrics import accuracy_score
accuracy_score(test_tag, pred)

0.98265895953757221

In [274]:
for idx, w in enumerate(zip(test_tag, pred)):
    if w[0] != w[1]:
        print(idx, w, test_title2[idx])

44 ('社會', '娛樂') 曾自爆和死亡擦身　李敖現身北檢裝神祕
60 ('娛樂', '社會') 直擊黃安新竹喝咖啡　網友：早知就點熱咖啡
172 ('社會', '娛樂') 【公庫】帶孩子回安全的家 賈靜雯擔任受暴...
