## 使用正規表達法斷詞

In [6]:
import re
article = '''氣候變遷讓登革熱成為各國公共衛生的燙手山芋，前年在國內造成4萬多例感染，228人死亡的嚴重疫情，尤其是台南市成疫情重災區，時任台南市長的行政院長賴清德今早出席「登革熱國際防治論壇」，表達對防疫的重視。他強調，登革熱防疫須有對策，否則疫情不會僅限於南台灣，國內死亡病例有高齡、患慢性病等特性，與東南亞國家不同，台南經驗可供疫苗研發參考。'''
re.split('，|。|「|」|、', article)

['氣候變遷讓登革熱成為各國公共衛生的燙手山芋',
 '前年在國內造成4萬多例感染',
 '228人死亡的嚴重疫情',
 '尤其是台南市成疫情重災區',
 '時任台南市長的行政院長賴清德今早出席',
 '登革熱國際防治論壇',
 '',
 '表達對防疫的重視',
 '他強調',
 '登革熱防疫須有對策',
 '否則疫情不會僅限於南台灣',
 '國內死亡病例有高齡',
 '患慢性病等特性',
 '與東南亞國家不同',
 '台南經驗可供疫苗研發參考',
 '']

## 安裝 Jieba

In [7]:
! pip install jieba



## 使用Jieba 切詞

In [2]:
import jieba
for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認"):
    print(w)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\User\AppData\Local\Temp\jieba.cache
Loading model cost 1.153 seconds.
Prefix dict has been built succesfully.


大
巨蛋
案對
市府
同仁
下
封口令
？
　
柯
P
否認


In [3]:
import jieba
for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認", cut_all=True):
    print(w)

大
巨蛋
案
對
市府
同仁
下
封口
封口令
口令



柯
P
否
認


In [1]:
import jieba
ary = []
for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認"):
    ary.append(w)
ary

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\User\AppData\Local\Temp\jieba.cache
Loading model cost 1.114 seconds.
Prefix dict has been built succesfully.


['大', '巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯', 'P', '否認']

In [6]:
[w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")]

['大', '巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯', 'P', '否認']

In [7]:
## add_word 只有暫時生效
jieba.add_word('大巨蛋')
jieba.add_word('柯P')
[w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")]

['大巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯P', '否認']

In [9]:
import jieba
jieba.set_dictionary('dict.txt')
[w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")]
'/'.join([w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")])
print('/'.join([w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")]))

Building prefix dict from C:\Users\User\itritm\dict.txt ...
Loading model from cache C:\Users\User\AppData\Local\Temp\jieba.uf0178d4b7c79c465ac9d115367f9739d.cache
Loading model cost 0.005 seconds.
Prefix dict has been built succesfully.


大巨蛋/案對/市府/同仁下/封口令/？/　/柯P/否認


In [15]:
# method 1:
sentence = "大巨蛋案對市府同仁下封口令？　柯P否認"
' '.join(sentence.split())
[w for w in jieba.cut(' '.join(sentence.split()))]


['大巨蛋', '案對', '市府', '同仁下', '封口令', '？', ' ', '柯P', '否認']

In [16]:
# method2
sentence = "大巨蛋案對市府同仁下封口令？　柯P否認"
[w.strip() for w in jieba.cut(' '.join(sentence.split()))]

['大巨蛋', '案對', '市府', '同仁下', '封口令', '？', '', '柯P', '否認']

In [5]:
import jieba
import jieba.posseg as pseg

jieba.add_word('大巨蛋', 100, 'nr' )
words = pseg.cut("大巨蛋案對市府同仁下封口令？　柯P否認")

for w in words:
    print(w.word, w.flag)

大巨蛋 nr
案 ng
對 p
市府 n
同仁 n
下封 v
口令 n
？ x
　 x
柯P x
否認 v


In [7]:
words = jieba.tokenize("大巨蛋案對市府同仁下封口令？　柯P否認")

for tw in words:
    print(tw[0], tw[1], tw[2])


大巨蛋 0 3
案對 3 5
市府 5 7
同仁下 7 10
封口令 10 13
？ 13 14
　 14 15
柯P 15 17
否認 17 19


In [8]:
import jieba.analyse
tags = jieba.analyse.extract_tags("大巨蛋案對市府同仁下封口令？　柯P否認", 1)
print(",".join(tags))


封口令


## 拿掉中間空白

In [11]:
sentence = '        i                      love                this        book'
sentence.split()
' '.join(sentence.split())

'i love this book'

## 獲取新詞

In [10]:
import requests
from bs4 import BeautifulSoup
res =  requests.get('http://news.ltn.com.tw/news/world/breakingnews/2196565')
soup = BeautifulSoup(res.text, 'html.parser')
for keyword in soup.select('.keyword a'):
    print(keyword.text)

北韓
川普
美國
金正恩


## n-gram

In [12]:
# 2-gram : bi-gram
sentence = '那我們酸民婉君也可以報名嗎'
for i in range(0, len(sentence) - 2 + 1):
    #print(i, i + 2)
    print(sentence[i:i+2])

那我
我們
們酸
酸民
民婉
婉君
君也
也可
可以
以報
報名
名嗎


In [13]:
# 3-gram : tri-gram
sentence = '那我們酸民婉君也可以報名嗎'
for i in range(0, len(sentence) - 3 + 1):
    #print(i, i + 3)
    print(sentence[i:i+3])

那我們
我們酸
們酸民
酸民婉
民婉君
婉君也
君也可
也可以
可以報
以報名
報名嗎


In [14]:
def ngram(sentence, n = 2):
    ary = []
    for i in range(0, len(sentence) - n + 1):
        ary.append(sentence[i:i+n])
    return ary


ngram('那我們酸民婉君也可以報名嗎')

['那我', '我們', '們酸', '酸民', '民婉', '婉君', '君也', '也可', '可以', '以報', '報名', '名嗎']

## 使用Counter 統計

In [15]:
a= [1,2,3,1,2,2,3,1,2]
from collections import Counter
c = Counter(a)
c

Counter({1: 3, 2: 4, 3: 2})

In [16]:
def ngram(sentence, n = 2):
    ary = []
    for i in range(0, len(sentence) - n + 1):
        ary.append(sentence[i:i+n])
    return Counter(ary)

In [18]:
ngram('那我們酸民婉君也可以報名嗎', 3)

Counter({'也可以': 1,
         '以報名': 1,
         '們酸民': 1,
         '可以報': 1,
         '君也可': 1,
         '報名嗎': 1,
         '婉君也': 1,
         '我們酸': 1,
         '民婉君': 1,
         '那我們': 1,
         '酸民婉': 1})

In [19]:
article = '''氣候變遷讓登革熱成為各國公共衛生的燙手山芋，前年在國內造成4萬多例感染，228人死亡的嚴重疫情，尤其是台南市成疫情重災區，時任台南市長的行政院長賴清德今早出席「登革熱國際防治論壇」，表達對防疫的重視。他強調，登革熱防疫須有對策，否則疫情不會僅限於南台灣，國內死亡病例有高齡、患慢性病等特性，與東南亞國家不同，台南經驗可供疫苗研發參考。
賴清德表示，蚊子散佈疾病造成人類喪生的威脅比世界大戰還大，前年擔任台南市長面臨有史以來最嚴重的登革熱疫情，共有2萬多例病例，半數是9歲以下、55歲以上，且流行病學調查顯示，當時台南的登革熱死亡有108例，平均年齡約70歲，其中90％至少患1種慢性病。
去年6月衛福部疾管署與美國國家衛生研究院簽署合作備忘錄，將共同研發全球首款針對高齡族群的登革熱疫苗，將在台進行臨床試驗。賴說，目前政府的防疫作為主要是化學防治、孳生源清除，若登革熱疫苗能成功上市，防疫會更有效率。（蔡明樺／台北報導）'''

In [22]:
res = ngram(article, 2)
res.most_common(10)

[('登革', 7),
 ('革熱', 7),
 ('台南', 5),
 ('疫情', 4),
 ('防疫', 4),
 ('死亡', 3),
 ('南市', 3),
 ('疫苗', 3),
 ('的登', 3),
 ('熱疫', 3)]

In [23]:
res = ngram(article, 3)
res.most_common(10)

[('登革熱', 7),
 ('台南市', 3),
 ('的登革', 3),
 ('革熱疫', 3),
 ('，前年', 2),
 ('萬多例', 2),
 ('疫情，', 2),
 ('任台南', 2),
 ('南市長', 2),
 ('賴清德', 2)]

In [33]:
import re
re.split('，|。|「|」|、|\n|／|"|（|）', article)

['氣候變遷讓登革熱成為各國公共衛生的燙手山芋',
 '前年在國內造成4萬多例感染',
 '228人死亡的嚴重疫情',
 '尤其是台南市成疫情重災區',
 '時任台南市長的行政院長賴清德今早出席',
 '登革熱國際防治論壇',
 '',
 '表達對防疫的重視',
 '他強調',
 '登革熱防疫須有對策',
 '否則疫情不會僅限於南台灣',
 '國內死亡病例有高齡',
 '患慢性病等特性',
 '與東南亞國家不同',
 '台南經驗可供疫苗研發參考',
 '',
 '賴清德表示',
 '蚊子散佈疾病造成人類喪生的威脅比世界大戰還大',
 '前年擔任台南市長面臨有史以來最嚴重的登革熱疫情',
 '共有2萬多例病例',
 '半數是9歲以下',
 '55歲以上',
 '且流行病學調查顯示',
 '當時台南的登革熱死亡有108例',
 '平均年齡約70歲',
 '其中90％至少患1種慢性病',
 '',
 '去年6月衛福部疾管署與美國國家衛生研究院簽署合作備忘錄',
 '將共同研發全球首款針對高齡族群的登革熱疫苗',
 '將在台進行臨床試驗',
 '賴說',
 '目前政府的防疫作為主要是化學防治',
 '孳生源清除',
 '若登革熱疫苗能成功上市',
 '防疫會更有效率',
 '',
 '蔡明樺',
 '台北報導',
 '']

In [37]:
a = '若登革熱疫苗能成功上市'
''.join(a.split('登革熱'))


for w in ['登革熱', '疫苗']:
    a = ''.join(a.split(w))
a

'若能成功上市'

In [38]:
def removeKey(sentence, keywords):
    for keyword in keywords:
        sentence = ''.join(a.split(keyword))
    return sentence

In [39]:
removeKey('若登革熱疫苗能成功上市',['登革熱','疫苗'])

'若能成功上市'

## 長詞優先法

In [None]:
def ngram(sentence, n = 2):
    ary = []
    for i in range(0, len(sentence) - n + 1):
        ary.append(sentence[i:i+n])
    return Counter(ary)

In [98]:
def removeKey(sentence, keywords):
    for keyword in keywords:
        sentence = ''.join(sentence.split(keyword))
    return sentence

In [40]:
import re
article = '''氣候變遷讓登革熱成為各國公共衛生的燙手山芋，前年在國內造成4萬多例感染，228人死亡的嚴重疫情，尤其是台南市成疫情重災區，時任台南市長的行政院長賴清德今早出席「登革熱國際防治論壇」，表達對防疫的重視。他強調，登革熱防疫須有對策，否則疫情不會僅限於南台灣，國內死亡病例有高齡、患慢性病等特性，與東南亞國家不同，台南經驗可供疫苗研發參考。
賴清德表示，蚊子散佈疾病造成人類喪生的威脅比世界大戰還大，前年擔任台南市長面臨有史以來最嚴重的登革熱疫情，共有2萬多例病例，半數是9歲以下、55歲以上，且流行病學調查顯示，當時台南的登革熱死亡有108例，平均年齡約70歲，其中90％至少患1種慢性病。
去年6月衛福部疾管署與美國國家衛生研究院簽署合作備忘錄，將共同研發全球首款針對高齡族群的登革熱疫苗，將在台進行臨床試驗。賴說，目前政府的防疫作為主要是化學防治、孳生源清除，若登革熱疫苗能成功上市，防疫會更有效率。（蔡明樺／台北報導）'''
sentence_ary = re.split('，|。|「|」|、|\n|／|"|（|）', article)

In [51]:
keywords    = []
term_length = 4
threshold   = 5

word_counter = Counter()

for sentence in sentence_ary:
    text = removeKey(sentence, keywords)
    word_counter = word_counter + ngram(text, term_length)
    
for word, value in word_counter.items():
    #print(word, value)
    if value >= threshold:
        keywords.append(word)
        
keywords

[]

In [56]:
ngram(article, 3).most_common(10)

[('登革熱', 7),
 ('台南市', 3),
 ('的登革', 3),
 ('革熱疫', 3),
 ('，前年', 2),
 ('萬多例', 2),
 ('疫情，', 2),
 ('任台南', 2),
 ('南市長', 2),
 ('賴清德', 2)]

In [61]:
keywords    = []
threshold   = 2

for term_length in range(4, 1, -1):
    word_counter = Counter()

    for sentence in sentence_ary:
        text = removeKey(sentence, keywords)
        word_counter = word_counter + ngram(text, term_length)

    for word, value in word_counter.items():
        #print(word, value)
        if value >= threshold:
            keywords.append(word)
        
keywords

['任台南市',
 '台南市長',
 '的登革熱',
 '登革熱疫',
 '革熱疫苗',
 '若能成',
 '能成功',
 '成功上',
 '功上市',
 '若能',
 '能成']

In [63]:
import pandas
news = pandas.read_excel('news.xlsx')

In [68]:
article = ''
for rec in news.iterrows():
    article =  article + rec[1].content + ' '

In [112]:
sentence_ary = re.split('，|。|「|」|、|\n|／|"|（|）|\)|：|《', article)

In [113]:
def ngram(sentence, n = 2):
    ary = []
    for i in range(0, len(sentence) - n + 1):
        ary.append(sentence[i:i+n])
    return ary

In [114]:
keywords    = []
threshold   = 20

for term_length in range(4, 2, -1):
    #print(term_length)
    ngram_list = []

    for sentence in sentence_ary:
        text = removeKey(sentence, keywords)
        #print(ngram(text, term_length))
        ngram_list.extend(ngram(text, term_length))
        
        
    word_counter = Counter(ngram_list)
    for word, value in word_counter.items():
    #    #print(word, value)
        if value >= threshold:
            keywords.append(word)
    #print(keywords)
print(keywords)

['即時新聞', '時新聞中', '新聞中心', '綜合報導', 'one ', '綜合外電', '合外電報', '外電報導', '出版時間', '更新時間', '新增影片', '台北報導', '突發中心', '顛覆國家', '覆國家政', '國家政權', 'iPho', 'Phon', 'hone', '今天上午', '詹詠然', '世大運', '201', '粉絲團', '自己的', '0萬元', '...', '100', '的問題', '500', '沒想到', '00萬', '李明哲', '彭宇華', '蔡英文', 'iPh', '消費者', '00元', '0公里', '氣象局', '上警報', '200', '派出所', '姓男子', '在臉書', '從宜花', '行政院', '賴清德', '新北市', '地檢署', '台北市', '000', '有網友', '東南亞', '檢察官', '文言文', '童子賢', '立法院', '腳踏車']


In [94]:
type(text)

str

In [96]:
for keyword in keywords:
    print(keyword)

即時新聞
時新聞中
新聞中心
綜合報導
合報導)
one 
綜合外電
合外電報
外電報導
出版時間
版時間：
時間：0
更新時間
新時間：
時間：1
更新：新
新：新增
新增影片
台北報導
突發中心
顛覆國家
覆國家政
國家政權
iPho
Phon
hone
今天上午


## 文字雲

In [124]:
import jieba
jieba.add_word('登革熱')
article = '''氣候變遷讓登革熱成為各國公共衛生的燙手山芋，前年在國內造成4萬多例感染，228人死亡的嚴重疫情，尤其是台南市成疫情重災區，時任台南市長的行政院長賴清德今早出席「登革熱國際防治論壇」，表達對防疫的重視。他強調，登革熱防疫須有對策，否則疫情不會僅限於南台灣，國內死亡病例有高齡、患慢性病等特性，與東南亞國家不同，台南經驗可供疫苗研發參考。
賴清德表示，蚊子散佈疾病造成人類喪生的威脅比世界大戰還大，前年擔任台南市長面臨有史以來最嚴重的登革熱疫情，共有2萬多例病例，半數是9歲以下、55歲以上，且流行病學調查顯示，當時台南的登革熱死亡有108例，平均年齡約70歲，其中90％至少患1種慢性病。
去年6月衛福部疾管署與美國國家衛生研究院簽署合作備忘錄，將共同研發全球首款針對高齡族群的登革熱疫苗，將在台進行臨床試驗。賴說，目前政府的防疫作為主要是化學防治、孳生源清除，若登革熱疫苗能成功上市，防疫會更有效率。（蔡明樺／台北報導）'''

from collections import Counter
c = Counter([ele for ele in jieba.cut(article)])
for word, cnt in c.most_common(30):
    if len(word) >= 2:
        print(word, cnt)


登革熱 7
疫情 3
台南 3
前年 2
國內 2
造成 2
萬多例 2
嚴重 2
台南市 2
死亡 2
病例 2
性病 2
疫苗 2
研發 2
氣候 1
變遷 1
成為 1
各國 1


## TFIDF 計算

In [125]:
a, abb, abc = ['a'], ['a', 'b', 'b'], ['a', 'b', 'c']

In [133]:
import scipy as sp
#tfidf('a', a, D)
tf  = 1/1
idf = sp.log(3 / 3)
print(tf * idf)

#tfidf('a', abb, D)
tf  = 1 / 3
idf = sp.log(3/3)
print(tf * idf)

#tfidf('b', abb, D)
tf  = 2 / 3
idf = sp.log(3/2)
print(tf * idf)

#tfidf('a', abc, D)
tf  = 1 / 3
idf = sp.log(3/3)
print(tf * idf)

#tfidf('b', abc, D)
tf  = 1 / 3
idf = sp.log(3/2)
print(tf * idf)

#tfidf('c', abc, D)
tf  = 1 / 3
idf = sp.log(3/1)
print(tf * idf)

0.0
0.0
0.270310072072
0.0
0.135155036036
0.366204096223


In [140]:
def tfidf(term, document, Documents):
    tf  =  document.count(term)  / len(document)
    idf =  sp.log(len(Documents) / len([d for d in Documents if term in d]) ) 
    return tf * idf

tfidf('a',   a, [a,abb,abc])
tfidf('a', abb, [a,abb,abc])
tfidf('b', abb, [a,abb,abc])
tfidf('a', abc, [a,abb,abc])
tfidf('b', abc, [a,abb,abc])
tfidf('c', abc, [a,abb,abc])

0.36620409622270322

## 求得詞頻矩陣

In [151]:
import jieba
jieba.add_word('洪智坤')
jieba.add_word('公文')
jieba.add_word('殘障')
jieba.add_word('求職')
ary = ['【更新】柯P：洪智坤洩漏公文案還沒看到公文　今處理',
       '留洪智坤 柯：殘障求職不易',
       '人事處議處洪智坤　柯P：不清楚議處結果']

corpus = []
for title in ary:
    corpus.append(' '.join(jieba.cut(title)))
corpus

['【 更 新 】 柯P ： 洪智坤 洩漏 公文 案還 沒 看 到 公文 \u3000 今處理',
 '留 洪智坤   柯 ： 殘障 求職 不易',
 '人事 處議 處 洪智坤 \u3000 柯P ： 不清楚 議處 結果']

In [152]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.shape)
print(vectorizer.get_feature_names())
X.toarray()

(3, 14)
['不易', '不清楚', '人事', '今處理', '公文', '柯p', '案還', '殘障', '求職', '洩漏', '洪智坤', '結果', '處議', '議處']


array([[0, 0, 0, 1, 2, 1, 1, 0, 0, 1, 1, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0],
       [0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1]], dtype=int64)

In [153]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.shape)
print(vectorizer.get_feature_names())
X.toarray()

(3, 14)
['不易', '不清楚', '人事', '今處理', '公文', '柯p', '案還', '殘障', '求職', '洩漏', '洪智坤', '結果', '處議', '議處']


array([[ 0.        ,  0.        ,  0.        ,  0.35517252,  0.71034504,
         0.27011786,  0.35517252,  0.        ,  0.        ,  0.35517252,
         0.20977061,  0.        ,  0.        ,  0.        ],
       [ 0.54645401,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.54645401,  0.54645401,  0.        ,
         0.32274454,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.41074684,  0.41074684,  0.        ,  0.        ,
         0.31238356,  0.        ,  0.        ,  0.        ,  0.        ,
         0.2425937 ,  0.41074684,  0.41074684,  0.41074684]])

In [160]:
import numpy as np
import math
a = np.array([0, 0, 0, 1, 2, 1, 1, 0, 0, 1, 1, 0, 0, 0])
b = np.array([1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0])

math.sqrt(sum((a - b) * (a - b)))

3.3166247903554

In [None]:
a = '柯文哲去大巨蛋'
b = '柯文哲跟大巨蛋還有趙藤雄的愛怨情仇'


In [None]:
   柯文哲 大巨蛋 趙藤雄 愛怨情仇
a    1      1     0      0
b    1      1     1      1


In [162]:
a = np.array([1,1,0,0])
b = np.array([1,1,1,1])

math.sqrt(sum((a - b) * (a - b)))

a = np.array([1,1,0,0,0,0,0,0])
b = np.array([1,1,1,1,1,1,1,1])

math.sqrt(sum((a - b) * (a - b)))

2.449489742783178

## 計算餘弦相似度

In [163]:
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(corpus)

cosine_similarities = cosine_similarity(tfidf)
cosine_similarities

array([[ 1.        ,  0.06770232,  0.1352694 ],
       [ 0.06770232,  1.        ,  0.07829579],
       [ 0.1352694 ,  0.07829579,  1.        ]])

## 找出相似新聞文章

In [165]:
import pandas
news = pandas.read_excel('news.xlsx')
news.head(3)

Unnamed: 0,category,clicked,content,dt,title,url
0,體育,0,台灣女將詹詠然在美國網球公開賽奪下女雙冠軍，但仍因台北世大運棄賽，飽受批評。BBS站批踢踢的...,2017-09-11 14:12:00,暗批詹詠然沒誠信！PTT創世神：代言什麼都抵制,http://www.appledaily.com.tw/realtimenews/arti...
1,財經,9819,（新增郭董特助胡國輝今天談話、調整標題）彭博報導，在日本東芝本周三將召開董事會敲定晶片事業最...,2017-09-11 14:10:00,郭董周三決戰前再放話　鴻海追東芝出價2.1兆日圓,http://www.appledaily.com.tw/realtimenews/arti...
2,娛樂,5631,（新增：照片、內文）韓國27歲男星姜河那2013年以《繼承者們》走紅，去年在《步步驚心：麗》...,2017-09-11 14:10:00,撇入伍前夕祕會IU　姜河那IG曬剃頭照告別,http://www.appledaily.com.tw/realtimenews/arti...


In [167]:
import jieba
corpus = []
titles = []
for rec in news.iterrows():
    corpus.append(' '.join(jieba.cut(rec[1].content)))
    titles.append(rec[1].title)

In [178]:
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(corpus)

cosine_similarities = cosine_similarity(tfidf)
cosine_similarities

array([[ 1.        ,  0.00779497,  0.01039051, ...,  0.02237498,
         0.00350381,  0.01527563],
       [ 0.00779497,  1.        ,  0.01174235, ...,  0.00581945,
         0.0012697 ,  0.01950113],
       [ 0.01039051,  0.01174235,  1.        , ...,  0.00460205,
         0.00316098,  0.01178243],
       ..., 
       [ 0.02237498,  0.00581945,  0.00460205, ...,  1.        ,
         0.00151298,  0.00607013],
       [ 0.00350381,  0.0012697 ,  0.00316098, ...,  0.00151298,
         1.        ,  0.01449557],
       [ 0.01527563,  0.01950113,  0.01178243, ...,  0.00607013,
         0.01449557,  1.        ]])

In [181]:
titles_ary = np.array(titles)

In [185]:
orders = cosine_similarities[0].argsort()[::-1]
for p in orders:
    if  cosine_similarities[0][p] > 0.07:
        print(titles_ary[p], cosine_similarities[0][p])

暗批詹詠然沒誠信！PTT創世神：代言什麼都抵制 1.0
他尊重詹詠然選擇　「嫁給富人放棄窮光蛋」 0.10343532895
詹詠然道歉你接受嗎？　網友12字神翻譯 0.0757411005594


In [191]:
def getSimiliarArticle(i):
    print('查詢文章:',titles_ary[i])
    orders = cosine_similarities[i].argsort()[::-1]
    for p in orders[1:]:
        if  cosine_similarities[i][p] > 0.07:
            print('相似文章', titles_ary[p], cosine_similarities[i][p])
getSimiliarArticle(20)

查詢文章: 爛醉男譙警四字經　酒醒掰「甘草二兩」
相似文章 藏毒裝傻　遇警小碎步撒嬌求情 0.113370176245
相似文章 暖心女警一句話　毒蟲悔改「不吸毒了！」 0.098588882687


In [175]:
import numpy as np
a = np.array([2,5,1,3,4])
a.sort()
a

array([1, 2, 3, 4, 5])

In [176]:
import numpy as np
a = np.array([2,5,1,3,4])
a.argsort()

array([2, 0, 3, 4, 1], dtype=int64)

In [115]:
! pip install dropbox

Collecting dropbox
  Downloading dropbox-8.1.0-py3-none-any.whl (409kB)
Installing collected packages: dropbox
Successfully installed dropbox-8.1.0


In [118]:
import dropbox
dbx = dropbox.Dropbox("P0WwXruYdEAAAAAAAAAAPqADpa05avlMfXW2DhxDponbgq8Or35N_F6MIcyPelKn")
dbx.users_get_current_account()

FullAccount(account_id='dbid:AACwOVPyOea2APkiEiVdHVspbRqDEtadhxw', name=Name(given_name='David', surname='Chiu', familiar_name='Chiu David', display_name='Chiu David', abbreviated_name='CD'), email='david@largitdata.com', email_verified=True, disabled=False, locale='zh-TW', referral_link='https://db.tt/rCzKvypNYl', is_paired=False, account_type=AccountType('basic', None), profile_photo_url=None, country='TW', team=None, team_member_id=None)