## Python Basic

In [3]:
a = 3
b = 2
a + b

5

## 英文斷詞

In [4]:
s = 'this is a book'
s.split()

['this', 'is', 'a', 'book']

## 正規表達法斷句

In [5]:
news = '''
被視為美食聖經的《米其林指南》，在3月7日發布台北版「必比登推介」（Bib Gourmand）美食，共36家平價美食店家入選，包括：臭豆腐、藥燉排骨、麻油雞等道地的夜市小吃，也有8家國民美食牛肉麵入選，鼎泰豐、點水樓等名店也沒缺席。
'''

In [10]:
import re
re.split('，|：|、|「|」',news)

['\n被視為美食聖經的《米其林指南》',
 '在3月7日發布台北版',
 '必比登推介',
 '（Bib Gourmand）美食',
 '共36家平價美食店家入選',
 '包括',
 '臭豆腐',
 '藥燉排骨',
 '麻油雞等道地的夜市小吃',
 '也有8家國民美食牛肉麵入選',
 '鼎泰豐',
 '點水樓等名店也沒缺席。\n']

## 安裝 Jieba
- pip install jieba

In [11]:
! pip install jieba



In [12]:
import jieba
s = "大巨蛋案對市府同仁下封口令？　柯P否認"
seg = jieba.cut(s)

In [13]:
seg

<generator object Tokenizer.cut at 0x00000000050220A0>

In [14]:
list(seg)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\User\AppData\Local\Temp\jieba.cache
Loading model cost 1.299 seconds.
Prefix dict has been built succesfully.


['大', '巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯', 'P', '否認']

In [15]:
import jieba
s = "大巨蛋案對市府同仁下封口令？　柯P否認"
seg = jieba.cut(s)
'/'.join(seg)

'大/巨蛋/案對/市府/同仁/下/封口令/？/\u3000/柯/P/否認'

## 處理英文資料 (NLTK)
- pip install nltk

In [16]:
! pip install nltk



In [18]:
import nltk
sentence = "At eight o'clock on Thursday morning Arthur didn't feel very good"
tags = nltk.word_tokenize(sentence)
tags

['At',
 'eight',
 "o'clock",
 'on',
 'Thursday',
 'morning',
 'Arthur',
 'did',
 "n't",
 'feel',
 'very',
 'good']

In [19]:
tagged = nltk.pos_tag(tags)
tagged

[('At', 'IN'),
 ('eight', 'CD'),
 ("o'clock", 'NN'),
 ('on', 'IN'),
 ('Thursday', 'NNP'),
 ('morning', 'NN'),
 ('Arthur', 'NNP'),
 ('did', 'VBD'),
 ("n't", 'RB'),
 ('feel', 'VB'),
 ('very', 'RB'),
 ('good', 'JJ')]

In [20]:
import nltk.stem
s= nltk.stem.SnowballStemmer('english')
print(s.stem("graphics"))

print(s.stem("imaging"))
print(s.stem("image"))
print(s.stem("imagination"))
print(s.stem("imagine"))

graphic
imag
imag
imagin
imagin


In [22]:
from nltk.corpus import stopwords 
sw = stopwords.words('english')
#sw

## 使用Jieba 斷詞

In [25]:
import jieba
s = "大巨蛋案對市府同仁下封口令？　柯P否認"
# 全模式
seg = jieba.cut(s, cut_all=True)
print(list(seg))

['大', '巨蛋', '案', '對', '市府', '同仁', '下', '封口', '封口令', '口令', '', '', '', '柯', 'P', '否', '認']


In [26]:
# 精準模式
seg = jieba.cut(s)
print(list(seg))

['大', '巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯', 'P', '否認']


In [32]:
jieba.load_userdict('userdict.txt')
seg = jieba.cut(s)
print(list(seg))

['大巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯P', '否認']


In [33]:
import jieba.posseg as pseg
words = pseg.cut(s)

In [34]:
list(words)

[pair('大巨蛋', 'n'),
 pair('案', 'ng'),
 pair('對', 'p'),
 pair('市府', 'n'),
 pair('同仁', 'nr'),
 pair('下', 'f'),
 pair('封口令', 'n'),
 pair('？', 'x'),
 pair('\u3000', 'x'),
 pair('柯P', 'n'),
 pair('否認', 'v')]

In [35]:
words = jieba.tokenize(s)

for tw in words:
    print(tw[0], tw[1], tw[2])

大巨蛋 0 3
案對 3 5
市府 5 7
同仁 7 9
下 9 10
封口令 10 13
？ 13 14
　 14 15
柯P 15 17
否認 17 19


## 使用網路爬蟲抓取自由時報關鍵字

In [40]:
import requests
from bs4 import BeautifulSoup
res = requests.get('http://news.ltn.com.tw/news/politics/breakingnews/2360857')
soup = BeautifulSoup(res.text, 'lxml')
with open('userdict.txt', 'a', encoding='utf-8') as f:
    f.write('\n')
    for rec in soup.select('.keyword a'):
        f.write(rec.text+'\n')

## 切n-gram 

In [42]:
s = '那我們酸民婉君也可以報名嗎?'
s[0:2]

'那我'

In [43]:
s[1:3]

'我們'

In [46]:
s[len(s) - 2: len(s) ]

'嗎?'

In [48]:
# bi-gram: 2-gram
for i in range(0, len(s) - 2 + 1):
    print(s[i:i+2])

那我
我們
們酸
酸民
民婉
婉君
君也
也可
可以
以報
報名
名嗎
嗎?


In [49]:
# tri-gram: 3-trim
for i in range(0, len(s) - 3 + 1):
    print(s[i:i+3])

那我們
我們酸
們酸民
酸民婉
民婉君
婉君也
君也可
也可以
可以報
以報名
報名嗎
名嗎?


In [55]:
def ngram(input_sentence, n = 2):
    ret = []
    for i in range(0, len(input_sentence) - n + 1):
        ret.append(input_sentence[i:i+n])
    return ret

In [56]:
s

'那我們酸民婉君也可以報名嗎?'

In [57]:
ngram(s, 2)

['那我', '我們', '們酸', '酸民', '民婉', '婉君', '君也', '也可', '可以', '以報', '報名', '名嗎', '嗎?']

In [58]:
ngram(s, n= 3)

['那我們',
 '我們酸',
 '們酸民',
 '酸民婉',
 '民婉君',
 '婉君也',
 '君也可',
 '也可以',
 '可以報',
 '以報名',
 '報名嗎',
 '名嗎?']

In [59]:
news = '''
〔即時新聞／綜合報導〕新制《勞基法》已於本月開始上路，但時代力量、社民黨及勞工、學生團體認為勞基法修惡，現已著手整合不同版本的《勞基法》複決公投提案，欲在年底「公投綁大選」翻案。據悉，已由「勞權公投聯盟」的版本出線！

 5月1日勞動節大遊行時，勞基法複決公投預計也會被列為今年活動主軸之一。（資料照，記者陳鈺馥攝）
5月1日勞動節大遊行時，勞基法複決公投預計也會被列為今年活動主軸之一。（資料照，記者陳鈺馥攝）

綜合媒體報導，時代力量、社民黨、醫勞盟日前曾開會討論此事，時代力量立委徐永明指出，時代力量不堅持自己的提案版本，而希望透過相互整合及各自努力，加速完成下階段的連署。

公投連署成案須至少28萬份連署書的最低門檻，預計3月底展開連署，勞權公投聯盟（簡稱勞公聯）則訂出「希望獨立完成30萬份連署」目標。徐永明認為這會是第三勢力新的合作模式：議題彼此相互整合，共同擴大支持範圍。支持範圍愈大，相信也會反映在年底的選舉結果。

醫勞盟理事長儲寧瑋表示，醫勞盟的立場是希望極力促成11/24廢止過勞勞基法的公投，因此不會堅持自己的提案。兩個團體也都允諾會全力衝刺第二階段連署書收集。

勞工部分預計4、5月將「組織動員」，由各地工會、勞工團體爭取基層勞工支持連署，5月1日勞動節大遊行時，勞基法複決公投預計也會被列為今年活動主軸之一。

反教育商品化聯盟成員謝毅弘表示，5、6月間將到各校宣傳及擺攤蒐集連署書，7月放暑假後，則會組團到全台環島串連，趕在8月底前累積30萬份連署書。
'''

In [66]:
words = ngram(news,2)

## 使用字典方式做統計

In [67]:
dic = {}
for w in words:
    if w not in dic:
        dic[w] = 1
    else:
        dic[w] = dic[w] + 1 

In [71]:
import operator
swd = sorted(dic.items(), key = operator.itemgetter(1), reverse=True)
swd[1:10]

[('連署', 9),
 ('勞基', 7),
 ('基法', 7),
 ('\n\n', 6),
 ('預計', 5),
 ('。\n', 5),
 ('時代', 4),
 ('代力', 4),
 ('力量', 4)]

In [72]:
words = ngram(news,3)

In [73]:
dic = {}
for w in words:
    if w not in dic:
        dic[w] = 1
    else:
        dic[w] = dic[w] + 1 

In [74]:
import operator
swd = sorted(dic.items(), key = operator.itemgetter(1), reverse=True)
swd[1:10]

[('時代力', 4),
 ('代力量', 4),
 ('複決公', 4),
 ('決公投', 4),
 ('。\n\n', 4),
 ('連署書', 4),
 ('5月1', 3),
 ('月1日', 3),
 ('1日勞', 3)]

In [65]:
a = [1,2,3,2,2,1]
dic2 = {}
for l in a:
    if l not in dic2:
        dic2[l] = 1
    else:
        dic2[l] = dic2[l] + 1
dic2

{1: 2, 2: 3, 3: 1}

## 使用 Counter 統計詞頻
- https://docs.python.org/3.6/library/collections.html

In [76]:
from collections import Counter
a = [1,2,3,2,2,1]
c = Counter(a)
c

Counter({1: 2, 2: 3, 3: 1})

In [77]:
c.most_common(3)

[(2, 3), (1, 2), (3, 1)]

In [78]:
words = ngram(news,3)
c = Counter(words)
c.most_common(5)

[('勞基法', 7), ('時代力', 4), ('代力量', 4), ('複決公', 4), ('決公投', 4)]

In [79]:
words = ngram(news,4)
c = Counter(words)
c.most_common(5)

[('時代力量', 4), ('複決公投', 4), ('5月1日', 3), ('月1日勞', 3), ('1日勞動', 3)]

In [80]:
words = ngram(news,2)
c = Counter(words)
c.most_common(5)

[('公投', 9), ('連署', 9), ('勞基', 7), ('基法', 7), ('\n\n', 6)]

## 長詞優先法

In [88]:
import re
sentenceAry = re.split('，|。|（|）|〕|〔|／|《|》|、|」|！|「|：',news)

In [90]:
#sentenceAry

In [91]:
a = '比特幣期貨 美核准上市'
a.replace('比特幣', '')

'期貨 美核准上市'

In [94]:
def removeKey(text, keywords):
    ret = text
    for word in keywords:
        ret = ret.replace(word, '')
    return ret

removeKey(a, ['比特幣', '核准', '期貨'])

' 美上市'

In [100]:
a = [1,2,3]
b = [2,3,4]
a.append(b)
a

[1, 2, 3, [2, 3, 4]]

In [101]:
a = [1,2,3]
b = [2,3,4]
a.extend(b)
a

[1, 2, 3, 2, 3, 4]

In [104]:
keywords = []

for n in range(4,1,-1):
    #print(n)
    words = []
    for sentence in sentenceAry:
        text_list = removeKey(sentence, keywords)
        words.extend(ngram(text_list, n))
    c = Counter(words)
    for word, cnt in c.items():
        if cnt >= 4:
            keywords.append(word)
keywords


['時代力量', '複決公投', '勞基法', '連署書', '勞工', '公投', '\n\n', '5月', '預計', '也會', '連署']

## 建立一長詞優先處理函數

In [107]:
news = '''
位於大直區的教父牛排，日前已證實收到米其林邀請函出席3/14(三)媒體發佈會與晚宴，台北君品酒店以粵菜為主打的頤宮中餐廳也同樣證實已在邀請行列。消息一出，台北君品酒店的行銷公關副理王懿萱則低調表示，頤宮目前正值後場整修調整中，預定3/13起可重新開放，接受顧客訂位，3/14並會與主廚前往米其林指南的媒體發佈會。
 
在台灣牛排界赫赫有名的鄧有癸，曾打造國賓A CUT牛排館與維多利雅NO168 PRIME等知名頂級牛排館，一向以引領食尚風潮著稱，連教父牛排Danny’s Steakhouse在2013開幕當時，店內引進的美國木香烤爐更是全台唯一。已於3/2即獲得邀函的鄧有癸也謙稱，無論封星與否，一切功勞都要感謝旗下工作同仁與得力主廚吳曉芳。
 
採炭火直烤的方式十分考驗主廚功力外，鄧師傅的得力左右手吳曉芳行政總主廚也為大直店嚴格把關，極受歡迎的頂級老饕牛排、菲力老饕牛排或溫煮龍蝦、每日鮮魚等都是店內極受歡迎的主要菜式。
 
鄧有癸說：「上蓋肉乃選自美國肋眼的精華部位，每7公斤才能取下約1公斤的份量，其肉質不但頗具嚼勁，更有細緻的油花與飽滿風味。」即便每客老饕牛排3080元(6oz)要價不斐，但店內仍有不少熟客定期報到，更常見情侶約會選在此處品味頂級牛排風味。(林沛縈／台北報導)
'''

In [115]:
import re
def longTermFirst(news, keywords, threshold):
    sentenceAry = re.split('，|。|（|）|〕|〔|／|《|》|、|」|！|「|：',news)

    for n in range(4,1,-1):
        words = []
        for sentence in sentenceAry:
            text_list = removeKey(sentence, keywords)
            words.extend(ngram(text_list, n))
            
        c = Counter(words)
        for word, cnt in c.items():
            m = re.match('^[\u4e00-\u9fa5]+$', word)
            if (cnt >= threshold) and m:
                keywords.append(word)
    return keywords
    

In [120]:
longTermFirst(news, [],3)

['老饕牛排', '鄧有癸', '牛排', '台北', '主廚', '頂級', '店內']

## 使用正規表達法篩選中文字詞

In [114]:
words = ['老饕牛排', '3/1', '\n \n', '鄧有癸', '牛排', '台北', '主廚', '頂級', '店內']

import re
for w in words:
    m = re.match('^[\u4e00-\u9fa5]+$', w)
    if m:
        print(w)

老饕牛排
鄧有癸
牛排
台北
主廚
頂級
店內


## 詞頻統計

In [121]:
article = '''
一、積極促進在投資和經濟合作領域加快給予台資企業與大陸企業同等待遇
1. 台灣同胞在大陸投資的企業 (以下簡稱「台資企業」) 參與「中國製造 2025」行動計劃適用與大陸企業同等政策。支持台商來大陸投資設立高端製造、智能製造、綠色製造等企業並設立區域總部和研發設計中心，相應享受稅收、投資等相關支持政策。

2. 幫助和支持符合條件的台資企業依法享受高新技術企業減按 15% 稅率徵收企業所得稅，研發費用加計扣除，設在大陸的研發中心採購大陸設備全額退還增值稅等稅收優惠政策。

3. 台灣科研機構、高等學校、企業在大陸註冊的獨立法人，可牽頭或參與國家重點研發計劃項目申報，享受與大陸科研機構、高等學校、企業同等政策。受聘於在大陸註冊的獨立法人的台灣地區科研人員，可作為國家重點研發計劃項目 (課題) 負責人申報，享受與大陸科研人員同等政策。對台灣地區知識產權在大陸轉化的，可參照執行大陸知識產權激勵政策。

4. 台資企業可以特許經營方式參與能源、交通、水利、環保、市政公用工程等基礎設施建設。

5. 台資企業可公平參與政府採購。

6. 台資企業可通過合資合作、併購重組等方式參與國有企業混合所有製改革。

7. 台資企業與大陸企業同等適用相關用地政策。對集約用地的鼓勵類台商投資工業項目優先供應土地，在確定土地出讓底價時，可按不低於所在地土地等別相對應大陸工業用地出讓最低價標準的 70% 執行。

8. 繼續在中西部、東北地區設立海峽兩岸產業合作區，鼓勵台資企業向中西部、東北地區轉移並參與「一帶一路」建設，拓展內需市場和國際市場。大力推進台商投資區和兩岸環保產業合作示範基地建設。

9. 台資農業企業可與大陸農業企業同等享受農機購置補貼、產業化重點龍頭企業等農業支持政策和優惠措施。

10. 台灣金融機構、商家可與中國銀聯及大陸非銀行支付機構依法合規開展合作，為台灣同胞提供便捷的小額支付服務。

11. 台灣徵信機構可與大陸徵信機構開展合作，為兩岸同胞和企業提供徵信服務。

12. 台資銀行可與大陸同業協作，通過銀團貸款等方式為實體經濟提供金融服務。

二、逐步為台灣同胞在大陸學習、創業、就業、生活提供與大陸同胞同等的待遇
13. 台灣同胞可報名參加 53 項專業技術人員職業資格考試和 81 項技能人員職業資格考試 (《向台灣居民開放的國家職業資格考試目錄》附後，具體執業辦法由有關部門另行製定)。

14. 台灣專業人才可申請參與國家「千人計劃」。在大陸工作的台灣專業人才，可申請參與國家「萬人計劃」。

15. 台灣同胞可申報國家自然科學基金、國家社會科學基金、國家傑出青年科學基金、國家藝術基金等各類基金項目。具體辦法由相關主管部門製定。

16. 鼓勵台灣同胞參與中華經典誦讀工程、文化遺產保護工程、非物質文化遺產傳承發展工程等中華優秀傳統文化傳承發展工程。支持台灣文化藝術界團體和人士參與大陸在海外舉辦的感知中國、中國文化年 (節)、歡樂春節等品牌活動，參加「中華文化走出去」計劃。符合條件的兩岸文化項目可納入海外中國文化中心項目資源庫。

17. 支持中華慈善獎、梅花獎、金鷹獎等經濟科技文化社會領域各類評獎項目提名涵蓋台灣地區。在大陸工作的台灣同胞可參加當地勞動模範、「五一」勞動獎章、技術能手、「三八」紅旗手等榮譽稱號評選。

18. 台灣人士參與大陸廣播電視節目和電影、電視劇製作可不受數量限制。

19. 大陸電影發行機構、廣播電視台、視聽網站和有線電視網引進台灣生產的電影、電視劇不做數量限制。

20. 放寬兩岸合拍電影、電視劇在主創人員比例、大陸元素、投資比例等方面的限制；取消收取兩岸電影合拍立項申報費用；縮短兩岸電視劇合拍立項階段故事梗概的審批時限。

21. 對台灣圖書進口業務建立綠色通道，簡化進口審批流程。同時段進口的台灣圖書可優先辦理相關手續。

22. 鼓勵台灣同胞加入大陸經濟、科技、文化、藝術類專業性社團組織、行業協會，參加相關活動。

23. 支持鼓勵兩岸教育文化科研機構開展中國文化、歷史、民族等領域研究和成果應用。

24. 台灣地區從事兩岸民間交流的機構可申請兩岸交流基金項目。

25. 鼓勵台灣同胞和相關社團參與大陸扶貧、支教、公益、社區建設等基層工作。

26. 在大陸高校就讀臨床醫學專業碩士學位的台灣學生，在參加研究生學習一年後，可按照大陸醫師資格考試報名的相關規定申請參加考試。

27. 取得大陸醫師資格證書的台灣同胞，可按照相關規定在大陸申請執業註冊。

28. 符合條件的台灣醫師，可通過認定方式獲得大陸醫師資格。符合條件的台灣醫師，可按照相關規定在大陸申請註冊短期行醫，期滿後可重新辦理註冊手續。

29. 在台灣已獲取相應資格的台灣同胞在大陸申請證券、期貨、基金從業資格時，只需通過大陸法律法規考試，無需參加專業知識考試。

30. 鼓勵台灣教師來大陸高校任教，其在台灣取得的學術成果可納入工作評價體系。

31. 為方便台灣同胞在大陸應聘工作，推動各類人事人才網站和企業線上招聘做好系統升級，支持使用台胞證註冊登錄。
'''

In [133]:
keywords = longTermFirst(article, ['大陸', '臺灣'], 5)

with open('userdict.txt', 'a', encoding='utf-8') as f:
    for w in keywords:
        f.write(w+'\n')

In [137]:
# unpacking
k, v = ('大陸', 38)
print(k)
print(v)

大陸
38


In [139]:
import jieba
from collections import Counter

jieba.load_userdict('userdict.txt')
c = Counter(list(jieba.cut(article)))
for k,v in c.most_common():
    if (len(k) >= 2) and (v >= 2):
        print(k,v)

大陸 38
台灣 15
台灣同胞 12
參與 12
文化 12
企業 10
兩岸 10
相關 9
機構 9
國家 9
台資企業 8
政策 8
支持 8
項目 8
資格 8
投資 7
鼓勵 7
參加 7
考試 7
申請 7
基金 7
電視 7
合作 6
中國 6
計劃 6
註冊 6
的台灣 6
地區 6
專業 6
企業同等 5
研發 5
享受 5
科研 5
人員 5
工程 5
工作 5
電影 5
醫師 5
經濟 4
符合 4
條件 4
申報 4
方式 4
建設 4
提供 4
領域 3
台商 3
中心 3
技術 3
重點 3
用地 3
土地 3
農業 3
開展 3
職業 3
人才 3
各類 3
中華 3
限制 3
合拍 3
按照 3
規定 3
待遇 2
適用 2
設立 2
相應 2
稅收 2
依法 2
費用 2
採購 2
優惠 2
高等 2
學校 2
立法 2
同等 2
知識產權 2
執行 2
工業 2
中西部 2
東北 2
台資 2
金融 2
支付 2
服務 2
徵信 2
同胞 2
學習 2
具體 2
執業 2
辦法 2
社會 2
發展 2
人士 2
海外 2
活動 2
可納入 2
科技 2
勞動 2
廣播 2
網站 2
比例 2
立項 2
審批 2
圖書 2
進口 2
辦理 2
手續 2
成果 2
交流 2
高校 2
取得 2


In [141]:
import scipy as sp
a, abb ,abc = ['a'], ['a', 'b', 'b'], ['a', 'b', 'c']
D = [a,abb,abc]

In [142]:
#tfidf('a', a, D)
tf  = 1/1
idf = sp.log(3/3)
tf * idf

0.0

In [143]:
#tfidf('a', abb, D)
tf  = 1/3
idf = sp.log(3/3)
tf * idf

0.0

In [144]:
#tfidf('a', abc, D)
tf  = 1/3
idf = sp.log(3/3)
tf * idf

0.0

In [145]:
#tfidf('b', abb, D)
tf  = 2/3
idf = sp.log(3/2)
tf * idf

0.27031007207210955

In [146]:
#tfidf('b', abc, D)
tf  = 1/3
idf = sp.log(3/2)
tf * idf

0.13515503603605478

In [147]:
#tfidf('c', abc, D)
tf  = 1/3
idf = sp.log(3/1)
tf * idf

0.36620409622270322

In [148]:
## count
a= [1,2,3,1,1,2]
a.count(1)

3

In [149]:
def tfidf(t,d,D):
    tf  = d.count(t) / len(d)
    idf = sp.log(len(D) / len([doc for doc in D if t in doc]) )
    return tf * idf

In [153]:
tfidf('a', a, D)
tfidf('a', abb, D)
tfidf('a', abc, D)

0.0

In [154]:
tfidf('b', abb, D)

0.27031007207210955

In [155]:
tfidf('b', abc, D)

0.13515503603605478

In [156]:
tfidf('c', abc, D)

0.36620409622270322

In [158]:
import jieba.analyse
tags = jieba.analyse.extract_tags('那酸民婉君也可以報名嗎', 1)
tags

['那酸民婉君']

In [164]:
?jieba.analyse.set_idf_path

## 詞頻矩陣

In [170]:
## string join
s = ['1', '2', '3']
' '.join(s)
'@'.join(s)

'1@2@3'

In [176]:
corpus = ['this is a book', 'this is my car']
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.toarray())

['book', 'car', 'is', 'my', 'this']
[[1 0 1 0 1]
 [0 1 1 1 1]]


In [165]:
ary = ['【更新】柯P：洪智坤洩漏公文案還沒看到公文　今處理',
       '留洪智坤 柯：殘障求職不易',
       '人事處議處洪智坤　柯P：不清楚議處結果']

In [184]:
import jieba
jieba.load_userdict('userdict.txt')
corpus = []
for title in ary:
    corpus.append(' '.join(jieba.cut(title)) )
#jieba.cut()

In [185]:
corpus

['【 更新 】 柯P ： 洪智坤 洩漏 公文 案還 沒 看到 公文 \u3000 今處理',
 '留 洪智坤   柯 ： 殘障 求職 不易',
 '人事處 議處 洪智坤 \u3000 柯P ： 不 清楚 議處 結果']

In [186]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.toarray())

['不易', '人事處', '今處理', '公文', '更新', '柯p', '案還', '殘障', '求職', '洩漏', '洪智坤', '清楚', '看到', '結果', '議處']
[[0 0 1 2 1 1 1 0 0 1 1 0 1 0 0]
 [1 0 0 0 0 0 0 1 1 0 1 0 0 0 0]
 [0 1 0 0 0 1 0 0 0 0 1 1 0 1 2]]


In [189]:
ary = ['【更新】柯P：洪智坤洩漏公文案還沒看到公文　今處理',
       '留洪智坤 柯文哲：殘障求職不易',
       '人事處議處洪智坤　柯P：不清楚議處結果']

In [193]:
import jieba
jieba.load_userdict('userdict.txt')
corpus = []
for title in ary:
    corpus.append(' '.join(jieba.cut(title)) )


In [194]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.toarray())

['不易', '人事處', '今處理', '公文', '更新', '柯p', '柯文哲', '案還', '殘障', '求職', '洩漏', '洪智坤', '清楚', '看到', '結果', '議處']
[[0 0 1 2 1 1 0 1 0 0 1 1 0 1 0 0]
 [1 0 0 0 0 0 1 0 1 1 0 1 0 0 0 0]
 [0 1 0 0 0 1 0 0 0 0 0 1 1 0 1 2]]


## 加入同義詞

In [196]:
synonym = [w.strip() for w in  open('synonym.txt', 'r')]
synonym

['台灣/臺灣/Taiwan', '川普/特郎普', '柯文哲/柯p/柯P']

In [198]:
synonym_dic = {}
for term in synonym:
    words = term.split('/')
    for w in words:
        synonym_dic[w] = words[0]
synonym_dic

{'Taiwan': '台灣',
 '台灣': '台灣',
 '川普': '川普',
 '柯P': '柯文哲',
 '柯p': '柯文哲',
 '柯文哲': '柯文哲',
 '特郎普': '川普',
 '臺灣': '台灣'}

In [204]:
ary = ['【更新】柯P：洪智坤洩漏公文案還沒看到公文　今處理',
       '留洪智坤 柯文哲：殘障求職不易',
       '人事處議處洪智坤　柯P：不清楚議處結果']

In [205]:
s = '人事處議處洪智坤　柯P：不清楚議處結果'
[synonym_dic.get(w, w) for w in jieba.cut(s)]

['人事處', '議處', '洪智坤', '\u3000', '柯文哲', '：', '不', '清楚', '議處', '結果']

In [206]:
import jieba
jieba.load_userdict('userdict.txt')
corpus = []
for title in ary:
    #corpus.append(' '.join(jieba.cut(title)) )
    corpus.append(' '.join(\
        [synonym_dic.get(w, w) for w in jieba.cut(title)]) )
    

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.toarray())

['不易', '人事處', '今處理', '公文', '更新', '柯文哲', '案還', '殘障', '求職', '洩漏', '洪智坤', '清楚', '看到', '結果', '議處']
[[0 0 1 2 1 1 1 0 0 1 1 0 1 0 0]
 [1 0 0 0 0 1 0 1 1 0 1 0 0 0 0]
 [0 1 0 0 0 1 0 0 0 0 1 1 0 1 2]]


## 留下白名單字詞

In [207]:
whilelist = ['市府', '柯文哲', '洪智坤']

In [208]:
import jieba
jieba.load_userdict('userdict.txt')
corpus = []
for title in ary:
    #corpus.append(' '.join(jieba.cut(title)) )
    corpus.append(' '.join(\
        [synonym_dic.get(w, w) for w in jieba.cut(title) \
         if synonym_dic.get(w, w) in whilelist]) )
    

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.toarray())

['柯文哲', '洪智坤']
[[1 1]
 [1 1]
 [1 1]]


## 排除停用詞

In [209]:
stopwords = ['更新', '看到']
import jieba
jieba.load_userdict('userdict.txt')
corpus = []
for title in ary:
    #corpus.append(' '.join(jieba.cut(title)) )
    corpus.append(' '.join(\
        [synonym_dic.get(w, w) for w in jieba.cut(title) \
         if synonym_dic.get(w, w) not in stopwords]) )
    

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.toarray())

['不易', '人事處', '今處理', '公文', '柯文哲', '案還', '殘障', '求職', '洩漏', '洪智坤', '清楚', '結果', '議處']
[[0 0 1 2 1 1 0 0 1 1 0 0 0]
 [1 0 0 0 1 0 1 1 0 1 0 0 0]
 [0 1 0 0 1 0 0 0 0 1 1 1 2]]


## 計算出TF-IDF 矩陣

In [212]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.toarray())

['不易', '人事處', '今處理', '公文', '柯文哲', '案還', '殘障', '求職', '洩漏', '洪智坤', '清楚', '結果', '議處']
[[ 0.          0.          0.36042988  0.72085976  0.21287569  0.36042988
   0.          0.          0.36042988  0.21287569  0.          0.          0.        ]
 [ 0.52004008  0.          0.          0.          0.30714405  0.
   0.52004008  0.52004008  0.          0.30714405  0.          0.          0.        ]
 [ 0.          0.36042988  0.          0.          0.21287569  0.          0.
   0.          0.          0.21287569  0.36042988  0.36042988  0.72085976]]


## 計算文章相似度

In [215]:
ary = ['【更新】柯P：洪智坤洩漏公文案還沒看到公文　今處理',
       '留洪智坤 柯文哲：殘障求職不易',
       '人事處議處洪智坤　柯P：不清楚議處結果',
       '台北市市政顧問洪智坤，從選前就受到柯文哲信任重用，重金請來當市政顧問之後，在市政府的角色相當吃重，每天七點半的軍機處晨會不能沒有他，現在因為洩公文案，行動不便的洪智坤還坐著輪椅到議會備詢，人事處還要議處他']

In [216]:
stopwords = ['更新', '看到']
import jieba
jieba.load_userdict('userdict.txt')
corpus = []
for title in ary:
    #corpus.append(' '.join(jieba.cut(title)) )
    corpus.append(' '.join(\
        [synonym_dic.get(w, w) for w in jieba.cut(title) \
         if synonym_dic.get(w, w) not in stopwords]) )
    
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.toarray())

['七點', '不便', '不易', '不能', '人事處', '今處理', '信任', '備詢', '公文', '受到', '台北市', '因為', '市政', '市政府', '柯文哲', '案還', '椅到', '殘障', '每天', '求職', '沒有', '洩漏', '洪智坤', '清楚', '現在', '相當', '結果', '著輪', '處晨會', '行動', '角色', '請來當', '議會', '議處', '軍機', '選前', '還坐', '還要', '重用', '重金', '顧問']
[[0 0 0 0 0 1 0 0 2 0 0 0 0 0 1 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0]
 [0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0]
 [0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 0 2 0 0 0
  0 0 0 0]
 [1 1 0 1 1 0 1 1 1 1 1 1 2 1 1 0 1 0 1 0 1 0 2 0 1 1 0 1 1 1 1 1 1 1 1 1 1
  1 1 1 2]]


In [221]:
from sklearn.metrics.pairwise import euclidean_distances
euclidean_distances(X)

array([[ 0.        ,  3.16227766,  3.74165739,  6.40312424],
       [ 3.16227766,  0.        ,  3.16227766,  6.40312424],
       [ 3.74165739,  3.16227766,  0.        ,  6.244998  ],
       [ 6.40312424,  6.40312424,  6.244998  ,  0.        ]])

In [220]:
import numpy as np
import math
a = np.array([1,1,1,0,0,1])
b = np.array([1,1,0,0,1,1])
math.sqrt(sum((a - b) ** 2))

1.4142135623730951

## 計算Cosine相似度

In [223]:
from sklearn.metrics.pairwise import cosine_similarity
cs = cosine_similarity(X)

## 建立新聞推薦引擎 (根據內容相似度)

In [224]:
import pandas
news = pandas.read_excel('https://raw.githubusercontent.com/ywchiu/pytextmining/master/data/news.xlsx')

In [226]:
news.head(3)

Unnamed: 0,category,content,link,title
0,政治,新增：立委說法民進黨立法院黨團預計在明天的院會中，讓改制農田水利會的《農田水利會組織通則》修...,https://tw.news.appledaily.com/politics/realti...,【更新】水利會改官派明闖關　綠委24小時前顧議場大門防藍突襲
1,論壇,邱俊棠／台中市民、見習醫師；曾任台灣醫學生聯合會對外副會長對於公民參與公眾事務而能得到單位首...,https://tw.news.appledaily.com/forum/realtime/...,請中市府為所當為 加速中火燃煤限制
2,社會,被控來台涉發展情報組織的中國學生周泓旭，因接觸我方外交部官員而露餡落網，今年9月被台北地院一...,https://tw.news.appledaily.com/local/realtime/...,陸生共諜嗆台司法　「不敢公開審理我」


In [237]:
corpus = []
titles = []
for article in news.iterrows():
    corpus.append(' '.join(jieba.cut(article[1]['content'])))
    titles.append(article[1]['title'])
    #print(article[1]['title'])

In [238]:
#corpus[1]

In [239]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
X

<899x38318 sparse matrix of type '<class 'numpy.int64'>'
	with 128039 stored elements in Compressed Sparse Row format>

In [240]:
from sklearn.metrics.pairwise import cosine_similarity
cs = cosine_similarity(X)

In [243]:
cs.shape

(899, 899)

In [245]:
cs

array([[ 1.        ,  0.03170452,  0.05228104, ...,  0.09728591,
         0.05344909,  0.02901404],
       [ 0.03170452,  1.        ,  0.02798884, ...,  0.0178714 ,
         0.01213934,  0.03986744],
       [ 0.05228104,  0.02798884,  1.        , ...,  0.02526008,
         0.01787311,  0.09818575],
       ..., 
       [ 0.09728591,  0.0178714 ,  0.02526008, ...,  1.        ,
         0.11503612,  0.05233539],
       [ 0.05344909,  0.01213934,  0.01787311, ...,  0.11503612,
         1.        ,  0.0666551 ],
       [ 0.02901404,  0.03986744,  0.09818575, ...,  0.05233539,
         0.0666551 ,  1.        ]])

In [253]:
titles[6]

'喬妹升格宋太太首上工\u3000現身中國見習近平'

In [257]:
## argsort
a = np.array([2,7,4,8,9,5])
a.argsort()[::-1]

array([4, 3, 1, 5, 2, 0], dtype=int64)

In [262]:
for pos in cs[6].argsort()[::-1][1:10]:
    if cs[6][pos] >= 0.2:
        print(titles[pos],cs[6][pos])

素顏依舊完美　喬妹升格人妻赴中開工 0.321620924623


In [265]:
def getSimiliarArticle(articleid):
    print('查詢文章:', titles[articleid])
    for pos in cs[articleid].argsort()[::-1][1:]:
        if cs[articleid][pos] >= 0.2:
            print('相關文章: ',titles[pos],cs[articleid][pos])

In [268]:
getSimiliarArticle(17)

查詢文章: 【不斷更新】桃園工廠惡火撲滅 6人仍失聯宿舍內發現一堆白骨
相關文章:  桃園工廠火勢熄滅　員工宿舍內發現一堆白骨 0.632687215876
相關文章:  汽車用品大廠「矽卡」燒毀　資本額達2億 0.581038858053
相關文章:  桃園工廠大火6員工失聯　家屬焦急等待 0.440186582123
相關文章:  ​台南中古車行大火毀7車　2人嗆傷送醫 0.209014831174
相關文章:  【有片】北市東區餐廳竄火　警消急疏散242民眾 0.206064372692


In [269]:
getSimiliarArticle(16)

查詢文章: 小嫻婚變冒毒菇　勾于美人「奉茶」夢魘
相關文章:  小嫻何守正想離婚　必須先做這件事！ 0.349280045068
相關文章:  遭粉絲頁冒名捲「正嫻」口水戰　于美人：跟我真的無關！ 0.328250798371
相關文章:  【獨家內幕】太傷！小嫻被分手　何守正當小三面前攤牌 0.267334523553
相關文章:  小嫻別傻傻被欺負！女律師說「姐寶」就要這樣對付 0.263939564759
相關文章:  【內幕動畫】小嫻婚變何守正姊反擊　不滿媽煮飯侍奉星媳婦 0.243087539052
相關文章:  【小嫻離婚】何守正稱沒有遺憾　人妻女星超火「一嘴屁話」 0.234637342071
相關文章:  「小嫻不快樂！」　許聖梅：何守正虧欠她 0.233521174702
相關文章:  小嫻守正結婚在台沒登記　想離婚只有兩條路 0.228889877093
相關文章:  小心！在美結婚台灣沒登記　偷腥照樣能捉姦 0.22759288399
相關文章:  【動畫解盤】毒菇跳火線譙seafood　小嫻難瘦香菇 0.21881298349
相關文章:  小嫻離婚導火線　拉何守正信妙禪 0.21246482303
相關文章:  大姑出面護弟！轟小嫻不能生「媽媽是全台最沒有尊嚴的婆婆」 0.206831525742
相關文章:  小嫻信奉妙禪　關鍵原因與何守正有關！ 0.206663657792
