## Python Basic

In [3]:
a = 3
b = 2
a + b

5

## 英文斷詞

In [4]:
s = 'this is a book'
s.split()

['this', 'is', 'a', 'book']

## 正規表達法斷句

In [5]:
news = '''
被視為美食聖經的《米其林指南》，在3月7日發布台北版「必比登推介」（Bib Gourmand）美食，共36家平價美食店家入選，包括：臭豆腐、藥燉排骨、麻油雞等道地的夜市小吃，也有8家國民美食牛肉麵入選，鼎泰豐、點水樓等名店也沒缺席。
'''

In [10]:
import re
re.split('，|：|、|「|」',news)

['\n被視為美食聖經的《米其林指南》',
 '在3月7日發布台北版',
 '必比登推介',
 '（Bib Gourmand）美食',
 '共36家平價美食店家入選',
 '包括',
 '臭豆腐',
 '藥燉排骨',
 '麻油雞等道地的夜市小吃',
 '也有8家國民美食牛肉麵入選',
 '鼎泰豐',
 '點水樓等名店也沒缺席。\n']

## 安裝 Jieba
- pip install jieba

In [11]:
! pip install jieba



In [12]:
import jieba
s = "大巨蛋案對市府同仁下封口令？　柯P否認"
seg = jieba.cut(s)

In [13]:
seg

<generator object Tokenizer.cut at 0x00000000050220A0>

In [14]:
list(seg)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\User\AppData\Local\Temp\jieba.cache
Loading model cost 1.299 seconds.
Prefix dict has been built succesfully.


['大', '巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯', 'P', '否認']

In [15]:
import jieba
s = "大巨蛋案對市府同仁下封口令？　柯P否認"
seg = jieba.cut(s)
'/'.join(seg)

'大/巨蛋/案對/市府/同仁/下/封口令/？/\u3000/柯/P/否認'

## 處理英文資料 (NLTK)
- pip install nltk

In [16]:
! pip install nltk



In [18]:
import nltk
sentence = "At eight o'clock on Thursday morning Arthur didn't feel very good"
tags = nltk.word_tokenize(sentence)
tags

['At',
 'eight',
 "o'clock",
 'on',
 'Thursday',
 'morning',
 'Arthur',
 'did',
 "n't",
 'feel',
 'very',
 'good']

In [19]:
tagged = nltk.pos_tag(tags)
tagged

[('At', 'IN'),
 ('eight', 'CD'),
 ("o'clock", 'NN'),
 ('on', 'IN'),
 ('Thursday', 'NNP'),
 ('morning', 'NN'),
 ('Arthur', 'NNP'),
 ('did', 'VBD'),
 ("n't", 'RB'),
 ('feel', 'VB'),
 ('very', 'RB'),
 ('good', 'JJ')]

In [20]:
import nltk.stem
s= nltk.stem.SnowballStemmer('english')
print(s.stem("graphics"))

print(s.stem("imaging"))
print(s.stem("image"))
print(s.stem("imagination"))
print(s.stem("imagine"))

graphic
imag
imag
imagin
imagin


In [22]:
from nltk.corpus import stopwords 
sw = stopwords.words('english')
#sw

## 使用Jieba 斷詞

In [25]:
import jieba
s = "大巨蛋案對市府同仁下封口令？　柯P否認"
# 全模式
seg = jieba.cut(s, cut_all=True)
print(list(seg))

['大', '巨蛋', '案', '對', '市府', '同仁', '下', '封口', '封口令', '口令', '', '', '', '柯', 'P', '否', '認']


In [26]:
# 精準模式
seg = jieba.cut(s)
print(list(seg))

['大', '巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯', 'P', '否認']


In [32]:
jieba.load_userdict('userdict.txt')
seg = jieba.cut(s)
print(list(seg))

['大巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯P', '否認']


In [33]:
import jieba.posseg as pseg
words = pseg.cut(s)

In [34]:
list(words)

[pair('大巨蛋', 'n'),
 pair('案', 'ng'),
 pair('對', 'p'),
 pair('市府', 'n'),
 pair('同仁', 'nr'),
 pair('下', 'f'),
 pair('封口令', 'n'),
 pair('？', 'x'),
 pair('\u3000', 'x'),
 pair('柯P', 'n'),
 pair('否認', 'v')]

In [35]:
words = jieba.tokenize(s)

for tw in words:
    print(tw[0], tw[1], tw[2])

大巨蛋 0 3
案對 3 5
市府 5 7
同仁 7 9
下 9 10
封口令 10 13
？ 13 14
　 14 15
柯P 15 17
否認 17 19


## 使用網路爬蟲抓取自由時報關鍵字

In [40]:
import requests
from bs4 import BeautifulSoup
res = requests.get('http://news.ltn.com.tw/news/politics/breakingnews/2360857')
soup = BeautifulSoup(res.text, 'lxml')
with open('userdict.txt', 'a', encoding='utf-8') as f:
    f.write('\n')
    for rec in soup.select('.keyword a'):
        f.write(rec.text+'\n')

## 切n-gram 

In [42]:
s = '那我們酸民婉君也可以報名嗎?'
s[0:2]

'那我'

In [43]:
s[1:3]

'我們'

In [46]:
s[len(s) - 2: len(s) ]

'嗎?'

In [48]:
# bi-gram: 2-gram
for i in range(0, len(s) - 2 + 1):
    print(s[i:i+2])

那我
我們
們酸
酸民
民婉
婉君
君也
也可
可以
以報
報名
名嗎
嗎?


In [49]:
# tri-gram: 3-trim
for i in range(0, len(s) - 3 + 1):
    print(s[i:i+3])

那我們
我們酸
們酸民
酸民婉
民婉君
婉君也
君也可
也可以
可以報
以報名
報名嗎
名嗎?


In [55]:
def ngram(input_sentence, n = 2):
    ret = []
    for i in range(0, len(input_sentence) - n + 1):
        ret.append(input_sentence[i:i+n])
    return ret

In [56]:
s

'那我們酸民婉君也可以報名嗎?'

In [57]:
ngram(s, 2)

['那我', '我們', '們酸', '酸民', '民婉', '婉君', '君也', '也可', '可以', '以報', '報名', '名嗎', '嗎?']

In [58]:
ngram(s, n= 3)

['那我們',
 '我們酸',
 '們酸民',
 '酸民婉',
 '民婉君',
 '婉君也',
 '君也可',
 '也可以',
 '可以報',
 '以報名',
 '報名嗎',
 '名嗎?']

In [59]:
news = '''
〔即時新聞／綜合報導〕新制《勞基法》已於本月開始上路，但時代力量、社民黨及勞工、學生團體認為勞基法修惡，現已著手整合不同版本的《勞基法》複決公投提案，欲在年底「公投綁大選」翻案。據悉，已由「勞權公投聯盟」的版本出線！

 5月1日勞動節大遊行時，勞基法複決公投預計也會被列為今年活動主軸之一。（資料照，記者陳鈺馥攝）
5月1日勞動節大遊行時，勞基法複決公投預計也會被列為今年活動主軸之一。（資料照，記者陳鈺馥攝）

綜合媒體報導，時代力量、社民黨、醫勞盟日前曾開會討論此事，時代力量立委徐永明指出，時代力量不堅持自己的提案版本，而希望透過相互整合及各自努力，加速完成下階段的連署。

公投連署成案須至少28萬份連署書的最低門檻，預計3月底展開連署，勞權公投聯盟（簡稱勞公聯）則訂出「希望獨立完成30萬份連署」目標。徐永明認為這會是第三勢力新的合作模式：議題彼此相互整合，共同擴大支持範圍。支持範圍愈大，相信也會反映在年底的選舉結果。

醫勞盟理事長儲寧瑋表示，醫勞盟的立場是希望極力促成11/24廢止過勞勞基法的公投，因此不會堅持自己的提案。兩個團體也都允諾會全力衝刺第二階段連署書收集。

勞工部分預計4、5月將「組織動員」，由各地工會、勞工團體爭取基層勞工支持連署，5月1日勞動節大遊行時，勞基法複決公投預計也會被列為今年活動主軸之一。

反教育商品化聯盟成員謝毅弘表示，5、6月間將到各校宣傳及擺攤蒐集連署書，7月放暑假後，則會組團到全台環島串連，趕在8月底前累積30萬份連署書。
'''

In [66]:
words = ngram(news,2)

## 使用字典方式做統計

In [67]:
dic = {}
for w in words:
    if w not in dic:
        dic[w] = 1
    else:
        dic[w] = dic[w] + 1 

In [71]:
import operator
swd = sorted(dic.items(), key = operator.itemgetter(1), reverse=True)
swd[1:10]

[('連署', 9),
 ('勞基', 7),
 ('基法', 7),
 ('\n\n', 6),
 ('預計', 5),
 ('。\n', 5),
 ('時代', 4),
 ('代力', 4),
 ('力量', 4)]

In [72]:
words = ngram(news,3)

In [73]:
dic = {}
for w in words:
    if w not in dic:
        dic[w] = 1
    else:
        dic[w] = dic[w] + 1 

In [74]:
import operator
swd = sorted(dic.items(), key = operator.itemgetter(1), reverse=True)
swd[1:10]

[('時代力', 4),
 ('代力量', 4),
 ('複決公', 4),
 ('決公投', 4),
 ('。\n\n', 4),
 ('連署書', 4),
 ('5月1', 3),
 ('月1日', 3),
 ('1日勞', 3)]

In [65]:
a = [1,2,3,2,2,1]
dic2 = {}
for l in a:
    if l not in dic2:
        dic2[l] = 1
    else:
        dic2[l] = dic2[l] + 1
dic2

{1: 2, 2: 3, 3: 1}

## 使用 Counter 統計詞頻
- https://docs.python.org/3.6/library/collections.html

In [76]:
from collections import Counter
a = [1,2,3,2,2,1]
c = Counter(a)
c

Counter({1: 2, 2: 3, 3: 1})

In [77]:
c.most_common(3)

[(2, 3), (1, 2), (3, 1)]

In [78]:
words = ngram(news,3)
c = Counter(words)
c.most_common(5)

[('勞基法', 7), ('時代力', 4), ('代力量', 4), ('複決公', 4), ('決公投', 4)]

In [79]:
words = ngram(news,4)
c = Counter(words)
c.most_common(5)

[('時代力量', 4), ('複決公投', 4), ('5月1日', 3), ('月1日勞', 3), ('1日勞動', 3)]

In [80]:
words = ngram(news,2)
c = Counter(words)
c.most_common(5)

[('公投', 9), ('連署', 9), ('勞基', 7), ('基法', 7), ('\n\n', 6)]

## 長詞優先法

In [88]:
import re
sentenceAry = re.split('，|。|（|）|〕|〔|／|《|》|、|」|！|「|：',news)

In [90]:
#sentenceAry

In [91]:
a = '比特幣期貨 美核准上市'
a.replace('比特幣', '')

'期貨 美核准上市'

In [94]:
def removeKey(text, keywords):
    ret = text
    for word in keywords:
        ret = ret.replace(word, '')
    return ret

removeKey(a, ['比特幣', '核准', '期貨'])

' 美上市'

In [100]:
a = [1,2,3]
b = [2,3,4]
a.append(b)
a

[1, 2, 3, [2, 3, 4]]

In [101]:
a = [1,2,3]
b = [2,3,4]
a.extend(b)
a

[1, 2, 3, 2, 3, 4]

In [104]:
keywords = []

for n in range(4,1,-1):
    #print(n)
    words = []
    for sentence in sentenceAry:
        text_list = removeKey(sentence, keywords)
        words.extend(ngram(text_list, n))
    c = Counter(words)
    for word, cnt in c.items():
        if cnt >= 4:
            keywords.append(word)
keywords


['時代力量', '複決公投', '勞基法', '連署書', '勞工', '公投', '\n\n', '5月', '預計', '也會', '連署']

## 建立一長詞優先處理函數

In [107]:
news = '''
位於大直區的教父牛排，日前已證實收到米其林邀請函出席3/14(三)媒體發佈會與晚宴，台北君品酒店以粵菜為主打的頤宮中餐廳也同樣證實已在邀請行列。消息一出，台北君品酒店的行銷公關副理王懿萱則低調表示，頤宮目前正值後場整修調整中，預定3/13起可重新開放，接受顧客訂位，3/14並會與主廚前往米其林指南的媒體發佈會。
 
在台灣牛排界赫赫有名的鄧有癸，曾打造國賓A CUT牛排館與維多利雅NO168 PRIME等知名頂級牛排館，一向以引領食尚風潮著稱，連教父牛排Danny’s Steakhouse在2013開幕當時，店內引進的美國木香烤爐更是全台唯一。已於3/2即獲得邀函的鄧有癸也謙稱，無論封星與否，一切功勞都要感謝旗下工作同仁與得力主廚吳曉芳。
 
採炭火直烤的方式十分考驗主廚功力外，鄧師傅的得力左右手吳曉芳行政總主廚也為大直店嚴格把關，極受歡迎的頂級老饕牛排、菲力老饕牛排或溫煮龍蝦、每日鮮魚等都是店內極受歡迎的主要菜式。
 
鄧有癸說：「上蓋肉乃選自美國肋眼的精華部位，每7公斤才能取下約1公斤的份量，其肉質不但頗具嚼勁，更有細緻的油花與飽滿風味。」即便每客老饕牛排3080元(6oz)要價不斐，但店內仍有不少熟客定期報到，更常見情侶約會選在此處品味頂級牛排風味。(林沛縈／台北報導)
'''

In [110]:
import re
def longTermFirst(news, keywords, threshold):
    sentenceAry = re.split('，|。|（|）|〕|〔|／|《|》|、|」|！|「|：',news)

    for n in range(4,1,-1):
        words = []
        for sentence in sentenceAry:
            text_list = removeKey(sentence, keywords)
            words.extend(ngram(text_list, n))
            
        c = Counter(words)
        for word, cnt in c.items():
            if cnt >= threshold:
                keywords.append(word)
    return keywords
    

In [111]:
longTermFirst(news, [],3)

['老饕牛排', '3/1', '\n \n', '鄧有癸', '牛排', '台北', '主廚', '頂級', '店內']