## 正規表達法斷句

In [1]:
import re
article = '''

【綜合報導】違建真害命！違建大火連續燒，近2周內，光雙北市至少有10人因密集隔間違建火警喪命，新北市府日前展開大動作，強拆一棟2層樓加蓋成6層樓、隔成158間房分租的離譜違建，強調明起全面執行頂加分租套房拆除。台北市長柯文哲昨也表示，考慮拿掉前市長陳水扁下的「違建特赦令」，涉及公安的大型違建，不論是既存違建或是新違建，都要依法處置。目前雙北共有29萬戶列管違建，若不改善，恐將面臨拆除命運。
'''

In [4]:
re.split('！|，|。',article)

['\n\n【綜合報導】違建真害命',
 '違建大火連續燒',
 '近2周內',
 '光雙北市至少有10人因密集隔間違建火警喪命',
 '新北市府日前展開大動作',
 '強拆一棟2層樓加蓋成6層樓、隔成158間房分租的離譜違建',
 '強調明起全面執行頂加分租套房拆除',
 '台北市長柯文哲昨也表示',
 '考慮拿掉前市長陳水扁下的「違建特赦令」',
 '涉及公安的大型違建',
 '不論是既存違建或是新違建',
 '都要依法處置',
 '目前雙北共有29萬戶列管違建',
 '若不改善',
 '恐將面臨拆除命運',
 '\n']

## 使用Jieba

In [5]:
! pip install jieba



In [8]:
import jieba
for ele in jieba.cut('大巨蛋案對市府同仁下封口令? 柯P否認'):
    print(ele)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\User\AppData\Local\Temp\jieba.cache
Loading model cost 1.176 seconds.
Prefix dict has been built succesfully.


大
巨蛋
案對
市府
同仁
下
封口令
?
 
柯
P
否認


In [10]:
'/'.join(jieba.cut('大巨蛋案對市府同仁下封口令? 柯P否認'))

'大/巨蛋/案對/市府/同仁/下/封口令/?/ /柯/P/否認'

In [12]:
'/'.join(jieba.cut('大巨蛋案對市府同仁下封口令? 柯P否認', cut_all=True))

'大/巨蛋/案/對/市府/同仁/下/封口/封口令/口令////柯/P/否/認'

In [13]:
'/'.join(jieba.cut('大巨蛋案對市府同仁下封口令? 柯P否認'))

'大/巨蛋/案對/市府/同仁/下/封口令/?/ /柯/P/否認'

## 讀取使用者字典

In [18]:
jieba.load_userdict('userdict.txt')

In [19]:
'/'.join(jieba.cut('大巨蛋案對市府同仁下封口令? 柯P否認'))

'大巨蛋/案對/市府/同仁/下/封口令/?/ /柯P/否認'

## 抓出詞性

In [20]:
import jieba.posseg as pseg
words = pseg.cut('大巨蛋案對市府同仁下封口令? 柯P否認')
for w in words:
    print(w.word, w.flag)

大巨蛋 n
案 ng
對 p
市府 n
同仁 nr
下 f
封口令 n
? x
  x
柯P n
否認 v


In [21]:
sentence = '大巨蛋案對市府同仁下封口令? 柯P否認'
for tw in jieba.tokenize(sentence):
    print(tw)

('大巨蛋', 0, 3)
('案對', 3, 5)
('市府', 5, 7)
('同仁', 7, 9)
('下', 9, 10)
('封口令', 10, 13)
('?', 13, 14)
(' ', 14, 15)
('柯P', 15, 17)
('否認', 17, 19)


In [23]:
import jieba.analyse
tags = jieba.analyse.extract_tags(sentence, 1)
print(tags)

['封口令']


In [24]:
import jieba.analyse
tags = jieba.analyse.extract_tags(sentence, 1, allowPOS=['nr'])
print(tags)

['同仁']


## 擴充字典
- https://www.moedict.tw/

- https://zh.wikipedia.org/wiki/%E5%94%90%E7%B4%8D%E5%BE%B7%C2%B7%E5%B7%9D%E6%99%AE

## 使用新聞關鍵字

In [26]:
import requests
from bs4 import BeautifulSoup
res = requests.get('http://news.ltn.com.tw/news/business/breakingnews/2272811')
soup = BeautifulSoup(res.text, 'html.parser')

In [28]:
[ele.text for ele in soup.select('.keyword a')]

['保險業', '保險發展論壇', '機構投資人盡職守則', '顧立雄']