## 使用正規表達法斷詞

In [6]:
import re
article = '''氣候變遷讓登革熱成為各國公共衛生的燙手山芋，前年在國內造成4萬多例感染，228人死亡的嚴重疫情，尤其是台南市成疫情重災區，時任台南市長的行政院長賴清德今早出席「登革熱國際防治論壇」，表達對防疫的重視。他強調，登革熱防疫須有對策，否則疫情不會僅限於南台灣，國內死亡病例有高齡、患慢性病等特性，與東南亞國家不同，台南經驗可供疫苗研發參考。'''
re.split('，|。|「|」|、', article)

['氣候變遷讓登革熱成為各國公共衛生的燙手山芋',
 '前年在國內造成4萬多例感染',
 '228人死亡的嚴重疫情',
 '尤其是台南市成疫情重災區',
 '時任台南市長的行政院長賴清德今早出席',
 '登革熱國際防治論壇',
 '',
 '表達對防疫的重視',
 '他強調',
 '登革熱防疫須有對策',
 '否則疫情不會僅限於南台灣',
 '國內死亡病例有高齡',
 '患慢性病等特性',
 '與東南亞國家不同',
 '台南經驗可供疫苗研發參考',
 '']

## 安裝 Jieba

In [7]:
! pip install jieba



## 使用Jieba 切詞

In [2]:
import jieba
for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認"):
    print(w)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\User\AppData\Local\Temp\jieba.cache
Loading model cost 1.153 seconds.
Prefix dict has been built succesfully.


大
巨蛋
案對
市府
同仁
下
封口令
？
　
柯
P
否認


In [3]:
import jieba
for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認", cut_all=True):
    print(w)

大
巨蛋
案
對
市府
同仁
下
封口
封口令
口令



柯
P
否
認


In [1]:
import jieba
ary = []
for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認"):
    ary.append(w)
ary

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\User\AppData\Local\Temp\jieba.cache
Loading model cost 1.114 seconds.
Prefix dict has been built succesfully.


['大', '巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯', 'P', '否認']

In [6]:
[w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")]

['大', '巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯', 'P', '否認']

In [7]:
## add_word 只有暫時生效
jieba.add_word('大巨蛋')
jieba.add_word('柯P')
[w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")]

['大巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯P', '否認']

In [9]:
import jieba
jieba.set_dictionary('dict.txt')
[w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")]
'/'.join([w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")])
print('/'.join([w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")]))

Building prefix dict from C:\Users\User\itritm\dict.txt ...
Loading model from cache C:\Users\User\AppData\Local\Temp\jieba.uf0178d4b7c79c465ac9d115367f9739d.cache
Loading model cost 0.005 seconds.
Prefix dict has been built succesfully.


大巨蛋/案對/市府/同仁下/封口令/？/　/柯P/否認


In [15]:
# method 1:
sentence = "大巨蛋案對市府同仁下封口令？　柯P否認"
' '.join(sentence.split())
[w for w in jieba.cut(' '.join(sentence.split()))]


['大巨蛋', '案對', '市府', '同仁下', '封口令', '？', ' ', '柯P', '否認']

In [16]:
# method2
sentence = "大巨蛋案對市府同仁下封口令？　柯P否認"
[w.strip() for w in jieba.cut(' '.join(sentence.split()))]

['大巨蛋', '案對', '市府', '同仁下', '封口令', '？', '', '柯P', '否認']

In [5]:
import jieba
import jieba.posseg as pseg

jieba.add_word('大巨蛋', 100, 'nr' )
words = pseg.cut("大巨蛋案對市府同仁下封口令？　柯P否認")

for w in words:
    print(w.word, w.flag)

大巨蛋 nr
案 ng
對 p
市府 n
同仁 n
下封 v
口令 n
？ x
　 x
柯P x
否認 v


In [7]:
words = jieba.tokenize("大巨蛋案對市府同仁下封口令？　柯P否認")

for tw in words:
    print(tw[0], tw[1], tw[2])


大巨蛋 0 3
案對 3 5
市府 5 7
同仁下 7 10
封口令 10 13
？ 13 14
　 14 15
柯P 15 17
否認 17 19


In [8]:
import jieba.analyse
tags = jieba.analyse.extract_tags("大巨蛋案對市府同仁下封口令？　柯P否認", 1)
print(",".join(tags))


封口令


## 拿掉中間空白

In [11]:
sentence = '        i                      love                this        book'
sentence.split()
' '.join(sentence.split())

'i love this book'

## 獲取新詞

In [10]:
import requests
from bs4 import BeautifulSoup
res =  requests.get('http://news.ltn.com.tw/news/world/breakingnews/2196565')
soup = BeautifulSoup(res.text, 'html.parser')
for keyword in soup.select('.keyword a'):
    print(keyword.text)

北韓
川普
美國
金正恩
