## 使用正規表達法斷詞

In [6]:
import re
article = '''氣候變遷讓登革熱成為各國公共衛生的燙手山芋，前年在國內造成4萬多例感染，228人死亡的嚴重疫情，尤其是台南市成疫情重災區，時任台南市長的行政院長賴清德今早出席「登革熱國際防治論壇」，表達對防疫的重視。他強調，登革熱防疫須有對策，否則疫情不會僅限於南台灣，國內死亡病例有高齡、患慢性病等特性，與東南亞國家不同，台南經驗可供疫苗研發參考。'''
re.split('，|。|「|」|、', article)

['氣候變遷讓登革熱成為各國公共衛生的燙手山芋',
 '前年在國內造成4萬多例感染',
 '228人死亡的嚴重疫情',
 '尤其是台南市成疫情重災區',
 '時任台南市長的行政院長賴清德今早出席',
 '登革熱國際防治論壇',
 '',
 '表達對防疫的重視',
 '他強調',
 '登革熱防疫須有對策',
 '否則疫情不會僅限於南台灣',
 '國內死亡病例有高齡',
 '患慢性病等特性',
 '與東南亞國家不同',
 '台南經驗可供疫苗研發參考',
 '']

## 安裝 Jieba

In [7]:
! pip install jieba



## 使用Jieba 切詞

In [2]:
import jieba
for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認"):
    print(w)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\User\AppData\Local\Temp\jieba.cache
Loading model cost 1.153 seconds.
Prefix dict has been built succesfully.


大
巨蛋
案對
市府
同仁
下
封口令
？
　
柯
P
否認


In [3]:
import jieba
for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認", cut_all=True):
    print(w)

大
巨蛋
案
對
市府
同仁
下
封口
封口令
口令



柯
P
否
認


In [1]:
import jieba
ary = []
for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認"):
    ary.append(w)
ary

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\User\AppData\Local\Temp\jieba.cache
Loading model cost 1.114 seconds.
Prefix dict has been built succesfully.


['大', '巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯', 'P', '否認']

In [6]:
[w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")]

['大', '巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯', 'P', '否認']

In [7]:
## add_word 只有暫時生效
jieba.add_word('大巨蛋')
jieba.add_word('柯P')
[w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")]

['大巨蛋', '案對', '市府', '同仁', '下', '封口令', '？', '\u3000', '柯P', '否認']

In [9]:
import jieba
jieba.set_dictionary('dict.txt')
[w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")]
'/'.join([w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")])
print('/'.join([w for w in jieba.cut("大巨蛋案對市府同仁下封口令？　柯P否認")]))

Building prefix dict from C:\Users\User\itritm\dict.txt ...
Loading model from cache C:\Users\User\AppData\Local\Temp\jieba.uf0178d4b7c79c465ac9d115367f9739d.cache
Loading model cost 0.005 seconds.
Prefix dict has been built succesfully.


大巨蛋/案對/市府/同仁下/封口令/？/　/柯P/否認


In [15]:
# method 1:
sentence = "大巨蛋案對市府同仁下封口令？　柯P否認"
' '.join(sentence.split())
[w for w in jieba.cut(' '.join(sentence.split()))]


['大巨蛋', '案對', '市府', '同仁下', '封口令', '？', ' ', '柯P', '否認']

In [16]:
# method2
sentence = "大巨蛋案對市府同仁下封口令？　柯P否認"
[w.strip() for w in jieba.cut(' '.join(sentence.split()))]

['大巨蛋', '案對', '市府', '同仁下', '封口令', '？', '', '柯P', '否認']

In [5]:
import jieba
import jieba.posseg as pseg

jieba.add_word('大巨蛋', 100, 'nr' )
words = pseg.cut("大巨蛋案對市府同仁下封口令？　柯P否認")

for w in words:
    print(w.word, w.flag)

大巨蛋 nr
案 ng
對 p
市府 n
同仁 n
下封 v
口令 n
？ x
　 x
柯P x
否認 v


In [7]:
words = jieba.tokenize("大巨蛋案對市府同仁下封口令？　柯P否認")

for tw in words:
    print(tw[0], tw[1], tw[2])


大巨蛋 0 3
案對 3 5
市府 5 7
同仁下 7 10
封口令 10 13
？ 13 14
　 14 15
柯P 15 17
否認 17 19


In [8]:
import jieba.analyse
tags = jieba.analyse.extract_tags("大巨蛋案對市府同仁下封口令？　柯P否認", 1)
print(",".join(tags))


封口令


## 拿掉中間空白

In [11]:
sentence = '        i                      love                this        book'
sentence.split()
' '.join(sentence.split())

'i love this book'

## 獲取新詞

In [10]:
import requests
from bs4 import BeautifulSoup
res =  requests.get('http://news.ltn.com.tw/news/world/breakingnews/2196565')
soup = BeautifulSoup(res.text, 'html.parser')
for keyword in soup.select('.keyword a'):
    print(keyword.text)

北韓
川普
美國
金正恩


## n-gram

In [12]:
# 2-gram : bi-gram
sentence = '那我們酸民婉君也可以報名嗎'
for i in range(0, len(sentence) - 2 + 1):
    #print(i, i + 2)
    print(sentence[i:i+2])

那我
我們
們酸
酸民
民婉
婉君
君也
也可
可以
以報
報名
名嗎


In [13]:
# 3-gram : tri-gram
sentence = '那我們酸民婉君也可以報名嗎'
for i in range(0, len(sentence) - 3 + 1):
    #print(i, i + 3)
    print(sentence[i:i+3])

那我們
我們酸
們酸民
酸民婉
民婉君
婉君也
君也可
也可以
可以報
以報名
報名嗎


In [14]:
def ngram(sentence, n = 2):
    ary = []
    for i in range(0, len(sentence) - n + 1):
        ary.append(sentence[i:i+n])
    return ary


ngram('那我們酸民婉君也可以報名嗎')

['那我', '我們', '們酸', '酸民', '民婉', '婉君', '君也', '也可', '可以', '以報', '報名', '名嗎']

## 使用Counter 統計

In [15]:
a= [1,2,3,1,2,2,3,1,2]
from collections import Counter
c = Counter(a)
c

Counter({1: 3, 2: 4, 3: 2})

In [16]:
def ngram(sentence, n = 2):
    ary = []
    for i in range(0, len(sentence) - n + 1):
        ary.append(sentence[i:i+n])
    return Counter(ary)

In [18]:
ngram('那我們酸民婉君也可以報名嗎', 3)

Counter({'也可以': 1,
         '以報名': 1,
         '們酸民': 1,
         '可以報': 1,
         '君也可': 1,
         '報名嗎': 1,
         '婉君也': 1,
         '我們酸': 1,
         '民婉君': 1,
         '那我們': 1,
         '酸民婉': 1})

In [19]:
article = '''氣候變遷讓登革熱成為各國公共衛生的燙手山芋，前年在國內造成4萬多例感染，228人死亡的嚴重疫情，尤其是台南市成疫情重災區，時任台南市長的行政院長賴清德今早出席「登革熱國際防治論壇」，表達對防疫的重視。他強調，登革熱防疫須有對策，否則疫情不會僅限於南台灣，國內死亡病例有高齡、患慢性病等特性，與東南亞國家不同，台南經驗可供疫苗研發參考。
賴清德表示，蚊子散佈疾病造成人類喪生的威脅比世界大戰還大，前年擔任台南市長面臨有史以來最嚴重的登革熱疫情，共有2萬多例病例，半數是9歲以下、55歲以上，且流行病學調查顯示，當時台南的登革熱死亡有108例，平均年齡約70歲，其中90％至少患1種慢性病。
去年6月衛福部疾管署與美國國家衛生研究院簽署合作備忘錄，將共同研發全球首款針對高齡族群的登革熱疫苗，將在台進行臨床試驗。賴說，目前政府的防疫作為主要是化學防治、孳生源清除，若登革熱疫苗能成功上市，防疫會更有效率。（蔡明樺／台北報導）'''

In [22]:
res = ngram(article, 2)
res.most_common(10)

[('登革', 7),
 ('革熱', 7),
 ('台南', 5),
 ('疫情', 4),
 ('防疫', 4),
 ('死亡', 3),
 ('南市', 3),
 ('疫苗', 3),
 ('的登', 3),
 ('熱疫', 3)]

In [23]:
res = ngram(article, 3)
res.most_common(10)

[('登革熱', 7),
 ('台南市', 3),
 ('的登革', 3),
 ('革熱疫', 3),
 ('，前年', 2),
 ('萬多例', 2),
 ('疫情，', 2),
 ('任台南', 2),
 ('南市長', 2),
 ('賴清德', 2)]

In [33]:
import re
re.split('，|。|「|」|、|\n|／|"|（|）', article)

['氣候變遷讓登革熱成為各國公共衛生的燙手山芋',
 '前年在國內造成4萬多例感染',
 '228人死亡的嚴重疫情',
 '尤其是台南市成疫情重災區',
 '時任台南市長的行政院長賴清德今早出席',
 '登革熱國際防治論壇',
 '',
 '表達對防疫的重視',
 '他強調',
 '登革熱防疫須有對策',
 '否則疫情不會僅限於南台灣',
 '國內死亡病例有高齡',
 '患慢性病等特性',
 '與東南亞國家不同',
 '台南經驗可供疫苗研發參考',
 '',
 '賴清德表示',
 '蚊子散佈疾病造成人類喪生的威脅比世界大戰還大',
 '前年擔任台南市長面臨有史以來最嚴重的登革熱疫情',
 '共有2萬多例病例',
 '半數是9歲以下',
 '55歲以上',
 '且流行病學調查顯示',
 '當時台南的登革熱死亡有108例',
 '平均年齡約70歲',
 '其中90％至少患1種慢性病',
 '',
 '去年6月衛福部疾管署與美國國家衛生研究院簽署合作備忘錄',
 '將共同研發全球首款針對高齡族群的登革熱疫苗',
 '將在台進行臨床試驗',
 '賴說',
 '目前政府的防疫作為主要是化學防治',
 '孳生源清除',
 '若登革熱疫苗能成功上市',
 '防疫會更有效率',
 '',
 '蔡明樺',
 '台北報導',
 '']

In [37]:
a = '若登革熱疫苗能成功上市'
''.join(a.split('登革熱'))


for w in ['登革熱', '疫苗']:
    a = ''.join(a.split(w))
a

'若能成功上市'

In [38]:
def removeKey(sentence, keywords):
    for keyword in keywords:
        sentence = ''.join(a.split(keyword))
    return sentence

In [39]:
removeKey('若登革熱疫苗能成功上市',['登革熱','疫苗'])

'若能成功上市'

## 長詞優先法

In [None]:
def ngram(sentence, n = 2):
    ary = []
    for i in range(0, len(sentence) - n + 1):
        ary.append(sentence[i:i+n])
    return Counter(ary)

In [None]:
def removeKey(sentence, keywords):
    for keyword in keywords:
        sentence = ''.join(a.split(keyword))
    return sentence

In [40]:
import re
article = '''氣候變遷讓登革熱成為各國公共衛生的燙手山芋，前年在國內造成4萬多例感染，228人死亡的嚴重疫情，尤其是台南市成疫情重災區，時任台南市長的行政院長賴清德今早出席「登革熱國際防治論壇」，表達對防疫的重視。他強調，登革熱防疫須有對策，否則疫情不會僅限於南台灣，國內死亡病例有高齡、患慢性病等特性，與東南亞國家不同，台南經驗可供疫苗研發參考。
賴清德表示，蚊子散佈疾病造成人類喪生的威脅比世界大戰還大，前年擔任台南市長面臨有史以來最嚴重的登革熱疫情，共有2萬多例病例，半數是9歲以下、55歲以上，且流行病學調查顯示，當時台南的登革熱死亡有108例，平均年齡約70歲，其中90％至少患1種慢性病。
去年6月衛福部疾管署與美國國家衛生研究院簽署合作備忘錄，將共同研發全球首款針對高齡族群的登革熱疫苗，將在台進行臨床試驗。賴說，目前政府的防疫作為主要是化學防治、孳生源清除，若登革熱疫苗能成功上市，防疫會更有效率。（蔡明樺／台北報導）'''
sentence_ary = re.split('，|。|「|」|、|\n|／|"|（|）', article)

In [51]:
keywords    = []
term_length = 4
threshold   = 5

word_counter = Counter()

for sentence in sentence_ary:
    text = removeKey(sentence, keywords)
    word_counter = word_counter + ngram(text, term_length)
    
for word, value in word_counter.items():
    #print(word, value)
    if value >= threshold:
        keywords.append(word)
        
keywords

[]

In [56]:
ngram(article, 3).most_common(10)

[('登革熱', 7),
 ('台南市', 3),
 ('的登革', 3),
 ('革熱疫', 3),
 ('，前年', 2),
 ('萬多例', 2),
 ('疫情，', 2),
 ('任台南', 2),
 ('南市長', 2),
 ('賴清德', 2)]

In [60]:
keywords    = []
threshold   = 2

for term_length in range(3, 1, -1):
    word_counter = Counter()

    for sentence in sentence_ary:
        text = removeKey(sentence, keywords)
        word_counter = word_counter + ngram(text, term_length)

    for word, value in word_counter.items():
        #print(word, value)
        if value >= threshold:
            keywords.append(word)
        
keywords

['登革熱',
 '萬多例',
 '台南市',
 '任台南',
 '南市長',
 '賴清德',
 '慢性病',
 '的登革',
 '革熱疫',
 '熱疫苗',
 '若能',
 '能成',
 '成功',
 '功上',
 '上市']