## 詞頻計算

In [1]:
news = '''
北部本土登革熱疫情擴大，繼上周新北市鶯歌區一對50歲夫妻感染登革熱後，今衛福部疾管署再宣布，其鄰居和離住處3公里外友人共2名中年男子也感染，疫情僅過1周再添2例，並有157名接觸者密切監測健康狀況，北部已有4名本土登革熱病例，相較南部3例，為歷年來北部本土疫情首度超過南部。
疾管署副署長羅一鈞指出，這2名感染者為中年男性，其中1人與日前群聚感染的50歲夫妻比鄰而居，上月下旬經蚊蟲叮咬後，10月1日出現發燒、頭痛、肌肉痛、惡心等症狀，隔2日就醫經通報採檢；另1名雖與夫妻居住逾3公里，無出現感染症狀，但因每日皆至夫妻住家後耕田，經擴大疫調後採檢驗出感染。

疾管署表示，此次群聚事件，透過4名感染者已掌握157名相關接觸者進行健康監測至本月29日，研判此次疫情與日前的夫妻群聚感染為同一波蚊蟲叮咬，若再相隔2周以後再出現感染者，疫情便會擴大至下一波，範圍擴大。羅一鈞說，北部本土登革熱疫情超越南部較少見，為阻絕疫情，已針對感染者住家周邊加強病媒蚊清除與感染源調查。

疾管署統計，北部本土登革熱群聚新增個案已累計4例，南部累計3例，國內目前截至7例本土病例，與242例境外移入病例且含2例死亡個案、8起境外移入群聚事件。

羅一鈞呼籲，目前登革熱屬病媒蚊活躍期，民眾除勤加清除孳生源、降低病媒蚊密度外，若出現疑似症狀應就醫，且返家做好防蚊措施，避免被蚊蟲再次叮咬造成次波感染。
'''

In [6]:
import jieba
jieba.load_userdict('localdict.txt')
words = []
for term in jieba.cut(news):
    words.append(term)

### 詞頻計算方法一 (字典)

In [8]:
dic = {}
for ele in words:
    if ele not in dic:
        dic[ele] = 1
    else:
        dic[ele] = dic[ele] + 1

In [13]:
import operator
swd = sorted(dic.items(), key = operator.itemgetter(1), reverse=True)
#swd
#dic.items()

### 詞頻計算方法二 (collections)
- https://docs.python.org/3/library/collections.html

In [17]:
t = ('感染', 8)
k,v = t
k

'感染'

In [18]:
from collections import Counter
c = Counter(words)
for k, v in c.most_common(50):
    if len(k) >=2:
        print(k,v)

感染 8
疫情 7
本土 6
登革熱 6
北部 5
夫妻 5
群聚 5
疾管署 4
南部 4
感染者 4
病例 3
羅一鈞 3
蚊蟲 3
叮咬 3
出現 3
病媒蚊 3
擴大 2
50 2
公里 2
157 2
監測 2
健康 2
日前 2
症狀 2
住家 2
此次 2
事件 2


## TFIDF 計算

In [26]:
a, abb, abc = ['a'], ['a', 'b', 'b'], ['a', 'b', 'c']

In [27]:
#tfidf('a', a)
import math
tf  = 1/1
idf = math.log(3/3)
tf * idf 

0.0

In [28]:
#tfidf('a', abb)
tf = 1/3
idf = math.log(3/3)
tf * idf 

0.0

In [29]:
#tfidf('b', abb)
tf = 2/3
idf = math.log(3/2)
tf *idf 

0.27031007207210955

In [30]:
#tfidf('a', abc)
tf = 1/3
idf = math.log(3/3)
tf * idf 

0.0

In [31]:
#tfidf('b', abc)
tf = 1/3
idf = math.log(3/2)
tf * idf 

0.13515503603605478

In [32]:
#tfidf('c', abc)
tf = 1/3
idf = math.log(3/1)
tf * idf 

0.3662040962227032

In [33]:
abb = ['a', 'b', 'b']
abb.count('b')

2

In [37]:
a, abb, abc = ['a'], ['a', 'b', 'b'], ['a', 'b', 'c']
ary = []
for doc in D:
    if 'b' in doc:
        ary.append(doc)
len(ary)

len([ doc for doc in D if 'b' in doc ])

2

In [42]:
a, abb, abc = ['a'], ['a', 'b', 'b'], ['a', 'b', 'c']
D = [a,abb,abc]

def tfidf(t, d, D):
    tf = d.count(t) / len(d)
    idf = math.log(len(D) / len([ doc for doc in D if t in doc ]) )
    return tf * idf
    
print(tfidf('a', a, D))
print(tfidf('a', abb, D))
print(tfidf('a', abc, D))
print(tfidf('b', abb, D))
print(tfidf('b', abc, D))
print(tfidf('c', abc, D))


0.0
0.0
0.0
0.27031007207210955
0.13515503603605478
0.3662040962227032


## Jieba 關鍵詞
- C:\ProgramData\Anaconda3\Lib\site-packages\jieba\analyse\idf.txt

In [43]:
import jieba.analyse 
tags=jieba.analyse.extract_tags(news,5)
print(",".join(tags))

登革熱,疫情,群聚,感染,疾管署
