## 詞頻計算

In [1]:
news = '''
北部本土登革熱疫情擴大，繼上周新北市鶯歌區一對50歲夫妻感染登革熱後，今衛福部疾管署再宣布，其鄰居和離住處3公里外友人共2名中年男子也感染，疫情僅過1周再添2例，並有157名接觸者密切監測健康狀況，北部已有4名本土登革熱病例，相較南部3例，為歷年來北部本土疫情首度超過南部。
疾管署副署長羅一鈞指出，這2名感染者為中年男性，其中1人與日前群聚感染的50歲夫妻比鄰而居，上月下旬經蚊蟲叮咬後，10月1日出現發燒、頭痛、肌肉痛、惡心等症狀，隔2日就醫經通報採檢；另1名雖與夫妻居住逾3公里，無出現感染症狀，但因每日皆至夫妻住家後耕田，經擴大疫調後採檢驗出感染。

疾管署表示，此次群聚事件，透過4名感染者已掌握157名相關接觸者進行健康監測至本月29日，研判此次疫情與日前的夫妻群聚感染為同一波蚊蟲叮咬，若再相隔2周以後再出現感染者，疫情便會擴大至下一波，範圍擴大。羅一鈞說，北部本土登革熱疫情超越南部較少見，為阻絕疫情，已針對感染者住家周邊加強病媒蚊清除與感染源調查。

疾管署統計，北部本土登革熱群聚新增個案已累計4例，南部累計3例，國內目前截至7例本土病例，與242例境外移入病例且含2例死亡個案、8起境外移入群聚事件。

羅一鈞呼籲，目前登革熱屬病媒蚊活躍期，民眾除勤加清除孳生源、降低病媒蚊密度外，若出現疑似症狀應就醫，且返家做好防蚊措施，避免被蚊蟲再次叮咬造成次波感染。
'''

In [6]:
import jieba
jieba.load_userdict('localdict.txt')
words = []
for term in jieba.cut(news):
    words.append(term)

### 詞頻計算方法一 (字典)

In [8]:
dic = {}
for ele in words:
    if ele not in dic:
        dic[ele] = 1
    else:
        dic[ele] = dic[ele] + 1

In [13]:
import operator
swd = sorted(dic.items(), key = operator.itemgetter(1), reverse=True)
#swd
#dic.items()

### 詞頻計算方法二 (collections)
- https://docs.python.org/3/library/collections.html

In [17]:
t = ('感染', 8)
k,v = t
k

'感染'

In [18]:
from collections import Counter
c = Counter(words)
for k, v in c.most_common(50):
    if len(k) >=2:
        print(k,v)

感染 8
疫情 7
本土 6
登革熱 6
北部 5
夫妻 5
群聚 5
疾管署 4
南部 4
感染者 4
病例 3
羅一鈞 3
蚊蟲 3
叮咬 3
出現 3
病媒蚊 3
擴大 2
50 2
公里 2
157 2
監測 2
健康 2
日前 2
症狀 2
住家 2
此次 2
事件 2


## TFIDF 計算

In [26]:
a, abb, abc = ['a'], ['a', 'b', 'b'], ['a', 'b', 'c']

In [27]:
#tfidf('a', a)
import math
tf  = 1/1
idf = math.log(3/3)
tf * idf 

0.0

In [28]:
#tfidf('a', abb)
tf = 1/3
idf = math.log(3/3)
tf * idf 

0.0

In [29]:
#tfidf('b', abb)
tf = 2/3
idf = math.log(3/2)
tf *idf 

0.27031007207210955

In [30]:
#tfidf('a', abc)
tf = 1/3
idf = math.log(3/3)
tf * idf 

0.0

In [31]:
#tfidf('b', abc)
tf = 1/3
idf = math.log(3/2)
tf * idf 

0.13515503603605478

In [32]:
#tfidf('c', abc)
tf = 1/3
idf = math.log(3/1)
tf * idf 

0.3662040962227032

In [33]:
abb = ['a', 'b', 'b']
abb.count('b')

2

In [37]:
a, abb, abc = ['a'], ['a', 'b', 'b'], ['a', 'b', 'c']
ary = []
for doc in D:
    if 'b' in doc:
        ary.append(doc)
len(ary)

len([ doc for doc in D if 'b' in doc ])

2

In [42]:
a, abb, abc = ['a'], ['a', 'b', 'b'], ['a', 'b', 'c']
D = [a,abb,abc]

def tfidf(t, d, D):
    tf = d.count(t) / len(d)
    idf = math.log(len(D) / len([ doc for doc in D if t in doc ]) )
    return tf * idf
    
print(tfidf('a', a, D))
print(tfidf('a', abb, D))
print(tfidf('a', abc, D))
print(tfidf('b', abb, D))
print(tfidf('b', abc, D))
print(tfidf('c', abc, D))


0.0
0.0
0.0
0.27031007207210955
0.13515503603605478
0.3662040962227032


## Jieba 關鍵詞
- C:\ProgramData\Anaconda3\Lib\site-packages\jieba\analyse\idf.txt

In [43]:
import jieba.analyse 
tags=jieba.analyse.extract_tags(news,5)
print(",".join(tags))

登革熱,疫情,群聚,感染,疾管署


## 使用sklearn 求得詞頻矩陣

In [50]:
import jieba
jieba.load_userdict('localdict.txt')
ary= [ '出國旅遊防蚊不可輕忽30多歲女性染登革熱返台亡',
       '女子遊越南感染登革熱住院7天過世',
       '37歲女越南旅行返國染登革熱致免疫風暴死亡']

corpus = []
for sentence in ary:
    #words = []
    #for ele in jieba.cut(sentence):
    #    words.append(ele)
    #print(' '.join(words))
    corpus.append(' '.join([ele for ele in jieba.cut(sentence)]))
corpus



['出國 旅遊 防蚊 不可 輕忽 30 多歲 女性 染 登革熱 返台 亡',
 '女子 遊 越南 感染 登革熱 住院 7 天 過世',
 '37 歲 女 越南 旅行 返國 染 登革熱 致 免疫 風暴 死亡']

In [54]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
X

<3x21 sparse matrix of type '<class 'numpy.int64'>'
	with 24 stored elements in Compressed Sparse Row format>

In [56]:
print(vectorizer.get_feature_names())
X.toarray()

['30', '37', '不可', '住院', '免疫', '出國', '多歲', '女子', '女性', '感染', '旅行', '旅遊', '死亡', '登革熱', '越南', '輕忽', '返台', '返國', '過世', '防蚊', '風暴']


array([[1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0],
       [0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0],
       [0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1]], dtype=int64)

In [64]:
import numpy
a = numpy.array([180,168,172,188,153])
#a.sort()
#a
a.argsort()[::-1]


array([3, 0, 2, 1, 4], dtype=int64)

In [65]:
cnt = X.toarray().sum(axis = 0)
cnt.argsort()[::-1]

array([13, 14, 20,  8,  1,  2,  3,  4,  5,  6,  7, 10,  9, 19, 11, 12, 15,
       16, 17, 18,  0], dtype=int64)

In [67]:
terms = numpy.array(vectorizer.get_feature_names())
terms[cnt.argsort()[::-1]]

array(['登革熱', '越南', '風暴', '女性', '37', '不可', '住院', '免疫', '出國', '多歲', '女子',
       '旅行', '感染', '防蚊', '旅遊', '死亡', '輕忽', '返台', '返國', '過世', '30'], 
      dtype='<U3')

In [69]:
cnt = X.toarray().sum(axis = 0)
terms = numpy.array(vectorizer.get_feature_names())
for t, c in zip(terms, cnt):
    print(t,c)

30 1
37 1
不可 1
住院 1
免疫 1
出國 1
多歲 1
女子 1
女性 1
感染 1
旅行 1
旅遊 1
死亡 1
登革熱 3
越南 2
輕忽 1
返台 1
返國 1
過世 1
防蚊 1
風暴 1


In [70]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
X

<3x21 sparse matrix of type '<class 'numpy.float64'>'
	with 24 stored elements in Compressed Sparse Row format>

In [71]:
X.toarray()

array([[ 0.32705548,  0.        ,  0.32705548,  0.        ,  0.        ,
         0.32705548,  0.32705548,  0.        ,  0.32705548,  0.        ,
         0.        ,  0.32705548,  0.        ,  0.19316423,  0.        ,
         0.32705548,  0.32705548,  0.        ,  0.        ,  0.32705548,
         0.        ],
       [ 0.        ,  0.        ,  0.        ,  0.45050407,  0.        ,
         0.        ,  0.        ,  0.45050407,  0.        ,  0.45050407,
         0.        ,  0.        ,  0.        ,  0.26607496,  0.34261996,
         0.        ,  0.        ,  0.        ,  0.45050407,  0.        ,
         0.        ],
       [ 0.        ,  0.37994462,  0.        ,  0.        ,  0.37994462,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.37994462,  0.        ,  0.37994462,  0.22440141,  0.28895767,
         0.        ,  0.        ,  0.37994462,  0.        ,  0.        ,
         0.37994462]])

## 計算文章之間的距離

In [82]:
a = [1, 0, 1]
b = [1, 1, 0]

a1 = numpy.array(a)
b1 = numpy.array(b)

#Euclidean Distance
math.sqrt(sum((b1 - a1) * (b1 - a1)))
#Mahattan Distance
sum(abs(b1 - a1))

2

In [83]:
#   柯文哲  趙藤雄 大巨蛋
a = [1,     1,    1, 0,0,0,0,0,0,0,0,0,0]
b = [1,     1,    1, 1,1,1,1,1,1,1,1,1,1]
a1 = numpy.array(a)
b1 = numpy.array(b)
math.sqrt(sum((b1 - a1) * (b1 - a1)))

3.1622776601683795

## Cosine Distance

In [None]:
# cos = A 。 B / |A| X |B|

In [88]:
a = [1, 2, 2, 1, 1, 1, 0]
b = [1, 2, 2, 1, 1, 2, 1]

a1 = numpy.array(a)
b1 = numpy.array(b)

sum(a1 * b1) / (math.sqrt(sum(a1 * a1)) * math.sqrt(sum(b1 * b1)))

0.93819418743314187

In [93]:
from sklearn.metrics.pairwise import cosine_distances, cosine_similarity
a = [1, 2, 2, 1, 1, 1, 0]
b = [1, 2, 2, 1, 1, 2, 1]
m  = numpy.array([a,b])
#cosine_distances(m)
cosine_similarity(m)

array([[ 1.        ,  0.93819419],
       [ 0.93819419,  1.        ]])

In [94]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
X

<3x21 sparse matrix of type '<class 'numpy.int64'>'
	with 24 stored elements in Compressed Sparse Row format>

In [97]:
ary= [ '出國旅遊防蚊不可輕忽30多歲女性染登革熱返台亡',
       '女子遊越南感染登革熱住院7天過世',
       '37歲女越南旅行返國染登革熱致免疫風暴死亡']
cosine_similarity(X.toarray())
cosine_distances(X.toarray())

array([[ 0.        ,  0.87090056,  0.8881966 ],
       [ 0.87090056,  0.        ,  0.71132487],
       [ 0.8881966 ,  0.71132487,  0.        ]])

In [103]:
cosine_similarity(X.toarray())[0].argsort()[::-1][1:]
cosine_similarity(X.toarray())[1].argsort()[::-1][1:]
cosine_similarity(X.toarray())[2].argsort()[::-1][1:]

array([1, 0], dtype=int64)