In [80]:
from collections import Counter
import json
import math
import re

import jieba

jieba.load_userdict("./dict.txt")

In [81]:
DATASET_DIR = './WebNews.json'
with open(DATASET_DIR) as f:
    dataset = json.load(f)

In [82]:
dataset[0]['subject']

'視察機捷、高鐵、台鐵春節旅運狀況 鄭市長：鼓勵搭乘大眾運輸工具，讓春節交通順暢不打結'

In [92]:
news_list = list(map(lambda d: d['detailcontent'], dataset))
news_title_list = list(map(lambda d: d['subject'], dataset))

In [93]:
rule = re.compile(r"[^\u4e00-\u9fa5]")
news_list = [rule.sub('', news) for news in news_list]

In [94]:
news_list

['視察機捷高鐵台鐵春節旅運狀況鄭市長鼓勵搭乘大眾運輸工具讓春節交通順暢不打結桃園市長鄭文燦今日下午前往桃園捷運公司行控中心高鐵桃園站台鐵桃園車站中壢車站及內壢車站視察各重要大眾運輸工具春節旅運狀況慰勉值班同仁並發送市府印製的珠圓玉潤春聯與諸事大吉福袋祝賀所有工作同仁和旅客朋友新年快樂他也呼籲國人可多利用大眾運輸工具返鄉或出遊避開高速公路壅塞讓春節交通更順暢鄭市長於台鐵桃園站視察時表示今日是除夕前兩天包括台鐵高鐵及機場捷運都湧現返鄉人潮感謝每位在交通運輸工作上堅守崗位辛勤付出的同仁讓所有鄉親過年順利返鄉鄭市長也說市府歷年來發放新春福袋都別具巧思年是金猴獻桃燈籠福袋年是桃園哥福袋年是桃喜雙全犬福袋今年新春福袋則邀請桃園在地書法家王孝堂揮毫題字寫下諸事大吉吉祥語小卡則由專業設計師吳菁蓉操刀外型設計成如唱片一般繪有隻小豬象徵財富及幸福等期盼桃園未來能夠平平安安吉祥如意鄭市長視察桃園捷運公司行控中心時則表示機場捷運平均日運量約萬人次春節期間預估將成長至達到萬人次以上為此機場捷運將於月日至日月日至日的返鄉及收假高峰期間延長營運時間至次日凌晨點並透過加開班次加強疏運人潮做好各種因應突發狀況及備料準備他感謝桃捷公司每位同仁兢兢業業做好各項準備工作讓旅客安心搭乘並呼籲國人多利用大眾運輸工具返鄉或出遊避開高速公路壅塞的困境鄭市長也表示機場捷運自年正式營運迄今已近年交出亮眼成績單市府已核定加薪及績效獎金等制度責由桃捷公司研議適當時間落實及追溯生效讓同仁的績效獎金能夠更具彈性鼓勵同仁努力追求進步創新今日包括市府副秘書長兼代工務局長黃治峯交通局長劉慶豐觀旅局長楊勝評一同視察台鐵桃園車站市府副秘書長兼代工務局長黃治峯交通局長劉慶豐桃園捷運公司董事長劉坤億總經理蒲鶴章副總經理許清順一同視察桃捷公司行控中心市府副秘書長兼代工務局長黃治峯桃園捷運公司董事長劉坤億副總經理許清順一同視察高鐵桃園站市議員謝美英市府副秘書長兼代工務局長黃治峯觀旅局長楊勝評一同視察中壢車站市府副秘書長兼代工務局長黃治峯一同視察台鐵內壢車站',
 '市長訪視桃園區及中壢區市場祝賀大家新年快樂諸事大吉桃園市長鄭文燦今日上午訪視桃園果菜市場中壢青果商圈中壢區興國市場桃園區南門市場和現場辛苦的攤商和買菜的市民朋友們拜早年發送市府印製的珠圓玉潤春聯及紅包袋並祝賀大家新年平安快樂諸事大吉鄭市長在桃園果菜市場表示國人在農曆春節前多半會到

In [95]:
tf_idf = {}
idf = {}

seg_news = []
for news in news_list[:10]:
    seg_news.append([w for w in jieba.cut(news)])

In [96]:
def cal_tf(word, doc):
    """
    計算詞頻：一個字在一篇文章中出現的次數
    """
    c = Counter(doc)
    return c[word]

In [97]:
def cal_idf(word, seg_doc):
    """
    計算逆詞頻：計算一個字在所有文章出現的次數
    """
    count = 0.0
    for doc in seg_doc:
        if word in doc:
            count += 1
    return math.log(len(seg_doc)/count)

In [98]:
def cal_tf_idf(tf, idf):
    return tf * idf

In [99]:
for news_title, news in zip(news_title_list, seg_news[:10]):
    tf_idf.update({news_title: {}})
    for word in set(news):
        tf = cal_tf(word, news)
        if word not in idf:
            idf.update({word: cal_idf(word, seg_news[: 10])})
        
        tf_idf[news_title].update({word: cal_tf_idf(tf, idf[word])})

In [106]:
d = tf_idf['視察機捷、高鐵、台鐵春節旅運狀況 鄭市長：鼓勵搭乘大眾運輸工具，讓春節交通順暢不打結']

sorted(d.items(), key=lambda d: d[1], reverse=True)

[('返鄉', 11.51292546497023),
 ('捷運', 11.266065387038703),
 ('站', 9.656627474604601),
 ('大眾', 9.210340371976184),
 ('公司', 8.427809630281553),
 ('運輸', 8.047189562170502),
 ('行控', 6.907755278982138),
 ('工具', 6.437751649736401),
 ('鐵桃園', 6.437751649736401),
 ('機場', 6.437751649736401),
 ('代工', 6.01986402162968),
 ('務局', 6.01986402162968),
 ('兼', 6.01986402162968),
 ('長', 5.619081861425898),
 ('同仁', 5.497744391244931),
 ('交通', 4.828313737302301),
 ('準備', 4.605170185988092),
 ('劉坤', 4.605170185988092),
 ('高速公路', 4.605170185988092),
 ('視察台', 4.605170185988092),
 ('中壢車', 4.605170185988092),
 ('時間', 4.605170185988092),
 ('人次', 4.605170185988092),
 ('車站', 4.605170185988092),
 ('楊勝評', 4.605170185988092),
 ('劉慶', 4.605170185988092),
 ('人潮', 4.605170185988092),
 ('旅局', 4.605170185988092),
 ('交通局', 4.605170185988092),
 ('壅塞', 4.605170185988092),
 ('效獎', 4.605170185988092),
 ('出遊', 4.605170185988092),
 ('許清順', 4.605170185988092),
 ('旅運狀況', 4.605170185988092),
 ('避開', 4.605170185988092),
 ('中心', 3.61191

In [107]:
class TFIDF:
    idf = {}
    def cal_tf(self, word, doc):
        """
        計算詞頻：一個字在一篇文章中出現的次數
        """
        c = Counter(doc)
        return c[word]

    def cal_idf(self, word, seg_doc):
        """
        計算逆詞頻：計算一個字在所有文章出現的次數
        """
        if word not in self.idf:
            count = 0.0
            for doc in seg_doc:
                if word in doc:
                    count += 1
            self.idf.update({word: math.log(len(seg_doc)/count)})
        return self.idf[word]

    def cal_tf_idf(self, tf, idf):
        """
        計算 tf-idf
        """
        return tf * idf

    def tf_idf(self, corpus, documents, with_weight=True):
        """
        doc, documents 都已經是分詞完的狀態
        """
        tf_idf = {}
        for word in corpus:
            tf = self.cal_tf(word, corpus)
            print(word, documents)
            idf = self.cal_idf(word, documents)
            tf_idf.update({word: self.cal_tf_idf(tf, idf)})
        
        tf_idf = sorted(tf_idf.items(), key=lambda x: x[1], reverse=True)
        
        if with_weight:
            return tf_idf
        else:
            return list(map(lambda x: x[0], tf_idf))