In [1]:
# -*- coding: utf-8 -*-
"""
Created on May 31 2021
@author: Te-Yu,Lu
"""

from ckiptagger import data_utils, construct_dictionary, WS, POS, NER
import gc
import matplotlib.pyplot as plt
import tensorflow as tf
import pandas as pd
import numpy as np
from collections import Counter
from tqdm import tqdm


pd.set_option("display.max_rows", 1000)    #設定最大能顯示1000rows
pd.set_option("display.max_columns", 1000)

# import keras

# 載入 ckiptagger 自訂詞典
User_Dict = {}
with open("KccLy2Dict2021.txt","r", encoding='utf-8-sig') as UDicts:
    for udic in UDicts:
        udWord = udic.strip().split(" ")
        if len(udWord) > 1:
            User_Dict[udWord[0]] = udWord[1]
        else:
            User_Dict[udWord[0]] = 100    # 未給定權重者一律賦予預設值 150                
dictionary = construct_dictionary(User_Dict)

# 載入模型
ws = WS("../data")
# pos = POS("./data")
# ner = NER("./data")

# 載入 StopWord
stopword_list = []
with open("../dict/KccStopWord2020.txt","r", encoding='utf-8-sig') as stopwords:
    for stopword in stopwords:
        stopword_list.append(stopword.strip())



In [2]:
word = pd.read_csv('委員逐字稿.csv',encoding='utf-8') #匯資料
lin = word[word.Name == "林淑芬"]
lin.head(1)

Unnamed: 0.1,Unnamed: 0,Session,會期,Date,Meeting_Time,Committe,Meet_name,NNN,Name,Location,S_time,E_time,SPEECH_URL,During,VOD_URL,Speech
204,204,8,6,9/23/2014,9:00,院會,第8屆第6會期第2次會議,一、19日上午9時至10時為國是論壇時間。二、對行政院院長施政報告，繼續質詢。三、23日下午...,林淑芬,新北市第2選舉區,9:01:10,10:32:16,http://ivod.ly.gov.tw/Demand/Speech/76209,1:31:06,http://ivod.ly.gov.tw/Play/VOD/76209/300K,﻿葉委員宜津：（9 時 1 分）主席、行政院江院長、毛副院長、各部會首長、各位同仁。江院長，...


In [3]:
title_lin = lin[['Speech']] #提出會用到的欄位
title_lin.head(2)

Unnamed: 0,Speech
204,﻿葉委員宜津：（9 時 1 分）主席、行政院江院長、毛副院長、各部會首長、各位同仁。江院長，...
228,﻿林委員淑芬：主席、各位列席官員、各位同仁。首先請教陳俊成兼任講師，豬油裡面有沒有可能有\n...


In [4]:
lin_list= list(title_lin['Speech'])

lin_str =(','.join('%s' %id for id in lin_list)) 
#print(lin_str)

In [5]:
# 開始斷詞
# sentence_segmentation = True,  => To consider delimiters
# segment_delimiter_set = {",", "。", ":", "?", "!", ";"}), # This is the defualt set of delimiters
# recommend_dictionary = dictionary1, # words in this dictionary are encouraged
# coerce_dictionary = dictionary2, # words in this dictionary are forced
strCut = ws([lin_str], sentence_segmentation=True,
                 segment_delimiter_set = {'"',"\r\n","，","「","」",",","？",'\n', "。", ":", "?", "!", ";", "、"},
                 coerce_dictionary = dictionary)


print("------------CKIPTagger Word Segment ws(str,....) + 刪除標點及停用字 ---------------")
stayed_lst= []
for word in strCut[0]:
     # 刪除停用字
    if word not in stopword_list:
        stayed_lst.append(word)

print(" / ".join(stayed_lst))

------------CKIPTagger Word Segment ws(str,....) + 刪除標點及停用字 ---------------
﻿ / 葉委員宜津 /   / 時 /  1  / 分 / 行政院 / 江 / 院長 / 毛 / 副院長 / 部會 / 首長 / 位 / 同仁 / 江 / 院長 / 
 / 陳 / 政務 / 次長 / 德華
 / 簡任 / 第十四 / 職等 / 
 / 公 / 請假 / 率 / 團 / 赴 / 韓 / 參加 / 
 / 2014 /  年 / 仁川 / 亞洲 / 運動 / 
 / 事 / 請假 / 
 / 事 / 請假 / 
 / 整天 / 
 / 整天 / 
 / 整天 / 
 / 實國人 / 關心 / 東西 / 吃 / 總 / 國人 / 家 / 裡 / 炸 / 豬油 / 壓製 / 橄欖 / 油
 / 發現 / 發生 / 食安 / 風波 / 衛生署長 / 說 / 媒體 / 太 / 關心 / 說 / 外國 /  3
 / 年 / 發生 / 五百多 / 件 / 媒體 / 風 / 大浪 / 猛 / 報導 / 心態 / 實在 / 難以 / 接受 / 
 / 想 / 美國 /  3 年 / 發生 / 五百多 / 件 / 報導 / 下游 / 個案 / 
 / 報導 / 國家 / 下游 / 個案 / 個案 / 解決 / 臺灣 / 丟臉 / 丟到 / 全 / 世界 / 人
 / 家 / 報導 / 事件 / 媒體 / 美國 / 報 / 日本報 / 法國報 / 全 / 世界 / 
 / 報 / M / IT / 信用 / 搞砸 / 署長 / 樣 / 知 / 悔改 / 媒體 / 害 / 
 / 眷戀 / 官位 / 關說 / 院長 / 發生 / 國外 / 源頭 / 
 / 事件 / 媒體 / 報導 / 官員 / 早 / 下臺 / 官 / 自為 / 
 / 包括 / 署長 / 樣 / 事 / 無所謂 / 怎麼說 / 
 / 播放 / 影片 / 
 / 葉委員宜津 / 院長 /  1 /   / 年 / 說 / 需要 /  1  / 禮拜 /   / 月 /   / 月 / 時空 / 
 / 錯置 / 院長 / 說法 / 樣 / 漫不經心 /  1 年 / 依然 / 
 / 
 / 杜 / 部長 / 紫軍 /   / 時 /  6  / 分 

In [6]:
# -*- coding: utf-8 -*-
"""
Input: "KCC Data/CkipNewsCisTest-KccDict2020.txt"
Output: "KCC Data/NewsCisTest-KccDict2020-LDA-TopicNum10.txt"
#CkipNewsCisTest-KccDict2020.txt

@author: Johnson
"""
# When numpy version = 1.19.2 => gensim version should downgrade to 3.8.3
from gensim import corpora, models, utils
from gensim.models import LdaModel, CoherenceModel



In [7]:
import numpy
stayed_lst_new = [d.split() for d in stayed_lst]
dict = corpora.Dictionary(numpy.asarray(stayed_lst_new))
print("dict = ", dict)
print("------------------------------")

  return array(a, dtype, copy=False, order=order)


dict =  Dictionary(24602 unique tokens: ['\ufeff', '葉委員宜津', '時', '1', '分']...)
------------------------------


In [8]:
# creat mapping matrix of [word_id, word_frequency] for each word segment
corpus = [dict.doc2bow(text) for text in stayed_lst_new]   
print("corpus[:1] = ", corpus[:1])   
print("------------------------------")

print("print lists of [word:frequency]")
[[print((dict[id], freq)) for id,freq in cp] for cp in corpus[:5]]
print("======================================================")

corpus[:1] =  [[(0, 1)]]
------------------------------
print lists of [word:frequency]
('\ufeff', 1)
('葉委員宜津', 1)
('時', 1)
('1', 1)


In [10]:
lda_model = models.ldamodel.LdaModel(corpus=corpus, id2word= dict, num_topics=10, passes=20, alpha='auto', chunksize=50, per_word_topics=True)
# print(ldamodel.print_topics())   列出最重要的前若干个主题

output = open("2_NewsCisTest-KccDict2020-LDA-TopicNum10.txt", 'w', encoding='utf-8-sig')
lstTM = lda_model.print_topics(num_topics=10, num_words=20)
for tupleTM in lstTM:
        str1 = "".join(str(x) for x in tupleTM)
        #print("type(str1) = ", type(str1))
        str1 += "\n"
        print("strTM = ", str1)
        output.write(str1)
output.close()
 
print("------------------------------")
print("Perplexity = ", lda_model.log_perplexity(corpus))

print("------------------------------")
cm = CoherenceModel(model=lda_model, texts=list(stayed_lst_new), dictionary=dict, coherence= 'c_v' )
coher_lda = cm.get_coherence()
print("\n Coherence Score: ", coher_lda)

strTM =  00.276*"時" + 0.000*"加碼" + 0.000*"遴選" + 0.000*"監委會" + 0.000*"原物料" + 0.000*"買進" + 0.000*"績效" + 0.000*"監理" + 0.000*"嬰幼兒" + 0.000*"運用局" + 0.000*"上漲" + 0.000*"外界" + 0.000*"評分" + 0.000*"顆" + 0.000*"辨識" + 0.000*"砷" + 0.000*"進出" + 0.000*"指紋" + 0.000*"受託" + 0.000*"裝糊塗"

strTM =  10.561*"委員" + 0.000*"遴選" + 0.000*"口腔" + 0.000*"加碼" + 0.000*"顆" + 0.000*"ppm" + 0.000*"進出" + 0.000*"指紋" + 0.000*"花次長" + 0.000*"監理" + 0.000*"諮商" + 0.000*"買進" + 0.000*"績效" + 0.000*"上漲" + 0.000*"評分" + 0.000*"受託" + 0.000*"辨識" + 0.000*"嬰幼兒" + 0.000*"運用局" + 0.000*"2021年"

strTM =  20.353*"次" + 0.220*"事" + 0.000*"年第" + 0.000*"加碼" + 0.000*"遴選" + 0.000*"監理" + 0.000*"嬰幼兒" + 0.000*"買進" + 0.000*"外界" + 0.000*"顆" + 0.000*"進出" + 0.000*"指紋" + 0.000*"辨識" + 0.000*"上漲" + 0.000*"受託" + 0.000*"砷" + 0.000*"2021年" + 0.000*"局" + 0.000*"運用局" + 0.000*"監委會"

strTM =  30.011*"本席" + 0.011*"標準" + 0.008*"陳部長" + 0.008*"基金" + 0.008*"元" + 0.008*"時中" + 0.007*"局長" + 0.007*"行政" + 0.007*"裡面" + 0.006*"報告" + 0.006*"交易" + 0.006*"件" + 0.006*"調查" + 0.006*