In [216]:
import pandas as pd
import os
import re
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF, LatentDirichletAllocation
from ckiptagger import data_utils, construct_dictionary, WS, POS, NER

In [2]:
ws = WS("./model")
pos = POS("./model")
ner = NER("./model")


For more information, please see:
  * https://github.com/tensorflow/community/blob/master/rfcs/20180907-contrib-sunset.md
  * https://github.com/tensorflow/addons
If you depend on functionality not listed there, please file an issue.



In [35]:
stopwords = [term.strip() for term in open("data/stopword.txt", "r").readlines()]
day1 = pd.read_csv("data/1218/1218.csv")
day2 = pd.read_csv("data/1225/1225.csv")
day3 = pd.read_csv("data/1227/1227.csv")
day4 = pd.read_csv("data/1229/1229.csv")

In [232]:
day1

Unnamed: 0,turn,presenter,content
0,1,韓國瑜,謝謝 主持人 李進勇 主委 ， 蔡英文 蔡 總統 、 宋楚瑜 宋 主席 、 全 國 各位 所...
1,1,宋楚瑜,主持人 、 監察人 、 兩 位 候選人 、 各位 海內外 的 同胞 、 各位 鄉親 ， 大家...
2,1,蔡英文,主持人 、 監察人 、 還 有 親民黨 的 候選人 宋 先生 、 國民黨 的 候選人 韓國瑜...
3,2,韓國瑜,謝謝 宋楚瑜 主席 ， 謝謝 蔡英文 總統 對 我 的 指教 。 \n 蔡 英文 總統 ， ...
4,2,宋楚瑜,各位 親愛 的 朋友 們 ， 各位 鄉親 ， 聽到 剛剛 兩 位 發表 的 看法 ， 就 像...
5,2,蔡英文,謝謝 主持人 。 我 剛剛 也 很 仔細 的 聽 韓國瑜 市長 的 發言 ， 我 聽到 的 ...
6,3,韓國瑜,再次 謝謝 主持人 ， 謝謝 蔡英文 總統 對 我 的 指教 。 各位 親愛 的 台灣 同胞...
7,3,宋楚瑜,我 剛剛 聽到 韓 市長 講 的 這 段 話 ， 我 可以 說 ， 韓 市長 你 非常 認真...
8,3,蔡英文,謝謝 主持人 ， 謝謝 宋 主席 最後 的 提醒 ， 我 也 希望 這 次 選舉 都 能 平...


## 前處理

In [37]:
# 處理空白與換行
def replace_newline(content):
    content = re.sub("\n\u3000\n", "\n", content)
    content = re.sub("\n\n", "\n", content)
    content = re.sub("\n　　", "\n", content)
    return content
for conts in [day1, day2, day3, day4]:
    for i, cont in enumerate(conts.content):
        cont = replace_newline(cont)
        conts.iloc[i, conts.columns.get_loc('content')] = cont

In [40]:
# 斷詞
for conts in [day1, day2, day3, day4]:
    for i, cont in enumerate(ws(conts.content)):
        cont = " ".join(cont)
        conts.iloc[i, conts.columns.get_loc('content')] = cont

In [45]:
day1.to_csv("data/1218/1218_ws.csv", index=False)
day2.to_csv("data/1225/1225_ws.csv", index=False)
day3.to_csv("data/1227/1227_ws.csv", index=False)
day4.to_csv("data/1229/1229_ws.csv", index=False)

In [233]:
day1

Unnamed: 0,turn,presenter,content
0,1,韓國瑜,謝謝 主持人 李進勇 主委 ， 蔡英文 蔡 總統 、 宋楚瑜 宋 主席 、 全 國 各位 所...
1,1,宋楚瑜,主持人 、 監察人 、 兩 位 候選人 、 各位 海內外 的 同胞 、 各位 鄉親 ， 大家...
2,1,蔡英文,主持人 、 監察人 、 還 有 親民黨 的 候選人 宋 先生 、 國民黨 的 候選人 韓國瑜...
3,2,韓國瑜,謝謝 宋楚瑜 主席 ， 謝謝 蔡英文 總統 對 我 的 指教 。 \n 蔡 英文 總統 ， ...
4,2,宋楚瑜,各位 親愛 的 朋友 們 ， 各位 鄉親 ， 聽到 剛剛 兩 位 發表 的 看法 ， 就 像...
5,2,蔡英文,謝謝 主持人 。 我 剛剛 也 很 仔細 的 聽 韓國瑜 市長 的 發言 ， 我 聽到 的 ...
6,3,韓國瑜,再次 謝謝 主持人 ， 謝謝 蔡英文 總統 對 我 的 指教 。 各位 親愛 的 台灣 同胞...
7,3,宋楚瑜,我 剛剛 聽到 韓 市長 講 的 這 段 話 ， 我 可以 說 ， 韓 市長 你 非常 認真...
8,3,蔡英文,謝謝 主持人 ， 謝謝 宋 主席 最後 的 提醒 ， 我 也 希望 這 次 選舉 都 能 平...


In [102]:
## 將三場政見發表會合成一份 df
whole = pd.concat([day1, day2, day3])
han = pd.concat([day1.loc[day1['presenter'] == "韓國瑜", :],
        day2.loc[day2['presenter'] == "韓國瑜", :],
        day3.loc[day3['presenter'] == "韓國瑜", :]])
song = pd.concat([day1.loc[day1['presenter'] == "宋楚瑜", :],
        day2.loc[day2['presenter'] == "宋楚瑜", :],
        day3.loc[day3['presenter'] == "宋楚瑜", :]])
tsai = pd.concat([day1.loc[day1['presenter'] == "蔡英文", :],
        day2.loc[day2['presenter'] == "蔡英文", :],
        day3.loc[day3['presenter'] == "蔡英文", :]])
len(whole), len(han), len(song), len(tsai)

(27, 9, 9, 9)

## NMF & LDA 主題分析

In [225]:
def nmf_lda_predict(docs, no_features=500, no_topics=5):
    tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, max_features=no_features, stop_words=stopwords)
    tfidf = tfidf_vectorizer.fit_transform(docs)
    tfidf_feature_names = tfidf_vectorizer.get_feature_names()

    tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, max_features=no_features, stop_words=stopwords)
    tf = tf_vectorizer.fit_transform(docs)
    tf_feature_names = tf_vectorizer.get_feature_names()
    
    # Run NMF
    nmf = NMF(n_components=no_topics, random_state=1, alpha=.1, l1_ratio=.5, init='nndsvda').fit(tfidf)
    # Run LDA
    lda = LatentDirichletAllocation(n_components=no_topics,doc_topic_prior=0.1, max_iter=20, learning_method='batch', learning_offset=50.,random_state=0).fit(tf)
    print(lda.perplexity(tf))
    return (tfidf_feature_names, nmf), (tf_feature_names, lda)

In [226]:
man_dict = {0: "whole", 1: "song", 2: "han", 3: "tsai"}
no_features = 500
no_topics = 4
nmf_fnames = []
lda_fnames = []
nmfs = []
ldas = []
for man in [whole, song, han, tsai]:
    (nmf_fname, nmf), (lda_fname, lda) = nmf_lda_predict(man.content, no_features, no_topics)
    nmf_fnames.append(nmf_fname)
    lda_fnames.append(lda_fname)
    nmfs.append(nmf)
    ldas.append(lda)

369.4925449937889
461.02956080881745
461.60808692527564
460.45133173808495


In [227]:
def display_topics(model, feature_names, no_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic %d:" % (topic_idx))
        print(" ".join([feature_names[i]
                        for i in topic.argsort()[::-1][:no_top_words]]))

no_top_words = 8
for i, (nmf_fname, nmf, lda_fname, lda) in enumerate(zip(nmf_fnames, nmfs, lda_fnames, ldas)):
    print(man_dict[i])
    display_topics(nmf, nmf_fname, no_top_words)
    print("----")
    display_topics(lda, lda_fname, no_top_words)
    print("====")

whole
Topic 0:
兩岸 改革 鄉親 問題 坦白 政府 人民 特別
Topic 1:
架空 民進黨 蔡英文 人民 今天 危機 派系 數字
Topic 2:
高雄 經濟 市長 很多 國民黨 政府 年輕人 現在
Topic 3:
危機 日本 美國 臺灣 面臨 大陸 處理 明年
----
Topic 0:
人民 民進黨 問題 今天 政府 蔡英文 改革 執政
Topic 1:
蔡英文 政府 民進黨 人民 一定 執政 同胞 特偵組
Topic 2:
市長 很多 經濟 事情 國民黨 發展 政府 年輕人
Topic 3:
民主 必須 滲透 中國 中華民國 重要 世界 政府
====
song
Topic 0:
問題 改革 兩岸 人民 坦白 民進黨 選舉 剛剛
Topic 1:
危機 臺灣 日本 美國 大陸 明年 面臨 世界
Topic 2:
證明 自由 滲透 國家 利益 必須 安全 共同
Topic 3:
權力 政治 決定 影響 人民 重大 美國 國家
----
Topic 0:
人民 兩岸 問題 特別 照顧 事情 宋楚瑜 一定
Topic 1:
問題 臺灣 改革 坦白 好好 特別 世界 必須
Topic 2:
民進黨 執政 國民黨 宋楚瑜 完全 支票 問題 不會
Topic 3:
國家 美國 必須 人民 權力 今天 自由 鄉親
====
han
Topic 0:
高雄 政府 一定 朋友 中華民國 政治 教育 經濟
Topic 1:
架空 危機 今天 派系 領導 客氣 數字 充滿
Topic 2:
欺騙 數字 問題 告訴 心聲 2018年 覺得 經濟
Topic 3:
煤炭 兩岸 政策 能源 毒品 關係 不停 交流
----
Topic 0:
架空 今天 危機 領導 派系 親愛 數字 應該
Topic 1:
政府 一定 高雄 問題 中華民國 未來 現在 第二
Topic 2:
居然 選舉 關心 良好 提出 有沒有 價值 民眾
Topic 3:
朋友 政府 政治 經濟 希望 已經 第三 國民黨
====
tsai
Topic 0:
經濟 政府 國際 國民黨 社會 投資 中國 能力
Topic 1:
年輕人 滲透 案子 特偵組 民主 選舉 高興 自由
Topic 2:
司法 特偵組 改革 檢察官 參與 提名 社會 指控
Topic 3:
高雄 發展 區域 跳票 建設 產業 

## Bigram 詞頻分析

In [231]:
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=1,ngram_range=(2,2), max_features=no_features, stop_words=stopwords)
tf = tf_vectorizer.fit_transform(han.content)
tf_feature_names = tf_vectorizer.get_feature_names()
df = pd.DataFrame(tf.toarray(), columns=tf_vectorizer.get_feature_names())
sorted(dict(df.sum(axis = 0, skipna = True)).items(), key=lambda x: x[1], reverse=True)

[('台灣 同胞', 31),
 ('台灣 人民', 27),
 ('沒有 辦法', 17),
 ('親愛 台灣', 14),
 ('民進黨 執政', 13),
 ('中國 大陸', 9),
 ('成立 特偵組', 9),
 ('絕對 不能', 9),
 ('英文 總統', 9),
 ('風力 發電', 9),
 ('面對 問題', 8),
 ('國營 事業', 7),
 ('高雄 市長', 7),
 ('台灣 獨立', 6),
 ('庶民 經濟', 6),
 ('政治 人物', 6),
 ('政見 發表', 6),
 ('絕對 不會', 6),
 ('總統 執政', 6),
 ('總統 架空', 6),
 ('雙語 教育', 6),
 ('韓國瑜 總統', 6),
 ('中英文 雙語', 5),
 ('中華民國 萬歲', 5),
 ('原住民 朋友', 5),
 ('完全 沒有', 5),
 ('沒有 問題', 5),
 ('現在 沒有', 5),
 ('經濟 發展', 5),
 ('總統 台灣', 5),
 ('能源 政策', 5),
 ('謝謝 主持人', 5),
 ('領導 之下', 5),
 ('中華民國 主權', 4),
 ('主權 基金', 4),
 ('人民 安居樂業', 4),
 ('今天 台灣', 4),
 ('今天 民進黨', 4),
 ('勞工 朋友', 4),
 ('台灣 電視', 4),
 ('告訴 台灣', 4),
 ('國家 機器', 4),
 ('從來 沒有', 4),
 ('應該 轉化為', 4),
 ('支持 台獨', 4),
 ('政見 發表會', 4),
 ('欺騙 數字', 4),
 ('沒有 清廉', 4),
 ('真正 危機', 4),
 ('總統 政見', 4),
 ('總統 蔡英文', 4),
 ('總統 領導', 4),
 ('罷免 高雄', 4),
 ('親愛的 台灣', 4),
 ('覺得 蔡英文', 4),
 ('金馬 同胞', 4),
 ('電視 公司', 4),
 ('高雄 市民', 4),
 ('黑心 食品', 4),
 ('40 市場', 3),
 ('一定 支持', 3),
 ('不斷 欺騙', 3),
 ('世上 苦人', 3),
 ('主持人 謝謝', 3),
 ('兩兆 風力', 3),
 