In [1]:
#import json
import pickle
#import CwnGraph, DistilTag, CwnSenseTagger
#from DistilTag import DistilTag  
#from CwnSenseTagger import senseTag

## 1. Load Data

In [2]:
with open("kh_tagged.pkl", "rb") as f:
    kh_tagged = pickle.load(f)
    
with open("kh_tagged_sense.pkl", "rb") as f:
    kh_tagged_sense = pickle.load(f)
    
with open("tp_tagged.pkl", "rb") as f:
    tp_tagged = pickle.load(f)
    
with open("tp_tagged_sense.pkl", "rb") as f:
    tp_tagged_sense = pickle.load(f)

## 2. Make Frequency Lists

In [3]:
# making frequency tables
def freq_tables(sense_tagged_data):
    word_freq = {}
    pos_freq = {}
    sense_freq = {}

    for post in sense_tagged_data:
        for sent in post:
            for form, pos, sense_id, sense_def in sent:

                if form not in word_freq:
                    word_freq[form] = 1
                else:
                    word_freq[form] += 1

                word_pos = f"{form}_{pos}"
                if word_pos not in pos_freq:
                    pos_freq[word_pos] = 1
                else:
                    pos_freq[word_pos] += 1

                word_sense = f"{form}_{sense_id}_{sense_def}"
                if word_sense not in sense_freq:
                    sense_freq[word_sense] = 1
                else:
                    sense_freq[word_sense] += 1
        
    return word_freq, pos_freq, sense_freq

### 2.1. 高雄板詞頻表、詞類頻表、詞義頻表

#### 2.1.1 高雄板詞頻表

In [4]:
# sorting word frequency tables
kh_tables = freq_tables(kh_tagged_sense)
kh_tables_word = list(kh_tables[0].items())
sorted(kh_tables_word, reverse=True, key=lambda x: x[1])[0:99]

[('：', 1296),
 ('，', 802),
 ('判決', 424),
 ('。', 408),
 ('．', 282),
 ('原文', 259),
 ('的', 249),
 ('不', 237),
 ('依', 210),
 ('水桶', 165),
 ('、', 158),
 ('或', 153),
 ('屬', 152),
 ('處', 150),
 ('］', 146),
 ('［', 144),
 ('是', 141),
 ('之', 140),
 ('一', 131),
 ('有', 127),
 ('故', 121),
 ('（', 113),
 ('６１', 111),
 ('）', 110),
 ('日', 107),
 ('新聞', 100),
 ('高雄', 95),
 ('７', 91),
 ('針對', 89),
 ('規定', 88),
 ('就', 85),
 ('者', 80),
 ('了', 78),
 ('經', 73),
 ('板友', 72),
 ('內容', 71),
 ('文', 70),
 ('在', 68),
 ('？', 62),
 ('已', 62),
 ('引起', 62),
 ('爭端', 62),
 ('請', 59),
 ('影射', 59),
 ('上', 57),
 ('以', 54),
 ('特定', 54),
 ('不當', 54),
 ('為', 53),
 ('徵求', 52),
 ('族群', 52),
 ('無', 51),
 ('人', 50),
 ('會', 47),
 ('這', 47),
 ('並', 47),
 ('歧視', 47),
 ('／／ｉ', 46),
 ('ｉｍｇｕｒ', 46),
 ('我', 45),
 ('但', 43),
 ('次', 43),
 ('都', 43),
 ('交換', 43),
 ('查', 42),
 ('退文', 41),
 ('被', 40),
 ('內文', 40),
 ('也', 39),
 ('內', 39),
 ('文章', 39),
 ('個', 39),
 ('警告', 39),
 ('ｈｔｔｐｓ', 38),
 ('與', 37),
 ('刪', 37),
 ('禁止', 36),
 ('應', 36),
 ('

#### 2.1.2 高雄板詞類頻表

In [5]:
# sorting pos frequency tables
kh_tables_pos = list(kh_tables[1].items())
sorted(kh_tables_pos, reverse=True, key=lambda x: x[1])[0:99]

[('：_COLONCATEGORY', 1296),
 ('，_COMMACATEGORY', 802),
 ('。_PERIODCATEGORY', 408),
 ('判決_VE', 408),
 ('．_PERIODCATEGORY', 282),
 ('原文_Na', 259),
 ('不_D', 237),
 ('的_DE', 233),
 ('依_P', 210),
 ('水桶_Na', 165),
 ('、_PAUSECATEGORY', 158),
 ('或_Caa', 153),
 ('屬_VG', 152),
 ('］_PARENTHESISCATEGORY', 146),
 ('［_PARENTHESISCATEGORY', 144),
 ('是_SHI', 141),
 ('一_Neu', 129),
 ('有_V_2', 126),
 ('故_Cbb', 118),
 ('之_DE', 116),
 ('（_PARENTHESISCATEGORY', 113),
 ('６１_Neu', 111),
 ('）_PARENTHESISCATEGORY', 110),
 ('日_Nf', 106),
 ('新聞_Na', 100),
 ('高雄_Nc', 94),
 ('針對_P', 89),
 ('處_Nf', 83),
 ('就_D', 81),
 ('者_Na', 80),
 ('經_P', 73),
 ('板友_Na', 72),
 ('內容_Na', 71),
 ('文_Na', 70),
 ('７_Neu', 67),
 ('處_Nc', 64),
 ('？_QUESTIONCATEGORY', 62),
 ('已_D', 62),
 ('規定_Na', 62),
 ('引起_VC', 62),
 ('爭端_Na', 62),
 ('了_Di', 59),
 ('請_VF', 59),
 ('在_P', 57),
 ('影射_Na', 55),
 ('特定_A', 54),
 ('不當_VH', 54),
 ('族群_Na', 52),
 ('人_Na', 50),
 ('以_P', 50),
 ('徵求_VC', 47),
 ('歧視_Nv', 47),
 ('／／ｉ_FW', 46),
 ('ｉｍｇｕｒ_FW', 46),
 ('

#### 2.1.3 高雄版詞意頻表

In [6]:
# sorting sense frequency tables
kh_tables_sense = list(kh_tables[2].items())
sorted(kh_tables_sense, reverse=True, key=lambda x: x[1])[0:99]

[('：__', 1296),
 ('，__', 802),
 ('。__', 408),
 ('判決__', 408),
 ('．__', 282),
 ('原文_04060101_原來的文本。', 259),
 ('不_05010901_表疑問的語氣，置於句末。', 234),
 ('水桶__', 165),
 ('、__', 158),
 ('屬__', 152),
 ('］__', 146),
 ('［__', 144),
 ('（__', 113),
 ('６１__', 111),
 ('）__', 110),
 ('日_03036209_計算時間的單位。一日為二十四小時。', 106),
 ('依_04018504_引介遵循的原則。', 98),
 ('高雄_06047401_位於臺灣南部，介於臺東縣、屏東縣、臺南縣之間的地區。', 91),
 ('７__', 91),
 ('或_04001201_連接語意相似的詞組或子句，表選擇關係或並列關係。', 90),
 ('針對_04017001_引介事件所涉及的特定對象。', 89),
 ('的_07023402_表領屬關係，用於修飾語和中心語間。', 88),
 ('規定_06678002_要求他人在進行特定事件時必須遵守的內容。', 86),
 ('處_03007402_計算部位、地點的單位。', 83),
 ('故_03015807_表帶有明確意圖做事。', 82),
 ('者_06641401_具有前述身份或進行前述行為的人或團體。', 78),
 ('之_04090401_表一般的修飾關係，用於修飾語和中心語間。', 76),
 ('經_05002105_引介事件進行的過程或方法。', 73),
 ('板友__', 72),
 ('內容_06773301_特定事物內部所包含的實質對象。', 70),
 ('？__', 62),
 ('已_06668401_表後述事件在說話之前發生或完成。', 62),
 ('引起_06772201_因使特定對象注意而導致後述結果。', 62),
 ('爭端__', 62),
 ('文_05156301_獨立而首尾完整的成篇文字。', 60),
 ('影射__', 59),
 ('依_04018505_引介判斷的標準或條件。', 58),
 ('請_06532302_

### 2.2 台北板詞頻表、詞類頻表、詞義頻表

#### 2.2.1 台北板詞頻表

In [7]:
# sorting word frequency tables
tp_tables = freq_tables(tp_tagged_sense)
tp_tables_word = list(tp_tables[0].items())
sorted(tp_tables_word, reverse=True, key=lambda x: x[1])[0:99]

[('：', 810),
 ('．', 604),
 ('，', 346),
 ('的', 256),
 ('ｈｔｔｐｓ', 146),
 ('、', 126),
 ('。', 119),
 ('（', 98),
 ('）', 98),
 ('時間', 71),
 ('／／ｐｉｃ', 71),
 ('ｐｉｍｇ', 71),
 ('是', 67),
 ('／／ｗｗｗ', 67),
 ('台北市', 61),
 ('一', 58),
 ('ｊｐｇ', 58),
 ('食記', 56),
 ('有', 54),
 ('地址', 53),
 ('電話', 53),
 ('營業', 52),
 ('ｐｉｘｎｅｔ', 52),
 ('／／ｊｅｒｅｍｙｃｋｔ２', 51),
 ('線', 49),
 ('很', 47),
 ('和', 47),
 ('鄰近', 47),
 ('台北', 46),
 ('在', 46),
 ('捷運站', 45),
 ('ｆａｃｅｂｏｏｋ', 42),
 ('０２', 41),
 ('００', 37),
 ('這', 36),
 ('粉專', 35),
 ('都', 33),
 ('了', 32),
 ('我', 32),
 ('每', 31),
 ('捷運', 30),
 ('星期一', 29),
 ('天', 29),
 ('ｈｔｔｐ', 29),
 ('信義', 27),
 ('～', 26),
 ('不', 25),
 ('新店', 25),
 ('淡水', 25),
 ('１２', 24),
 ('也', 23),
 ('松山', 23),
 ('就', 22),
 ('日', 22),
 ('］', 21),
 ('官網', 21),
 ('韓式', 20),
 ('可以', 20),
 ('中', 20),
 ('又', 19),
 ('抹', 19),
 ('看板', 18),
 ('１１', 18),
 ('吃', 18),
 ('人', 18),
 ('公休', 18),
 ('烤', 17),
 ('大安區', 17),
 ('到', 17),
 ('身體', 17),
 ('茶', 17),
 ('００ＦＢ', 17),
 ('；', 17),
 ('００～２１', 17),
 ('還', 16),
 ('來', 16),


#### 2.2.2 台北板詞類頻表

In [8]:
# sorting pos frequency tables
tp_tables_pos = list(tp_tables[1].items())
sorted(tp_tables_pos, reverse=True, key=lambda x: x[1])[0:99]

[('：_COLONCATEGORY', 810),
 ('．_PERIODCATEGORY', 604),
 ('，_COMMACATEGORY', 346),
 ('的_DE', 246),
 ('ｈｔｔｐｓ_FW', 143),
 ('、_PAUSECATEGORY', 126),
 ('。_PERIODCATEGORY', 119),
 ('（_PARENTHESISCATEGORY', 98),
 ('）_PARENTHESISCATEGORY', 98),
 ('時間_Na', 71),
 ('／／ｐｉｃ_FW', 71),
 ('ｐｉｍｇ_FW', 71),
 ('是_SHI', 67),
 ('／／ｗｗｗ_FW', 67),
 ('台北市_Nc', 61),
 ('一_Neu', 54),
 ('地址_Na', 53),
 ('電話_Na', 53),
 ('有_V_2', 53),
 ('營業_Nv', 52),
 ('ｐｉｘｎｅｔ_FW', 52),
 ('／／ｊｅｒｅｍｙｃｋｔ２_FW', 51),
 ('線_Na', 49),
 ('很_Dfa', 47),
 ('台北_Nc', 46),
 ('食記_Na', 46),
 ('捷運站_Nc', 45),
 ('鄰近_VJ', 45),
 ('在_P', 44),
 ('和_Caa', 44),
 ('ｆａｃｅｂｏｏｋ_FW', 42),
 ('０２_Neu', 41),
 ('００_Neu', 37),
 ('這_Nep', 36),
 ('ｊｐｇ_Na', 35),
 ('都_D', 33),
 ('我_Nh', 32),
 ('每_Nes', 31),
 ('捷運_Na', 30),
 ('星期一_Nd', 29),
 ('ｈｔｔｐ_FW', 29),
 ('信義_Na', 27),
 ('天_Nf', 26),
 ('不_D', 25),
 ('新店_Nc', 25),
 ('淡水_Nc', 25),
 ('了_Di', 24),
 ('也_D', 23),
 ('松山_Nc', 23),
 ('就_D', 22),
 ('］_PARENTHESISCATEGORY', 21),
 ('官網_Na', 21),
 ('日_Nd', 21),
 ('韓式_A', 20),
 ('可以_D

#### 2.2.3 台北板詞義頻表

In [9]:
# sorting sense frequency tables
tp_tables_sense = list(tp_tables[2].items())
sorted(tp_tables_sense, reverse=True, key=lambda x: x[1])[0:99]

[('：__', 810),
 ('．__', 604),
 ('，__', 346),
 ('ｈｔｔｐｓ__', 146),
 ('、__', 126),
 ('。__', 119),
 ('（__', 98),
 ('）__', 98),
 ('的_07023408_列舉相類似的事物。', 88),
 ('的_07023402_表領屬關係，用於修飾語和中心語間。', 86),
 ('／／ｐｉｃ__', 71),
 ('ｐｉｍｇ__', 71),
 ('／／ｗｗｗ__', 67),
 ('台北市_06679601_位於臺灣北部，為臺灣政治、經濟中心。', 61),
 ('ｊｐｇ__', 58),
 ('食記__', 56),
 ('地址__', 53),
 ('營業__', 52),
 ('的_07023401_表一般的修飾關係，用於修飾語和中心語間。', 52),
 ('ｐｉｘｎｅｔ__', 52),
 ('／／ｊｅｒｅｍｙｃｋｔ２__', 51),
 ('線_06522708_比喻特定通訊線路。', 49),
 ('很_05172901_表超過平常的程度。', 47),
 ('鄰近__', 47),
 ('台北_06708401_位於臺灣北部的城市，為臺灣的政治經濟中心。', 46),
 ('是_09250101_前述事物的代稱。', 46),
 ('捷運站__', 45),
 ('電話_06694101_利用電傳輸語音訊號，使兩地間能互相通話的通訊系統與裝置。', 44),
 ('和_04156201_連接並列的詞組，表做連接的事件同時成立。', 44),
 ('時間_06560103_時間的一個段落。', 42),
 ('ｆａｃｅｂｏｏｋ__', 42),
 ('０２__', 41),
 ('００__', 37),
 ('粉專__', 35),
 ('在_04015702_引介處所。', 32),
 ('有_04013803_後述對象存在。', 32),
 ('捷運__', 30),
 ('時間_06560102_時點。', 29),
 ('星期一__', 29),
 ('這_05223501_根據說話者說話時所處的時空而言，指稱比較近的後述對象。', 29),
 ('ｈｔｔｐ__', 29),
 ('信義__', 27),
 ('天_05225405_計