### Vectorize Data Sets

In [1]:
from numba import jit, autojit # accelerate for loops
import numpy as np
import numpy.random as npr
import re # regular expressions
import glob
import pandas as pd

In [2]:
###--- Methods ---###

#### bootstrapping: resampling (virtual example)

nb = 100  # how many samples ?
ln = 3000 # how many words for each sample ? (3000 ~ length of each text)

def btp_ori(tot,nb,ln):
    if len(tot) == 0: return np.empty(0)
    else:
        idx = npr.randint(0, len(tot), (nb,ln)) # randomly pick indices from the 'at' array, 'nb' rows
        return np.array(tot[idx])

#### extract function words
#-- version 1
# function word list: Bei Yu 2012: Function Words for Chinese Authorship Attribution
fw1 = ["的","是","不","了","在","有","這","為","地","也","得","就","那","以","著","之","可","于",
       "麼","而","然","没","於","還","只","無","又","如","但","其","此","與","把","全","被","卻"]

# difficult word list: 司法院裁判書類通俗化小組
fw2 = ["殆","似","難認無過失","難認有理由","尚難謂為於法無違","非無理由","非有理由","尚非無疑","尚非不可能",
       "可徵","徵諸","洵堪","迭於","係經","係指","洵屬","伊","渠","致","爰","遽認","矧","略以","按","第按","茲",
       "揆諸","皆無該條適用","即","無庸","縱",
       "上開","足資","可稽","堪以認定","業據","云云","等語","次查","復查","再查","系爭","固非無見","旋","惟查","均係"]
fwt = fw1+fw2

#-- version 2
fwt = ["的","是","不","了","在","有","這","為","地","也","得","就","那","以","著","之","可","而",
       "然","没","於","還","只","無","又","如","但","其","此","與","把","全","被","卻","殆","似",
       "尚","非","可能","堪","諸","洵","迭","係","伊","渠等","致","爰","遽","矧","略","按","第",
       "茲","揆","皆","即","無庸","縱","上開","足","稽","業","云云","等語","次","復",
       "再","系爭","固","旋","惟","查","資"]

@jit
def ext_fw(txt,fw):
    # txt = input texts; fw = function word list
    j = np.empty(0)
    for i in fw:
        l = re.findall(i,txt)
        j = np.concatenate((j,np.array(l)))
    return j

In [12]:
#### generate csv files
global file_idx
file_idx = 0
def fw_csv(path,typ):
    list_of_files = glob.glob(path)

    for file_n in list_of_files:
        with open(file_n,'r') as myfile:         
            sl = myfile.read().replace('\n','')   # returns a string
            at = np.array(re.findall(r'\S+', sl)) # returns an array of the above string
            
            ## all texts as one
            # at = np.concatenate((at,sa))
        
        if   typ == 0: btp = btp_ori(at,nb,ln) # virtual examples: # = nb, length = ln
        elif typ == 1: btp = np.array(at,ndmin=2) # for test data
        print btp.shape
            
        for i in range(btp.shape[0]):
            bts = " ".join(btp[i])
            fwr = ext_fw(bts,fw1+fw2)

            # frequency table
            fwr_str = "\t".join(fwr).split("\t")
            fwr_tb  = pd.Series(fwr_str).value_counts()

            # store in dictionary
            dict1 = {}
            dict1.update(fwr_tb)
            dict1.update({"NAME": "%s" %f})
            dict1.update({"file_n": file_idx})
            dict1.update({"total wc": btp[i].shape[0]}) # word count
            tp.append(dict1)
        global file_idx
        file_idx+=1
       
    return tp

In [4]:
#### Orderring columns
import sys  

reload(sys)  
sys.setdefaultencoding('utf8')

def reord_col(df):
    for a in fwt:
        if a not in [x.encode('utf-8') for x in df.columns]:
            df = df.append(pd.DataFrame(columns=[a]))

    col = ["NAME","file_n","total wc"]+fwt
    df = df[col]
    return df

In [5]:
#########################
###-- Training Data --###
#########################

#### read corpus
list_of_jud   = ["翁岳生","城仲模","林永謀","王和雄","余雪明","廖義男","曾有田","楊仁壽",
                 "彭鳳至","賴英照","謝在全","徐璧湖","林子儀","許宗力","許玉秀","林錫堯",
                 "池啟明","李震山","蔡清遊","賴浩敏","蘇永欽","黃茂榮","陳新民","陳春生","陳敏","葉百修"]

tp = [] # an empty list
file_idx = 0
for f in list_of_jud:
    # for each author ...
    path = './segmented_txt_2/%s/*.txt' %f 
    rs   = fw_csv(path,0)
    
df = pd.DataFrame(rs) 
df = reord_col(df)
# output csv
df.to_csv("./vectorized_fw2.csv", encoding="utf-8")

---
### Examine results:

In [8]:
import pandas as pd
test = pd.read_csv("./vectorized_fw2.csv", encoding="utf-8")
test

Unnamed: 0.1,Unnamed: 0,NAME,file_n,total wc,的,是,不,了,在,有,...,等語,次,復,再,系爭,固,旋,惟,查,資
0,0,翁岳生,0,3000,11,19,51,,22,63,...,,,,,3,,,,,
1,1,翁岳生,0,3000,25,5,48,,14,68,...,,,,,5,,,,,
2,2,翁岳生,0,3000,24,7,41,,15,52,...,,,,,5,,,,,
3,3,翁岳生,0,3000,12,13,52,,23,79,...,,,,,5,,,,,
4,4,翁岳生,0,3000,20,17,47,,10,56,...,,,,,3,,,,,
5,5,翁岳生,0,3000,10,10,53,,13,61,...,,,,,3,,,,,
6,6,翁岳生,0,3000,17,15,56,,16,66,...,,,,,5,,,,,
7,7,翁岳生,0,3000,19,12,47,,16,69,...,,,,,5,,,,,
8,8,翁岳生,0,3000,21,14,46,,20,73,...,,,,,4,,,,,
9,9,翁岳生,0,3000,29,16,47,,17,70,...,,,,,5,,,,,


---
### Generate testing data from judicial Yuan (cf. parser.ipynb)

In [13]:
#####################
###-- Test Data --###
#####################

file_idx = 573 ## interpretation label
tp = [] # an empty list
path = './test_d_new/*.txt'
f    = "test data new"
rs   = fw_csv(path,1)
    
df = pd.DataFrame(rs)
df = reord_col(df)

# output csv
df.to_csv("./test_ds_n_fw2.csv", encoding="utf-8")

In [14]:
pd.read_csv('./test_d_new/573.txt', encoding="utf-8")

Unnamed: 0,依 中華民國 十八年 五月 十四日 國民政府 公布 之 法規 制定 標準 法 以下 簡稱 前 法規 制定 標準 法 第一條 凡 法律案 由 立法院 三讀會 之 程序 通過 經 國民政府 公布 者 定名 為法 第二條 第三款 所稱 涉及 人民 權利義務 關係 之 事項 經 立法院 認為 有 以 法律 規定 之 必要 者 為 法律案 應經 立法院 三讀會 程序 通過 之 以及 第三條 凡 條例 章程 或 規則 等 之 制定 應 根據 法律 等 規定 觀之 可知 憲法 施行 前 之 訓政 初期 法制 已寓 有 法律 優越 及 法律 保留 原則 之 要求 但 有關 人民 之 權利義務 關係 事項 亦 得以 未具 法律 位階 之 條例 等 規範 形式 予以 規定 且 當時 之 立法院 並非 由 人民 直接 選舉 之 成員 組成 是 以 當時 法律 保留 原則 之 涵義 及其 適用 之 範圍 均 與 行憲 後者 未盡 相同 本案 系爭 之 監督 寺廟 條例 雖依前 法規 制定 標準 法所 制定 但特 由 立法院 逐條 討論 通過 由 國民政府 於 十八年 十二月 七日 公布 施行 嗣 依 三十六年 一月 一日 公布 之 憲法 實施 之 準備 程序 亦 未 加以 修改 或 廢止 而 仍 持續 沿用 並經 行憲 後 立法院 認其為 有效 之 法律 且 迭經 本院 作為 審查 對象 在案 應認 其為 現行 有效 規範 人民 權利義務 之 法律 人民 之 宗教信仰 自由 及 財產權 均 受 憲法 之 保障 憲法 第十三條 與 第十五條 定 有 明文 宗教團體 管理 處分 其 財產 國家 固非 不得 以 法律 加以 規範 惟應 符合 憲法 第二十三條 規定 之 比例 原則 及 法律 明確性 原則 監督 寺廟 條例 第八條 就 同 條例 第三條 各款 所 列 以外 之 寺廟 處分 或 變更 其 不動產 及 法物 規定 須經 所屬 教會 之 決議 並 呈請 該管 官署 許可 未 顧及 宗教 組織 之 自主性 內部 管理機制 之 差異性 以及 為 宗教 傳布 目的 所為 財產 經營 之 需要 對 該 等 寺廟 之 宗教 組織 自主權 及 財產 處分權 加以 限制 妨礙 宗教 活動 自由 已 逾越 必要 之 程度 且 其 規定 應 呈請 該管 官署 許可 部分 就 申請 之 程序 及 許可 之 要件 均 付諸 闕如 已 違反 法律 明確性 原則 遑論 採取 官署 事前 許可 之 管制 手段 是否 確有 其 必要性 與 上 開 憲法 規定 及 保障 人民 自由 權利 之 意旨 均 有所 牴觸 又 依同 條例 第一條 及 第二條 第一項 規定 第八條 規範 之 對象 僅 適用於 部分 宗教 亦 與 憲法 上 國家 對 宗教 應謹 守中立 之 原則 及 宗教 平等 原則 相悖 該 條例 第八條 及 第二條 第一項 規定 應自本 解釋 公布 日起 至 遲於 屆滿 二 年時 失其 效力 關於 人民 自由 權利 之 限制 應 以 法律 加以 規範 憲法 第二十三條 定 有 明文 此 所謂 法律 依 憲法 第一百七十條 規定 係指 經 立法院 通過 總統 公布 者 而言 依 現行 中央 法規 標準 法 第二條 法律 得 定名 為 法律 條例 或 通則 第五條 第二款 所稱 關於 人民 之 權利義務 事項 應 以 法律 定之及 第六條 應 以 法律 規定 之 事項 不得 以 命令 定 之 等 規定 觀之 憲政時期 之 法制 就 規範 人民 權利義務 之 事項 須 符合 法律 保留 原則 甚為 明確 惟 關於 上開 法律 名稱 中 之 條例 一種 於今 固屬 法律 位階 然 於 訓政 初期 依前 法規 制定 標準 法 第一條 凡 法律案 由 立法院 三讀會 之 程序 通過 經 國民政府 公布 者 定名 為法 第二條 左列 事項 為 法律案 應經 立法院 三讀會 程序 之 通過 一 關於 現行 法律 之 變更 或 廢止 者 二 現行 法律 有 明文規定 應 以 法律 規定 者 三 其他 事項 涉及 國家 各 機關 之 組織 或 人民 之 權利義務 關係 經 立法院 認為 有 以 法律 規定 之 必要 者 及 第三條 凡 條例 章程 或 規則 等 之 制定 應 根據 法律 第四條 條例 章程 規則 等 不得 違反 或 牴觸 法律 第五條 應 以 法律 規定 之 事項 不得 以 條例 章程 規則 等 規定 之 等 規定 觀之 當時 之 法制 固已 寓 有 法律 優越 及 法律 保留 原則 之 要求 但 條例 尚屬 命令 位階 迨 前 法規 制定 標準 法 於 三十二年 六月 四日 修正 公布 後 依其 第三條 法律 得 按 其 規定 事項 之 性質 定名 為法 或 條例 之 規定 條例 始具 法律 地位 然 制定 法律 之 立法機關 即 隸屬於 國民政府 之 立法院 並非 由 人民 直接 選舉 之 成員 組成 法律案 經其 議決 通過 後 仍 須經 國民政府 之 國務會議 議決 始 能 公布 十七年 十月 八日 公布 之 中華民國 國民政府 組織法 第十三條 第三十一條 參照 且 依上 開前 法規 制定 標準 法 第二條 第三款 規定 解釋 關於 涉及 人民 權利義務 關係 之 事項 如 未經 立法院 以 法律 規定 者 國民政府 或 其 所屬 五院 或 行政院 各部 會 尚非 不得 制定 公布 或 訂定 發布 條例 章程 規則 等 命令 十七年 十月 八日 公布 之 中華民國 國民政府 組織法 第十三條 第十四條 第二十三條 參照 予以 規範 是 以 當時 法律 保留 原則 之 涵義 及其 適用 之 範圍 均 與 行憲 後者 未盡 相同 國民政府 原於 十八年 一月 二十五日 發布 由 內政部 所 擬訂 之 寺廟 管理條例 但 當時 大陸 各省 施行 後 屢生 窒礙 及 紛擾 內政部 特 呈 由 行政院 轉呈 國民政府 於 同年 五月 二十五日 將該 條例 令交 立法院 審核經 立法院 於 同年 第二十七次 會議 提出 討論 認為 該 條例 窒礙難行 乃 另行 草定 監督 寺廟 條例 草案 該院 於 同年 十一月 三十日 第六十三 次 會議 將該 草案 提出 逐條 討論 省略 三讀會 程序 十七年 十一月 十三日 公布 之 立法院 議事規則 第十條 第十一條 參照 通過 全案 呈 由 國民政府 於 十八年 十二月 七日 公布 施行 此即 本案 系爭 之 監督 寺廟 條例 嗣 國民政府 依 三十六年 一月 一日 公布 之 憲法 實施 之 準備 程序 亦 未 加以 修改 或 廢止 而 仍 持續 沿用 且 行憲 後經 立法院 法規 整理 委員會 分類 整編 中華民國 現行 法律 目錄 稿本 交由 相關 委員會 審查 後經 第一屆 立法院 於 四十四年 一月 七日 第十四 會期 第三十一次 會議 決議 編入 中華民國 現行 法律 目錄 認屬 現行 有效 之 法律 見 立法院 公報 第十四 會期 第八期 四十四年 二月 十六日 印 第五十四 至 五十五 頁 第七十四 頁 立法院 法規 整理 委員會 編印 中華民國 現行 法律 目錄 稿本 截至 中華民國 四十三年 五月 八日 止 第一 及 二十七 頁並 參考 謝振民 編著 張知本 校訂 之 中華民國 立法 史 正中書局 三十七年 一月 滬一版 第六 二 ○ 頁 至 六二 二頁 並迭經 本院 作為 審查 對象 在案 本院 釋字 第六十五 號 第二 ○ ○ 號 解釋 等 參照 自應 認其 已具 法律 之 性質 及 效力 是 以上 開 條例 有關 人民 權利義務 事項 之 規定 尚難 謂 與 我國 行憲 後 之 法律 保留 原則 有所 違背 憲法 第十三條 規定 人民 有 信仰 宗教 之 自由 係指 人民 有 信仰 與 不 信仰 任何 宗教 之 自由 以及 參與 或 不 參與 宗教 活動 之 自由 國家 不得 對 特定 之 宗教 加以 獎勵 或 禁制 或 對 人民 特定 信仰 畀 予 優待 或 不 利益 其 保障 範圍 包含 內在 信仰 之 自由 宗教 行為 之 自由 與 宗教 結社 之 自由 本院 釋字 第四 九 ○ 號 解釋 參照 人民 所 從事 之 宗教 行為 及 宗教 結社組織 與其 發乎 內心 之 虔誠 宗教 信念 無法 截然 二分 人民 為 實現 內心 之 宗教 信念 而 成立 參加 之 宗教性 結社 就 其 內部 組織 結構 人事 及 財政管理 應 享有 自主權 宗教性 規範 茍 非 出於 維護 宗教自由 之 必要 或 重大 之 公益 並於 必要 之 最小限度 內為 之 即 與 憲法 保障 人民 信仰自由 之 意旨 有違 憲法 第十五條 規定 人民 之 財產權 應予 保障 旨在 確保 個人 依 其 財產 之 存續 狀態 行使 其 自由 使用 收益 及 處分 之 權能 並 免於 遭受 公權力 或 第三 人 之 侵害 寺廟 之 財產 亦 應受 憲法 有關 財產權 規定 之 保障 寺廟 內部 之 組織 結構 是否 加入 其他 宗教性 人民團體 教會 成為 團體會員 及其 與 該 宗教性 人民團體 之 內部 關係 暨 寺廟 財產 之 管理 處分 等 事項 均屬 宗教 結社自由 之 保障 範圍 監督 寺廟 條例 第八條 規定 寺廟 之 不動產 及 法物 非經 所屬 教會 之 決議 並 呈請 該管 官署 許可 不得 處分 或 變更 旨在 保護 同 條例 第三條 各款 所 列 以外 之 寺廟 財產 避免 寺廟 之 不動產 及 法物 遭受 不當之處 分 或 變更 致 有害 及 寺廟 信仰 之傳布 存續 固有 其 正當性 惟其 規定 須經 所屬 教會 同意 部分 未 顧及 上開 寺廟 之 組織 自主性 內部 管理機制 之 差異性 以及 為 宗教 傳布 目的 所為 財產 經營 之 需要 對 該 等 寺廟 之 宗教 組織 自主權 及 財產 處分權 加以 限制 妨礙 宗教 活動 自由 已 逾越 必要 之 程度 且 其 規定 應 呈請 該管 官署 許可 部分 就 申請 之 程序 及 許可 之 要件 均 付諸 闕如 不僅 受 規範 者 難以 預見 及 理解 亦非 可 經由 司法 審查 加以 確認 已違 法律 明確性 原則 本院 釋字 第四 四五 號 第四 九 一號 解釋 參照 遑論 採取 官署 事前 許可 之 管制 手段 是否 確有 其 必要性 其所 採行 之 方式 亦 難謂 符合 最小 侵害 原則 牴觸 憲法 第二十三條 規定 憲法 保障 人民 有 信仰 宗教 之 自由 係 為 維護 人民 精神 領域 之 自我 發展 與 自我 實踐 及 社會 多元 文化 之 充實 故 國家 對 宗教 應謹 守中立 及 寬容 原則 不得 對 特定 之 宗教 加以 獎勵 或 禁制 或 對 人民 特定 信仰 畀 予 優待 或 不 利益 前 已 述及 且 憲法 第七條 明文規定 中華民國 人民 無 分 男女 宗教 種族 階級 黨派 在 法律 上 一律平等 是 國家 如僅 針對 特定 宗教 而 為 禁制 或 畀 予 不 利益 即 有悖於 宗教 中立 原則 及 宗教 平等 原則 監督 寺廟 條例 第三條 規定 排除 由 政府 機關 地方 公共 團體 管理 以及 私人 建立 管理 之 寺廟 適用 該 條例 僅將 由 信眾 募資 成立 之 寺廟 實務 上稱 為 募建 寺廟 納入 該 條例 規範 其以 寺廟 財產來源 作為 差別待遇 之 區分 標準 尚未 涉及 對 不同 宗教信仰 之 差別待遇 參酌 前述 該 條例 保護 寺廟 財產 防止 弊端 之 立法 目的 當屬 考量 規範 對象 性質 之 差異 而 為 之 合理 差別待遇 固難謂 與 實質 平等 之 要求 有違 惟同 條例 第八條 之 規定 依該 條例 第一條 所稱 凡有 僧道 住持 之 宗教 上 建築物 不論 用何 名稱 均 為 寺廟 及 第二條 第一項 所定 寺廟 及其 財產 法物 除 法律 別有 規定 外依本 條例 監督 之僅 適用於 佛道 等 部分 宗教 對 其餘 宗教 未為 相同 之 限制 即 與 憲法 第十三條 及 第七條 所定 之 宗教 中立 原則 及 宗教 平等 原則 有所 不符 綜上所述 監督 寺廟 條例 第八條 及 第二條 第一項 之 規定 牴觸 憲法 第七條 第十三條 第十五條 第二十三條 鑒 於 該 條例 上開 規定 係 監督 前 揭 寺廟 財產 處分 之 主要 規範 涉及 管理制度 之 變更 需 有 相當 時間 因應 爰 均 應 自本 解釋 公布 日起 至 遲於 屆滿 二 年時 失其 效力 大法官 會議 主席 大法官 翁岳生 大法官 城仲模 林永謀 王和雄 謝在 全 賴英照 余雪明 曾 有 田 廖義男 楊 仁壽 徐璧湖 彭鳳至 林子 儀 許宗 力 許玉秀


In [6]:
import pandas as pd
test = pd.read_csv("./test_ds_n_fw2.csv", encoding="utf-8")
test

Unnamed: 0.1,Unnamed: 0,NAME,file_n,total wc,的,是,不,了,在,有,...,等語,次,復,再,系爭,固,旋,惟,查,資
0,0,test data new,573,2433,3,7,21,,7,31,...,,,,,2,,,,,
1,1,test data new,574,2480,3,5,28,,10,21,...,,,,,,,,,,
2,2,test data new,575,2016,1,1,24,,5,21,...,,,,,,,,,,
3,3,test data new,576,1630,2,4,21,,3,13,...,,,,,1,,,,,
4,4,test data new,577,2152,10,3,22,1,3,30,...,,,,,,,,,,
5,5,test data new,578,2187,10,,8,,7,34,...,,,,,,,,,,
6,6,test data new,579,1898,2,5,10,,5,31,...,,,,,1,,,,,
7,7,test data new,580,3455,6,4,43,,4,41,...,,,,,,,,,,
8,8,test data new,581,1087,,,14,,10,9,...,,,,,1,,,,,
9,9,test data new,582,3706,5,6,45,,13,43,...,,,,,2,,,,,
