允言變調實驗文本。觀察文本8段,試驗文本9段。
- POJ版本:
tsingli/leku-0612.txt
- 教育部漢字羅馬字版本:
tsingli/leku-0612-hanlo.txt
- 詞性kah變調情形:
tsingli/leku-0612-mark.txt
編號 | 文本 | 年 | 作者 | 數位典藏原文 | 原文頭幾字 | 其他連結 |
---|---|---|---|---|---|---|
1 | Tang-pō͘ thôan-tō kiàn-bûn-kì 東部傳道見聞記 | 1961 | Tân Kàng-siông 陳降祥 | 連結 | 「Lín kiám無講, | 台語文記憶 |
2 | Tang-pō͘ thôan-tō kiàn-bûn-kì 東部傳道見聞記 | 1961 | Tân Kàng-siông 陳降祥 | 連結 | 我若問hia ê兄弟講, | 台語文記憶 |
3 | Chháu-tui-téng ê Bîn-bāng 草堆頂ê眠夢 | 1955 | N̂g Hôai-un 黃懷恩 | 連結 | 到hit ē暗,烏暗暝逼倚, | |
4 | Chháu-tui-téng ê Bîn-bāng 草堆頂ê眠夢 | 1955 | N̂g Hôai-un 黃懷恩 | 連結 | 瑪莉有時著用雙手來掩伊 | |
5 | Sin-bûn Ê Cha̍p-lio̍k 新聞ê雜錄 | 1913 | Bô Chù-bêng 無注明 | 連結 | 有一日我tī 街路teh行 | 台灣白話字文獻館 |
6 | Sin-bûn Ê Cha̍p-lio̍k 新聞ê雜錄 | 1913 | Bô Chù-bêng 無注明 | 連結 | 過幾日koh得著機會thang 結謙遜、 | 台灣白話字文獻館 |
7 | Cha̍p-hāng Kóan-kiàn 十項管見 | 1925 | Chhòa Pôe-hóe 蔡培火 | 連結 | 外國人o-ló 咱ê 台灣秀麗; | 台語文記憶 |
8 | Cha̍p-hāng Kóan-kiàn 十項管見 | 1925 | Chhòa Pôe-hóe 蔡培火 | 連結 | 親像án-ni來講, | 台語文記憶 |
- POJ版本:
tsingli/leku-0705.txt
- 教育部漢字羅馬字版本:
tsingli/leku-0705-hanlo.txt
- 詞性kah變調情形:
tsingli/leku-0705-mark.txt
編號 | 文本 | 年 | 作者 | 原文 | 原文頭幾字 | 其他連結 |
1 | Lūn Pe̍h-ōe-jī ê Lī-ek 論白話字ê利益 | 1885 | Ia̍p Hàn-tsiong Bo̍k-su 葉漢章牧師 | 連結 | 論寫白話字較贏寫中國字, | 台語文記憶 |
2 | Pe̍h-ōe-jī ê Lī-ek 白話字ê利益 | 1886 | Lâu Bô͘-chheng 劉茂清 | 連結 | 我照我愚戇ê意見, | 台語文記憶 |
3 | Kau-chiàn ê Siau-sit 交戰ê消息 | 1905 | Phian-chi̍p-sek 編輯室 | 連結 | 近來tī 滿州攏無甚物聽見交戰ê消息 | 台語文記憶 |
4 | Kau-chiàn ê Siau-sit 交戰ê消息 | 1905 | Phian-chi̍p-sek 編輯室 | 連結 | Tī 東京濟濟人teh議論in城ni̍h有hiah-ni̍h大擾亂 | 台語文記憶 |
5 | Thiàⁿ lí iâⁿ kè thong sè-kan 疼你贏過通世間 | 1955 | Lōa Jîn-seng 賴仁聲 | 連結 | 我這時家己感覺10分 ê 歹勢。 | 台語文記憶 |
6 | Thiàⁿ lí iâⁿ kè thong sè-kan 疼你贏過通世間 | 1955 | Lōa Jîn-seng 賴仁聲 | 連結 | 隔幾若日攏無接著回批, | 台語文記憶 |
7 | Ài lí kap ài i pînn-á tsē 愛你kap愛伊平仔濟 | 1997 | Lôo Tàn-tshun 盧誕春 | |||
8 | Ài lí kap ài i pînn-á tsē 愛你kap愛伊平仔濟 | 1997 | Lôo Tàn-tshun 盧誕春 | |||
9 | Ài lí kap ài i pînn-á tsē 愛你kap愛伊平仔濟 | 1997 | Lôo Tàn-tshun 盧誕春 |
實驗論文
允言老師的實驗資料統計
允言老師提供的檔案,big5
編碼
原始檔案,之間版本可能無仝
有標詞性的檔案,請參考論文第8頁下底表2 變調註記
。
佮*-poj.txt
的檔案小可仔無仝,有改過腔口、詞綴。
re
轉做UTF-8
照老師的檔案,揣出數位典藏ê文章
leku-****.txt
leku-****-mark.txt
leku-****-hanlo.txt
是照
第1,2種是自re-utf-8
ê檔案,照 #5 一步一步整理好--ê。
無mark(第1種) kah 有mark(第2種)--ê,除了空白kah連字符外,攏是相仝--ê。
第3種是照第1種整理出教育部ê漢字kah羅馬字寫法。
統計字數的程式
$ python 加本調符號.py tsingli/leku-0612-hanlo.txt tsingli/leku-0612-mark.txt > 0612.html
$ python 加本調符號.py tsingli/leku-0705-hanlo.txt tsingli/leku-0705-mark.txt > 0705.html