一個儲存了台語 {字詞,發音} pair 的 repo。
目前共 37625 條。
每一個 pair 都包含了「漢字」和「台羅」兩個部分。Column name 分別為 Hanji 以及 TL。
- Hanji:使用推薦用字。外來語的部分若原日文漢字字數相同、發音接近,則另收錄漢字版本。(詳見下方「關於外來語」。)
- TL:為了方便收集、簡潔呈現,拼音使用台羅。白話字的部分未來可能打算使用轉換工具。(有的方言使用了第六聲和第九聲,轉換時要注意~)
如果因為方言差而出現一詞多音的情況,就會收成兩個詞組(如「大人」可讀 tāi-jîn 或 tāi-lîn)。 所以實際上無法得知確切獨特的詞語數,畢竟可能也會有同漢字因文白異讀而成為兩詞的情境(如「大人」的文讀音 tāi-jîn 和白讀音 tuā-lâng 應該算兩個詞)。
教育部台語辭典為主要來源。(約 30000 條)
除了整理成 csv,也修補了一些部份:
- 一些原儲存於私人編碼區的字元改為正式的 unicode。
- (疒哥)和(足百)在多數情況仍無法顯示,但他們的編碼應該是正確的了。
- 原檔案有約 3000 詞沒有標音,只好刪除。
- 合併了字、詞方言差的檔案。
- 原檔案 10000 多句例句中可單獨成詞的部分也收了進來。這個部分是手工的,可能會有錯。
剩下預計是想到就會慢慢加進去,參考來源可能會是維基百科等地方:
- 新增
儒家
相關詞彙 - 新增教育部「
學科術語閩客語對譯成果
」 - 新增教育部字典 2023/06 新收錄的 250 詞
- 新增多數國家名稱
- 新增常見城市名稱
- 新稱公視台語台新收詞
外來語的的漢字與拼音欄位皆使用擬本調的音標。 舉例來說,如果外來語某音節原本的調值為51,則視為發第二聲的音。若為最後一字則標為第二聲,否則標為第三聲。
- an51 nai33 -> àn-nai
- lin35 jin51 -> lin-jín
部分調值為35或33者,雖實際發音近第五聲,但因無法推回擬本調,改視為轉調後發第七聲,本調標第一聲。(更新)依新版教育部字典,視情況改為第九調。
kha33 bang51 -> khang-páng- kha33 bang51 -> kha̋ng-páng
若原日文漢字字數與音節數相同,且漢字發音接近、字型不致與華台語混淆者,另收錄以日文漢字為漢字、擬本調音標為台羅音標的版本。 這些詞包含:
案内
黴菌
漫画
牛蒡
風呂
羊羹
予備
上等
勘定
(結帳)看板
休憩
昆布
練炭
(蜂窩煤)人参
(紅蘿蔔)林檎
(蘋果)名刺
(名片)味噌
写真
寿司
箪笥
(衣櫥)天麩羅
天婦羅
酸素
(氧氣)