Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

希望繁簡轉換時能有迷你(非破壞性)轉換模式 #293

Closed
bluelovers opened this issue Jul 26, 2019 · 14 comments
Closed

希望繁簡轉換時能有迷你(非破壞性)轉換模式 #293

bluelovers opened this issue Jul 26, 2019 · 14 comments
Assignees
Milestone

Comments

@bluelovers
Copy link

希望繁簡轉換時能有迷你(非破壞性)轉換模式
以及甚至可以在轉換時由使用者去自訂忽略指定字不轉換

另外 如果能有額外的使用者自訂轉換表的話也不錯
如此一來在轉換時 可以依照需求來調整
轉換時會讓自訂轉換表合併並且覆蓋內建轉換表已經存在的部分來轉換

例如像這樣
https://demonovel.netlify.com/tool/cjk-conv/

一般模式(會造成一些一對多的漢字 轉換後 可能無法還原)

image

迷你(非破壞性)轉換模式 在某種程度上 轉繁轉簡後 能夠被還原

image

然後在迷你模式下 則有極少一對多的仍然會去轉換 並且 轉繁與轉簡會有差異

例如
=> 轉繁時會變化 (因為 衝 比較容易出現 沖 則比較少數)
轉簡時 則保持不變

=> 轉繁時會變化
轉簡時 則保持不變 或 依然轉成 <== 這部分看如何考量
轉簡時 則保持不變

相關參考資料

txt 版
https://github.com/bluelovers/cjk-convert/tree/master/build

json 版(裡面的 safe 部分)
https://github.com/bluelovers/cjk-convert/blob/master/build/zh/convert/table_cn2tw.debug.json
https://github.com/bluelovers/cjk-convert/blob/master/build/zh/convert/table_tw2cn.debug.json

@LiMinggang
Copy link
Owner

编辑器的操作在存盘之前都是可以还原的

@bluelovers
Copy link
Author

不是那個意思

而是 同樣是繁簡轉換 但盡量不過度轉換一些本來就存在於 繁體 的字

然後 可以在 轉簡之後 再度轉繁的話 能得到盡量接近原始內容的文字

@LiMinggang
Copy link
Owner

不明白你在具体要求什么

@bluelovers
Copy link
Author

hmm... 那... 轉繁 或者 轉簡 時 盡量轉換 一對一 的繁簡字

例如 轉繁時 可能 是 這種時候 就不去轉換
例如 轉簡時 由於 都會轉成 所以也不去轉換

@KrasnayaPloshchad

This comment has been minimized.

@LiMinggang
Copy link
Owner

需要仔细想想,谁能重点说说这个的使用场景是什么?

@KrasnayaPloshchad
Copy link
Contributor

我觉得应该是这样,比如干字简转繁时,就要按词义做区分:
干部幹部
饼干餅乾
树干樹干
发字简转繁时:
发财發財
发型髮型
但是这些字繁转简时就不做区分了。

@LiMinggang
Copy link
Owner

我用bebe转出来是下面这个:
發生
發財
發型
好像它的简体版还不能显示繁体字,上面这些在它的编辑区显示不出来,是空白的。
我想了下,你们说的这个只能借助词组去纠正,就像拼音输入法那样去重,这个不是简单查表能解决的,而文本编辑器不会带着几十兆大小的字典去做这个啊

@bluelovers
Copy link
Author

我是希望對於這些字 能有 忽略去轉換的選項
如此一來就不需要擔心 將原本對的字 轉成錯的

並不需要在編輯器內 內建一個詞語轉換表 因為除非使用了語意分析 不然字點轉換 肯定是會出錯的

@gli-spirent
Copy link
Contributor

gli-spirent commented Oct 18, 2019

你说的这个其实就是个转换表,而且是一对多的,但是madedit自己就是建立了一个一对一的转换表,跟我试用bebel的效果一样。
只有带一对多的转换表的时候,才有可能有机会去决定转还是不转。

下面是Madedit里面转换表的模样,你可以看到一个简体对应一个繁体(内码),所以无法做到能判断是否有多个对应。毕竟MadEdit只是一个比较简陋的文本编辑器。

ucs2_t Simp2Trad_Table[]=
{
0x2018, 0x300E,
0x2019, 0x300F,
0x201C, 0x300C,
0x201D, 0x300D,
0x2033, 0x301E,
0x3013, 0x2550,
0x4E07, 0x842C,
0x4E0E, 0x8207,
0x4E11, 0x919C,
0x4E13, 0x5C08,
0x4E1A, 0x696D,
0x4E1B, 0x53E2,
0x4E1C, 0x6771,
0x4E1D, 0x7D72,
0x4E22, 0x4E1F,
0x4E24, 0x5169,
0x4E25, 0x56B4,
0x4E27, 0x55AA,

@gli-spirent
Copy link
Contributor

gli-spirent commented Oct 18, 2019

有一个workaround就是你们谁对这个比较熟悉的提供一个表给我,这个表包含了那些不应该转换的字符,这样相当于二级查表,只有不在这个表里面的才继续转换。

@gli-spirent
Copy link
Contributor

gli-spirent commented Oct 18, 2019

@bluelovers 你提到的那两个json文件就是做这个的?似乎我才明白你在要求什么

@LiMinggang
Copy link
Owner

@bluelovers 我发现MadEdit支持的字符转换只限于GBK和BIG5,不支持扩展字符,即GB18030和BIG5 extension。
GB18030的支持已经被我加到MadEdit,但是BIG5 extension还不支持。
你的表里已经有这些字符了,看来还有很多工作需要在MadEdit里做。

@LiMinggang
Copy link
Owner

LiMinggang commented Dec 30, 2019

https://en.wikipedia.org/wiki/Big5
看起来没啥官方的啊,没落了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

4 participants