Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

不要采用机器简转繁,那样会产生大量错字 #141

Open
garywill opened this issue Apr 22, 2024 · 3 comments
Open

不要采用机器简转繁,那样会产生大量错字 #141

garywill opened this issue Apr 22, 2024 · 3 comments

Comments

@garywill
Copy link

以下3种方案
A. 原始数据为繁体,需要显示简体时让机器转换(数据由懂繁体的人人工录入的,非机器转换的)
B. 原始数据为简体,需要显示繁体时让机器转换
C. 原始数据同时含有繁体和简体

你的项目目前似乎采用的是B方案,这种方案会因为机器不能正确处理一简对多繁而产生大量错字

chinese-poetry储存的是繁体的数据,基本符合A方案(但也有部分是机器简转繁产生的含有错误的,我之前还帮他们修正过:美人相併立瓊軒->美人相並立瓊軒 | 含情慾說宮中事->含情欲說宮中事

as

今天打开你的网站,设置语言为繁体中文,查看上面这首诗时,发现又是错的。。。。采用机器简体转繁体就是会像这样产生大量错字。opencc和其他转换工具对于古文诗词的处理都非常地不行

因此,强烈建议一个中文古诗词项目采用A方案,尽可能地保留古人原作

(A方案可能的问题就是把「乾隆」转换成「干隆」,但也大大地比B方案好)

@garywill
Copy link
Author

另外,个人认为,同时显示繁体和简体也不错
5

以后可以考虑添加这样的feature吗

以上图截自我之前做的一个繁简关系可视化工具

@meetqy
Copy link
Owner

meetqy commented Apr 22, 2024

现在我是同时存了简体和繁体,属于 C 方案

但是数据是由简体作为参考,来转换为繁体。

看了你的说明,感觉繁体我可以直接使用 chinese-poetry 的数据。不需要再使用 open-cc 去转换。

谢谢你指出的问题,我先 pin 上去。

@meetqy meetqy pinned this issue Apr 22, 2024
@meetqy
Copy link
Owner

meetqy commented Apr 22, 2024

另外,个人认为,同时显示繁体和简体也不错 5

以后可以考虑添加这样的feature吗

以上图截自我之前做的一个繁简关系可视化工具

现在不好直接加在诗词当中,已经有标注了,并且是作为本项目的特色。不过好像可以考虑出一个类似于拼音的功能,点击直接展示出截图的方式。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants