-
Notifications
You must be signed in to change notification settings - Fork 212
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
stroke-level IDS的处理问题 #5
Comments
对于某些简单字,比如您说的例子,是没有。但因为简单,IDS可以自己写出来,或者不确定的话在笔画上可以调用python包cjklib的getStrokeOrder函数,或者可以参考https://github.com/skishore/makemeahanzi这个项目。但需注意的是笔画字符有两种,中、日各有一套Unicode编码的笔画集,需要统一一下,建议以ids.txt中出现的笔画字符为准。 |
好的,谢谢! |
@liangxiao |
对于ids.txt文件里没有拆分的简单字,我没继续拆分,生成了一个char_meta.txt,跟论文不太一致,想先试试看效果,后面再优化。 |
@liangxiao 可否分享一份,大家一起看看。 |
可以,但没法保证效果,可能有错误,仅供参考 |
我感觉这个文件有错,比如聿字 |
您好!下载ids.txt文件后,发现针对简单字并没有stroke-level的信息,比如:
U+4EBA 人 人
递归处理后,应该得不到咱们论文描述的情况,这个咱们是如何处理的?需要用到其他外部数据吗?
The text was updated successfully, but these errors were encountered: