Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

stroke-level IDS的处理问题 #5

Closed
liangxiao opened this issue Nov 11, 2019 · 7 comments
Closed

stroke-level IDS的处理问题 #5

liangxiao opened this issue Nov 11, 2019 · 7 comments

Comments

@liangxiao
Copy link

您好!下载ids.txt文件后,发现针对简单字并没有stroke-level的信息,比如:
U+4EBA 人 人
递归处理后,应该得不到咱们论文描述的情况,这个咱们是如何处理的?需要用到其他外部数据吗?

@eugene-yh
Copy link
Collaborator

您好!下载ids.txt文件后,发现针对简单字并没有stroke-level的信息,比如:
U+4EBA 人 人
递归处理后,应该得不到咱们论文描述的情况,这个咱们是如何处理的?需要用到其他外部数据吗?

对于某些简单字,比如您说的例子,是没有。但因为简单,IDS可以自己写出来,或者不确定的话在笔画上可以调用python包cjklib的getStrokeOrder函数,或者可以参考https://github.com/skishore/makemeahanzi这个项目。但需注意的是笔画字符有两种,中、日各有一套Unicode编码的笔画集,需要统一一下,建议以ids.txt中出现的笔画字符为准。

@liangxiao
Copy link
Author

好的,谢谢!

@shm007g
Copy link

shm007g commented Dec 19, 2019

@liangxiao
请问你生成了和论文一样的char_meta.txt了么?这个字形特征有的话,可以分享下么?

@liangxiao
Copy link
Author

对于ids.txt文件里没有拆分的简单字,我没继续拆分,生成了一个char_meta.txt,跟论文不太一致,想先试试看效果,后面再优化。

@shm007g
Copy link

shm007g commented Dec 19, 2019

@liangxiao 可否分享一份,大家一起看看。

@liangxiao
Copy link
Author

@liangxiao 可否分享一份,大家一起看看。

可以,但没法保证效果,可能有错误,仅供参考
char_meta.txt.zip

@coreychen
Copy link

@liangxiao 可否分享一份,大家一起看看。

可以,但没法保证效果,可能有错误,仅供参考
char_meta.txt.zip

我感觉这个文件有错,比如聿字

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants