Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

char_meta.txt 问题 #13

Closed
lianNice opened this issue Nov 27, 2019 · 11 comments
Closed

char_meta.txt 问题 #13

lianNice opened this issue Nov 27, 2019 · 11 comments

Comments

@lianNice
Copy link

您好,感谢您开源您的工作,非常棒,我有个问题,char_meta.txt 这个文件里面是需要自己提前准备吗?想问下怎么准备呢?看你们给的数据链接里面没有这些?

@lianNice lianNice changed the title 您好,感谢您开源您的工作,非常棒,我有个问题,char_meta.txt 这个文件里面是需要自己提前准备吗?想问下怎么准备呢?看你们给的数据链接里面没有这些? char_meta.txt 问题 Nov 27, 2019
@eugene-yh
Copy link
Collaborator

您好,感谢您开源您的工作,非常棒,我有个问题,char_meta.txt 这个文件里面是需要自己提前准备吗?想问下怎么准备呢?看你们给的数据链接里面没有这些?

您好,如README所述,char_meta.txt来源于README中有链接的两个公开数据库。需要自己转换成示例char_meta.txt的格式。

@ghost
Copy link

ghost commented Dec 4, 2019

您好,字形预处理部分stroke-level IDS是如何做到的?下载的ids.txt,像馬,人都没有按照笔画拆开,我做了文件中出现字的递归,但是文件中不知道如何实现笔画的树递归?也就是如何把下载的ids.txt转化成您说的笔画级别的stroke-level IDS?谢谢。

@eugene-yh
Copy link
Collaborator

您好,字形预处理部分stroke-level IDS是如何做到的?下载的ids.txt,像馬,人都没有按照笔画拆开,我做了文件中出现字的递归,但是文件中不知道如何实现笔画的树递归?也就是如何把下载的ids.txt转化成您说的笔画级别的stroke-level IDS?谢谢。

先把所有的字分解成文件中出现过的字,到不能再分解为止。然后,参考这个issue的回答即可 #5 (comment)

@daiw10
Copy link

daiw10 commented Dec 5, 2019

您好,是否方便提供一份完整的char_meta.txt 谢谢 @eugene-yh

@18782961008
Copy link

您好,字形预处理部分stroke-level IDS是如何做到的?下载的ids.txt,像馬,人都没有按照笔画拆开,我做了文件中出现字的递归,但是文件中不知道如何实现笔画的树递归?也就是如何把下载的ids.txt转化成您说的笔画级别的stroke-level IDS?谢谢。

先把所有的字分解成文件中出现过的字,到不能再分解为止。然后,参考这个issue的回答即可 #5 (comment)

是不是把复杂的字拆解成简单的字,简单字拆解成部首偏旁,部首偏旁拆解成笔画?还是说每个字符都需要拆解成笔画级IDS?具体是有什么工具生成其笔画和结构图的呀?

@ghost
Copy link

ghost commented Dec 5, 2019

您好,字形预处理部分stroke-level IDS是如何做到的?下载的ids.txt,像馬,人都没有按照笔画拆开,我做了文件中出现字的递归,但是文件中不知道如何实现笔画的树递归?也就是如何把下载的ids.txt转化成您说的笔画级别的stroke-level IDS?谢谢。

先把所有的字分解成文件中出现过的字,到不能再分解为止。然后,参考这个issue的回答即可 #5 (comment)

抱歉,再打扰您一下,还是没有计划发布char_meta.txt吗?
还有三个问题:

  1. ids.txt文件中有些对应多个比划的如何处理,以及笔划中[G|U|K等]、圆圈1-20如何处理?
  2. makemeahanzi项目中的dictionary.txt大多和idx.txt一样,并非笔划级别的,所以您如何使用的;
  3. cjklib项目中,输出的是笔划,没有左右或上下结构(测试了人字,只有两个输出,不是很确定有没有结构),这个是如何用的?
    太麻烦您了。鞠躬感谢。

@daiw10
Copy link

daiw10 commented Dec 6, 2019

您好,字形预处理部分stroke-level IDS是如何做到的?下载的ids.txt,像馬,人都没有按照笔画拆开,我做了文件中出现字的递归,但是文件中不知道如何实现笔画的树递归?也就是如何把下载的ids.txt转化成您说的笔画级别的stroke-level IDS?谢谢。

先把所有的字分解成文件中出现过的字,到不能再分解为止。然后,参考这个issue的回答即可 #5 (comment)

抱歉,再打扰您一下,还是没有计划发布char_meta.txt吗?
还有三个问题:

  1. ids.txt文件中有些对应多个比划的如何处理,以及笔划中[G|U|K等]、圆圈1-20如何处理?
  2. makemeahanzi项目中的dictionary.txt大多和idx.txt一样,并非笔划级别的,所以您如何使用的;
  3. cjklib项目中,输出的是笔划,没有左右或上下结构(测试了人字,只有两个输出,不是很确定有没有结构),这个是如何用的?
    太麻烦您了。鞠躬感谢。

同问,感觉根据前面issue提到的内容不太好做到复现出char_meta的样例的样子

@ghost
Copy link

ghost commented Dec 9, 2019

抱歉 再打扰一下 改了faspell_config中的weights“p,v”的权重,改了char_mate文件路径,测试之后数据的p,r,a没有发生任何变化是什么原因??打扰了,祝好。

@shm007g
Copy link

shm007g commented Dec 19, 2019

同求这个char_meta文件,或者能做出来的可行方案。这个是最后csd的关键啊,论文也反复鼓吹这个特征的重要性。不提供这个char_sim的方案,那么开源就没啥用吧

@nirenxiaoxiao
Copy link

有没有中文的step by step 生成char_meta.txt的步骤?

@hscspring
Copy link

hscspring commented Jun 22, 2020

@shm007g @nirenxiaoxiao

折腾了半天弄了一份出来,附代码和说明,希望能帮到各位:

The-DataStructure-and-Algorithms/Recursion/chinese_char_feature at master · hscspring/The-DataStructure-and-Algorithms

ps:建议作者重构下代码~

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

7 participants