-
Notifications
You must be signed in to change notification settings - Fork 3
Format
Light edited this page Nov 29, 2021
·
2 revisions
为了优化智能测词和计算理论码长的性能,以及方便跟打器管理,雨天跟打器的码表相关功能需要导入码表文件后才能正常工作。
这就需要用户提前准备好一份所使用的码表文本文件用于导入。在准备码表文本文件时需要注意以下两个部分。
雨天跟打器规定所要导入的码表文件中词条格式为多多格式,即每行一个词条,格式为:词条
+制表符
+编码
,例如:
工 aaaa
恭恭敬敬 aaaa
匿藏 aaaa
工艺 aaan
如果已拥有一份码表但词条格式不为多多格式或者是想制作一份自己的码表时,可以使用多多码表编辑器(或者在这里下载)进行码表格式的转换或制作,具体使用方法可见编辑器帮助。
文件格式是指文本文件保存的文件编码,如:GB2312
, UTF-8
。
雨天跟打器只能处理两种类型的文件编码:
-
ANSI
编码的扩展集合(本身不会存在BOM
签名)中的标准中文编码,比如:GB2312
,GBK
,GB18030
等 -
Unicode
编码集合,比如:UTF-8
,UTF-16
,UTF-32
等。在使用这类编码时需要添加BOM
签名跟打器才能正常识别,否则会读取成乱码内容
发文设置中的本地文章的文件编码格式要求也是这样。
如果不了解文件编码或不会修改文件编码,建议使用上面提到的多多码表编辑器进行处理,其处理结果的文件编码为:UTF-16LE + BOM
,能被跟打器正常识别。
该问题仅存在于 1.0.0 版本中,后续版本已处理修复。
若在使用 1.0.0 版本时导入过码表,后续版本中重新导入码表即可
在 1.0.0 版本中为了尽可能的优化跟打器码表工作性能,在跟打器导入码表文件时,相同的词条只会导入其中编码较少的一个,例如在导入下面这组词条中:
工 a
式 aa
工 aaa
工 aaaa
恭恭敬敬 aaaa
藏匿 aaaa
后面的两个工
字词条会被跟打器忽略而不导入,最后跟打器中保存码表结果的词条变成像是这样:
工 a
式 aa
恭恭敬敬 aaaa
藏匿 aaaa
这也是为什么在导入码表文件后,会发现跟打器所列出的词条数可能会小于码表源文件本身拥有的词条数的原因。
但是这样其实会导致智能测词以及计算出来的理论码长不准确。因为原先示例中的恭恭敬敬
为 1 级重码,但在跟打器保存的码表中就会被当前 0 级重码来处理,从而导致智能测词的重数出错以及理论码长计算不准确。