Skip to content

一个可以根据中文文档生成Rime自定义词库的Python工具

Notifications You must be signed in to change notification settings

TimoLin/text2dict-rime

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

text2dict-rime

一个Python脚本,可以根据已有的中文文档来生成Rime自定义词库。

  • 中文文档转为纯文本
  • jieba分词提取词库信息
  • pypinyin将分词结果转换为pinyin
  • 生成Rime的自定义词库

Python环境

基于jiebapypinyin开发,安装依赖:

pip install -r requirements.txt

工作流示例

例如有一段文字是用Word写的,需要根据它创建自定义词库

  1. Word文档导出为txt文件:
    • 导出-更改文件类型-纯文本-其他编码-UTF-8-确定
    • 例如文件名为foobar.txt,放在Run目录下
  2. 设置jieba分词的用户自定义词典,保证更准确的分词效果:
    • 修改示例目录Run中的user.dict
  3. 运行text2dict
    • 进入Run目录
    • 假设输出的词库文件名为user-defined.dict.yaml,执行:
      python3 ../src/text2dict.py -i foobar.txt -o user-defined.dict.yaml
  4. 将自定义词库添加到Rime
    • 进入用户文件夹,以Linuxfcitx5-rime为例
      cd  ~/.local/share/fcitx5/rime
    • Step 3中生成的user-defined.dict.yaml复制到该文件夹下
    • 假设使用的是雾凇拼音方案,编辑rime_ice.dict.yaml,在import_tables列表的最后添加自定义词库名(去掉文件名中的.dict.yaml),例如:
      import_tables:
        - cn_dicts/8105     # 字表
        # - cn_dicts/41448  # 大字表(按需启用)
        - cn_dicts/base     # 基础词库
        - cn_dicts/ext      # 扩展词库
        - cn_dicts/tencent  # 腾讯词向量(大词库,部署时间较长)
        - cn_dicts/others   # 一些杂项
      
        # 建议把扩展词库放到下面,有重复词条时,最上面的权重生效
        # - cn_dicts/mydict
        - user-defined
  5. 重新部署Rime

About

一个可以根据中文文档生成Rime自定义词库的Python工具

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages