Skip to content

搜狗细胞词库爬虫到普通文本转换。可用于分词词库构造。

Notifications You must be signed in to change notification settings

jsnuwjl/sougou_scel_to_txt

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

搜狗细胞词库全词库

实现功能

  • 1.爬取了搜狗细胞词库中的所有词库文件
  • 2.对搜狗输入法的scel格式的细胞词库文件进行解析。

注意

  • 需要在代码目录下构建sceltxt2个空文件夹
  • 我自己已经做好的词库结果在词库.txt

代码执行顺序

  • 1.get_scel.py 获取所有的scel文件 并写入scel文件夹内
  • 2.scel_to_txt.py 将scel文件逐个解析 并写入txt文件夹内
  • 3.main.py 合并所有txt文件

About

搜狗细胞词库爬虫到普通文本转换。可用于分词词库构造。

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages