Skip to content

双解释义

Linwei edited this page Apr 7, 2017 · 2 revisions

当然要双解,诸如 WordNet,wiktionary.org 等提供了大量开放的释义资料。同时针对各类考试大纲词汇,网上有不少带释义的单词表供人下载,这些数据有的有错误,有的格式不统一,有的缺音标,有的缺英文释义,有的却中文释义,质量层次补齐,需要书写必要的代码来一次次整理统计,纠正和补全。

索性类似 NodeBox, WordNet 之类的开放语料库提供了针对 Python 的自然语言处理工具包,可以 pip下载下来,直接分析词汇和定义,还有词形变化,反义词近义词等。

释义参考了大量资料,包括不限于:

名称 解释
各类资料 各类网上开源资料,小的有 EDictAZ.txt ,大的有 cdict-1.0-1.rpm
考试大纲 网上各种带释义的考试大纲词表
NodeBox 自然语言工具包,带 11487个动词,4600个副词,2万个形容词及 11万个名词的资料
WordNet 普林斯顿自然语言处理资料库和工具包
Wiktionary 多种语言的释义维基百科资料,由各国用户贡献的各类词条
Wikepedia 维基百科收录了大量词条解释
CEDIT 中文到英文的开放词典数据库,根据中文到英文的释义,反解出英文到中文的释义
TheFreeDictionary.com 多语言开放词典
Google Google Cloud Translation
foldoc.org Free Online Dictionary Of Computing
linguee.com 数亿词条解释
Babylon 各类词条数据来源聚合
Urban Dictionary 俚语俗语释义
Plain Text English Dictionary 提供免费开放的纯文本格式的 16万英文单词释义
屌丝词典 网友自制的开源英汉-汉英词典 - diaosi

大量资料需要整合编辑校对,幸好有各种自然语言处理的开发包,可以用来做这件事情,制定评分标准,一个词语多个出处,选择最恰但准确的,核心词汇进行人工校对,部分不全的词条使用英翻中来解决。

Clone this wiki locally