Skip to content

简明英汉字典增强版

Linwei edited this page Jun 5, 2017 · 13 revisions

使用 ECDICT 的数据生成的《简明英汉字典增强版》离线词典(可用于 GoldenDict, 欧陆词典,BlueDict,mdict,edwin,Kindle 等),全网收词量最多,词频考纲标注,324万词条。

实体字典太重?免费电子词典广告多启动慢?线上字典网速慢效率低?你再也不会因为本地词典查不到单词而被迫去使用线上字典了。网上有的它有,网上没有的它也有!!收词量 324万是什么概念,参考下面:

  • OALD8:7.2万词条
  • 朗文5:6.2万词条
  • Merriam-Webster's Collegiate Dictionary:11.9万
  • 柯林斯 Cobuild 5:3.4万
  • 21世纪:37.7万
  • 有道本地增强版离线词库:40万
  • 欧陆离线词库:40万

整合了市面上各类免费和开源资料,利用 BNC/COCA 语料库进行词频矫正,并使用 NodeBox, WordNet 等自然语言处理工具包对各类时态语态,派生词等进行补充和标注。并根据考试大纲和柯林斯星级还有牛津 3000核心词进行标注,让你一眼就能看出这个单词的重要性。

演示1:基本使用

看上面 GoldenDict放在最上面的《简明英汉字典增强版》,请忽略下面的剑桥高阶,上面单词,下面音标和解释,这些没有区别,关键标注有四处:

  1. 音标后面:K 代表是牛津3000核心词汇,2代表是柯林斯两星词。
  2. 下面的衍生词:各类简明英汉词典都没有,我用 NodeBox + BNC 语料库分析生成的。
  3. 考试大纲词汇标注,是否是四级词汇?考研词汇?
  4. 大纲后面的词频标注:7131/8802 前面代表 COCA 词频(按COCA词频高低排序,第7131个单词),后面是 BNC词频。

再来一张,perceive 不再牛津3000里,所以音标后没有K,但是还有2,因为他是柯林斯二星词汇。

同时根据 COCA, BNC 的词频前20万单词进行校对补漏,兼顾现代和传统,比如 Taliban (塔利班)这个词,这个词在各类 “简明英汉词典” 里和其他大辞典里都很难找到。BNC 前二十万词里没它,但是COCA(美国当代预料库)里排名 6089,简直是重点高频词汇。 可能大家都知道 牛津3000,BNC, COCA, 避免有人不知道,还是科普下:

Oxford 3000

牛津字典核心3000词汇(The Oxford 3000 wordlist) 是由语言学家和有经验的教师根据语料库里的词频及释义重要程度,选出了最常用的3000个词汇作为“定义词汇” 的。 李笑来老师说:“如果想用英英词典(哪怕是入门的“学习词典”),那么就起码要先把这两三千个单词搞定之后再说。” 。

BNC:

英国国家语料库(British National Corpus,简称BNC)是目前网络可直接使用的最大的语料库之一,也是目前世界上最具代表性的当代英语语料库之一。由英国牛津出版社﹑朗文出版公司﹑牛津大学计算机服务中心﹑兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立,于1994年完成。英国国家语料库词容量超过一亿,由4124篇代表广泛的现代英式英语文本构成。其中书面语占90%,口语占10%。

COCA:

COCA“美国当代英语词汇研究”(Corpus of Contemporary American English)是这个世纪里最大的美国语言学研究项目,地位相当于影响深远的英国的 BNC-British National Corpus。我们目前使用的大多数英语词频表都是从BNC来的,换据话说都是英国英语的词频,而且是1980年代以前的词频。COCA收集工作至今还没结束,目前收集了4亿词汇的文献资料。这4亿词汇的基础材料包括1997-2017二十年里阅读量最广泛的小说和杂志(“TIME”、“New Yorker”等都是项目的参与者),电影、电视节目,大量的电话记录和面对面谈话记录,甚至还包括911报告等...)。

有了 COCA词频就好,为什么还要提供 BNC词频呢?

很简单,BNC词频统计的是近百年的各类资料,而当代语料库只统计了最近20年的。quay(码头)这个词在当代语料库里排两万以外,你可能觉得是个没必要掌握的冷词,而BNC里面却排在第 8907名,基本算是一个高频词,为啥呢?可以想象过去航海还是一个重要的交通工具,所以以往的各类文字资料对这个词提的比较多。所以你要看懂百年以前的各类名著,国外的什么帝王将相才子佳人,你会发现BNC的词频很管用;而新闻时政,COCA很管用。所以只看一个,未免有失偏颇,两者都提供,有个对比。

同时制作了一个“免音标版” 删除了头部的单词名以及音标(柯林斯和牛津三千信息整合到最后一行),也许你 GoldenDict / 手机欧陆 里面已经有很多字典了,也许你不会想我一样把它在 GoldenDict 里面排第一个,那么你可以用这个“去音标版”,来避免头部音标部分占用太大空间,和其他词典一起放手机里看着舒服,保持小巧紧凑,其他都一样。

演示2:选词

原版《简明英汉词典》和《朗道词典》,都号称收词 40万左右,但里面光各种医学化学专用名词就超过20万,真正重要的词却经常搞漏,如中考高考到 GRE的一万五千核心词汇,他们居然能缺少两千左右。对比英国国家语料库(BNC)的词频数据,前十万高频词汇缺少一万二多;同时对比美国当代语料库前六万高频词汇,任然缺少一万多。

国内词库制作之不严谨,由此可见一斑,朗道字典(GoldenDict / StarDict配套的那个),居然连 “learn” 这个单词都没收,搞笑吧?我不知道是 bug还是什么。号称收词量最大的简明英汉词典,居然没有 “longtime”,当然他有词组“long time”,但是近年来 longtime已经链接为一个词了,并且词频很高。词频上升比较快的还有 Taliban ,这些他们都没收收录。喜闻乐见的《21世纪》,也有不少漏词,比如神奇的 through 和 dalit ,包括不限于国内某些著名的商业词典,很多号称收词量多,但是他们把词给收偏了,所以我们需要更科学的根据各类考试大纲和语料库对选词进行矫正。

演示3:动词短语

阅读时就怕出现这种每个词都认识,但是连在一起都不认识的词组短语:

kisses off
get away with
kiss and tell
round off
a sticky patch
double down on

这些短语如果你查《牛津高阶》他们都是淹没在浩瀚无边的基本词汇里面,不信你可以查查OALD8里面的 get 这个词有多大的篇幅,要从这些庞大的释义里挑出一个小短语,是比较低效的。联网查的话,有道不一定有,你又跳金山,金山不一定有,你又跳bing,bing里再没有只有去google翻译,结果发现 google 给你乱翻译一通你就麻烦了,现在这些可以直接查了。

各大词典对短语词组收录其实做的并不好,不方便无法直接索引不说,收录还相当有限,《简明增强》的词组短语,能为你节省不少时间。

演示4:俚语收录

收录大量俚语,包括 Urban Dictionary 热门词汇,能找得到中文解释的都有中文解释,比如:Bromance(兄弟情),找不到中文解释的又是很热门的俚语,用英文解释代替,至少你在这里可以查得到什么意思,比如:

Yoga PantsPants 
that make anyone look like they have an ass.
> "Damn when did Jillian get an ass".
> "She doesn't, its just the yoga pants".
dudevorce
When two male best freinds officially end thier friendship over a lame disagreement,
usually concerning a girl.
> Spencer and Brody got a dudevorce over Lauren. 

包括大家耳熟能详的:no zuo no die,you can you up 。还有不少国内任何一个在线词典都查不出来的词,比如:poorism 等,都能查得出来。

演示5:新词收录

继续检索《牛津大辞典》近17年来收录过的新词汇列表: Previous updates | Oxford English Dictionary

对比增加欠缺词汇,很多 《牛津大辞典》收录的现代流行词汇,比如:

Brexit(英国脱欧)
polytenize(聚拢)
hackathon(黑客马拉松)
hackdom(黑客圈)
discman(随身听)
veg(蔬菜,vegetable 在英国已经被逐渐简称为 veg了,牛津大词典于2008年收录该词)

都可以查得到了,我试着在有道上随便查了一个词:Brexit 结果提示:

您要找的是不是:
breit
breast n. 乳房,胸部;胸怀;心情 | vt. 以胸对... 

矫正工作(比较单词表,补充欠缺的单词)经历了:

  1. 各大词典的索引矫正:《OED》,《美国传统》等
  2. 词频矫正:BNC数据前20万数据,COCA词频前40万数据
  3. 考试大纲矫正
  4. 口语流行词矫正
  5. 书面语流行词矫正

基本上你想得到的词汇它有,你想不到的它也有。

演示6:专业词汇

从天文到地理,植物到动物,自然到历史,文学到法律,经融到计算机,数学到化学,体育到军事

  • 经融类:real estate company (不动产公司),carrying charge (流动费用)
  • 计算机类:Gvim (文本编辑器 )
  • 历史类:Confucianism(孔子思想),Curtin John(柯廷(1885~1945),澳大利亚政治家、总理)
  • 军事类:covering force area(军事掩护区)
  • 。。。。

这些词汇很多国内网络词典都查不到,也许你一辈子也都碰不上,但是碰上了能为你省不少时间。

演示7:成语谚语

假设你的阅读材料里碰到喜欢堆彻词藻的作者:

when the cat is away, the mice will play 
山中无老虎,猴子称霸王;猫不在的时候老鼠就会尽情玩耍

If you can't stand the heat stay out of the kitchen.
怕死,就别上战场;不耐热就别呆在厨房

honey catches more flies than vinegar
投其所好;蜜蜂比醋抓的苍蝇更多;献蜜罐子总比送醋坛子管用 

《简明增强版》能帮你迅速了解这些谚语的含义,很多包括各种网络词典都查不到。

演示8:其他有意思的东西

比如地名, 收录的所谓地名,《简明增强版》收录的地名,不是伦敦纽约这些早已收录的大城市名字,不是 Bari(意大利东部港口)这些各个各家稍微有点名气的二线城市,这些词早就收录了。这次收录的地名是指你把谷歌地图拉到意大利,将意大利东南部一角(不是整个意大利),放大到整个屏幕,才能看到的地放,比如:

Alberobello 
[地名] 阿尔贝罗贝洛 ( 意 )
Cisternino
[地名] 奇斯泰尼诺 ( 意 )
matera
[地名] [意大利] 马泰拉

这些各个的三线小城市之类的地名,10万词条,世界上差不多200个国家,平均一个国家至少有500个地名,所有该类词条前面增加 [地名] 二字,后面增加属于哪里,方便你区别,虽然缺少各地更多简介,但这里不是wikipedia,至少让你知道这是个地名,大概方位在哪里。 同时平均一个国家500个地名对我们中国来讲还是少了点,专门针对大陆和港台,收录了更为详细的地名数据,比如:Hualian City (花蓮市,台湾地名) ,Zhanjiang (广东省湛江市),Tsim Sha Tsui (尖沙咀)。经常读到个香港英文地址蒙圈了吧?终于可以查中文对应了。。。。。。

Kindle 版本

更新一个 Kindle 版本,传统 Kindle 字典篇幅太大,需要滚屏半天,Kindle 上滚屏体验很不好,效率低;而且传统 Kindle 词典收词量太少了,因此制作了一个 Kindle 版本:

Kindle 版本收词没有其他版本那么多,没有其他版本那么全,因为 mobigen 太费内存,亚马逊又没有发布 64位版本,词条一多就崩溃掉了,因此 Kindle 版本选取了最重要的前100万词条,已然是 Kindle 上最大的词典了。

CSS 版本

同时支持带 CSS的版本,可以有更好的视觉效果,外部独立文件还可以让你随时修改样式而不改动 mdx文件,只是尺寸会大接近 30%,因此单独成一个独立版本,如果你是视觉流,希望更好的展示效果又不介意尺寸大小以及多一个 css文件的话,可以试试,直接上图吧:

perceive (css):

gosh (css):

ornate (css):

Yoga Pants (css):

a cup of tea (css):

下载链接: https://github.com/skywind3000/ECDICT/releases

百度网盘: http://pan.baidu.com/s/1eSP6SSi