Skip to content
This repository has been archived by the owner on Jun 17, 2023. It is now read-only.

从文档生成词库

tangshimin edited this page Aug 12, 2022 · 13 revisions
  1. 打开从文档生成词库窗口,然后选择文档,可以拖放文件到窗口快速打开,点击分析按钮。
    文档来源于AndroidNotesForProfessionals

    document-1

    英国国家语料库(BNC) 和当代语料库(COCA)里的词频顺序介绍
    BNC 词频统计的是最近几百年的历史各类英文资料,而当代语料库只统计了最近 20 年的,为什么两者都要提供呢?很简单,quay(码头)这个词在当代语料库(COCA)里排两万以外,你可能觉得是个没必要掌握的生僻词,而 BNC里面却排在第 8906 名,基本算是一个高频词,为啥呢?可以想象过去航海还是一个重要的交通工具,所以以往的各类文字资料对这个词提的比较多,你要看懂 19 世纪即以前的各类名著,你会发现 BNC 的词频很管用。而你要阅读各类现代杂志,当代语料库的作用就体现出来了,比如 Taliban(塔利班),在 BNC 词频里基本就没收录(没进前 20 万词汇),而在当代语料库里,它已经冒到 6089 号了,高频中的高频。BNC 较为全面和传统,针对性学习能帮助你阅读各类国外帝王将相的文学名著,当代语料库较为现代和实时,以和科技紧密相关。所以两者搭配,干活不累。[1]

  2. 在左边的预览区可以看到程序生成的单词。你可以点击左边的过滤词频顺序为0的词,词频为 0 的词包括简单的字母和数字还有一些没有收录进词频顺序的生僻词。

    MKV-2

  3. 可以勾选【过滤 COCA 词频前 1000 的单词】或【过滤 BNC 词频前 1000 的单词】,过滤最常见的 1000 词,这个值可以改成 2000,或 3000。

    MKV-7

  4. 还可以把所有的派生词替换为原型词。

    MKV-3

  5. 如果有数字还可以过滤数字

    MKV-4

  6. 经过前面的过滤之后,还是有你很熟悉的词,比如你已经过了很熟悉牛津核心5000词了,
    点击左边的内置词库,然后选择:牛津核心词 -> The_Oxford_5000,选择之后的单词是不是少了很多。

    MKV-5

  7. 如果还有你熟悉的词,可以先把排序改成【按 COCA 词频排序】或【按 BNC 词频排序】,这样熟悉的单词就会出现在最前面。再使用鼠标单击单词的右上角的删除按钮,删除的单词会添加到熟悉词库。

    MKV-6

  8. 也可以在记忆单词的时候删除熟悉的词,把鼠标移动到正在记忆的单词,会弹出一个菜单,可以从这里删除单词。可以直接使用快捷键 Delete 删除单词。

    document-7

  9. 词库不要保存到应用程序的安装目录,升级的时候要先卸载软件,卸载的时候会把安装目录删除。如果你想把内置词库和生成的词库放到一起,可以把内置的词库复制出来。

[1] https://github.com/skywind3000/ECDICT#单词标注