傲飞一对一平行检索工具(OFA ParaConc: Bilingual)是一款依托语料库检索便利翻译人进行双语互译学习或研究的辅助类开源软件。 本软件编写语言为python 3.8,UTF8编码,采用PyInstaller进行打包。本版本目前可在windows 7+窗口环境下运行(64位)。 本软件附带取自中国外交部官网的部分汉英平行语料库,仅用于说明数据格式及展示检索功能目的。
- 语料加载
- 语料展示
- 操作提示
- 英汉双向检索
- 检索结果展示
- 检索结果输出
- SEG自动赋码
- 后续开发计划
语料加载功能方便用户根据具体需求自定义一对一语料进行检索。 本软件所用语料基本格式为双语上下交替对齐的TXT文本文件,兼容带有标签的文本文件,以utf8或utf-8-sig进行编码,命名方式不限。 或加载语料若存在未对齐文本,系统会进行报错提示。
使用方法:软件启动后,通过点击菜单栏中语料加载相关按钮,选择并加载需要检索的单个语料文件或全部语料文件即可。本软件自带的语料文件存贮于软件所在文件夹根目录下的app_data\corpus之中。
语料展示功能方便用户实时查看加载语料的完整内容。
使用方法:在成功加载语料文件之后,双击左侧语料列表中的某个文件名称,相应语料完整内容将以网页表格弹窗的形式展现出来。
操作提示功能方便用户了解界面各组件基本功能及把握检索进程的具体状况。提示信息以悬浮文字及状态栏文字等两种方式进行展示。
使用方法:将鼠标置于某组件之上并停留片刻,即可看到相应组件的基本功能提示信息;在进行具体检索操作时,在底部状态栏左侧位置可看到输入是否合法、检索结果具体组数与条数等各类提示信息。
双向检索功能方便用户依据实际需求在源语与目标语两种语言之间进行切换查询。本软件会依据用户输入的语言类型调用不同的检索程序进行双语一对一正向或反向检索。具体的检索方式分普通检索、拓展检索与正则检索等三种: 普通检索:不进行关键词处理,按实际输入检索项进行检索; 拓展检索:对典型西方语言输入检索项先进行词形还原、大小写转换等预处理后再进行检索;对典型东方语言输入检索项参照内嵌同义词词典进行附加检索。目前本模式仅支持英语及汉语; 正则检索:按实际输入的正则表达式进行检索。本软件所处理的语料主体为未进行过分词的生语料,因此在对典型东方语言进行检索时请勿使用\b或\s等需要寻找词汇边界的正则表达式。
使用方法:点选左侧底检索模式之下的普通检索、拓展检索或正则检索按钮,随后在其后输入框里输入检索词汇,点击“检索” 按钮即可 。当输入检索项不符合相应检索模式基本格式时,底部状态栏会出现相应的提示信息。
检索结果展示功能方便用户实时查看检索结果。 检索结果将以表格形式展示在右侧上方的语料检索窗口内,各检索辞条以源语上目标语下的方式进行同组分行排列,其前标有分组号、原译文版本标记,其内包含所在语料文件名称信息。 检索结果中的检索关键词以高亮形式突显(默认为红色),如选择同时展示语境,检索关键词所在句子也将以高亮形式突显(默认为蓝色);可通过颜色设置选项自定义检索关键词、语境句及语源的高亮颜色。 检索结果有两种显示方式可供选择:展示语境选项决定是否在每条数据后展示当前检索辞条所在的原、译文的前后文,默认为不展示语境。 展示语源选项决定是否在每条数据后展示相应的语料文件名称信息,默认为展示语源。
使用方法:在开始检索之前根据实际需求点选左侧下方的展示语境选项和或隐藏语源选项,然后点击检索按钮。底部状态栏左侧将实时显示本次检索结果的句组总数与句子总数。当检索结果窗口下方的分页展示按钮亮起时,可通过点击该按扭继续浏览余下检索结果。
增加语料的兼容性,对UTF8编码的文本文件中上下对齐双语文本进行标签的自动赋码,同时赋以相应的对齐行号,以使之能够直接为CUC等同类检索软件使用。
使用方法:点击菜单栏上的“工具-SEG赋码工具”,在弹出的工具界面中点击“打开文件夹”,选择要进行赋码的文本文件所在的文件夹,然后点击“开始赋码”即可,其下窗口中将显示赋码执行的详情。
- 英文检索LEMMA自定义功能;
- 中文检索同义词语林自定义功能;
- 检索词双语语对同时高亮显示功能;
- 批量检索功能;
- 其他语种相应拓展检索功能。
检索结果输出功能方便用户根据实际需求提取出当前检索结果以供后续的NLP处理或研究使用。检索结果可输出为以tab符分隔的TXT文本文件或以表格方式呈现的HTML网页文件。
使用方法:在完成某次检索后,点击上方菜单栏中的文件,点击下拉菜单中的语料输出,点击输出TXT文件或输出HTML文件。输出提示信息将出现在底部状态栏左侧。如果输出成功,可到本软件根目录下的savedfiles目录中找到并查看以当前检索词命名并保存的检索结果文件。
> pip install pyinstaller
> pyinstaller -F -w main.py