这是一款用于手动标注多语种平行语料库的网页应用,适用于语料库语言学研究和自然语言处理等领域。
在线使用:https://roblinka.github.io/CorposAnnotation/
- 支持上传包含多个平行文本的CSV文件,从而处理两种或以上语言的平行语料。
- 支持自定义标注项,并且这些标注项可以便捷地分组,使标注过程更为直观和高效。
- 每条平行语料以独立的卡片形式展示,以提供清晰的数据视图,列出所有文本信息。
- 如上传带有标准信息的语料库,将还原标注项的勾选状态,便于检查自动标注的结果。
- 变更过的条目,卡片样式将发生变化,便于检查已标注的结果,或记录新开始标注的进度。
- 提供即时导出功能,可以方便地储存更新后的标注结果,适用于后续的数据处理或分析。
- 使用表格处理软件(如Excel)编辑仓库中的3个CSV文件。
- 注意:在Excel中,须从“数据”菜单中选择“从文本/CSV获取”,打开CSV文件,并确保设置逗号为分隔符,以避免文本出现乱码。
- 打开“语料库标注工具”网页。
- 分别点击页面顶部的三个“选择文件”按钮,依次上传平行语料库、标注项分组、具体标注项的CSV文件。
- 上传文件后,待CSV文件加载完成,页面将自动展示待标注的语料卡片。
- 浏览每条语料卡片,并根据需要勾选相应的标注项。
- 完成标注后,点击页面顶部的“导出标注”按钮。
- 在弹出的保存对话框中选择存储路径,并保存标注结果的CSV文件。