Skip to content

RobLinkA/CorposAnnotation

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

多语种平行语料库标注工具

这是一款用于手动标注多语种平行语料库的网页应用,适用于语料库语言学研究和自然语言处理等领域。

在线使用:https://roblinka.github.io/CorposAnnotation/

功能特点

  • 支持上传包含多个平行文本的CSV文件,从而处理两种或以上语言的平行语料。
  • 支持自定义标注项,并且这些标注项可以便捷地分组,使标注过程更为直观和高效。
  • 每条平行语料以独立的卡片形式展示,以提供清晰的数据视图,列出所有文本信息。
  • 如上传带有标准信息的语料库,将还原标注项的勾选状态,便于检查自动标注的结果。
  • 变更过的条目,卡片样式将发生变化,便于检查已标注的结果,或记录新开始标注的进度。
  • 提供即时导出功能,可以方便地储存更新后的标注结果,适用于后续的数据处理或分析。

操作说明

1. 设置需要标注的语料及标注项

  • 使用表格处理软件(如Excel)编辑仓库中的3个CSV文件
  • 注意:在Excel中,须从“数据”菜单中选择“从文本/CSV获取”,打开CSV文件,并确保设置逗号为分隔符,以避免文本出现乱码。

2. 上传平行语料CSV

  • 打开“语料库标注工具”网页。
  • 分别点击页面顶部的三个“选择文件”按钮,依次上传平行语料库、标注项分组、具体标注项的CSV文件。

3. 进行语料标注

  • 上传文件后,待CSV文件加载完成,页面将自动展示待标注的语料卡片。
  • 浏览每条语料卡片,并根据需要勾选相应的标注项。

4. 导出标注结果

  • 完成标注后,点击页面顶部的“导出标注”按钮。
  • 在弹出的保存对话框中选择存储路径,并保存标注结果的CSV文件。

About

多语种平行语料库标注工具

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published