Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

数据标注 #48

Closed
jianwei-song opened this issue Nov 11, 2020 · 4 comments
Closed

数据标注 #48

jianwei-song opened this issue Nov 11, 2020 · 4 comments
Labels
question Further information is requested

Comments

@jianwei-song
Copy link

你好,想请问一下你们的训练数据是怎样生成的,是用软件标注的么,还是人工整理的,因为我想做其它领域的关系抽取研究。

Environment (please complete the following information):

  • OS: [e.g. mac / window]
  • Python Version [e.g. 3.6]

Screenshots

If applicable, add screenshots to help explain your problem.

Additional context

Add any other context about the problem here.

@jianwei-song jianwei-song added the question Further information is requested label Nov 11, 2020
@yuwl798180
Copy link
Collaborator

你好,关系抽取的数据集标注,目前有两种方法:

  1. 纯人工标注;
  2. 远程监督标注。方法是:通过kg库中的实体对标注文本信息。思想是:比如一个kg中存在(北京,首都,中国)这么一个三元组,那么把实体对(北京,中国)作为信息源在互联网上找句子,如果一个句子存在这么一对实体对就认为该句存在表达(首都)这么一个关系的语义信息。

@jianwei-song
Copy link
Author

jianwei-song commented Nov 19, 2020 via email

@yuwl798180
Copy link
Collaborator

你好,由于我是学生,做research更多些。在学术领域都会有专门的数据供我们研究,所以我们并不参与标注数据。
至于真实项目中,确实是大多先人工专家定义出kg的schema,然后利用这些triple去反标数据(远程监督的过程),得到训练语料后肯定是带有大量噪声的(research中是有一些远程监督降噪的方法),之后再人工校验,此时校验相比较于完全从一句文本找三元组容易多了,只需要判断该句是否可以合理抽取出对应的三元组(做是否判断即可)。

2.首位位置,这个不一定是必须的,有当然更多,因为用来定位句子中头尾实体的位置对于最终信息抽取有很大的帮助。没有的话就是直接从句子找对应实体,找到的第一个就认为是对应的位置。
我举个例子,一句话:南京西站坐落于南京的西南角。要抽取的三元组是(南京西站,位属于,南京)。那么此时tail的位置是7,如果不提前标注到,可能就会认为是0。当然如果数据集这种不多,也确实没有多大影响。

@jianwei-song
Copy link
Author

jianwei-song commented Dec 29, 2020 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

2 participants