数据标注 #48

jianwei-song · 2020-11-11T08:19:57Z

你好，想请问一下你们的训练数据是怎样生成的，是用软件标注的么，还是人工整理的，因为我想做其它领域的关系抽取研究。

Environment (please complete the following information):

OS: [e.g. mac / window]
Python Version [e.g. 3.6]

Screenshots

If applicable, add screenshots to help explain your problem.

Additional context

Add any other context about the problem here.

yuwl798180 · 2020-11-17T11:10:23Z

你好，关系抽取的数据集标注，目前有两种方法：

纯人工标注；
远程监督标注。方法是：通过kg库中的实体对标注文本信息。思想是：比如一个kg中存在（北京，首都，中国）这么一个三元组，那么把实体对（北京，中国）作为信息源在互联网上找句子，如果一个句子存在这么一对实体对就认为该句存在表达（首都）这么一个关系的语义信息。

jianwei-song · 2020-11-19T14:07:08Z

您好：感谢您的解答，请问一下你们的项目中所使用的数据量很大，是采用远程监督的方式标注的么，不知可否分享一下具体的标注方法；你们的项目中的数据有两个数字，分别是首尾实体的起始位置，还想请问一下这两个数字是必须的么，因为如果人工标注的话可能加上数字工作量会很大祝好！ | | 宋建炜 | | sjwmmt@163.com | 签名由网易邮箱大师定制在2020年11月17日 19:10，leo<notifications@github.com> 写道： Closed #48. — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

yuwl798180 · 2020-11-19T14:59:27Z

你好，由于我是学生，做research更多些。在学术领域都会有专门的数据供我们研究，所以我们并不参与标注数据。
至于真实项目中，确实是大多先人工专家定义出kg的schema，然后利用这些triple去反标数据（远程监督的过程），得到训练语料后肯定是带有大量噪声的（research中是有一些远程监督降噪的方法），之后再人工校验，此时校验相比较于完全从一句文本找三元组容易多了，只需要判断该句是否可以合理抽取出对应的三元组（做是否判断即可）。

2.首位位置，这个不一定是必须的，有当然更多，因为用来定位句子中头尾实体的位置对于最终信息抽取有很大的帮助。没有的话就是直接从句子找对应实体，找到的第一个就认为是对应的位置。
我举个例子，一句话：南京西站坐落于南京的西南角。要抽取的三元组是（南京西站，位属于，南京）。那么此时tail的位置是7，如果不提前标注到，可能就会认为是0。当然如果数据集这种不多，也确实没有多大影响。

jianwei-song · 2020-12-29T01:50:36Z

你好，想请教您两个问题：第一个是关于模型选择的问题，就是我想在我自己标注的数据集上对比一下CNN、PCNN、RNN、BERT等模型的关系抽取效果，请问一下我应该怎样在程序中修改代码来选择不同的模型，我在main.py中没有找到修改的地方。第二个是关于模型训练结果的问题，我在训练结束的日志里面看到，模型所采用的评价指标是宏平均macro，想请问一下能不能输出每个关系类别的P、R、F1，比如下图中有每个实体类别的识别效果以及总体的识别效果。 | | 宋建炜 | | sjwmmt@163.com | 签名由网易邮箱大师定制在2020年11月19日 22:59，leo<notifications@github.com> 写道：你好，由于我是学生，做research更多些。在学术领域都会有专门的数据供我们研究，所以我们并不参与标注数据。至于真实项目中，确实是大多先人工专家定义出kg的schema，然后利用这些triple去反标数据（远程监督的过程），得到训练语料后肯定是带有大量噪声的（research中是有一些远程监督降噪的方法），之后再人工校验，此时校验相比较于完全从一句文本找三元组容易多了，只需要判断该句是否可以合理抽取出对应的三元组（做是否判断即可）。 2.首位位置，这个不一定是必须的，有当然更多，因为用来定位句子中头尾实体的位置对于最终信息抽取有很大的帮助。没有的话就是直接从句子找对应实体，找到的第一个就认为是对应的位置。我举个例子，一句话：南京西站坐落于南京的西南角。要抽取的三元组是（南京西站，位属于，南京）。那么此时tail的位置是7，如果不提前标注到，可能就会认为是0。当然如果数据集这种不多，也确实没有多大影响。 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

jianwei-song added the question Further information is requested label Nov 11, 2020

yuwl798180 closed this as completed Nov 17, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

数据标注 #48

数据标注 #48

jianwei-song commented Nov 11, 2020

yuwl798180 commented Nov 17, 2020

jianwei-song commented Nov 19, 2020 via email

yuwl798180 commented Nov 19, 2020

jianwei-song commented Dec 29, 2020 via email

数据标注 #48

数据标注 #48

Comments

jianwei-song commented Nov 11, 2020

yuwl798180 commented Nov 17, 2020

jianwei-song commented Nov 19, 2020 via email

yuwl798180 commented Nov 19, 2020

jianwei-song commented Dec 29, 2020 via email