-
Notifications
You must be signed in to change notification settings - Fork 682
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
数据标注 #48
Comments
你好,关系抽取的数据集标注,目前有两种方法:
|
您好:
感谢您的解答,请问一下你们的项目中所使用的数据量很大,是采用远程监督的方式标注的么,不知可否分享一下具体的标注方法;
你们的项目中的数据有两个数字,分别是首尾实体的起始位置,还想请问一下这两个数字是必须的么,因为如果人工标注的话可能加上数字工作量会很大
祝好!
| |
宋建炜
|
|
sjwmmt@163.com
|
签名由网易邮箱大师定制
在2020年11月17日 19:10,leo<notifications@github.com> 写道:
Closed #48.
—
You are receiving this because you authored the thread.
Reply to this email directly, view it on GitHub, or unsubscribe.
|
你好,由于我是学生,做research更多些。在学术领域都会有专门的数据供我们研究,所以我们并不参与标注数据。 2.首位位置,这个不一定是必须的,有当然更多,因为用来定位句子中头尾实体的位置对于最终信息抽取有很大的帮助。没有的话就是直接从句子找对应实体,找到的第一个就认为是对应的位置。 |
你好,想请教您两个问题:
第一个是关于模型选择的问题,就是我想在我自己标注的数据集上对比一下CNN、PCNN、RNN、BERT等模型的关系抽取效果,请问一下我应该怎样在程序中修改代码来选择不同的模型,我在main.py中没有找到修改的地方。
第二个是关于模型训练结果的问题,我在训练结束的日志里面看到,模型所采用的评价指标是宏平均macro,想请问一下能不能输出每个关系类别的P、R、F1,比如下图中有每个实体类别的识别效果以及总体的识别效果。
| |
宋建炜
|
|
sjwmmt@163.com
|
签名由网易邮箱大师定制
在2020年11月19日 22:59,leo<notifications@github.com> 写道:
你好,由于我是学生,做research更多些。在学术领域都会有专门的数据供我们研究,所以我们并不参与标注数据。
至于真实项目中,确实是大多先人工专家定义出kg的schema,然后利用这些triple去反标数据(远程监督的过程),得到训练语料后肯定是带有大量噪声的(research中是有一些远程监督降噪的方法),之后再人工校验,此时校验相比较于完全从一句文本找三元组容易多了,只需要判断该句是否可以合理抽取出对应的三元组(做是否判断即可)。
2.首位位置,这个不一定是必须的,有当然更多,因为用来定位句子中头尾实体的位置对于最终信息抽取有很大的帮助。没有的话就是直接从句子找对应实体,找到的第一个就认为是对应的位置。
我举个例子,一句话:南京西站坐落于南京的西南角。要抽取的三元组是(南京西站,位属于,南京)。那么此时tail的位置是7,如果不提前标注到,可能就会认为是0。当然如果数据集这种不多,也确实没有多大影响。
—
You are receiving this because you authored the thread.
Reply to this email directly, view it on GitHub, or unsubscribe.
|
Environment (please complete the following information):
Screenshots
Additional context
The text was updated successfully, but these errors were encountered: