Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

相似度的一些问题 #70

Closed
WindSearcher opened this issue Oct 8, 2023 · 8 comments
Closed

相似度的一些问题 #70

WindSearcher opened this issue Oct 8, 2023 · 8 comments
Labels
discussion Discussion on DocEE and SentEE

Comments

@WindSearcher
Copy link

我看您这里是用dot的方式计算实体之间的关系进行边建模,看您之前还试过余弦相似度。
对于相似度,我有个想法不知可行不可行。用目前比较热的对比学习,基于标签进行学习,这样让同一个事件的论元在语义上更相近。
然后还想请问下您还试过哪些相似度方法勒。

@WindSearcher WindSearcher added the discussion Discussion on DocEE and SentEE label Oct 8, 2023
@Spico197
Copy link
Owner

Spico197 commented Oct 8, 2023

嗨您好,感谢对本项目和PTPCG的关注~

  • 我还尝试过:余弦相似度、拼接后分类、biaffine attention的方法,没有什么明显差距,dot方法略好
  • 关于对比学习:我觉得值得尝试。目前的模型在边关系的预测上表现并不好,如果能找到一种方法提高实体间连接关系的准确率的话应该会很棒。不过这里对实体的标签进行对比学习可能不太好,似乎应该是对边的关系和实体的标签进行对比学习?

@WindSearcher
Copy link
Author

  • 实体

不是对实体的标签,而是对事件类型的标签。因为同一事件下的论元我们希望它可以两两相连,也就是同一事件下论元的语义相似。

@WindSearcher
Copy link
Author

嗨您好,感谢对本项目和PTPCG的关注~

  • 我还尝试过:余弦相似度、拼接后分类、biaffine attention的方法,没有什么明显差距,dot方法略好
  • 关于对比学习:我觉得值得尝试。目前的模型在边关系的预测上表现并不好,如果能找到一种方法提高实体间连接关系的准确率的话应该会很棒。不过这里对实体的标签进行对比学习可能不太好,似乎应该是对边的关系和实体的标签进行对比学习?

这样通过对比学习的方式让同一事件下的论元更相似,不同事件下的论元相离。

@Spico197
Copy link
Owner

Spico197 commented Oct 8, 2023

嗷嗷,明白了。您说的是intra-connection,我刚刚说的是inter-connection。

PTPCG的原始假设是,“同一事件(实例)”下,论元的语义更相似。而您提到的“同一事件类型”下,论元的语义相似,可能会弱化单事件多实例的事件区分能力。

@WindSearcher
Copy link
Author

嗷嗷,明白了。您说的是intra-connection,我刚刚说的是inter-connection。

PTPCG的原始假设是,“同一事件(实例)”下,论元的语义更相似。而您提到的“同一事件类型”下,论元的语义相似,可能会弱化单事件多实例的事件区分能力。

emm,这个确实是。看来您提到的边关系对比学习更优。之前看到一篇基于关系建模的文章,对于事件里面的论元建立一种关系,用这个来提升事件抽取的性能。感觉可以用来做边关系建模。
我还尝试了词汇信息的嵌入,让句子融合更多特征,不过作用不是很明显。
不知道您有尝试过大模型嘛

@Spico197
Copy link
Owner

Spico197 commented Oct 8, 2023

PTPCG单事件的性能还不错,只是在单事件多实例的时候不太行,所以我觉得inter-connection的区分和建模会更重要一些。

打比赛(DuEE-fin数据集)的时候有加过RoBERTa-large,效果会好很多。encoder-based模型还可以加更大的版本,不过因为当时的baseline都没用BERT,所以就没做实验了。生成式模型方面,后来还试过T5-small/base,效果不如抽取式。因为资源比较紧张就没再做更大模型的测试了。ChatGPT出来之后,发现ACE05的效果不太行,就没有在ChFinAnn上测试过。

@WindSearcher
Copy link
Author

抽取

嗷嗷,感谢您的解答,祝大佬万事顺心。

@Spico197
Copy link
Owner

Spico197 commented Oct 8, 2023

加油,祝一切顺利

@Spico197 Spico197 closed this as completed Oct 8, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
discussion Discussion on DocEE and SentEE
Projects
None yet
Development

No branches or pull requests

2 participants