You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Exploring and Evaluating Attributes, Values, and Structures for Entity Alignment. Zhiyuan Liu, Yixin Cao, Liangming Pan, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua. (EMNLP 2020)
Cross-lingual Entity Alignment with Incidental Supervision. Muhao Chen, Weijia Shi, Ben Zhou, Dan Roth. (EACL 2020)
所以,如果想使用name作为feature进行实体对齐,DBP-YG这些数据集是不适用的,会造成test data leakage问题,并且,这个数据集也不足够来测试使用name的方法的真实有效性和鲁棒性,所以建议换别的数据集,比如DBP15K,或者,换成我们OpenEA里面给出的2.0版本数据集,我对实体的localname进行了编码,会更难一些。
老师您好,我正在DBP15k上复现MultiKE。
然而MultiKE在论文中使用的数据集是DBP-WD和DBP-YG,所以我决定先在这两个数据集上复现,再在DBP15k上复现。
(这两个数据集来自这个仓库,所以本issue发在这里。)
我复现的过程中发现,代码里缺少基于实体名获取嵌入的部分。于是我用了bert。结果,在不训练网络的情况下,仅仅使用 bert 给出的嵌入,其对齐效果就有99%。
一开始我以为是bert太强大。但是,很快我发现,我错了。
我做了实验:只基于实体名,当两个实体名相等时,则认为两实体对齐了。其中没有用到任何模型。这仅仅是一些 if-else 而已。其结果令人惊讶,100%。
代码如下
结果截图
也就是说,对齐种子如果只通过实体名这一方面的信息做对齐,效果必须有100%。
这太奇怪了。
我使用该数据集的方法是否正确?对齐种子的实体名是否发生了泄漏?我应该如何正确地使用这两个数据集?
期待您的解惑。
The text was updated successfully, but these errors were encountered: