-
Notifications
You must be signed in to change notification settings - Fork 113
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
dev和test集的评测脚本是否有问题? #47
Comments
你好,是有问题,我们在arxiv上更新了数值 https://arxiv.org/pdf/1906.06127v3.pdf |
非常感谢及时回复,我再想请问一下ignore F1的计算问题。 为什么ignore Precision的分母只减去correct_intrain不减去not_correct_intrain呢,如果某个三元组预测出来是FP,虽然他在这个样本中没有标签,但是他出现在了训练集当中,也就是说这个FP是训练集带来的的bias,我们不应该在计算ignore Precision的时候排除这部分的影响吗? 还是说你们定义的ignore只约束precsion的TP? 我觉得如果是这样的话可能需要你们在paper中再明确一下(我刚开始理解的是ignore P和ignore R的分子分母都应该排除intrain),然后我发现新的SOTA(LSR, ignore F1)的计算方式是使用了你们现在代码注释掉的test_result_ignore来计算ignore F1,我想他的计算方式肯定和现在你们代码的计算方式不一样的吧? 我不确定LSR他们的计算方式是否会导致他们结果的虚低?但感觉应该是ignore F1定义不明确导致的。 |
我们定义的ignore只约束presiciton,也就是预测对了训练集的样例不作数,但预测错了要惩罚,ignore F1 以 https://github.com/thunlp/DocRED/blob/master/code/evaluation.py 为准,这个脚本也是codaLab上的评测脚本 |
好的,非常感谢解答! |
你好,非常棒的工作,我有一个问题,请问为什么我跑出来的dev ign F1和test ign F1都比paper公布的要高出好几个点?是不是现在代码的评测脚本和你们最开始跑baseline的评测脚本有不一致?比如recall这块,我看之前也有人提过这个问题About total_recall_ignore #31
系统环境:
cuda: 10.1
pytorch: 1.1.0
GPU: one Titan XP
实验配置:没有改过repo的代码
下面是我跑出来的dev的结果:
下面是LB上得到的test集的结果:
可以看到dev和test集上的F1和paper公布的差不多,但是dev和test的ign F1都比paper公布的高了3.5-3.7个点,在dev的Ign AUC上更是夸张,高了6.6个点,请问这是为什么呢?
The text was updated successfully, but these errors were encountered: