New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
评测有些不明白 #1
Comments
�这个是一个课程作业。 当时进行评测的时候,没有找到官方的评测脚本,也没有找到关于AP该怎么计算的公式,当时问了很多人,每个人对AP的理解都不一样。。。我们就自己实现了一个 ranking score https://github.com/intfloat/weibo-emotion-analyzer/blob/master/scripts/model.py#L28, 即使预测结果跟标准答案不完全相同,仍然会有部分分数,这可能是导致结果比相关论文高很多的一个原因,可比性不强。 如果真要比较两个系统的表现优劣,最好的办法是拿到测试数据上的输出,用同一个脚本来评测,而不是每人写一个评测程序。 |
数值也在 0.6+ |
嗯,这个更严谨一点。一个小问题是:任务虽然可以用multi label classification来做,但毕竟是有 主情绪 和 次要情绪 之分,label之间重要性不同,“预测对主情绪,预测错次要情绪” 理应好于 “预测错主情绪,预测对次要情绪”, 但在sklearn这样的计算方法中就抹掉了这种差别。 |
你说的是对的,这个主次同等对待 |
评测有些不明白,我看当年最好的AP 都没有过 0.6 比如这个 http://tcci.ccf.org.cn/conference/2014/papers/200.pdf
The text was updated successfully, but these errors were encountered: