Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

KoLA: Carefully Benchmarking World Knowledge of Large Language Models, Jifan Yu+, N/A, arXiv'23 #729

Open
AkihikoWatanabe opened this issue Jun 16, 2023 · 0 comments

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Jun 16, 2023

URL

Affiliations

  • Jifan Yu, N/A
  • Xiaozhi Wang, N/A
  • Shangqing Tu, N/A
  • Shulin Cao, N/A
  • Daniel Zhang-Li, N/A
  • Xin Lv, N/A
  • Hao Peng, N/A
  • Zijun Yao, N/A
  • Xiaohan Zhang, N/A
  • Hanming Li, N/A
  • Chunyang Li, N/A
  • Zheyuan Zhang, N/A
  • Yushi Bai, N/A
  • Yantao Liu, N/A
  • Amy Xin, N/A
  • Nianyi Lin, N/A
  • Kaifeng Yun, N/A
  • Linlu Gong, N/A
  • Jianhui Chen, N/A
  • Zhili Wu, N/A
  • Yunjia Qi, N/A
  • Weikai Li, N/A
  • Yong Guan, N/A
  • Kaisheng Zeng, N/A
  • Ji Qi, N/A
  • Hailong Jin, N/A
  • Jinxin Liu, N/A
  • Yu Gu, N/A
  • Yuan Yao, N/A
  • Ning Ding, N/A
  • Lei Hou, N/A
  • Zhiyuan Liu, N/A
  • Bin Xu, N/A
  • Jie Tang, N/A
  • Juanzi Li, N/A

Abstract

  • The unprecedented performance of large language models (LLMs) necessitatesimprovements in evaluations. Rather than merely exploring the breadth of LLMabilities, we believe meticulous and thoughtful designs are essential tothorough, unbiased, and applicable evaluations. Given the importance of worldknowledge to LLMs, we construct a Knowledge-oriented LLM Assessment benchmark(KoLA), in which we carefully design three crucial factors: (1) For abilitymodeling, we mimic human cognition to form a four-level taxonomy ofknowledge-related abilities, covering $19$ tasks. (2) For data, to ensure faircomparisons, we use both Wikipedia, a corpus prevalently pre-trained by LLMs,along with continuously collected emerging corpora, aiming to evaluate thecapacity to handle unseen data and evolving knowledge. (3) For evaluationcriteria, we adopt a contrastive system, including overall standard scores forbetter numerical comparability across tasks and models and a uniqueself-contrast metric for automatically evaluating knowledge hallucination. Weevaluate $21$ open-source and commercial LLMs and obtain some intriguingfindings. The KoLA dataset and open-participation leaderboard are publiclyreleased at https://kola.xlore.cn and will be continuously updated to providereferences for developing LLMs and knowledge-related systems.

Translation (by gpt-3.5-turbo)

  • 大規模言語モデル(LLMs)の前例のないパフォーマンスは、評価の改善を必要としています。LLMの能力の幅を探索するだけでなく、入念で思慮深い設計が徹底的で偏りのない、そして適用可能な評価に不可欠であると考えています。LLMにとって世界知識の重要性が高いため、Knowledge-oriented LLM Assessment benchmark(KoLA)を構築しました。このベンチマークでは、以下の3つの重要な要素を慎重に設計しています。1つ目は能力モデリングで、19のタスクをカバーする4段階の知識関連能力の人間の認知を模倣しています。2つ目はデータで、LLMによって広く事前学習されたコーパスであるWikipediaと、新興コーパスを連続的に収集して、未知のデータと進化する知識を扱う能力を評価することを目的としています。3つ目は評価基準で、タスクとモデル間の数値的比較を向上させるための全体的な標準スコアと、知識の幻覚を自動的に評価する独自の自己対照メトリックを含む対照的なシステムを採用しています。21のオープンソースと商用のLLMを評価し、興味深い結果を得ました。KoLAデータセットとオープン参加のリーダーボードは、https://kola.xlore.cnで公開され、LLMや知識関連システムの開発の参考資料として継続的に更新されます。

Summary (by gpt-3.5-turbo)

  • LLMの評価を改善するために、KoLAという知識指向のベンチマークを構築した。このベンチマークは、19のタスクをカバーし、Wikipediaと新興コーパスを使用して、知識の幻覚を自動的に評価する独自の自己対照メトリックを含む対照的なシステムを採用している。21のオープンソースと商用のLLMを評価し、KoLAデータセットとオープン参加のリーダーボードは、LLMや知識関連システムの開発の参考資料として継続的に更新される。
@AkihikoWatanabe AkihikoWatanabe changed the title KoLA: Carefully Benchmarking World Knowledge of Large Language Models, Jifan Yu+, N/A, arXiv'23 Jun 16, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant