Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization, Yidong Wang+, N/A, arXiv'23 #718

Open
AkihikoWatanabe opened this issue Jun 16, 2023 · 0 comments
Labels

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Jun 16, 2023

URL

Affiliations

  • Yidong Wang, N/A
  • Zhuohao Yu, N/A
  • Zhengran Zeng, N/A
  • Linyi Yang, N/A
  • Cunxiang Wang, N/A
  • Hao Chen, N/A
  • Chaoya Jiang, N/A
  • Rui Xie, N/A
  • Jindong Wang, N/A
  • Xing Xie, N/A
  • Wei Ye, N/A
  • Shikun Zhang, N/A
  • Yue Zhang, N/A

Abstract

  • Instruction tuning large language models (LLMs) remains a challenging task,owing to the complexity of hyperparameter selection and the difficulty involvedin evaluating the tuned models. To determine the optimal hyperparameters, anautomatic, robust, and reliable evaluation benchmark is essential. However,establishing such a benchmark is not a trivial task due to the challengesassociated with evaluation accuracy and privacy protection. In response tothese challenges, we introduce a judge large language model, named PandaLM,which is trained to distinguish the superior model given several LLMs.PandaLM's focus extends beyond just the objective correctness of responses,which is the main focus of traditional evaluation datasets. It addresses vitalsubjective factors such as relative conciseness, clarity, adherence toinstructions, comprehensiveness, and formality. To ensure the reliability ofPandaLM, we collect a diverse human-annotated test dataset, where all contextsare generated by humans and labels are aligned with human preferences. Ourresults indicate that PandaLM-7B achieves 93.75% of GPT-3.5's evaluationability and 88.28% of GPT-4's in terms of F1-score on our test dataset. PandaLMenables the evaluation of LLM to be fairer but with less cost, evidenced bysignificant improvements achieved by models tuned through PandaLM compared totheir counterparts trained with default Alpaca's hyperparameters. In addition,PandaLM does not depend on API-based evaluations, thus avoiding potential dataleakage. All resources of PandaLM are released athttps://github.com/WeOpenML/PandaLM.

Translation (by gpt-3.5-turbo)

  • 大規模言語モデル(LLMs)の調整は、ハイパーパラメータの選択の複雑さと調整されたモデルの評価の難しさにより、依然として課題が残っています。最適なハイパーパラメータを決定するには、自動的で堅牢で信頼性の高い評価ベンチマークが必要です。しかし、評価精度とプライバシー保護に関連する課題があるため、このようなベンチマークを確立することは簡単なことではありません。これらの課題に対応するために、私たちはPandaLMという判定用大規模言語モデルを導入しました。PandaLMは、複数のLLMsが与えられた場合に優れたモデルを区別するために訓練されます。PandaLMの焦点は、従来の評価データセットの主な焦点である回答の客観的な正確さを超え、相対的な簡潔さ、明確さ、指示に従うこと、包括性、形式性などの重要な主観的要因に対処します。PandaLMの信頼性を確保するために、私たちは多様な人間注釈付きテストデータセットを収集しました。すべての文脈は人間によって生成され、ラベルは人間の好みに合わせて整列されています。私たちの結果は、PandaLM-7Bが、私たちのテストデータセットにおいてGPT-3.5の評価能力の93.75%、およびGPT-4のF1スコアにおいて88.28%を達成したことを示しています。PandaLMは、APIベースの評価に依存しないため、潜在的なデータ漏洩を回避できます。PandaLMのすべてのリソースは、https://github.com/WeOpenML/PandaLMで公開されています。PandaLMによって調整されたモデルは、デフォルトのAlpacaのハイパーパラメータでトレーニングされた対照モデルと比較して、有意な改善が実現されるため、LLMの評価がより公正かつコストが少なくなります。

Summary (by gpt-3.5-turbo)

  • 大規模言語モデル(LLMs)の調整には、ハイパーパラメータの選択の複雑さと評価の難しさが残っています。そこで、PandaLMという判定用大規模言語モデルを導入し、複数のLLMsが与えられた場合に優れたモデルを区別するために訓練されます。PandaLMは、相対的な簡潔さ、明確さ、指示に従うこと、包括性、形式性などの重要な主観的要因に対処することができます。PandaLMは、APIベースの評価に依存しないため、潜在的なデータ漏洩を回避できます。PandaLMによって調整されたモデルは、デフォルトのAlpacaのハイパーパラメータでトレーニングされた対照モデルと比較して、有意な改善が実現されるため、LLMの評価がより公正かつコストが少なくなります。
@AkihikoWatanabe AkihikoWatanabe changed the title PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization, Yidong Wang+, N/A, arXiv'23 Jun 16, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant