Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions, Pouya Pezeshkpour+, N/A, arXiv'23 #1023

Open
AkihikoWatanabe opened this issue Aug 28, 2023 · 2 comments

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Aug 28, 2023

URL

Affiliations

  • Pouya Pezeshkpour, N/A
  • Estevam Hruschka, N/A

Abstract

  • Large Language Models (LLMs) have demonstrated remarkable capabilities invarious NLP tasks. However, previous works have shown these models aresensitive towards prompt wording, and few-shot demonstrations and their order,posing challenges to fair assessment of these models. As these models becomemore powerful, it becomes imperative to understand and address theselimitations. In this paper, we focus on LLMs robustness on the task ofmultiple-choice questions -- commonly adopted task to study reasoning andfact-retrieving capability of LLMs. Investigating the sensitivity of LLMstowards the order of options in multiple-choice questions, we demonstrate aconsiderable performance gap of approximately 13% to 75% in LLMs on differentbenchmarks, when answer options are reordered, even when using demonstrationsin a few-shot setting. Through a detailed analysis, we conjecture that thissensitivity arises when LLMs are uncertain about the prediction between thetop-2/3 choices, and specific options placements may favor certain predictionbetween those top choices depending on the question caused by positional bias.We also identify patterns in top-2 choices that amplify or mitigate the model'sbias toward option placement. We found that for amplifying bias, the optimalstrategy involves positioning the top two choices as the first and lastoptions. Conversely, to mitigate bias, we recommend placing these choices amongthe adjacent options. To validate our conjecture, we conduct variousexperiments and adopt two approaches to calibrate LLMs' predictions, leading toup to 8 percentage points improvement across different models and benchmarks.

Translation (by gpt-3.5-turbo)

  • 大規模言語モデル(LLMs)は、さまざまなNLPタスクで驚異的な能力を示しています。しかし、これらのモデルはプロンプトの表現に対して敏感であり、フューショットのデモンストレーションとその順序に対しても敏感であり、これらのモデルの公正な評価に課題を提起しています。これらのモデルがより強力になるにつれて、これらの制限を理解し、対処することが重要になってきます。本論文では、LLMsの多肢選択問題における頑健性に焦点を当てています。多肢選択問題は、LLMsの推論能力と事実検索能力を研究するために一般的に採用されるタスクです。多肢選択問題におけるオプションの順序に対するLLMsの感度を調査することで、異なるベンチマークでLLMsの性能において約13%から75%の大きな差が生じることを示します。フューショットの設定でも、デモンストレーションを使用していても、オプションの順序を変更するとこの感度が生じます。詳細な分析を通じて、LLMsがトップ2/3の選択肢の予測に不確実性を抱えている場合にこの感度が生じ、特定のオプションの配置が質問によってトップの選択肢の予測を好むことが原因であると推測します。また、モデルのオプション配置に対するバイアスを増幅または軽減するトップ2つの選択肢のパターンを特定します。バイアスを増幅する場合、最適な戦略は、トップ2つの選択肢を最初と最後のオプションとして配置することです。逆に、バイアスを軽減するためには、これらの選択肢を隣接するオプションの中に配置することをお勧めします。私たちの推測を検証するために、さまざまな実験を行い、LLMsの予測をキャリブレーションするための2つのアプローチを採用し、異なるモデルとベンチマークで最大8パーセントポイントの改善を実現しました。

Summary (by gpt-3.5-turbo)

  • 本研究では、大規模言語モデル(LLMs)の頑健性に焦点を当てています。LLMsは多肢選択問題において順序に敏感であり、オプションの配置によって性能に大きな差が生じることを示しました。さらに、オプションの配置に対するバイアスを増幅または軽減する方法を特定し、LLMsの予測を改善するアプローチを提案しました。実験により、最大8パーセントポイントの改善が実現されました。
@AkihikoWatanabe AkihikoWatanabe changed the title Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions, Pouya Pezeshkpour+, N/A, arXiv'23 Aug 28, 2023
@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Aug 28, 2023

これはそうだろうなと思っていたけど、ここまで性能に差が出るとは思わなかった。
image

@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Aug 28, 2023

これがもしLLMのバイアスによるもの(2番目の選択肢に正解が多い)の場合、
ランダムにソートしたり、平均取ったりしても、そもそもの正解に常にバイアスがかかっているので、
結局バイアスがかかった結果しか出ないのでは、と思ってしまう。
そうなると、有効なのはone vs. restみたいに、全部該当選択肢に対してyes/noで答えさせてそれを集約させる、みたいなアプローチの方が良いかもしれない。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant