Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners, Chi Hu+, N/A, arXiv'24 #1268

Open
AkihikoWatanabe opened this issue Apr 7, 2024 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Apr 7, 2024

URL

Affiliations

  • Chi Hu, N/A
  • Yuan Ge, N/A
  • Xiangnan Ma, N/A
  • Hang Cao, N/A
  • Qiang Li, N/A
  • Yonghua Yang, N/A
  • Tong Xiao, N/A
  • Jingbo Zhu, N/A

Abstract

  • Large Language Models (LLMs) have achieved impressive performance acrossvarious reasoning tasks. However, even state-of-the-art LLMs such as ChatGPTare prone to logical errors during their reasoning processes. Existingsolutions, such as deploying task-specific verifiers or voting over multiplereasoning paths, either require extensive human annotations or fail inscenarios with inconsistent responses. To address these challenges, weintroduce RankPrompt, a new prompting method that enables LLMs to self-ranktheir responses without additional resources. RankPrompt breaks down theranking problem into a series of comparisons among diverse responses,leveraging the inherent capabilities of LLMs to generate chains of comparisonas contextual exemplars. Our experiments across 11 arithmetic and commonsensereasoning tasks show that RankPrompt significantly enhances the reasoningperformance of ChatGPT and GPT-4, with improvements of up to 13%. Moreover,RankPrompt excels in LLM-based automatic evaluations for open-ended tasks,aligning with human judgments 74% of the time in the AlpacaEval dataset. Italso exhibits robustness to variations in response order and consistency.Collectively, our results validate RankPrompt as an effective method foreliciting high-quality feedback from language models.

Translation (by gpt-3.5-turbo)

  • 大規模言語モデル(LLMs)は、さまざまな推論タスクで印象的なパフォーマンスを達成しています。しかし、ChatGPTなどの最先端のLLMsでも、推論プロセス中に論理エラーを起こしやすいです。タスク固有の検証ツールを展開したり、複数の推論経路に投票したりするなどの既存の解決策は、広範な人間の注釈が必要であるか、一貫性のない応答があるシナリオで失敗します。これらの課題に対処するために、追加のリソースなしでLLMsが自己ランク付けを行えるようにする新しいプロンプティング方法であるRankPromptを導入します。RankPromptは、多様な応答間の一連の比較にランキング問題を分解し、LLMsの固有の能力を活用して比較の連鎖を生成することで、推論パフォーマンスを大幅に向上させます。11の算術および常識推論タスクを対象とした実験では、RankPromptがChatGPTやGPT-4の推論パフォーマンスを13%向上させることを示しました。さらに、RankPromptは、AlpacaEvalデータセットで人間の判断と74%の一致率を示すなど、LLMベースのオープンエンドタスクの自動評価で優れた性能を発揮します。また、応答順序や一貫性の変動に対する堅牢性も示します。総じて、我々の結果は、RankPromptが言語モデルから高品質なフィードバックを引き出すための効果的な方法であることを裏付けています。

Summary (by gpt-3.5-turbo)

  • LLMsは推論タスクで優れた性能を発揮しているが、論理エラーが起こりやすい。RankPromptという新しいプロンプティング方法を導入し、LLMsが自己ランク付けを行い推論パフォーマンスを向上させる。実験では、RankPromptがChatGPTやGPT-4の推論パフォーマンスを13%向上させ、AlpacaEvalデータセットで人間の判断と74%の一致率を示すことが示された。RankPromptは言語モデルから高品質なフィードバックを引き出す効果的な方法であることが示された。
@AkihikoWatanabe AkihikoWatanabe changed the title RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners, Chi Hu+, N/A, arXiv'24 Apr 7, 2024
@AkihikoWatanabe
Copy link
Owner Author

LLMでランキングをするためのプロンプト手法。大量の候補をランキングするのは困難だと思われるが、リランキング手法としては利用できる可能性がある
image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant