You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Ranking documents using Large Language Models (LLMs) by directly feeding thequery and candidate documents into the prompt is an interesting and practicalproblem. However, there has been limited success so far, as researchers havefound it difficult to outperform fine-tuned baseline rankers on benchmarkdatasets. We analyze pointwise and listwise ranking prompts used by existingmethods and argue that off-the-shelf LLMs do not fully understand these rankingformulations, possibly due to the nature of how LLMs are trained. In thispaper, we propose to significantly reduce the burden on LLMs by using a newtechnique called Pairwise Ranking Prompting (PRP). Our results are the first inthe literature to achieve state-of-the-art ranking performance on standardbenchmarks using moderate-sized open-sourced LLMs. On TREC-DL2020, PRP based onthe Flan-UL2 model with 20B parameters outperforms the previous best approachin the literature, which is based on the blackbox commercial GPT-4 that has 50x(estimated) model size, by over 5% at NDCG@1. On TREC-DL2019, PRP is onlyinferior to the GPT-4 solution on the NDCG@5 and NDCG@10 metrics, whileoutperforming other existing solutions, such as InstructGPT which has 175Bparameters, by over 10% for nearly all ranking metrics. Furthermore, we proposeseveral variants of PRP to improve efficiency and show that it is possible toachieve competitive results even with linear complexity. We also discuss otherbenefits of PRP, such as supporting both generation and scoring LLM APIs, aswell as being insensitive to input ordering.
AkihikoWatanabe
changed the title
あ
Large Language Models are Effective Text Rankers with Pairwise Ranking
Prompting, Zhen Qin+, N/A, arXiv'23
Jul 11, 2023
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
しかし、これまでには限定的な成功しかありませんでした。研究者はベンチマークデータセット上で微調整されたベースラインランカーを上回ることが困難であると判明しています。
既存の手法で使用されているポイントワイズおよびリストワイズなランキングプロンプトを分析し、オフシェルフのLLMsはこれらのランキングの定式化を十分に理解していない可能性があることを主張します。これはLLMsの訓練方法の性質に起因する可能性があります。
本論文では、新しい技術であるPairwise Ranking Prompting(PRP)を使用することで、LLMsへの負荷を大幅に軽減することを提案します。
私たちの結果は、中程度のサイズのオープンソースのLLMsを使用して、標準的なベンチマークで最先端のランキングパフォーマンスを達成した文献中の初めての結果です。
TREC-DL2020では、20Bパラメータを持つFlan-UL2モデルに基づくPRPは、NDCG@1で、50倍(推定)のモデルサイズを持つ商用のGPT-4に基づく従来の最良手法を5%以上上回ります。
TREC-DL2019では、PRPはNDCG@5およびNDCG@10のメトリックではGPT-4ソリューションに劣るものの、他の既存の手法(175Bパラメータを持つInstructGPTなど)をほぼすべてのランキングメトリックで10%以上上回ります。
さらに、効率を改善するためのいくつかのPRPのバリアントを提案し、線形の複雑さでも競争力のある結果を達成できることを示します。
また、PRPの他の利点についても議論し、生成とスコアリングのLLM APIの両方をサポートし、入力の順序に対して無感度であることを示します。
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: