Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting, Zhen Qin+, N/A, arXiv'23 #799

Open
AkihikoWatanabe opened this issue Jul 11, 2023 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Jul 11, 2023

URL

Affiliations

  • Zhen Qin, N/A
  • Rolf Jagerman, N/A
  • Kai Hui, N/A
  • Honglei Zhuang, N/A
  • Junru Wu, N/A
  • Jiaming Shen, N/A
  • Tianqi Liu, N/A
  • Jialu Liu, N/A
  • Donald Metzler, N/A
  • Xuanhui Wang, N/A
  • Michael Bendersky, N/A

Abstract

  • Ranking documents using Large Language Models (LLMs) by directly feeding thequery and candidate documents into the prompt is an interesting and practicalproblem. However, there has been limited success so far, as researchers havefound it difficult to outperform fine-tuned baseline rankers on benchmarkdatasets. We analyze pointwise and listwise ranking prompts used by existingmethods and argue that off-the-shelf LLMs do not fully understand these rankingformulations, possibly due to the nature of how LLMs are trained. In thispaper, we propose to significantly reduce the burden on LLMs by using a newtechnique called Pairwise Ranking Prompting (PRP). Our results are the first inthe literature to achieve state-of-the-art ranking performance on standardbenchmarks using moderate-sized open-sourced LLMs. On TREC-DL2020, PRP based onthe Flan-UL2 model with 20B parameters outperforms the previous best approachin the literature, which is based on the blackbox commercial GPT-4 that has 50x(estimated) model size, by over 5% at NDCG@1. On TREC-DL2019, PRP is onlyinferior to the GPT-4 solution on the NDCG@5 and NDCG@10 metrics, whileoutperforming other existing solutions, such as InstructGPT which has 175Bparameters, by over 10% for nearly all ranking metrics. Furthermore, we proposeseveral variants of PRP to improve efficiency and show that it is possible toachieve competitive results even with linear complexity. We also discuss otherbenefits of PRP, such as supporting both generation and scoring LLM APIs, aswell as being insensitive to input ordering.

Translation (by gpt-3.5-turbo)

  • 大規模言語モデル(LLMs)を使用してドキュメントをランキングすることは、クエリと候補ドキュメントをプロンプトに直接入力することによる興味深い実用的な問題です。
    しかし、これまでには限定的な成功しかありませんでした。研究者はベンチマークデータセット上で微調整されたベースラインランカーを上回ることが困難であると判明しています。
    既存の手法で使用されているポイントワイズおよびリストワイズなランキングプロンプトを分析し、オフシェルフのLLMsはこれらのランキングの定式化を十分に理解していない可能性があることを主張します。これはLLMsの訓練方法の性質に起因する可能性があります。
    本論文では、新しい技術であるPairwise Ranking Prompting(PRP)を使用することで、LLMsへの負荷を大幅に軽減することを提案します。
    私たちの結果は、中程度のサイズのオープンソースのLLMsを使用して、標準的なベンチマークで最先端のランキングパフォーマンスを達成した文献中の初めての結果です。
    TREC-DL2020では、20Bパラメータを持つFlan-UL2モデルに基づくPRPは、NDCG@1で、50倍(推定)のモデルサイズを持つ商用のGPT-4に基づく従来の最良手法を5%以上上回ります。
    TREC-DL2019では、PRPはNDCG@5およびNDCG@10のメトリックではGPT-4ソリューションに劣るものの、他の既存の手法(175Bパラメータを持つInstructGPTなど)をほぼすべてのランキングメトリックで10%以上上回ります。
    さらに、効率を改善するためのいくつかのPRPのバリアントを提案し、線形の複雑さでも競争力のある結果を達成できることを示します。
    また、PRPの他の利点についても議論し、生成とスコアリングのLLM APIの両方をサポートし、入力の順序に対して無感度であることを示します。

Summary (by gpt-3.5-turbo)

  • LLMsを使用してドキュメントをランキングする際に、Pairwise Ranking Prompting(PRP)という新しい技術を提案する。PRPは、LLMsへの負荷を軽減し、最先端のランキングパフォーマンスを達成することができる。具体的には、20Bパラメータを持つFlan-UL2モデルに基づくPRPは、商用のGPT-4に基づく従来の手法を上回る結果を示した。さらに、PRPのバリアントを提案し、効率を改善することができることを示した。PRPは生成とスコアリングのLLM APIの両方をサポートし、入力の順序に対して無感度であることも示された。
@AkihikoWatanabe AkihikoWatanabe changed the title Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting, Zhen Qin+, N/A, arXiv'23 Jul 11, 2023
@AkihikoWatanabe
Copy link
Owner Author

open source LLMをスタンダードなベンチマークでSoTAを達成できるようなprompting技術を提案

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant