Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Long-context LLMs Struggle with Long In-context Learning, Tianle Li+, N/A, arXiv'24 #1274

Open
AkihikoWatanabe opened this issue Apr 7, 2024 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Apr 7, 2024

URL

Affiliations

  • Tianle Li, N/A
  • Ge Zhang, N/A
  • Quy Duc Do, N/A
  • Xiang Yue, N/A
  • Wenhu Chen, N/A

Abstract

  • Large Language Models (LLMs) have made significant strides in handling longsequences exceeding 32K tokens. However, their performance evaluation haslargely been confined to metrics like perplexity and synthetic tasks, which maynot fully capture their abilities in more nuanced, real-world scenarios. Thisstudy introduces a specialized benchmark (LongICLBench) focusing on longin-context learning within the realm of extreme-label classification. Wemeticulously selected six datasets with a label range spanning 28 to 174classes covering different input (few-shot demonstration) lengths from 2K to50K tokens. Our benchmark requires LLMs to comprehend the entire input torecognize the massive label spaces to make correct predictions. We evaluate 13long-context LLMs on our benchmarks. We find that the long-context LLMs performrelatively well on less challenging tasks with shorter demonstration lengths byeffectively utilizing the long context window. However, on the most challengingtask Discovery with 174 labels, all the LLMs struggle to understand the taskdefinition, thus reaching a performance close to zero. This suggests a notablegap in current LLM capabilities for processing and understanding long,context-rich sequences. Further analysis revealed a tendency among models tofavor predictions for labels presented toward the end of the sequence. Theirability to reason over multiple pieces in the long sequence is yet to beimproved. Our study reveals that long context understanding and reasoning isstill a challenging task for the existing LLMs. We believe LongICLBench couldserve as a more realistic evaluation for the future long-context LLMs.

Translation (by gpt-3.5-turbo)

  • 大規模言語モデル(LLMs)は、32Kトークンを超える長いシーケンスを処理する能力において大きな進展を遂げてきた。しかし、これまでの性能評価は主にperplexityや合成タスクなどのメトリクスに限定されており、より微妙で現実世界のシナリオでの能力を十分に捉えていない可能性がある。本研究では、極端なラベル分類の領域での長いコンテキスト学習に焦点を当てた専門的なベンチマーク(LongICLBench)を紹介する。28から174のクラスにわたるラベル範囲をカバーする6つのデータセットを厳選し、入力(few-shot demonstration)の長さが2Kから50Kトークンまで異なるものを選定した。当該ベンチマークでは、LLMsには正しい予測を行うために巨大なラベル空間を認識するために入力全体を理解する必要がある。我々は13つの長いコンテキストLLMsを当該ベンチマークで評価した。長いコンテキストLLMsは、長いコンテキストウィンドウを効果的に活用することで、より簡単なタスクで比較的良いパフォーマンスを発揮することがわかった。しかし、174のラベルを持つ最も困難なDiscoveryタスクでは、すべてのLLMsがタスク定義を理解するのに苦労し、その結果、ほぼゼロに近いパフォーマンスになった。これは、現在のLLMsの長く、コンテキスト豊かなシーケンスを処理し理解する能力における著しいギャップを示唆している。さらなる分析では、モデルの間に、シーケンスの終わりに提示されたラベルに対する予測を好む傾向があることが明らかになった。長いシーケンス全体にわたる複数の要素に対する推論能力はまだ改善されていない。我々の研究は、既存のLLMsにとって長いコンテキストの理解と推論は依然として難しい課題であることを示している。LongICLBenchは、将来の長いコンテキストLLMsにとってより現実的な評価となり得ると考えている。

Summary (by gpt-3.5-turbo)

  • LLMsは長いシーケンスを処理する能力に進展しているが、実世界のシナリオでの能力を評価するための専門的なベンチマークLongICLBenchが導入された。このベンチマークでは、LLMsは巨大なラベル空間を理解し、正しい予測を行うために入力全体を理解する必要がある。研究によると、長いコンテキストLLMsは長いコンテキストウィンドウを活用することで比較的良いパフォーマンスを示すが、最も困難なタスクでは苦労している。現在のLLMsは長くコンテキスト豊かなシーケンスを処理し理解する能力にギャップがあることを示唆しており、長いコンテキストの理解と推論は依然として難しい課題であることが示されている。
@AkihikoWatanabe AkihikoWatanabe changed the title Long-context LLMs Struggle with Long In-context Learning, Tianle Li+, N/A, arXiv'24 Apr 7, 2024
@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Apr 7, 2024

GPT4以外はコンテキストが20Kを超えると性能が劣化する傾向にあるとのこと。データセットを難易度別に収集し評価したところ、難易度の高いデータではそもそもコンテキストが長くなると全てのLLMがタスクを理解するできずほぼ0%の性能となった。
image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant