Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

UniIR: Training and Benchmarking Universal Multimodal Information Retrievers, Cong Wei+, N/A, arXiv'23 #1166

Open
AkihikoWatanabe opened this issue Dec 1, 2023 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Dec 1, 2023

URL

Affiliations

  • Cong Wei, N/A
  • Yang Chen, N/A
  • Haonan Chen, N/A
  • Hexiang Hu, N/A
  • Ge Zhang, N/A
  • Jie Fu, N/A
  • Alan Ritter, N/A
  • Wenhu Chen, N/A

Abstract

  • Existing information retrieval (IR) models often assume a homogeneous format,limiting their applicability to diverse user needs, such as searching forimages with text descriptions, searching for a news article with a headlineimage, or finding a similar photo with a query image. To approach suchdifferent information-seeking demands, we introduce UniIR, a unifiedinstruction-guided multimodal retriever capable of handling eight distinctretrieval tasks across modalities. UniIR, a single retrieval system jointlytrained on ten diverse multimodal-IR datasets, interprets user instructions toexecute various retrieval tasks, demonstrating robust performance acrossexisting datasets and zero-shot generalization to new tasks. Our experimentshighlight that multi-task training and instruction tuning are keys to UniIR'sgeneralization ability. Additionally, we construct the M-BEIR, a multimodalretrieval benchmark with comprehensive results, to standardize the evaluationof universal multimodal information retrieval.

Translation (by gpt-3.5-turbo)

  • 従来の情報検索(IR)モデルは、一様な形式を前提としているため、テキストの説明を持つ画像を検索したり、見出し画像を持つニュース記事を検索したり、クエリ画像と似た写真を見つけるなど、さまざまなユーザーのニーズには適用できません。このような異なる情報検索の要求に対応するために、私たちはUniIRという統一された指示に基づくマルチモーダルリトリーバーを導入します。UniIRは、モダリティを横断する8つの異なるリトリーバルタスクを処理できるように設計されています。UniIRは、10の多様なマルチモーダルIRデータセットで共同でトレーニングされた単一のリトリーバーシステムであり、ユーザーの指示を解釈してさまざまなリトリーバルタスクを実行します。既存のデータセットでの堅牢なパフォーマンスと新しいタスクへのゼロショット汎化を実証しています。私たちの実験は、マルチタスクトレーニングと指示の調整がUniIRの汎化能力の鍵であることを示しています。さらに、包括的な結果を持つマルチモーダルリトリーバルベンチマークであるM-BEIRを構築し、ユニバーサルなマルチモーダル情報検索の評価を標準化しています。

Summary (by gpt-3.5-turbo)

  • 従来の情報検索モデルは一様な形式を前提としているため、異なる情報検索の要求に対応できない。そこで、UniIRという統一された指示に基づくマルチモーダルリトリーバーを提案する。UniIRは異なるリトリーバルタスクを処理できるように設計され、10のマルチモーダルIRデータセットでトレーニングされる。実験結果はUniIRの汎化能力を示し、M-BEIRというマルチモーダルリトリーバルベンチマークも構築された。
@AkihikoWatanabe
Copy link
Owner Author

後で読む(画像は元ツイートより

image

元ツイート: https://x.com/congwei1230/status/1730307767469068476?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q

@AkihikoWatanabe AkihikoWatanabe changed the title UniIR: Training and Benchmarking Universal Multimodal Information Retrievers, Cong Wei+, N/A, arXiv'23 Dec 1, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant