Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

VILA: On Pre-training for Visual Language Models, Ji Lin+, N/A, arXiv'23 #1186

Open
AkihikoWatanabe opened this issue Dec 14, 2023 · 0 comments
Labels

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Dec 14, 2023

URL

Affiliations

  • Ji Lin, N/A
  • Hongxu Yin, N/A
  • Wei Ping, N/A
  • Yao Lu, N/A
  • Pavlo Molchanov, N/A
  • Andrew Tao, N/A
  • Huizi Mao, N/A
  • Jan Kautz, N/A
  • Mohammad Shoeybi, N/A
  • Song Han, N/A

Abstract

  • Visual language models (VLMs) rapidly progressed with the recent success oflarge language models. There have been growing efforts on visual instructiontuning to extend the LLM with visual inputs, but lacks an in-depth study of thevisual language pre-training process, where the model learns to perform jointmodeling on both modalities. In this work, we examine the design options forVLM pre-training by augmenting LLM towards VLM through step-by-stepcontrollable comparisons. We introduce three main findings: (1) freezing LLMsduring pre-training can achieve decent zero-shot performance, but lackin-context learning capability, which requires unfreezing the LLM; (2)interleaved pre-training data is beneficial whereas image-text pairs alone arenot optimal; (3) re-blending text-only instruction data to image-text dataduring instruction fine-tuning not only remedies the degradation of text-onlytasks, but also boosts VLM task accuracy. With an enhanced pre-training recipewe build VILA, a Visual Language model family that consistently outperforms thestate-of-the-art models, e.g., LLaVA-1.5, across main benchmarks without bellsand whistles. Multi-modal pre-training also helps unveil appealing propertiesof VILA, including multi-image reasoning, enhanced in-context learning, andbetter world knowledge.

Translation (by gpt-3.5-turbo)

  • 最近の大規模言語モデルの成功により、ビジュアル言語モデル(VLM)は急速に進歩しています。LLMをビジュアル入力で拡張するためのビジュアルインストラクションチューニングの取り組みが増えていますが、モデルが両方のモダリティを共同モデリングする学習プロセスであるビジュアル言語の事前学習についての詳細な研究が不足しています。本研究では、ステップバイステップの制御可能な比較を通じて、VLMの事前学習のためのデザインオプションを検討します。以下の3つの主な結果を示します:(1) 事前学習中にLLMを凍結することで、ゼロショットのパフォーマンスを達成できますが、文脈に基づいた学習能力が不足しており、LLMの凍結を解除する必要があります。(2) 交互に行われる事前学習データは有益であり、画像とテキストのペアだけでは最適ではありません。(3) テキストのみの指示データを画像とテキストのデータに再ブレンドすることで、テキストのみのタスクの劣化を改善するだけでなく、VLMのタスクの精度も向上させることができます。強化された事前学習レシピにより、VILAというビジュアル言語モデルファミリーを構築しました。VILAは、LLaVA-1.5などの最先端モデルを凌駕し、ベルやホイッスルなしで主要なベンチマークで一貫して優れたパフォーマンスを発揮します。マルチモーダルの事前学習は、VILAの魅力的な特性、例えばマルチイメージの推論、文脈に基づいた学習の強化、およびより良い世界知識を明らかにするのにも役立ちます。

Summary (by gpt-3.5-turbo)

  • 最近の大規模言語モデルの成功により、ビジュアル言語モデル(VLM)が進歩している。本研究では、VLMの事前学習のためのデザインオプションを検討し、以下の結果を示した:(1) LLMを凍結することでゼロショットのパフォーマンスが達成できるが、文脈に基づいた学習能力が不足している。(2) 交互に行われる事前学習データは有益であり、画像とテキストのペアだけでは最適ではない。(3) テキストのみの指示データを画像とテキストのデータに再ブレンドすることで、VLMのタスクの精度を向上させることができる。VILAというビジュアル言語モデルファミリーを構築し、最先端モデルを凌駕し、優れたパフォーマンスを発揮することを示した。マルチモーダルの事前学習は、VILAの特性を向上させる。
@AkihikoWatanabe AkihikoWatanabe changed the title VILA: On Pre-training for Visual Language Models, Ji Lin+, N/A, arXiv'23 Dec 14, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant