Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

SVIT: Scaling up Visual Instruction Tuning, Bo Zhao+, N/A, arXiv'23 #792

Open
AkihikoWatanabe opened this issue Jul 11, 2023 · 0 comments
Open
Labels

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Jul 11, 2023

URL

Affiliations

  • Bo Zhao, N/A
  • Boya Wu, N/A
  • Tiejun Huang, N/A

Abstract

  • Thanks to the emerging of foundation models, the large language and visionmodels are integrated to acquire the multimodal ability of visual captioning,dialogue, question answering, etc. Although existing multimodal models presentimpressive performance of visual understanding and reasoning, their limits arestill largely under-explored due to the scarcity of high-quality instructiontuning data. To push the limits of multimodal capability, we Sale up VisualInstruction Tuning (SVIT) by constructing a dataset of 3.2 million visualinstruction tuning data including 1.6M conversation question-answer (QA) pairsand 1.6M complex reasoning QA pairs and 106K detailed image descriptions.Besides the volume, the proposed dataset is also featured by the high qualityand rich diversity, which is generated by prompting GPT-4 with the abundantmanual annotations of images. We empirically verify that training multimodalmodels on SVIT can significantly improve the multimodal performance in terms ofvisual perception, reasoning and planing.

Translation (by gpt-3.5-turbo)

  • 最近のfoundation modelsの登場により、大規模な言語モデルとビジョンモデルが統合され、視覚キャプション、対話、質問応答などの多モーダル能力を獲得することができるようになりました。
    既存の多モーダルモデルは視覚理解と推論の印象的なパフォーマンスを示していますが、高品質なインストラクションチューニングデータの不足により、その限界はまだ十分に探求されていません。
    多モーダル能力の限界を押し上げるために、私たちは3.2百万のビジュアルインストラクションチューニングデータセット(160万の対話型質問応答(QA)ペア、160万の複雑な推論QAペア、10.6万の詳細な画像の説明を含む)を構築することで、Sale up Visual Instruction Tuning(SVIT)を実現しました。
    提案されたデータセットは、そのボリュームだけでなく、高品質かつ豊富な多様性も特徴としています。これは、GPT-4に対して豊富な手動注釈付き画像をプロンプトとして使用して生成されています。
    SVITでの多モーダルモデルのトレーニングが、視覚認識、推論、計画などの多モーダルパフォーマンスを大幅に向上させることを経験的に検証しました。

Summary (by gpt-3.5-turbo)

  • 大規模な言語モデルとビジョンモデルを統合した多モーダルモデルの能力を向上させるために、新しいデータセットSVITを構築しました。SVITは高品質かつ多様性に富んだビジュアルインストラクションチューニングデータセットであり、GPT-4のトレーニングに使用されることで多モーダルパフォーマンスを大幅に向上させることが示されました。
@AkihikoWatanabe AkihikoWatanabe changed the title SVIT: Scaling up Visual Instruction Tuning, Bo Zhao+, N/A, arXiv'23 Jul 11, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant