You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Recent advances in large language models elicit reasoning in a chain ofthought that allows models to decompose problems in a human-like fashion.Though this paradigm improves multi-step reasoning ability in language models,it is limited by being unimodal and applied mainly to question-answering tasks.We claim that incorporating visual augmentation into reasoning is essential,especially for complex, imaginative tasks. Consequently, we introduce VCoT, anovel method that leverages chain of thought prompting with vision-languagegrounding to recursively bridge the logical gaps within sequential data. Ourmethod uses visual guidance to generate synthetic multimodal infillings thatadd consistent and novel information to reduce the logical gaps for downstreamtasks that can benefit from temporal reasoning, as well as provideinterpretability into models' multi-step reasoning. We apply VCoT to the VisualStorytelling and WikiHow summarization datasets and demonstrate through humanevaluation that VCoT offers novel and consistent synthetic data augmentationbeating chain of thought baselines, which can be used to enhance downstreamperformance.
Translation (by gpt-3.5-turbo)
大規模言語モデルの最近の進歩により、モデルが問題を人間のように分解することができるようになり、論理的な推論が可能になりました。このパラダイムは、多段階の推論能力を向上させることができますが、単一のモードに限定され、主に質問応答タスクに適用されることが欠点です。我々は、特に複雑で想像力を必要とするタスクにおいて、視覚的な拡張を推論に取り入れることが不可欠であると主張します。そのため、我々はVCoTという新しい手法を提案し、視覚言語グラウンディングを用いた推論のchain of thought promptingを再帰的に利用して、順序データ内の論理的なギャップを埋めることができます。我々の手法は、視覚的なガイダンスを用いて、一貫性のある新しい情報を加え、論理的なギャップを減らし、時間的な推論に役立つ下流タスクに対して、多様な情報を提供し、モデルの多段階推論に対する解釈可能性を提供します。我々は、VCoTをVisual StorytellingとWikiHow summarizationのデータセットに適用し、人間の評価を通じて、VCoTがchain of thoughtのベースラインを上回る新しい一貫性のある合成データ拡張を提供することを示し、下流のパフォーマンスを向上させることができます。
Summary (by gpt-3.5-turbo)
大規模言語モデルを用いた論理的な推論には限界があり、視覚的な拡張が必要であるという問題がある。そこで、VCoTという新しい手法を提案し、視覚言語グラウンディングを用いた推論のchain of thought promptingを再帰的に利用して、順序データ内の論理的なギャップを埋めることができる。VCoTは、Visual StorytellingとWikiHow summarizationのデータセットに適用され、人間の評価を通じて、新しい一貫性のある合成データ拡張を提供し、下流のパフォーマンスを向上させることができることが示された。
The text was updated successfully, but these errors were encountered:
AkihikoWatanabe
changed the title
あ
Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings, Daniel Rose+, N/A, arXiv'23
May 4, 2023
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: