Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings, Daniel Rose+, N/A, arXiv'23 #609

Open
AkihikoWatanabe opened this issue May 4, 2023 · 0 comments
Labels

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented May 4, 2023

URL

Affiliations

  • Daniel Rose, N/A
  • Vaishnavi Himakunthala, N/A
  • Andy Ouyang, N/A
  • Ryan He, N/A
  • Alex Mei, N/A
  • Yujie Lu, N/A
  • Michael Saxon, N/A
  • Chinmay Sonar, N/A
  • Diba Mirza, N/A
  • William Yang Wang, N/A

Abstract

  • Recent advances in large language models elicit reasoning in a chain ofthought that allows models to decompose problems in a human-like fashion.Though this paradigm improves multi-step reasoning ability in language models,it is limited by being unimodal and applied mainly to question-answering tasks.We claim that incorporating visual augmentation into reasoning is essential,especially for complex, imaginative tasks. Consequently, we introduce VCoT, anovel method that leverages chain of thought prompting with vision-languagegrounding to recursively bridge the logical gaps within sequential data. Ourmethod uses visual guidance to generate synthetic multimodal infillings thatadd consistent and novel information to reduce the logical gaps for downstreamtasks that can benefit from temporal reasoning, as well as provideinterpretability into models' multi-step reasoning. We apply VCoT to the VisualStorytelling and WikiHow summarization datasets and demonstrate through humanevaluation that VCoT offers novel and consistent synthetic data augmentationbeating chain of thought baselines, which can be used to enhance downstreamperformance.

Translation (by gpt-3.5-turbo)

  • 大規模言語モデルの最近の進歩により、モデルが問題を人間のように分解することができるようになり、論理的な推論が可能になりました。このパラダイムは、多段階の推論能力を向上させることができますが、単一のモードに限定され、主に質問応答タスクに適用されることが欠点です。我々は、特に複雑で想像力を必要とするタスクにおいて、視覚的な拡張を推論に取り入れることが不可欠であると主張します。そのため、我々はVCoTという新しい手法を提案し、視覚言語グラウンディングを用いた推論のchain of thought promptingを再帰的に利用して、順序データ内の論理的なギャップを埋めることができます。我々の手法は、視覚的なガイダンスを用いて、一貫性のある新しい情報を加え、論理的なギャップを減らし、時間的な推論に役立つ下流タスクに対して、多様な情報を提供し、モデルの多段階推論に対する解釈可能性を提供します。我々は、VCoTをVisual StorytellingとWikiHow summarizationのデータセットに適用し、人間の評価を通じて、VCoTがchain of thoughtのベースラインを上回る新しい一貫性のある合成データ拡張を提供することを示し、下流のパフォーマンスを向上させることができます。

Summary (by gpt-3.5-turbo)

  • 大規模言語モデルを用いた論理的な推論には限界があり、視覚的な拡張が必要であるという問題がある。そこで、VCoTという新しい手法を提案し、視覚言語グラウンディングを用いた推論のchain of thought promptingを再帰的に利用して、順序データ内の論理的なギャップを埋めることができる。VCoTは、Visual StorytellingとWikiHow summarizationのデータセットに適用され、人間の評価を通じて、新しい一貫性のある合成データ拡張を提供し、下流のパフォーマンスを向上させることができることが示された。
@AkihikoWatanabe AkihikoWatanabe changed the title Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings, Daniel Rose+, N/A, arXiv'23 May 4, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant