Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Multimodal Procedural Planning via Dual Text-Image Prompting, Yujie Lu+, N/A, arXiv'23 #614

Open
AkihikoWatanabe opened this issue May 4, 2023 · 0 comments
Labels

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented May 4, 2023

URL

Affiliations

  • Yujie Lu, N/A
  • Pan Lu, N/A
  • Zhiyu Chen, N/A
  • Wanrong Zhu, N/A
  • Xin Eric Wang, N/A
  • William Yang Wang, N/A

Abstract

  • Embodied agents have achieved prominent performance in following humaninstructions to complete tasks. However, the potential of providinginstructions informed by texts and images to assist humans in completing tasksremains underexplored. To uncover this capability, we present the multimodalprocedural planning (MPP) task, in which models are given a high-level goal andgenerate plans of paired text-image steps, providing more complementary andinformative guidance than unimodal plans. The key challenges of MPP are toensure the informativeness, temporal coherence,and accuracy of plans acrossmodalities. To tackle this, we propose Text-Image Prompting (TIP), adual-modality prompting method that jointly leverages zero-shot reasoningability in large language models (LLMs) and compelling text-to-image generationability from diffusion-based models. TIP improves the interaction in the dualmodalities using Text-to-Image Bridge and Image-to-Text Bridge, allowing LLMsto guide the textual-grounded image plan generation and leveraging thedescriptions of image plans to ground the textual plan reversely. To addressthe lack of relevant datasets, we collect WIKIPLAN and RECIPEPLAN as a testbedfor MPP. Our results show compelling human preferences and automatic scoresagainst unimodal and multimodal baselines on WIKIPLAN and RECIPEPLAN in termsof informativeness, temporal coherence, and plan accuracy. Our code and data:https://github.com/YujieLu10/MPP.

Translation (by gpt-3.5-turbo)

  • 具現化エージェントは、人間の指示に従ってタスクを完了することで顕著なパフォーマンスを発揮しています。しかし、テキストや画像に基づく指示を提供して人間がタスクを完了するのを支援する可能性は、まだ十分に探求されていません。この能力を明らかにするために、我々は多様なモーダル手順計画(MPP)タスクを提案します。このタスクでは、モデルに高レベルの目標が与えられ、ペアのテキスト-画像ステップの計画を生成し、単一モーダルの計画よりも補完的で情報量が多いガイダンスを提供します。MPPの主な課題は、モーダリティ間の計画の情報量、時間的な一貫性、および正確性を確保することです。これを解決するために、我々はText-Image Prompting(TIP)を提案します。これは、大規模言語モデル(LLMs)のゼロショット推論能力と拡散ベースのモデルによる魅力的なテキストから画像への生成能力を共同で活用するデュアルモーダルのプロンプティング方法です。TIPは、Text-to-Image BridgeとImage-to-Text Bridgeを使用して、LLMsがテキストに基づく画像計画の生成を指導し、画像計画の説明を逆にテキスト計画に基づくことで、デュアルモーダルの相互作用を改善します。関連するデータセットが不足しているため、我々はMPPのテストベッドとしてWIKIPLANとRECIPEPLANを収集しました。結果は、情報量、時間的一貫性、および計画の正確性の観点から、WIKIPLANとRECIPEPLANの単一モーダルおよび多様なモーダルのベースラインに対する人間の嗜好と自動スコアが魅力的であることを示しています。我々のコードとデータは、https://github.com/YujieLu10/MPPにあります。

Summary (by gpt-3.5-turbo)

  • 本研究では、具現化エージェントがテキストや画像に基づく指示を受けてタスクを完了するための多様なモーダル手順計画(MPP)タスクを提案し、Text-Image Prompting(TIP)を使用して、大規模言語モデル(LLMs)を活用して、テキストと画像の相互作用を改善する方法を提案しています。WIKIPLANとRECIPEPLANのデータセットを収集し、MPPのテストベッドとして使用し、単一モーダルおよび多様なモーダルのベースラインに対する人間の嗜好と自動スコアが魅力的であることを示しました。提案手法のコードとデータは、https://github.com/YujieLu10/MPPにあります。
@AkihikoWatanabe AkihikoWatanabe changed the title Multimodal Procedural Planning via Dual Text-Image Prompting, Yujie Lu+, N/A, arXiv'23 May 4, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant