Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Key-Locked Rank One Editing for Text-to-Image Personalization, Yoad Tewel+, N/A, arXiv'23 #630

Open
AkihikoWatanabe opened this issue May 4, 2023 · 1 comment
Labels

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented May 4, 2023

URL

Affiliations

  • Yoad Tewel, N/A
  • Rinon Gal, N/A
  • Gal Chechik, N/A
  • Yuval Atzmon, N/A

Abstract

  • Text-to-image models (T2I) offer a new level of flexibility by allowing usersto guide the creative process through natural language. However, personalizingthese models to align with user-provided visual concepts remains a challengingproblem. The task of T2I personalization poses multiple hard challenges, suchas maintaining high visual fidelity while allowing creative control, combiningmultiple personalized concepts in a single image, and keeping a small modelsize. We present Perfusion, a T2I personalization method that addresses thesechallenges using dynamic rank-1 updates to the underlying T2I model. Perfusionavoids overfitting by introducing a new mechanism that "locks" new concepts'cross-attention Keys to their superordinate category. Additionally, we developa gated rank-1 approach that enables us to control the influence of a learnedconcept during inference time and to combine multiple concepts. This allowsruntime-efficient balancing of visual-fidelity and textual-alignment with asingle 100KB trained model, which is five orders of magnitude smaller than thecurrent state of the art. Moreover, it can span different operating pointsacross the Pareto front without additional training. Finally, we show thatPerfusion outperforms strong baselines in both qualitative and quantitativeterms. Importantly, key-locking leads to novel results compared to traditionalapproaches, allowing to portray personalized object interactions inunprecedented ways, even in one-shot settings.

Translation (by gpt-3.5-turbo)

  • テキストから画像へのモデル(T2I)は、自然言語を通じて創造的なプロセスをガイドすることで、新しいレベルの柔軟性を提供します。しかし、ユーザー提供の視覚的な概念に合わせてこれらのモデルを個人化することは、依然として課題が残っています。T2Iの個人化のタスクは、高い視覚的忠実度を維持しながら創造的な制御を許可すること、複数の個人化された概念を単一の画像に組み合わせること、小さなモデルサイズを維持することなど、複数の困難な課題を抱えています。本研究では、PerfusionというT2Iの個人化手法を提案し、これらの課題に対処します。Perfusionは、基礎となるT2Iモデルに対して動的なランク1の更新を使用することで、過学習を回避します。新しい概念のクロスアテンションキーを上位カテゴリにロックする新しいメカニズムを導入することで、過学習を回避します。さらに、学習された概念の影響を制御し、複数の概念を組み合わせることができるゲート付きランク1アプローチを開発しました。これにより、視覚的忠実度とテキストの整合性を単一の100KBトレーニングモデルでランタイム効率的にバランスを取ることができます。これは、現在の最先端のモデルよりも5桁小さいです。さらに、追加のトレーニングなしに、パレートフロント全体で異なる動作点をカバーすることができます。最後に、Perfusionが強力なベースラインを定性的および定量的に上回ることを示します。重要なことに、キーロックは、従来のアプローチと比較して、個人化されたオブジェクトの相互作用を前例のない方法で描写することを可能にし、ワンショット設定でも新しい結果をもたらします。

Summary (by gpt-3.5-turbo)

  • 本研究では、テキストから画像へのモデル(T2I)の個人化手法であるPerfusionを提案し、高い視覚的忠実度を維持しながら創造的な制御を許可すること、複数の個人化された概念を単一の画像に組み合わせること、小さなモデルサイズを維持することなど、複数の困難な課題を解決する。Perfusionは、基礎となるT2Iモデルに対して動的なランク1の更新を使用することで、過学習を回避し、新しい概念のクロスアテンションキーを上位カテゴリにロックする新しいメカニズムを導入することで、学習された概念の影響を制御し、複数の概念を組み合わせることができるゲート付きランク1アプローチを開発した。Perfusionは、現在の最先端のモデルよりも5桁小さいが、強力なベースラインを定量的および定性的に上回ることが示された。
@AkihikoWatanabe
Copy link
Owner Author

プロジェクトページ
https://research.nvidia.com/labs/par/Perfusion/

@AkihikoWatanabe AkihikoWatanabe changed the title Key-Locked Rank One Editing for Text-to-Image Personalization, Yoad Tewel+, N/A, arXiv'23 May 4, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant