-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Unifying Multimodal Transformer for Bi-directional Image and Text Generation #686
Comments
1 はじめにマルチモーダル処理技術,ネットワーク,デバイスの発展に伴い,既存のマルチモーダル産業アプリケーション(特にモバイルアプリケーション)の数は急速に増加しています。 図1(1)に示すように、典型的な画像からテキストへの生成ツールは、視覚情報を埋め込むためのビジュアル・エンコーダー(CNNなど)と、キャプションを生成するためのキャプション・デコーダー(LSTMなど)で構成されています[2]。 上記の煩わしさを軽減するために、本稿では、画像からテキストへの生成タスクとテキストから画像への生成タスクを1つのフレームワークに統一することを提案する。 具体的には、第一に、Transformer-based approachは、高密度の画像特徴を画像トークンのラベルとして離散的なインデックスにクラスタリングすることで画像生成を可能にする[6, 9, 36]が、この離散化プロセスは、情報損失のために画像からテキストへの生成には有害である。 これらの課題を解決するために,2レベルの粒度の特徴表現とシーケンスレベルの学習という2つの主要な設計を行った。 要約すると、我々の貢献は3つあります。
|
2 関連研究2.1 画像からテキストへの生成画像キャプション作成の課題は、ますます注目を集めている[2, 7, 12, 16, 26, 27, 31, 40, 48-50, 52]。 2.2 テキストから画像への生成テキストの説明から画像を合成することは、依然として困難である。 最近の大規模なTransformerベースの事前学習作品は、その高い忠実度の画像に感銘を受けました[9, 36]。 |
3 モデル本節では,我々の統一的なマルチモーダルフレームワークと,2レベルの粒度の画像表現の設計について紹介します。 3.1 統一マルチモーダルフレームワーク我々のモデルは、主に統一マルチモーダルトランスフォーマー[45]で構成されています。 画像からテキスト、テキストから画像の両方の生成タスクを可能にするために、両タスクをシーケンス生成タスクとして定式化する。 3.2 2レベルの粒度の画像表現画像表現は、画像特徴と位置特徴の組み合わせである。 (1) 細粒度の密な特徴。本研究では,Visual Genomeデータセット[25]で事前に学習したFaster R-CNN[39]オブジェクト検出器を用いて,グリッド特徴を抽出する. (2) 粗視化された離散的な特徴。X-LXMERT [6]に従い,密な特徴量の離散的なクラスタリング特徴量を用いて,視覚的トークンのグランドトゥルースラベルを構築する. |
4 TRAINING画像とテキストの双方向生成タスクをシーケンス生成タスクとして定式化し、Transformerを反復的に学習します。
図2(c)にトレーニングプロセスの概要を示します。 4.1 画像からテキストへの変換4.1.1 ステージ 1. 単語レベルの学習。第1段階では、一方向性自己回帰変換器を訓練するのと同様に、「教師強制」の方法で画像キャプション生成器を訓練することを目的としています。 ここで、X = x1:𝑀、Y = y1:𝐿はそれぞれグランドトゥルースの画像とテキストのトークンのシーケンスです。 4.1.2 ステージ2. 文章レベルの学習。暴露バイアスを軽減するために、自己批判的配列訓練(SCST)[40]の強化学習アルゴリズムを採用し、非区別性の文レベルメトリクス(CIDEr-D[46]など)を直接最適化する。 ここで、Yˆ = yˆ1:𝐿 はサンプリングされたテキストのトークンを表します。 4.2 テキストから画像への変換4.2.1 ステージ1. グリッドレベルのトレーニング。学習目標は、他のグランドトゥルースのビジュアルトークンとテキストコンテキストが与えられたときに、ターゲットのビジュアルトークンの尤度を最大化することであり、これは画像からテキストへの生成の第一段階の学習目標と同様である。 ここで,x\𝑀′は,マスクされたトークンを除くトークンのシーケンスを表します. 4.2.2 ステージ 2. 画像レベルの学習。グリッドレベルの学習におけるクロスエントロピー損失は、当初は期待されていましたが、2つの大きな問題があります。 ここで、I (-)とT (-)は、CLIPの画像とテキストの埋め込み抽出ネットワークです。 |
5 実験5.1 実験設定MS-COCO データセット [29].提案手法を,人気のある MS-COCO データセットで評価する. 実装の詳細。当社のコードは、オンラインで入手可能です1 5.2 評価基準画像からテキストへの生成。ここでは、画像キャプション作成タスクにおいて一般的に使用されている自動評価指標であるBLEU@N33、ROUGE-L[28]、MEREOR[4]、CIDEr-D[46]、SPICE[1]の5つを報告し、これらを省略してB@N、M、R、C、Sと表記する。 (1) Fréchet Inception Distance (FID)[14]生成された画像の分布と実在する画像の分布を比較する. (2) R-precision[47]は,生成された画像が与えられたテキストに対してよく条件付けされているかどうかを評価するために,検索結果をランク付けする. 我々は、グローバルな画像およびテキストレベルからの補完的なR精度評価指標として、CLIPベースの表現を使用することを提案する。 (3) CLIPScore.R精度は、個々の画像とテキストの整合性を直接反映することができないため、我々は、CLIP[35]から画像とテキストの表現間のコサイン類似度を計算するCLIPベースのスコアを、テキストから画像への評価の補完的な指標として使用することを提案する。 Inception score (IS) [41]は、テキストから画像への生成の文脈に適合しすぎており、簡単なトリックを使ってはるかに高いスコアを達成するように操作することができるため、使用していない。 5.3 アブレーション研究我々のデザインを評価するために,アブレーション研究を行った.アブレーションコンポーネントを除き,同じモデル,データセット,その他の実装内容を使用しています. 統一されたアーキテクチャの利点とは?画像からテキストへの生成とテキストから画像への生成について、我々のモデルを2つの別々のTransformerモデルと比較することで、双方向の統一されたTransformerを学習することの影響を評価します。 2段階の粒度の画像特徴は役に立つか?セクション3.2で紹介したように,画像からテキスト,テキストから画像への生成には,画像の元の密な特徴または離散的な形式をそれぞれ使用するのが一般的です. シーケンスレベルの学習の影響は?シーケンスレベルの学習を取り除き,トークンレベルの学習を1段階残すことで,どちらのタスクでも性能が大きく低下することが分かりました. CLIPベースのロスは必要か?画像レベルの学習において、テキストから画像への変換のために提案したCLIPベースの損失の効果を検証するために、CLIPベースの損失をグリッド特徴の類似性に基づく平均二乗誤差(二乗L2ノルム)の損失に置き換えてみました。 5.4 定量的結果我々のアプローチを、タスク固有のデザインを持つ典型的な発表済みの単方向アプローチ、およびタスク固有のデザインを持つ、または持たない双方向アプローチと比較した。
表2に総合的な結果を示します。 5.5 人間評価生成された画像の品質をより良く評価するために、本手法と既存の作品とを比較する人間評価を行い、その結果を図3に可視化しました。 5.6 定性的な例生成された画像とキャプションの視覚的な検査(図4)により、大幅な品質の向上が説得力を持って示されています。 |
本研究では、画像からテキスト、テキストから画像への世代交代という自然な双方向タスクの共同学習について研究する。
既存の研究では、それぞれのタスクに特化した2つのモデルを設計しているため、設計コストが高くなってしまう。
本研究では、単一のマルチモーダルモデルに基づいて、双方向タスクを共同で学習する画像とテキストの統合フレームワークを提案します。
統一されたアーキテクチャとしてTransformerを採用したのは、その高い性能とタスクにとらわれない設計のためです。
具体的には、両方のタスクをシーケンス生成タスクとして定式化します。
ここでは、画像とテキストをトークンの統一されたシーケンスとして表現し、Transformerはシーケンスを生成するためにマルチモーダルな相互作用を学習します。
さらに、Transformerベースの統一フレームワークを改善するために、2レベルの粒度の特徴表現とシーケンスレベルの学習を提案する。
実験によると、我々のアプローチは、従来のTransformerベースのモデルであるX-LXMERTのFIDを37.0から29.9(低い方が良い)へと大幅に改善し、MS-COCOデータセットにおける微調整された画像からテキストへの生成において、CIDEr-Dスコアを100.9%から122.6%へと改善した。
このコードはオンラインで公開されています。
https://github.com/researchmm/generate-it
The text was updated successfully, but these errors were encountered: