Unifying Multimodal Transformer for Bi-directional Image and Text Generation #686

e4exp · 2021-10-20T05:35:04Z

https://arxiv.org/abs/2110.09753
ACM MM 2021

本研究では、画像からテキスト、テキストから画像への世代交代という自然な双方向タスクの共同学習について研究する。
既存の研究では、それぞれのタスクに特化した2つのモデルを設計しているため、設計コストが高くなってしまう。
本研究では、単一のマルチモーダルモデルに基づいて、双方向タスクを共同で学習する画像とテキストの統合フレームワークを提案します。
統一されたアーキテクチャとしてTransformerを採用したのは、その高い性能とタスクにとらわれない設計のためです。
具体的には、両方のタスクをシーケンス生成タスクとして定式化します。
ここでは、画像とテキストをトークンの統一されたシーケンスとして表現し、Transformerはシーケンスを生成するためにマルチモーダルな相互作用を学習します。
さらに、Transformerベースの統一フレームワークを改善するために、2レベルの粒度の特徴表現とシーケンスレベルの学習を提案する。
実験によると、我々のアプローチは、従来のTransformerベースのモデルであるX-LXMERTのFIDを37.0から29.9（低い方が良い）へと大幅に改善し、MS-COCOデータセットにおける微調整された画像からテキストへの生成において、CIDEr-Dスコアを100.9%から122.6%へと改善した。
このコードはオンラインで公開されています。

https://github.com/researchmm/generate-it

e4exp · 2021-10-20T05:42:56Z

1 はじめに

マルチモーダル処理技術，ネットワーク，デバイスの発展に伴い，既存のマルチモーダル産業アプリケーション（特にモバイルアプリケーション）の数は急速に増加しています。
この傾向は，統一されたシステムでマルチモーダル・インタラクションをサポートする技術の開発を促している．
画像とテキストの双方向生成は、現実のシーンの画像と自然言語の記述を自動的に変換する技術です。
この技術は、幅広い産業分野で応用されています。
例えば、商品説明と画像の生成システムは、消費者が商品を検索したりプレビューしたりするための重要なアプリケーションです。
具体的には、消費者は、システムが1つまたは複数の製品の写真を受け取ると、簡単にテキストクエリを得ることができます。
また、「木の家具と紫のカーテンの部屋の写真を見せてください」と言うと、システムから説明用の写真が送られてきて、そのコロケーションをプレビューすることができます。
これらのアプリケーションはモバイルデバイスに搭載されているため、マルチモーダルなインタラクションを単一のモデルに統一することは、2つの別々のモデルと比較して、ストレージ利用を最適化するためのより良い選択となります。
画像とテキストの生成のための統一されたフレームワークの大きな利点にもかかわらず、双方向の生成タスクは、従来はタスク固有のアーキテクチャで別々に行われていました。

図1（1）に示すように、典型的な画像からテキストへの生成ツールは、視覚情報を埋め込むためのビジュアル・エンコーダー（CNNなど）と、キャプションを生成するためのキャプション・デコーダー（LSTMなど）で構成されています[2]。
一方、一般的なテキストから画像への生成ツールは、CNNアーキテクチャをベースにしたGAN（Generative Adversarial Nets）[11]フレームワークを採用しています[53]。
マルチモーダル・インタラクションをサポートするために，Huangらは，LSTMベースの画像からテキストへの生成器とGANベースのテキストから画像への生成器をフレームワークで共同学習している[17]．
しかし，タスクに特化したアーキテクチャが必要であり，これには高価な設計努力が必要である．

上記の煩わしさを軽減するために、本稿では、画像からテキストへの生成タスクとテキストから画像への生成タスクを1つのフレームワークに統一することを提案する。
このフレームワークでは、Transformerベースのアーキテクチャを採用しています。
Transformerは、シンプルでタスクにとらわれない設計をサポートし、画像やテキストの生成モデルで高い性能を発揮するからです[27, 36]。
ここでは、両方のタスクをシーケンス生成タスクとして定式化し、画像とテキストをトークンのシーケンスとして表現し、モデルはクロスエントロピー損失学習により、他のグランドトゥルーストークンを条件としてターゲットトークンを予測することを学習します。
既存のトランスフォーマーを用いたテキストから画像への生成手法[6, 9, 36]は、テキストと画像のトークンの順序を交換することで、画像からテキストへの生成に拡張することができます。
しかし、これらのアプローチは、初期の段階では期待できるものの、双方向生成のための2つの大きな課題、すなわち、特徴の離散化プロセスに起因する情報損失と、クロスエントロピー損失学習に起因する誤差の蓄積を抱えています。

具体的には、第一に、Transformer-based approachは、高密度の画像特徴を画像トークンのラベルとして離散的なインデックスにクラスタリングすることで画像生成を可能にする[6, 9, 36]が、この離散化プロセスは、情報損失のために画像からテキストへの生成には有害である。
第二に，クロスエントロピーロスによる「教師強制」的な学習では，モデルが自身の予測ではなく学習データの分布にしかさらされないため，学習とテストの間にミスマッチが生じる．
この「暴露バイアス」により、テスト時にエラーが蓄積されることになります[37]。
これらの課題により、代表的なTransformerベースのアプローチであるX-LXMERT[6]は、ソース画像との相関性が弱いキャプションを生成し、自動メトリックにおけるテキストから画像への生成結果でさえ、比較対象であるGANベースのアプローチよりも悪い結果となっています[53]。

これらの課題を解決するために，2レベルの粒度の特徴表現とシーケンスレベルの学習という2つの主要な設計を行った。
まず，2段階の粒度の特徴表現を導入し，画像からテキストへの生成のためには情報損失を減らすために密な特徴を用い，テキストから画像への生成のためには離散的な特徴を用いることにする．
また，学習とテストのギャップを埋めるために，トークンレベルの予測ではなく，シーケンスレベルの予測に基づいてモデルを最適化する学習戦略を提案する。
これは、大規模なマルチモーダルモデルCLIP [35]を利用することで、生成された画像とソーステキストの間の一貫性を向上させるものである。
さらに、CLIPはインターネット上の膨大な量の画像とテキストのペアから学習し、タスクに特化したクラウドソースラベリングを公開しているため、CLIPベースのテキスト・画像間の評価指標を自然に提案することができます。
図1(2)に示すように、画像とテキストの生成タスクのためにTransformerネットワークの大部分を共有し、反復的に学習させます。
このパラダイムにより、画像とテキストの共有埋め込み学習が容易になり、2つの個別のTransformerモデルと比較して、モデルサイズを半分にして性能を向上させることができます。
従来のTransformerベースのアプローチであるX-LXMERTと比較して、本アプローチは、MS-COCOデータセットにおけるテキストから画像への生成においてCLIPScoreを72.9から77.2に、画像からテキストへの生成においてCIDEr-D scoreを100.9%から122.6%に、それぞれ大幅に改善した。

要約すると、我々の貢献は3つあります。

トランスフォーマーモデルをベースにした、画像とテキストの統合的な生成フレームワークを提示し、2つの提案を行いました。
- (1)情報損失を避けるための2レベルの粒度の特徴表現、
- (2)トレーニングとテストの間のギャップを軽減するためのシーケンスレベルのトレーニング。
また、事前に学習された強力なモデルCLIPを活用することで、テキストと画像の生成の一貫性を向上させ、クラウドソースによる追加のラベリングなしに評価を容易にしています。
自動および人間による評価を行った結果、MS-COCOデータセットにおいて、本手法が従来の手法に比べて両タスクの品質を大幅に向上させることが実証された。

e4exp · 2021-10-20T05:45:52Z

2 関連研究

2.1 画像からテキストへの生成

画像キャプション作成の課題は、ますます注目を集めている[2, 7, 12, 16, 26, 27, 31, 40, 48-50, 52]。
一般的な画像キャプションモデルは、CNNエンコーダで画像を埋め込み、RNN[2, 40]またはTransformerデコーダ[7, 45]でキャプションを生成するエンコーダ・デコーダアーキテクチャを採用しています。
エンコーダとデコーダをアテンションメカニズムで接続することで、デコーダは関連する情報を選択的に統合して単語を生成することができる。
Transformerは、並列学習が可能であり、注意メカニズムのみに依存したグローバルな依存関係をモデル化できることから、注目を集めている[45]。
多数の画像とテキストのペアを対象としたTransformerベースの大規模な視覚と言語の事前学習は、画像キャプション作成において大きな進歩を遂げています[27, 52]。

2.2 テキストから画像への生成

テキストの説明から画像を合成することは、依然として困難である。
pixelCNN [44]，近似ランジュバンサンプリング [32]，変分オートエンコーダ [24]，Generative Adversarial Nets (GANs) [11]などに基づく深層生成モデルが提案されている．
GANは，生成器と識別器で構成され，ミニマックス最適化問題を解くフレームワークを採用しており，画像生成に有効であることが示されている[38, 47, 51, 53]．
典型的な作品では，最初に低解像度の画像をサンプリングし，後の段階で徐々にアップサンプリングして画像を改善するという多段階の画像生成を行っている[38, 47, 51, 53]．

最近の大規模なTransformerベースの事前学習作品は、その高い忠実度の画像に感銘を受けました[9, 36]。
DALL-EとCogViewは、それぞれ2億5000万と3000万の画像とテキストのペアに対して、120億と40億のパラメータを持つトランスフォーマーをトレーニングすることで、テキストから画像への生成の品質を大幅に向上させました。
Huangら[17]は、LSTMネットワークに基づく画像-テキスト生成器とGANネットワークに基づくテキスト-画像生成器を共同で学習し、ターボ学習でサイクルの整合性を確保することで両生成器を強化することを提案している。
MirrorGAN [34]は、テキストから画像への生成タスクに焦点を当て、既製のキャプションモデルを使用して、生成された画像の再記述が元のテキストと意味的に一致するように正規化します。
X-LXMERT [6]は、テキストから画像への生成、視覚的質問応答、および視覚的推論のためのTransformerに基づく事前学習モデルです。
別々の双方向モデルを使用するこれらの作品とは異なり、本稿では、画像とテキストの生成タスクに同じモデルを使用します。

e4exp · 2021-10-20T05:57:39Z

3 モデル

本節では，我々の統一的なマルチモーダルフレームワークと，2レベルの粒度の画像表現の設計について紹介します。
また、図2（a、b）にモデルの概要を示します。

3.1 統一マルチモーダルフレームワーク

我々のモデルは、主に統一マルチモーダルトランスフォーマー[45]で構成されています。
このトランスフォーマーは、マルチレイヤーアーキテクチャを持ち、各レイヤーは主にマルチヘッドの自己注意と位置ごとの完全連結フィードフォワードネットワークで構成されています。
我々の提案は、主に特徴表現と学習メカニズムに基づいており、特定のモデルには基づいていないため、直接比較するために、X-LXMERT[6]に続いて、我々のTransformerベースのアーキテクチャとしてLXMERT[43]を採用します。
LXMERTは、オブジェクト関連エンコーダ、言語エンコーダ、およびクロスモダリティエンコーダから構成されるクロスモダリティトランスフォーマーです。
我々は、モデルアーキテクチャの徹底的な背景説明を省略し、追加の詳細については、読者に[6, 43, 45]を参照してください。

画像からテキスト、テキストから画像の両方の生成タスクを可能にするために、両タスクをシーケンス生成タスクとして定式化する。
具体的には、まず、画像とテキストのペアを、画像トークンとテキストトークンのシーケンスに前処理します。
次に、Transformerは、マスクされたトークンを含むシーケンスを入力として受け入れ、注意ネットワークを介して入力を文脈に応じた表現にマッピングします。
最後に、画像またはテキストの線形変換分類器が、文脈表現を予測されたターゲットトークンに投影する。
我々のモデルでは、画像とテキストの語彙はサイズやセマンティクスが異なるため、最後の分類器を除き、ほとんどのTransformerモジュールのパラメータを共有しています。
テキストから画像への変換には、GANベースの画像生成器を追加して、8×8の画像トークン予測のサイズを256×256の解像度の可視画像に変換しています。
テキスト表現は、位置埋め込みと単語埋め込みの組み合わせで、位置はキャプション内の単語のインデックスを参照し、単語埋め込みはBERT[8]やLXMERT[43]のような事前に訓練されたモデルから初期化されます。

3.2 2レベルの粒度の画像表現

画像表現は、画像特徴と位置特徴の組み合わせである。
画像特徴については、画像を均一なグリッドレベルのパッチのシーケンスに分割し、視覚と言語のタスクのための視覚表現を学習するのに有効である[6, 18, 19, 21]。
我々は，2段階の粒度の画像特徴を用いることを提案する．

(1) 細粒度の密な特徴。

本研究では，Visual Genomeデータセット[25]で事前に学習したFaster R-CNN[39]オブジェクト検出器を用いて，グリッド特徴を抽出する．
緻密なグリッド特徴は，画像からテキストへの生成のための視覚的入力として使用され，画像情報の損失を低減する．

(2) 粗視化された離散的な特徴。

X-LXMERT [6]に従い，密な特徴量の離散的なクラスタリング特徴量を用いて，視覚的トークンのグランドトゥルースラベルを構築する．
トランスフォーマーを用いた画像生成手法では、多様な画像ピクセルや画像特徴に対して膨大な視覚的語彙を構築することが困難であるため、離散化処理が重要となりますが、離散化を行うことで、特徴のノイズを減らし、語彙サイズを小さくすることができます[6, 36]。
具体的には，まず，K-meanクラスタリングによって視覚的語彙を作成し，最近傍探索によって対象となる視覚的特徴を近似した後，各画像のクラスタインデックスと離散的なグリッド特徴を求めます。
当然のことながら、各グリッドの位置特徴は、グリッドレベルのバウンディングボックスの位置を2次元的に埋め込んだものである

e4exp · 2021-10-20T06:06:20Z

4 TRAINING

画像とテキストの双方向生成タスクをシーケンス生成タスクとして定式化し、Transformerを反復的に学習します。
シーケンスモデルは、通常、クロスエントロピー損失を用いて、学習の各ステップでグランドトゥルーストークンが与えられる「Teacher-Forcing」な方法で学習されます。
モデルは自身の予測ではなく、トレーニングデータの分布にさらされるだけなので、「Exposure Bias」と呼ばれるトレーニングとテストの間のミスマッチが生じ、テスト時にエラーが蓄積される結果となります[37]。
この問題を解決するために，我々は2段階のトレーニング戦略を設計した．

ステージ1．トークンレベルのトレーニング．この段階では，画像からテキスト，テキストから画像を生成する各ステップにおいて，単語レベルまたはグリッドレベルで「教師が強制的に」トレーニングを行うことで，流暢なキャプションとリアルな画像を生成することを目的としている．
ステージ2. シーケンスレベルの学習。この段階では、トレーニングとテストのギャップを埋めるために、生成されたテキストや画像のシーケンスを使ってモデルをさらに最適化します。

図2(c)にトレーニングプロセスの概要を示します。

4.1 画像からテキストへの変換

4.1.1 ステージ 1. 単語レベルの学習。

第1段階では、一方向性自己回帰変換器を訓練するのと同様に、「教師強制」の方法で画像キャプション生成器を訓練することを目的としています。
このモデルは、バックプロパゲーションを用いて、以前のグランドトゥルースの単語と視覚的な文脈が与えられたときに、次のグランドトゥルースの単語の尤度を最大化するように学習されます。
Transformerモデルのパラメータを𝜃で表し、以下のクロスエントロピー損失を最小化します。

ここで、X = x1:𝑀、Y = y1:𝐿はそれぞれグランドトゥルースの画像とテキストのトークンのシーケンスです。
𝑀と𝐿は、それぞれ画像とテキストのシーケンスの長さです。

4.1.2 ステージ2. 文章レベルの学習。

暴露バイアスを軽減するために、自己批判的配列訓練(SCST)[40]の強化学習アルゴリズムを採用し、非区別性の文レベルメトリクス(CIDEr-D[46]など)を直接最適化する。
CIDEr-Dメトリクスの負の期待スコア関数𝑟を最小化する。

ここで、Yˆ = yˆ1:𝐿 はサンプリングされたテキストのトークンを表します。

4.2 テキストから画像への変換

4.2.1 ステージ1. グリッドレベルのトレーニング。

学習目標は、他のグランドトゥルースのビジュアルトークンとテキストコンテキストが与えられたときに、ターゲットのビジュアルトークンの尤度を最大化することであり、これは画像からテキストへの生成の第一段階の学習目標と同様である。
しかし，画像からテキストへの変換では，各段階で1つのトークンではなく，複数のトークンを予測することを目的としており，全体的なマスクされたトークン 𝑀′についてクロスエントロピー損失を最小化する

ここで，x\𝑀′は，マスクされたトークンを除くトークンのシーケンスを表します．
我々はX-LXMERTに従い、この学習戦略を用いて、非自己回帰的なサンプリング戦略、すなわちマスク・プレディクト・k戦略[10]を可能にします。
このようにして、画像のすべての視覚的トークンを生成するために必要なサンプリングステップはわずか数ステップ(例えば、𝑘 = 4)であり、より広範な産業アプリケーションのためのより速い推論速度を享受することができます。

4.2.2 ステージ 2. 画像レベルの学習。

グリッドレベルの学習におけるクロスエントロピー損失は、当初は期待されていましたが、2つの大きな問題があります。
まず、クロスエントロピー損失は、1つの参照画像を「ゴールドラベル」とみなすように、各生成画像に制限的な監視を課します。
これは、1つのキャプションが多くの実現可能な画像に対応できるという、テキストから画像へのマッピングの一対多の特性に反するものです。
第二に，損失は画像グリッドのインデックスや特徴に基づいており，グリッド間の関係を無視している．
これらの問題を解決するために，我々は，1つの参照画像ではなく，ソースキャプションとより意味的に一致する画像を生成するようにモデルを直接最適化することを提案する．
これを実現するために、事前に学習された大規模なマルチモーダルモデルCLIP [35]を活用して、画像とテキストの一貫性を評価します。
CLIPは、ウェブ上の4億件の画像とテキストのペアで事前に学習された一般的なモデルであり、多種多様な分類ベンチマークにおいて比類のないゼロショット転送能力を示しているため、これは望ましいことです。
DALLEでは、CLIPを用いて、生成された画像をCLIPベースのスコアで再ランク付けすることをオフラインのポストプロセスとして行っていますが[36]、我々は、CLIPベースの損失を活用して、テキストから画像への生成のための学習を直接正則化する初めての試みです。
具体的には、CLIPから画像とテキストの埋め込みを抽出し、それらのコサイン類似度を計算して、CLIPベースの損失を得る

ここで、I (-)とT (-)は、CLIPの画像とテキストの埋め込み抽出ネットワークです。
なお、画像の埋め込みは、バックプロパゲーションによるモデル最適化をサポートするために、ガンベル・ソフトマックス近似[20]を用いています。
CLIPからの学習には、いくつかの潜在的な強みがあります。
クラウドソースによるラベリングを解放し、インターネット上の膨大な量の画像とテキストのペアから学習することで、テキストから画像へのマッピングの一対多の特性に自然に適合しています。
さらに、画像のグリッドではなく、画像全体とテキストを結びつけることで、グリッド間の関係を考慮し、画像とテキストの間に高い意味的整合性を持たせることができます。
我々は、グリッド特徴の類似性損失、ピクセル単位の損失、および知覚的な損失についても実験を行ったが[22]、我々の予備的な実験ではあまり改善が見られなかった。
非自動回帰サンプリング戦略のサンプリング結果には高い分散性があるため，第1段階の「教師強制」トレーニングがサンプリングの一貫性を促進することができるので，第1段階のトレーニングに付随するこの第2段階のトレーニングを反復的に実施する．

e4exp · 2021-10-20T06:39:45Z

5 実験

5.1 実験設定

MS-COCO データセット [29].

提案手法を，人気のある MS-COCO データセットで評価する．
このデータセットは、Amazon Mechanical Turk (AMT)を用いて収集され、各画像に5つの注釈付きキャプションが付けられている。
MS-COCOデータセットの正式な分割セットには、トレーニングセット、検証セット、テストセットそれぞれに、82,783/40,504/40,775枚の画像が含まれています。
多くのテキスト-画像変換ソフト[6, 53]と同様に、30,000枚の画像をランダムにサンプリングして、訓練用データセットでモデルを学習し、検証用データセットでモデルを評価する。
画像からテキストへの生成（画像キャプション）については，多くのキャプション作成ソフトに倣い，5,000枚の画像からなる検証セットのサブセットであるKarpathyテストスプリットでモデルを評価した．
他の画像キャプションモデルは、より大きな分割数（113,287対82,783）で学習されており、より高いスコアが期待できるため、画像キャプションに関する我々の結果は、他の画像キャプションモデルと直接比較することはできない。
さらに、X-LXMERTと公平に比較するために、グリッドベースの8x8特徴を使用していますが、この特徴は、標準的な画像キャプション作成作品で使用されている100リージョンベースの特徴よりも弱いものです。

実装の詳細。

当社のコードは、オンラインで入手可能です1
モデル・アーキテクチャの詳細については、直接比較するために、LXMERT [43]のアーキテクチャを採用し、MS-COCO Captions [29]、Visual Genome [25]、および VQA [3]の各データセットで事前に訓練された X-LXMERT モデル [6]からモデルを初期化しています。
畳み込み層で構成された画像生成器を採用し、X-LXMERTに続いてGenerative Adversarial Networks（GAN）[11]法で学習します。
また、公正な比較のために、X-LXMERT で提供されている事前に訓練された画像生成器を直接使用しています2。
テキストキャプションの長さは𝐿 = 17トークンに制限し、各画像のグリッドサイズは𝑀 = 8 × 8としています。
テキストの単語には30,522トークンの語彙を、画像グリッドには10,000トークンの語彙を使用しています。
学習の詳細については，AdamW[23]オプティマイザを使用し，β係数は0.9と0.999，重みの減衰はX-LXMERTに準じて1e-2としました．
画像からテキスト、またはテキストから画像への生成タスクは、第一段階または第二段階のトレーニング
で100,000回の反復を行います。
第1段階の学習では、最初の5％の反復において、学習率を0から5e-5まで線形的にウォームアップし、X-LXMERTに続く残りの学習ステップでは、コサイン減衰させます。
第二段階の学習は、第一段階から初期化されるため、固定の小さい学習率1e-6を使用します。
第一段階の学習はバッチサイズ256、第二段階の学習は経験的に160としました。
また，ラベルの平滑化を0.2[42]，勾配クリッピングの閾値を1.0とした．
メモリコストの削減と学習手順の高速化のため，混合精度の学習を採用した．

5.2 評価基準

画像からテキストへの生成。

ここでは、画像キャプション作成タスクにおいて一般的に使用されている自動評価指標であるBLEU@N33、ROUGE-L[28]、MEREOR[4]、CIDEr-D[46]、SPICE[1]の5つを報告し、これらを省略してB@N、M、R、C、Sと表記する。
テキストから画像への生成テキストから画像への生成を3つの側面から評価する。

(1) Fréchet Inception Distance (FID)[14]

生成された画像の分布と実在する画像の分布を比較する．
FID が低いほど，生成された画像の分布と実際の画像の分布の距離が近いことを意味する．

(2) R-precision[47]

は，生成された画像が与えられたテキストに対してよく条件付けされているかどうかを評価するために，検索結果をランク付けする．
我々は、X-LXMERTに従い、我々のモデルを完全に評価するために、R-precisionの2つの変種を使用します。
簡単なバリアントは、テストキャプションセットの中からネガティブなものをランダムにサンプリングします。
ハードバリアントは、キャプション内の単語を、同じカテゴリ内の別の単語と入れ替えます。
ランキングのための画像とテキストの類似性を計算するために、X-LXMERT は、オブジェクトレベルおよびワードレベルの表現に基づく市販のマルチモーダルネットワークである ViLBERT-MT [30]を使用しています。

我々は、グローバルな画像およびテキストレベルからの補完的なR精度評価指標として、CLIPベースの表現を使用することを提案する。

(3) CLIPScore.

R精度は、個々の画像とテキストの整合性を直接反映することができないため、我々は、CLIP[35]から画像とテキストの表現間のコサイン類似度を計算するCLIPベースのスコアを、テキストから画像への評価の補完的な指標として使用することを提案する。
CLIPは、画像とテキストの整合性を評価するための強力なマルチモーダル事前学習モデルであり、CLIPSに基づくメトリック（すなわちCLIPScore）は、参照キャプションなしで画像キャプションモデルを評価するためにJackらによって提案されている[13]。
その代わりに、我々はCLIPScoreを画像生成モデルを評価するために拡張する。

Inception score (IS) [41]

は、テキストから画像への生成の文脈に適合しすぎており、簡単なトリックを使ってはるかに高いスコアを達成するように操作することができるため、使用していない。

5.3 アブレーション研究

我々のデザインを評価するために，アブレーション研究を行った．アブレーションコンポーネントを除き，同じモデル，データセット，その他の実装内容を使用しています．
結果を表1に示します。

統一されたアーキテクチャの利点とは？

画像からテキストへの生成とテキストから画像への生成について、我々のモデルを2つの別々のTransformerモデルと比較することで、双方向の統一されたTransformerを学習することの影響を評価します。
テキストから画像への生成タスクでは、ほとんどの評価指標において、我々の統一モデルが別個のモデルよりも優れています。
両者は、画像からテキストへの生成タスクにおいて、同等の性能を示しました。
さらに、我々の統一モデルのパラメータサイズは、2つの個別モデルのパラメータサイズの半分であることが分かりました。
さらに、Transformerの小型化により、モデルサイズをさらに小さくできると期待しています。
このように、我々のモデルは、ストレージ利用の最適化に向けた産業用アプリケーションに大きく貢献します。

2段階の粒度の画像特徴は役に立つか？

セクション3.2で紹介したように，画像からテキスト，テキストから画像への生成には，画像の元の密な特徴または離散的な形式をそれぞれ使用するのが一般的です．
双方向の生成を統一的なモデルで行うために、密な特徴、離散的な特徴、そして我々の2レベルの粒度の特徴を入力として、3つのモデルを別々に訓練する。
密な特徴を入力とした場合でも、モデルはテキストから画像への生成のために密な特徴の代わりに離散的な画像トークンの予測を学習します。
しかし、これでは学習とテストの間にミスマッチが生じてしまいます。
結果は，密な特徴は，画像からテキストへの生成では良好な性能を示すものの，テキストから画像への生成では我々の2レベルの特徴よりもはるかに悪い性能を示す．
反対に，離散的な特徴のみを用いると，テキストから画像への生成では密な特徴よりもはるかに良い性能を示すが，画像からテキストへの生成ではそうではない．
我々が考案した2段階粒度の特徴は，画像からテキストへの生成では密な特徴，テキストから画像への生成では離散的な特徴の利点を受け継いでおり，両方のタスクで良好な性能を発揮します。

シーケンスレベルの学習の影響は？

シーケンスレベルの学習を取り除き，トークンレベルの学習を1段階残すことで，どちらのタスクでも性能が大きく低下することが分かりました．
テキストから画像への生成では、CIDEr-Dのスコアが122.6%から107.9%に、画像からテキストへの生成では、CLIPScoreが77.2から73.4に低下しました。
この結果は、トレーニングとテストの間の「露出バイアス」のミスマッチを軽減するために、シーケンスレベルのトレーニングが有効であることを示しています。

CLIPベースのロスは必要か？

画像レベルの学習において、テキストから画像への変換のために提案したCLIPベースの損失の効果を検証するために、CLIPベースの損失をグリッド特徴の類似性に基づく平均二乗誤差（二乗L2ノルム）の損失に置き換えてみました。
その結果、すべてのテキスト・画像間の評価指標において、性能が大きく損なわれることがわかりました。
この結果は、生成された画像とソーステキストの間の意味的整合性を改善するためのCLIPベースの損失の有効性を強調しています。
また、画像-テキスト間の生成のパフォーマンスには影響がなく、本モデルの頑健性が実証されました。

5.4 定量的結果

我々のアプローチを、タスク固有のデザインを持つ典型的な発表済みの単方向アプローチ、およびタスク固有のデザインを持つ、または持たない双方向アプローチと比較した。
我々は，主にMS-COCOデータセットで学習されたモデルを選択した．

DM-GAN[53]は，GANベースのフレームワークを用いた典型的なテキストから画像への生成モデルである．DM-GANは、GANベースのフレームワークを用いた典型的なテキストから画像への変換モデルであり、低解像度から高解像度の合成まで段階的に画像を生成し、メモリモジュールを用いて適応的に画像を精緻化する。
BUTD [2]は、CNN-LSTMネットワークをベースにしたエンコーダー・デコーダー・アーキテクチャーを持つ画像からテキストへの生成モデルです。
Turbo-RL [17]は，双方向の画像・テキスト生成モデルである．LSTMネットワークとGANネットワークを共同で学習し、ターボ学習でサイクルの整合性を確保することで、両方の生成器を後押しします。著者らは、我々の指標に関連するテキストから画像への生成結果を報告しておらず、また、公開されたコードも見つからないため、その結果は報告されていません。
X-LXMERT[6]は、テキストから画像への生成、視覚的質問応答、および視覚的推論タスクのための視覚および言語の事前学習モデルです。X-LXMERTは、単語のトークンをマスキングおよび予測することにより、サンプル文に画像キャプション機能を残しています。著者は画像-テキスト間の結果を報告していないため、リリースされたコードとモデルで示唆されたように、接頭語「A」を持つキャプションを生成しています。
X-LXMERT-FT は、標準的なクロス・エントロピー損失トレーニングで事前にトレーニングされた X-LXMERT モデルから、画像-テキストまたはテキスト-画像生成タスクで個別に微調整されたモデルです。これにより、特徴表現と学習戦略について、我々のモデルと直接比較することができます。

表2に総合的な結果を示します。
2つのタスクにおいて、我々のモデルはすべての指標で比較手法よりも大幅な性能向上を達成した。
タスクに特化した単方向モデルでは、我々のモデルは、より少ない画像で学習されたにもかかわらず、典型的な画像からテキストへのモデルBUTDをCIDEr-Dスコアで2.5%上回った。
また、我々のモデルは、CLIPScoreとFIDにおいて、典型的なテキストから画像へのモデルDM-GANをそれぞれ4.9と6.0上回っている。
タスクに特化した双方向モデルであるTurbo-RLは、MSCOCO Karpathyテストセットで74.8%のCIDEr-Dスコアを達成したが、これは満足できるものではない。
タスクに特化したモデルの結果が劣っているのは、RNNキャプションデコーダやCNN画像生成装置の限界を示しているのかもしれない。Transformerベースのアプローチでは、学習済みのX-LXMERTモデルは、CIDEr-Dスコアで41.0%、BLEU@4で15.2%を達成しており、オリジナルモデルはMS-COCOデータセットに対して非常に正確で流暢なキャプションを生成することができないことを示しています。
この大きなギャップは、X-LXMERTのプレトレーニング・データセット（MS-COCO [29]、VG [25]、およびVQA [3]）とダウンストリーム・データセット（MS-COCO）との間のミスマッチによるものである可能性があります。
X-LXMERT-FTは、画像からテキストへの生成タスクではCIDEr-D指標で41.0%から100.9%へ、テキストから画像への生成タスクではFIDスコアで37.0から33.9へと大きく向上しました。
しかし、X-LXMERT-FTとタスク固有のモデルとの間にはまだギャップがあり、意味的整合性を考慮したメトリクスであるCLIPScoreとR precisionに対してはほとんど改善されていません。
我々のモデルは、CIDEr-Dのスコアを100.9%から122.6%へと大幅に向上させることで、この差を縮めています。
さらに、X-LXMERT-FTは、CLIPScoreで3.9ポイント、VilBERTベースのR精度で4.6/8.5ポイント、CLIPベースのR精度で5.6/7.6ポイント、それぞれ上回っています。
この結果により、我々のモデルの優位性が確認され、統一されたTransformerが、画像からテキストおよびテキストから画像の両世代において同様のブレークスルーをもたらす可能性があることが検証されました。

5.5 人間評価

生成された画像の品質をより良く評価するために、本手法と既存の作品とを比較する人間評価を行い、その結果を図3に可視化しました。
具体的には，GANベースとTransformerベースの既存作品の中で，モデルが公開されている中で最も性能が高いDMGAN[53]とX-LXMERT[6]を比較対象としています．
また，CLIPベースのロスのないアブレーションモデル（「w/o CLIP」と表記）との比較も行います。
MSCOCOテストセットから300個のキャプションをランダムにサンプリングし、それぞれのキャプションから異なるモデルで画像を生成する。
評価の際には，我々のモデルと他のモデルによって生成されたキャプションと画像のペアをランダムな順序で提供する．
10年以上の学習経験を持つ英語が堪能な10人のボランティアを招き、(1)より高い忠実度を示すもの、(2)ソースのキャプションと意味的によりよく一致するものを選んでもらいます。
図3からわかるように，我々のモデルは，忠実度と意味的なスコアの平均で，DM-GAN，X-LXMERT，「w/o CLIP」を約37％，19％，29％と大幅に上回った。
この結果により、我々のモデルの優位性が検証されました。

5.6 定性的な例

生成された画像とキャプションの視覚的な検査（図4）により、大幅な品質の向上が説得力を持って示されています。
テキスト生成では、我々のモデルは、一方向性アプローチであるBUTDと同等の性能を示しています。
また、X-LXMERTと比較して、より合理的で正確なキャプションを生成しています。
zebra "や "red shirt "のようないくつかの架空のオブジェクトは、我々の生成したキャプションには現れない。
また，画像生成においては，よりリアルなオブジェクトと，テキストとの整合性の高い画像を生成することができました．
DM-GANと比較しても、我々のモデルは、その再現性において大きな差をつけています。
X-LXMERTやCLIPなしのモデルと比較して、我々のモデルは、CLIPベースの損失からテキストとの整合性をよりよく学習する（not people on the beach, ship in the water, kite in the air.）。
離散的な特徴に基づくモデルと比較して、我々のモデルはよりリアルで滑らかな画像を生成する。

e4exp added 2021 Image Captioning Image Synthesis Text Generation Transformer labels Oct 20, 2021

e4exp mentioned this issue Oct 22, 2021

A Picture is Worth a Thousand Words: A Unified System for Diverse Captions and Rich Images Generation #691

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Unifying Multimodal Transformer for Bi-directional Image and Text Generation #686

Unifying Multimodal Transformer for Bi-directional Image and Text Generation #686

e4exp commented Oct 20, 2021

e4exp commented Oct 20, 2021 •

edited

Loading

e4exp commented Oct 20, 2021

e4exp commented Oct 20, 2021

e4exp commented Oct 20, 2021

e4exp commented Oct 20, 2021

Unifying Multimodal Transformer for Bi-directional Image and Text Generation #686

Unifying Multimodal Transformer for Bi-directional Image and Text Generation #686

Comments

e4exp commented Oct 20, 2021

e4exp commented Oct 20, 2021 • edited Loading

1 はじめに

e4exp commented Oct 20, 2021

2 関連研究

2.1 画像からテキストへの生成

2.2 テキストから画像への生成

e4exp commented Oct 20, 2021

3 モデル

3.1 統一マルチモーダルフレームワーク

3.2 2レベルの粒度の画像表現

(1) 細粒度の密な特徴。

(2) 粗視化された離散的な特徴。

e4exp commented Oct 20, 2021

4 TRAINING

4.1 画像からテキストへの変換

4.1.1 ステージ 1. 単語レベルの学習。

4.1.2 ステージ2. 文章レベルの学習。

4.2 テキストから画像への変換

4.2.1 ステージ1. グリッドレベルのトレーニング。

4.2.2 ステージ 2. 画像レベルの学習。

e4exp commented Oct 20, 2021

5 実験

5.1 実験設定

MS-COCO データセット [29].

実装の詳細。

5.2 評価基準

画像からテキストへの生成。

(1) Fréchet Inception Distance (FID)[14]

(2) R-precision[47]

(3) CLIPScore.

Inception score (IS) [41]

5.3 アブレーション研究

統一されたアーキテクチャの利点とは？

2段階の粒度の画像特徴は役に立つか？

シーケンスレベルの学習の影響は？

CLIPベースのロスは必要か？

5.4 定量的結果

5.5 人間評価

5.6 定性的な例

e4exp commented Oct 20, 2021 •

edited

Loading