2019: Probing the Need for Visual Context in Multimodal Machine Translation #228

jojonki · 2019-04-16T09:46:36Z

Probing the Need for Visual Context in Multimodal Machine Translation
Ozan Caglayan, Pranava Madhyastha, Lucia Specia, Loïc Barrault
Accepted to NAACL-HLT 2019, reviewer comments addressed. Appendix included for the arXiv version
https://arxiv.org/abs/1903.08678

概要

ビジョンとテキストのマルチモーダル機械翻訳（MMT）の研究．既存のMMTでは，ビジュアルのモダリティは不要あるいはわずかに有用とされている．我々はこの結果は，現在唯一使われているMulti30Kタスクが，非常にシンプルで，短く，繰り返しが多いため，結果としてソーステキストのみでタスクが達成できてしまうためと考える．一般的に，ビジュアルとテキストの情報は翻訳のグラウンディングに役立つはずである．

本研究では，SOTAのMMTモデルを採用し，ビジュアルモダリティの貢献を精査する．そのために，モデルからソース側の文情報を一部ドロップさせて，システム分析をすることでこれを行う．実験結果では，限定されたテキスト情報下においても，ビジュアル情報の利用により優れた翻訳ができることを示した．これはMMTモデルが，画像特徴量の品質あるいはモデルへの取り込み方のどちらかに起因して，ビジュアルモダリティを無視している，という現在の信じられている状態に矛盾しているのである．

イントロ

MMTは2016頃から始まり，Multi30Kデータセットが利用された．Flickr30Kなどもあり，英語のイメージキャプションからドイツ語，フランス語，チェコ語などへの翻訳版がある．

現在主に3バージョンのアプローチ．

畳み込み特徴量を利用したマルチモーダルアテンション
クロスモーダルインタラクション
オブジェクト検出からの部分特徴量の統合

しかし，ビジュアルモダリティの利用はまだ不明瞭で，マルチモーダルに起因する性能向上はわずかなものである，モノモーダルと比べて有意でない，などと指摘がある．また無関係な画像を使ったような場合においても，MMTモデルが大きなロスなく翻訳できてしまう，といったことも指摘されている．

我々はこれはMulti30Kのソーステキストが翻訳に十分な情報量を含んでいるからではないかと睨んでいる．そこで我々はこの仮定の説明のため，入力のデグレーション（後述）をいくつか試し，SOTAのMMTモデルをこのデグレデータを利用して評価した．またビジュアルのセンシティビティを見るために，無関係な画像の特徴量入力に対する結果も調査した．実験結果から，言語コンテキストが不十分な状況において，MMTモデルはビジュアル情報を利用しているということを示し，完全な文がある場合においては，ビジュアル情報にはあまりセンシティブでないということを示した．

インプット・デグレーション

学習，テストデータ両方に対してデグレーションを行う．

カラーの欠乏

色を表すトークンをスペシャルトークン[v]に置き換える．テキストのみで翻訳をするとこれは無理でバイアスに頼る必要があるが，ビジョンがあればそれを活用できるはずである．データの約3%が該当した

エンティティ・マスキング

Multi30Kから派生したFlickr30Kには画像に対するタグ情報がある．このタグのテキストをソース文から取り除く．データの26.2%がこれに該当．

プログレッシブ・マスキング

文の文頭からk個のトークンを残して，残りの文末までを．kは0,2,...,30の15パターン．D_0は文長情報しか残らない

ビジュアル・センシティビティ

Elliott (2018)が行ったincongruent decodingにインスパイアされる形で，テスト時に文と関係ない画像を利用する．

実験セットアップ

データセット

Multi30Kの英語ー＞フランス語を利用．エンティティマスキングのためにFlickr30Kも利用する．

ビジュアル特徴量

ImageNetで鍛えられたResNet-50 CNN (He, 2016)を画像エンコーダーとして利用．

Model

NMTのベースラインとしてはGRUベースのアテンションネットワークを採用．

MMTモデルとしては，ベーシックなマルチモーダルアテンション（DIRECT, Caglayan 2016)とそれを階層的にしたバージョン（HIER）を利用する．前者はテキストと画像をconcatしたものを線形にプロジェクションするのに対して，後者はそのconcatしたものを他のアテンションレイヤーに切り替える．またpool5特徴量の非線形変換を伴う，エンコーダーとデコーダーを初期化するモデル（INIT)も利用．

// pool5はCNN部分のtop層，FC層の手前の層であるので一番CNNの表現能力の大きい部分

ハイパーパラメタ

略

結果

METEORスコアをTable 2に．太字は有意を意味する．実験結果について，細かく見ていく．

カラーの欠乏

MMTモデルが有意にNMTモデルよりも良い結果となっている．Colorデグレのデータ（247文）だけに注目して結果を分析すると，HIERでは1.6 METEOR向上させている．また文における色トークンの正解率を見ると，NMTよりも12%良いことがわかった．一方INITは4%の向上にとどまった．これはより複雑なMMTではビジュアル情報をより多く取り入れているということを示す

エンティティ・マスキング

Attentive MMT（HIER）では，NMTに比べて4.2 METEORの改善．また無関係な画像を入れることによってNMTよりも大幅に性能が低下．

またビジョンへのアテンションもマスクされているエンティティを見つけることが出来ている例を下記に示す．

チェコ語とドイツ語に対して

先程まではフランス語に翻訳したが，チェコ語とドイツ語でも実験．MMTシステムはNMTよりも良い結果になり，無関係な画像注入は性能低下を同様に引き起こした．ただし性能控除はフランス語よりは少なかった // チェコ語とドイツ語は形態素的にリッチだからかも，と書いてあった．よくわからんけど
また全言語に対するincongruent decoddingの結果は，INITよりもHIERとDIRECTの方が性能低下が大きかった．

プログレッシブ・マスキング

Figure 3にコンテキストサイズｋを変えたときの，NMTに対する性能差を示す．k=0はマルチモーダルタスクからキャプショニングに変わったことを意味する．この状況下においても約７METEORの性能差をNMTに対して示した．またTable 5にマスキングされた例に対して，ビジョンをうまく活用して翻訳した例が載っている．

ビジュアルセンシティビティを見るために，DIRECTモデルに対して４つのkを変えたものと，incongruent decodingを施して実験した（Table 4）．言語情報が増えるに連れてNMTとの差異が少なくなっているー＞つまりMMTが無関係なビジョンに対するセンシティビティが小さくなっているのを示す（無視できるようになる）．
また"blinding"という，テスト時だけでなく学習時も無関係な画像で学習したモデルも比較した．結果が示すようにblindedなモデルにおいても，ビジュアルモダリティを無視できていることを示した，事実NMTモデルと同等のパフォーマンスになった．

議論と結論

MMTにおけるビジョンの貢献具合を分析した．これにはMulti30Kデータを様々な方法でデグレさせ，NMTモデルなどと性能を比較することで分析した．実験結果から，ビジョンはテキストと補完的に動作していることを示した．ビジュアル情報の利用は，マシン翻訳を入力ノイズなどに対してよりロバストにできる機能を持っているといえる．

future workとして，モデルがいつ，どのように複数のモダリティを取り込んで学習しているのか調査したい．

無関係な画像を無視できるということは，やはりテキストに重きが乗っているということなので，入力データによってはテキストでなくモーダルに重みを起きたい時があるはず．そのように，どのような塩梅で複数のモダリティを扱うのかの分析も見てみたい．

jojonki · 2019-05-11T01:59:34Z

Podccastでも紹介しました． https://anchor.fm/lnlp-ninja/episodes/ep30-Probing-the-Need-for-Visual-Context-in-Multimodal-Machine-Translation-e3sst0

jojonki added NAACL Translation Multi-Modal labels Apr 30, 2019

jojonki changed the title ~~🚧 2019: Probing the Need for Visual Context in Multimodal Machine Translation~~ 2019: Probing the Need for Visual Context in Multimodal Machine Translation Apr 30, 2019

jojonki added the Podcast label May 11, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2019: Probing the Need for Visual Context in Multimodal Machine Translation #228

2019: Probing the Need for Visual Context in Multimodal Machine Translation #228

jojonki commented Apr 16, 2019 •

edited

jojonki commented May 11, 2019

2019: Probing the Need for Visual Context in Multimodal Machine Translation #228

2019: Probing the Need for Visual Context in Multimodal Machine Translation #228

Comments

jojonki commented Apr 16, 2019 • edited

概要

イントロ

インプット・デグレーション

カラーの欠乏

エンティティ・マスキング

プログレッシブ・マスキング

ビジュアル・センシティビティ

実験セットアップ

データセット

ビジュアル特徴量

Model

ハイパーパラメタ

結果

カラーの欠乏

エンティティ・マスキング

チェコ語とドイツ語に対して

プログレッシブ・マスキング

議論と結論

コメント

jojonki commented May 11, 2019

jojonki commented Apr 16, 2019 •

edited