Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

2019: Probing the Need for Visual Context in Multimodal Machine Translation #228

Open
jojonki opened this issue Apr 16, 2019 · 1 comment

Comments

@jojonki
Copy link
Owner

jojonki commented Apr 16, 2019

Probing the Need for Visual Context in Multimodal Machine Translation
Ozan Caglayan, Pranava Madhyastha, Lucia Specia, Loïc Barrault
Accepted to NAACL-HLT 2019, reviewer comments addressed. Appendix included for the arXiv version
https://arxiv.org/abs/1903.08678

概要

ビジョンとテキストのマルチモーダル機械翻訳(MMT)の研究.既存のMMTでは,ビジュアルのモダリティは不要あるいはわずかに有用とされている.我々はこの結果は,現在唯一使われているMulti30Kタスクが,非常にシンプルで,短く,繰り返しが多いため,結果としてソーステキストのみでタスクが達成できてしまうためと考える.一般的に,ビジュアルとテキストの情報は翻訳のグラウンディングに役立つはずである.

本研究では,SOTAのMMTモデルを採用し,ビジュアルモダリティの貢献を精査する.そのために,モデルからソース側の文情報を一部ドロップさせて,システム分析をすることでこれを行う.実験結果では,限定されたテキスト情報下においても,ビジュアル情報の利用により優れた翻訳ができることを示した.これはMMTモデルが,画像特徴量の品質あるいはモデルへの取り込み方のどちらかに起因して,ビジュアルモダリティを無視している,という現在の信じられている状態に矛盾しているのである.

イントロ

MMTは2016頃から始まり,Multi30Kデータセットが利用された.Flickr30Kなどもあり,英語のイメージキャプションからドイツ語,フランス語,チェコ語などへの翻訳版がある.

現在主に3バージョンのアプローチ.

  1. 畳み込み特徴量を利用したマルチモーダルアテンション
  2. クロスモーダルインタラクション
  3. オブジェクト検出からの部分特徴量の統合

しかし,ビジュアルモダリティの利用はまだ不明瞭で,マルチモーダルに起因する性能向上はわずかなものである,モノモーダルと比べて有意でない,などと指摘がある.また無関係な画像を使ったような場合においても,MMTモデルが大きなロスなく翻訳できてしまう,といったことも指摘されている.

我々はこれはMulti30Kのソーステキストが翻訳に十分な情報量を含んでいるからではないかと睨んでいる.そこで我々はこの仮定の説明のため,入力のデグレーション(後述)をいくつか試し,SOTAのMMTモデルをこのデグレデータを利用して評価した.またビジュアルのセンシティビティを見るために,無関係な画像の特徴量入力に対する結果も調査した.実験結果から,言語コンテキストが不十分な状況において,MMTモデルはビジュアル情報を利用しているということを示し,完全な文がある場合においては,ビジュアル情報にはあまりセンシティブでないということを示した.

インプット・デグレーション

学習,テストデータ両方に対してデグレーションを行う.

カラーの欠乏

色を表すトークンをスペシャルトークン[v]に置き換える.テキストのみで翻訳をするとこれは無理でバイアスに頼る必要があるが,ビジョンがあればそれを活用できるはずである.データの約3%が該当した

エンティティ・マスキング

Multi30Kから派生したFlickr30Kには画像に対するタグ情報がある.このタグのテキストをソース文から取り除く.データの26.2%がこれに該当.

プログレッシブ・マスキング

文の文頭からk個のトークンを残して,残りの文末までを.kは0,2,...,30の15パターン.D_0は文長情報しか残らない

Screen Shot 2019-04-30 at 3 13 03 PM

ビジュアル・センシティビティ

Elliott (2018)が行ったincongruent decodingにインスパイアされる形で,テスト時に文と関係ない画像を利用する.

実験セットアップ

データセット

Multi30Kの英語ー>フランス語を利用.エンティティマスキングのためにFlickr30Kも利用する.

ビジュアル特徴量

ImageNetで鍛えられたResNet-50 CNN (He, 2016)を画像エンコーダーとして利用.

Model

NMTのベースラインとしてはGRUベースのアテンションネットワークを採用.

MMTモデルとしては,ベーシックなマルチモーダルアテンション(DIRECT, Caglayan 2016)とそれを階層的にしたバージョン(HIER)を利用する.前者はテキストと画像をconcatしたものを線形にプロジェクションするのに対して,後者はそのconcatしたものを他のアテンションレイヤーに切り替える.またpool5特徴量の非線形変換を伴う,エンコーダーとデコーダーを初期化するモデル(INIT)も利用.

// pool5はCNN部分のtop層,FC層の手前の層であるので一番CNNの表現能力の大きい部分

ハイパーパラメタ

結果

METEORスコアをTable 2に.太字は有意を意味する.実験結果について,細かく見ていく.
Screen Shot 2019-04-30 at 3 36 13 PM

カラーの欠乏

MMTモデルが有意にNMTモデルよりも良い結果となっている.Colorデグレのデータ(247文)だけに注目して結果を分析すると,HIERでは1.6 METEOR向上させている.また文における色トークンの正解率を見ると,NMTよりも12%良いことがわかった.一方INITは4%の向上にとどまった.これはより複雑なMMTではビジュアル情報をより多く取り入れているということを示す

エンティティ・マスキング

Attentive MMT(HIER)では,NMTに比べて4.2 METEORの改善.また無関係な画像を入れることによってNMTよりも大幅に性能が低下.
Screen Shot 2019-04-30 at 3 48 56 PM

またビジョンへのアテンションもマスクされているエンティティを見つけることが出来ている例を下記に示す.
Screen Shot 2019-04-30 at 3 52 47 PM

チェコ語とドイツ語に対して

先程まではフランス語に翻訳したが,チェコ語とドイツ語でも実験.MMTシステムはNMTよりも良い結果になり,無関係な画像注入は性能低下を同様に引き起こした.ただし性能控除はフランス語よりは少なかった // チェコ語とドイツ語は形態素的にリッチだからかも,と書いてあった.よくわからんけど
また全言語に対するincongruent decoddingの結果は,INITよりもHIERとDIRECTの方が性能低下が大きかった.

プログレッシブ・マスキング

Figure 3にコンテキストサイズkを変えたときの,NMTに対する性能差を示す.k=0はマルチモーダルタスクからキャプショニングに変わったことを意味する.この状況下においても約7METEORの性能差をNMTに対して示した.またTable 5にマスキングされた例に対して,ビジョンをうまく活用して翻訳した例が載っている.
Screen Shot 2019-04-30 at 4 03 22 PM
Screen Shot 2019-04-30 at 4 05 15 PM

ビジュアルセンシティビティを見るために,DIRECTモデルに対して4つのkを変えたものと,incongruent decodingを施して実験した(Table 4).言語情報が増えるに連れてNMTとの差異が少なくなっているー>つまりMMTが無関係なビジョンに対するセンシティビティが小さくなっているのを示す(無視できるようになる).
また"blinding"という,テスト時だけでなく学習時も無関係な画像で学習したモデルも比較した.結果が示すようにblindedなモデルにおいても,ビジュアルモダリティを無視できていることを示した,事実NMTモデルと同等のパフォーマンスになった.
Screen Shot 2019-04-30 at 4 03 27 PM

議論と結論

MMTにおけるビジョンの貢献具合を分析した.これにはMulti30Kデータを様々な方法でデグレさせ,NMTモデルなどと性能を比較することで分析した.実験結果から,ビジョンはテキストと補完的に動作していることを示した.ビジュアル情報の利用は,マシン翻訳を入力ノイズなどに対してよりロバストにできる機能を持っているといえる.

future workとして,モデルがいつ,どのように複数のモダリティを取り込んで学習しているのか調査したい.

コメント

  • 無関係な画像を無視できるということは,やはりテキストに重きが乗っているということなので,入力データによってはテキストでなくモーダルに重みを起きたい時があるはず.そのように,どのような塩梅で複数のモダリティを扱うのかの分析も見てみたい.
@jojonki jojonki changed the title 🚧 2019: Probing the Need for Visual Context in Multimodal Machine Translation 2019: Probing the Need for Visual Context in Multimodal Machine Translation Apr 30, 2019
@jojonki
Copy link
Owner Author

jojonki commented May 11, 2019

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant