You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Vision-and-Language Pre-training (VLP) has improved performance on variousjoint vision-and-language downstream tasks. Current approaches to VLP heavilyrely on image feature extraction processes, most of which involve regionsupervision (e.g., object detection) and the convolutional architecture (e.g.,ResNet). Although disregarded in the literature, we find it problematic interms of both (1) efficiency/speed, that simply extracting input featuresrequires much more computation than the multimodal interaction steps; and (2)expressive power, as it is upper bounded to the expressive power of the visualembedder and its predefined visual vocabulary. In this paper, we present aminimal VLP model, Vision-and-Language Transformer (ViLT), monolithic in thesense that the processing of visual inputs is drastically simplified to justthe same convolution-free manner that we process textual inputs. We show thatViLT is up to tens of times faster than previous VLP models, yet withcompetitive or better downstream task performance. Our code and pre-trainedweights are available at https://github.com/dandelin/vilt.
AkihikoWatanabe
changed the title
a
ViLT: Vision-and-Language Transformer Without Convolution or Region
Supervision, Wonjae Kim+, N/A, arXiv'21
Aug 22, 2023
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
現在のVLPアプローチは、画像特徴の抽出プロセスに大きく依存しており、その多くは領域の監視(例:物体検出)と畳み込みアーキテクチャ(例:ResNet)を含んでいます。
文献では無視されているが、私たちはそれが以下の点で問題があると考えています:(1)効率性/速度において、単純に入力特徴を抽出するだけでも、多モーダルの相互作用のステップよりもはるかに多くの計算が必要であること;(2)表現力において、それはビジュアルエンベッダーと事前定義されたビジュアルボキャブラリーの表現力に上限があるため、問題があると考えています。
本論文では、ビジョンと言語のトランスフォーマ(ViLT)という最小限のVLPモデルを提案します。このモデルは、ビジュアル入力の処理を、テキスト入力と同じ畳み込みフリーの方法に大幅に簡素化したものです。
ViLTは、従来のVLPモデルよりも数十倍高速でありながら、競争力のあるまたはより良いダウンストリームタスクのパフォーマンスを示すことを示します。
私たちのコードと事前学習済みの重みは、https://github.com/dandelin/viltで利用可能です。
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: