Convolutional Vision Transformer (CvT)

Overview

CvT モデルは、Haping Wu、Bin Xiao、Noel Codella、Mengchen Liu、Xiyang Dai、Lu Yuan、Lei Zhang によって CvT: Introduction Convolutions to Vision Transformers で提案されました。畳み込みビジョントランスフォーマー (CvT) は、ViT に畳み込みを導入して両方の設計の長所を引き出すことにより、ビジョントランスフォーマー (ViT) のパフォーマンスと効率を向上させます。

論文の要約は次のとおりです。

この論文では、ビジョントランスフォーマー (ViT) を改善する、畳み込みビジョントランスフォーマー (CvT) と呼ばれる新しいアーキテクチャを紹介します。 ViT に畳み込みを導入して両方の設計の長所を引き出すことで、パフォーマンスと効率を向上させます。これは次のようにして実現されます。 2 つの主要な変更: 新しい畳み込みトークンの埋め込みを含むトランスフォーマーの階層と、畳み込みトランスフォーマー畳み込み射影を利用したブロック。これらの変更により、畳み込みニューラルネットワーク (CNN) の望ましい特性が導入されます。トランスフォーマーの利点 (動的な注意力、グローバルなコンテキストとより良い一般化)。私たちは広範な実験を実施することで CvT を検証し、このアプローチが達成できることを示しています。 ImageNet-1k 上の他のビジョントランスフォーマーや ResNet よりも、パラメータが少なく、FLOP が低い、最先端のパフォーマンスを実現します。加えて、より大きなデータセット (例: ImageNet-22k) で事前トレーニングし、下流のタスクに合わせて微調整すると、パフォーマンスの向上が維持されます。事前トレーニング済み ImageNet-22k、当社の CvT-W24 は、ImageNet-1k val set で 87.7% というトップ 1 の精度を獲得しています。最後に、私たちの結果は、位置エンコーディングが、既存のビジョントランスフォーマーの重要なコンポーネントであるこのコンポーネントは、モデルでは安全に削除できるため、高解像度のビジョンタスクの設計が簡素化されます。

このモデルは anugunj によって提供されました。元のコードはここにあります。

Usage tips

CvT モデルは通常の Vision Transformer ですが、畳み込みでトレーニングされています。 ImageNet-1K および CIFAR-100 で微調整すると、オリジナルモデル (ViT) よりも優れたパフォーマンスを発揮します。
カスタムデータの微調整だけでなく推論に関するデモノートブックもここで確認できます ([ViTFeatureExtractor を置き換えるだけで済みます) ] による [AutoImageProcessor] および [ViTForImageClassification] による [CvtForImageClassification])。
利用可能なチェックポイントは、(1) ImageNet-22k (1,400 万の画像と 22,000 のクラスのコレクション) でのみ事前トレーニングされている、(2) も問題ありません。 ImageNet-22k で調整、または (3) ImageNet-1k (ILSVRC 2012 とも呼ばれるコレクション) でも微調整130万の画像と 1,000 クラス)。

Resources

CvT を始めるのに役立つ公式 Hugging Face およびコミュニティ (🌎 で示される) リソースのリスト。

[CvtForImageClassification] は、このサンプルスクリプトおよびノートブック。
参照: 画像分類タスクガイド

ここに含めるリソースの送信に興味がある場合は、お気軽にプルリクエストを開いてください。審査させていただきます。リソースは、既存のリソースを複製するのではなく、何か新しいものを示すことが理想的です。

CvtConfig

[[autodoc]] CvtConfig

CvtModel

[[autodoc]] CvtModel - forward

CvtForImageClassification

[[autodoc]] CvtForImageClassification - forward

TFCvtModel

[[autodoc]] TFCvtModel - call

TFCvtForImageClassification

[[autodoc]] TFCvtForImageClassification - call

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

cvt.md

cvt.md

Convolutional Vision Transformer (CvT)

Overview

Usage tips

Resources

CvtConfig

CvtModel

CvtForImageClassification

TFCvtModel

TFCvtForImageClassification

Files

cvt.md

Latest commit

History

cvt.md

File metadata and controls

Convolutional Vision Transformer (CvT)

Overview

Usage tips

Resources

CvtConfig

CvtModel

CvtForImageClassification

TFCvtModel

TFCvtForImageClassification