Vision Transformers: ViT vs Differential ViT

A comparative implementation of Vision Transformer (ViT) and Differential Vision Transformer (Diff-ViT) on CIFAR-10, exploring how differential attention mechanisms compare to standard multi-head attention in the vision domain.

Results

Vision Transformer (ViT)	Differential Vision Transformer (Diff-ViT)
Attention Rollout
	_{Differential attention cancels noise through dual softmax maps, producing more focused attention patterns on relevant regions.}
Attention Maps (CLS Token → Patches)
	_{Noise cancellation amplifies attention to relevant context—some heads show stronger, more sparse activation patterns compared to standard attention.}
Position Embedding Test Accuracy

For more details, see the full reports: ViT Report | Diff-ViT Report

Setup

# Install dependencies using uv
uv sync

# Dataset (CIFAR-10) downloads automatically on first run to {vit,dvit}/data/

Usage

cd vit # or dvit
uv run python -m src.vit --mode train # or vis

Name		Name	Last commit message	Last commit date
Latest commit History 143 Commits
docs		docs
dvit		dvit
vit		vit
.gitignore		.gitignore
.gitmodules		.gitmodules
.python-version		.python-version
README.md		README.md
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Vision Transformers: ViT vs Differential ViT

Results

Setup

Usage

About

Uh oh!

Releases

Packages

Languages

Varun0157/vision-transformers

Folders and files

Latest commit

History

Repository files navigation

Vision Transformers: ViT vs Differential ViT

Results

Setup

Usage

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages