CvT, Convolutions to Vision Transformers

Implementation of CvT, Convolutions to Vision Transformers.
This repository gives vision attention and embedding Layer.
Reference Paper

Folder

ㄴmodel_layer
    ㄴtokenizer.py
        class ImageTokenizer
        class ImageStacker
    ... ...
    ㄴtransforemr.py
        class LineTokenConvTransformer  
        class ConvTokenConvTransformer  
        class SelfConvTransfomer  
        class CrossConvTransformer

Usage

CvT with Linear Tokenizer

tensor = torch.ones([8, 3, 16, 16]) # torch.Size([8, 3, 16, 16])
layer   = LineTokenConvTransformer((16, 16), (4, 4), 3, 3)
outputs = layer(tensor)             # torch.Size([8, 3, 4, 4])

CvT with Convolution Tokenizer

tensor = torch.ones([8, 3, 16, 16]) # torch.Size([8, 3, 16, 16])
layer   = ConvTokenConvTransformer((16, 16), (4, 4), 3, 3)
outputs = layer(tensor)             # torch.Size([8, 3, 4, 4])

Self-Attention of CvT (SA-CvT)

tensor = torch.ones([8, 3, 16, 16]) # torch.Size([8, 3, 16, 16])
layer   = SelfConvTransfomer((16, 16), 3, 2)
outputs = layer(tensor)             # torch.Size([8, 3, 16, 16])

print(outputs.shape)

Cross-Attention of CvT (CA-CvT)

tensor1 = torch.ones([8, 3, 16, 16]) # torch.Size([8, 3, 16, 16])
tensor2 = torch.ones([8, 3, 16, 16]) # torch.Size([8, 3, 16, 16])

layer   = CrossConvTransformer((16, 16), 3, 1)
outputs = layer(tensor1, tensor2)    # torch.Size([8, 3, 16, 16])

Acknowledgement

Base CvT code is borrowed from @rishikksh20
repo: https://github.com/rishikksh20/convolution-vision-transformers
Base Embedding code is borrowed from @FrancescoSaverioZuppichini
repo: https://github.com/FrancescoSaverioZuppichini/ViT

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
model_layer		model_layer
README.md		README.md
example.ipynb		example.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CvT, Convolutions to Vision Transformers

Folder

Usage

CvT with Linear Tokenizer

CvT with Convolution Tokenizer

Self-Attention of CvT (SA-CvT)

Cross-Attention of CvT (CA-CvT)

Acknowledgement

Related works

About

Releases

Packages

Languages

russellgeum/Convolutions-to-Vision-Transformers

Folders and files

Latest commit

History

Repository files navigation

CvT, Convolutions to Vision Transformers

Folder

Usage

CvT with Linear Tokenizer

CvT with Convolution Tokenizer

Self-Attention of CvT (SA-CvT)

Cross-Attention of CvT (CA-CvT)

Acknowledgement

Related works

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages