Vision Transformer Implementation

Implementation of the vision transformer from [1] in PyTorch, for self-educational purposes. Trains from scratch. Uses multiple GPUs with nn.DataParallel.

Usage

To launch training, python main.py -v <version_name> -i <path_to_dataset>.

Make sure the path given has train and val folders with images separated by class.

To track training, tensorboard --logdir tb_logs.

Useful repositories:

References

[1] Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020). https://arxiv.org/abs/2010.11929.

Name		Name	Last commit message	Last commit date
Latest commit History 81 Commits
models		models
.gitignore		.gitignore
README.md		README.md
config.yaml		config.yaml
main.py		main.py
trainer.py		trainer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Vision Transformer Implementation

Usage

Useful repositories:

References

About

Releases

Packages

Languages

caiocj1/vit-learning

Folders and files

Latest commit

History

Repository files navigation

Vision Transformer Implementation

Usage

Useful repositories:

References

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages