GitHub - jaeseokbyun/GRIT-VLP: This is an official implementation of GRIT-VLP

GRIT-VLP: GRouped mIni-baTch sampling for Efficient Vision-Language Pre-training

This is the official PyTorch implementation of "GRIT-VLP: GRouped mIni-baTch sampling for Efficient Vision-Language Pre-training" (Accepted to ECCV 2022)

You can find the implementation codes for pre-training and fine-tuning GRIT-VLP.

Pre-training Dataset Download:

Downstream-task Datasets:

Json Files:

Use same json files from ALBEF
Change the image path in json files according to your downloaded images (In CC3M and SBU, some images can not be crawled, thus, you should consider about these missing images when creating json files)

Requirements:

pytorch 1.8.0
transformers 4.8.1
timm 0.4.9

Pre-training:

Pre-train the model using 4 A100 GPUs:

python3 -m torch.distributed.launch --nproc_per_node=4 --use_env Pretrain.py --config ./configs/Pretrain.yaml --output_dir output/Pretrain/

Downstream tasks:

IRTR (MS-COCO) using 4 A100 GPUs:

python3 -m torch.distributed.launch --nproc_per_node=4 --use_env Retrieval.py --config ./configs/Retrieval_coco.yaml --output_dir output/Retrieval_coco/  --checkpoint [Pretrained checkpoint]

IRTR (Flickr) using 4 A100 GPUs:

python3 -m torch.distributed.launch --nproc_per_node=4 --use_env Retrieval.py --config ./configs/Retrieval_flickr.yaml --output_dir output/Retrieval_coco/  --checkpoint [Pretrained checkpoint]

NLVR using 4 A100 GPUs:

python3 -m torch.distributed.launch --nproc_per_node=4 --use_env Pretrain_nlvr.py --config ./configs/NLVR_pretrain.yaml --output_dir output/NLVR_pretrain/ --checkpoint [Pretrained checkpoint] 
python3 -m torch.distributed.launch --nproc_per_node=4 --use_env NLVR.py --config ./configs/NLVR.yaml --output_dir output/NLVR/ --checkpoint [NLVR-Pretrained checkpoint]

VQA using 4 A100 GPUs:

python3 -m torch.distributed.launch --nproc_per_node=4 --use_env VQA.py --config ./configs/VQA.yaml --output_dir output/vqa/ --checkpoint [Pretrained checkpoint]

If you have any questions or problems to run this code, please mail to wotjr3868@snu.ac.kr or gxq9106@gmail.com. Thank you!

Acknowledgement:

Our code implementation is largely borrowed from ALBEF since our method is mainly built upon it. We appreciate the original authors for sharing code.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
configs		configs
dataset		dataset
models		models
optim		optim
refTools		refTools
scheduler		scheduler
vqaTools		vqaTools
NLVR.py		NLVR.py
Pretrain.py		Pretrain.py
Pretrain_nlvr.py		Pretrain_nlvr.py
README.md		README.md
Retrieval.py		Retrieval.py
VQA.py		VQA.py
img.png		img.png
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

GRIT-VLP: GRouped mIni-baTch sampling for Efficient Vision-Language Pre-training

Pre-training Dataset Download:

Downstream-task Datasets:

Json Files:

Requirements:

Pre-training:

Downstream tasks:

If you have any questions or problems to run this code, please mail to wotjr3868@snu.ac.kr or gxq9106@gmail.com. Thank you!

Acknowledgement:

About

Releases

Packages

Languages

jaeseokbyun/GRIT-VLP

Folders and files

Latest commit

History

Repository files navigation

GRIT-VLP: GRouped mIni-baTch sampling for Efficient Vision-Language Pre-training

Pre-training Dataset Download:

Downstream-task Datasets:

Json Files:

Requirements:

Pre-training:

Downstream tasks:

If you have any questions or problems to run this code, please mail to wotjr3868@snu.ac.kr or gxq9106@gmail.com. Thank you!

Acknowledgement:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages