Vision Transformers are Parameter-Efficient Audio-Visual Learners

📗Paper|| 🏠Project Page

This is the PyTorch implementation of our paper:

Vision Transformers are Parameter-Efficient Audio-Visual Learners

Yan-Bo Lin, Yi-Lin Sung, Jie Lei, Mohit Bansal, and Gedas Bertasius

In IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023

Our Method

📝 Preparation

See each foloder for more detailed settings
Audio-Visual Event Localization: ./AVE
Audio-Visual Segmentation: ./AVS
Audio-Visual Question Answering: ./AVQA

🎓 Cite

If you use this code in your research, please cite:

@InProceedings{LAVISH_CVPR2023,
author = {Lin, Yan-Bo and Sung, Yi-Lin and Lei, Jie and Bansal, Mohit and Bertasius, Gedas},
title = {Vision Transformers are Parameter-Efficient Audio-Visual Learners},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year = {2023}
}

👍 Acknowledgments

Our code is based on AVSBench and MUSIC-AVQA

✏ Future works: model checkpoints

Tasks	Checkpoints
AVE	model
AVS	model
AVQA	model

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
AVE		AVE
AVQA		AVQA
AVS		AVS
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Vision Transformers are Parameter-Efficient Audio-Visual Learners

Vision Transformers are Parameter-Efficient Audio-Visual Learners

📝 Preparation

🎓 Cite

👍 Acknowledgments

✏ Future works: model checkpoints

About

Releases

Packages

Languages

GenjiB/LAVISH

Folders and files

Latest commit

History

Repository files navigation

Vision Transformers are Parameter-Efficient Audio-Visual Learners

Vision Transformers are Parameter-Efficient Audio-Visual Learners

📝 Preparation

🎓 Cite

👍 Acknowledgments

✏ Future works: model checkpoints

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages