Multimodal-Token-Fusion

Code for a decoder only multimodal transformer model which uses token fusion to enhance inter-modal token representations. The dataset used is available here: https://zenodo.org/records/10079370

Papers used:

Token Fusion: https://arxiv.org/pdf/2204.08721
GIT: https://arxiv.org/pdf/2205.14100

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
.gitignore		.gitignore
README.md		README.md
Training_in_colab.ipynb		Training_in_colab.ipynb
data.py		data.py
data_dictionary.csv		data_dictionary.csv
data_prep.py		data_prep.py
impl.py		impl.py
inference.py		inference.py
requirements.txt		requirements.txt
synthesize.py		synthesize.py
train.py		train.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Multimodal-Token-Fusion

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Multimodal-Token-Fusion

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages