ViCocktail: Automated Multi-Modal Data Collection for Vietnamese Audio-Visual Speech Recognition

Paper: https://www.isca-archive.org/interspeech_2025/nguyen25d_interspeech.pdf
Code: https://github.com/nguyenvulebinh/AVSRCocktail
Model: https://huggingface.co/nguyenvulebinh/AV-HuBERT-CTC-Attention-VI
- Replace the unigram model from AVSRCocktail with the unigram2048.model and unigram2048_units.txt file.
Dataset: https://huggingface.co/datasets/nguyenvulebinh/ViCocktail

@inproceedings{nguyen25d_interspeech,
  title     = {{ViCocktail: Automated Multi-Modal Data Collection for Vietnamese Audio-Visual Speech Recognition}},
  author    = {Thai-Binh Nguyen and Thi Van Nguyen and Quoc Truong Do and Chi Mai Luong},
  year      = {2025},
  booktitle = {{Interspeech 2025}},
  pages     = {166--170},
  doi       = {10.21437/Interspeech.2025-1559},
  issn      = {2958-1796},
}

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md
unigram2048.model		unigram2048.model
unigram2048_units.txt		unigram2048_units.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ViCocktail: Automated Multi-Modal Data Collection for Vietnamese Audio-Visual Speech Recognition

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

ViCocktail: Automated Multi-Modal Data Collection for Vietnamese Audio-Visual Speech Recognition

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages