VLADriver-RAG: Retrieval-Augmented Vision-Language-Action Models for Autonomous Driving

VLADriver-RAG is a retrieval-augmented Vision-Language-Action framework for autonomous driving, designed to enhance planning robustness through structure-aware historical scenario retrieval.

Project Page • arXiv •

News

[2026/05/07] 🌐 Project page is live: Project.
[2026/05/12] 👉 We released our paper on arXiv.

Visualization

In challenging corner-case driving scenarios, the baseline often produces unstable or unsafe planning results, whereas VLADriver-RAG (b) is able to generate a safer and more reliable trajectory. These qualitative results demonstrate that retrieved historical knowledge effectively improves planning robustness and decision stability under uncertain environments.

Quick start

Coming soon

Citation

@misc{zhao2026vladriverragretrievalaugmentedvisionlanguageactionmodels,
      title={VLADriver-RAG: Retrieval-Augmented Vision-Language-Action Models for Autonomous Driving}, 
      author={Rui Zhao and Haofeng Hu and Zhenhai Gao and Jiaqiao Liu and Gao Fei},
      year={2026},
      eprint={2605.08133},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2605.08133}, 
}

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
assets		assets
docs		docs
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

VLADriver-RAG: Retrieval-Augmented Vision-Language-Action Models for Autonomous Driving

News

Visualization

Quick start

Citation

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

VLADriver-RAG: Retrieval-Augmented Vision-Language-Action Models for Autonomous Driving

News

Visualization

Quick start

Citation

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages