vision-language-models

Here are 66 public repositories matching this topic...

baaivision / EVE

EVE Series: Encoder-Free Vision-Language Models from BAAI

clip vlm instruction-following large-language-models llm mllm multimodal-large-language-models vision-language-models encoder-free-vlm

Updated Mar 1, 2025
Python

zli12321 / Vision-Language-Models-Overview

Star

A most Frontend Collection and survey of vision-language model papers, and models GitHub repository

reinforcement-learning clip claude world-models multimodal-models sota-model llava blip2 gpt-4v gemini-pro deepseek vision-language-models qwen-vl llama-vision-model multimodal-benchmarks vision-language-model-applications

Updated Jun 26, 2025

snap-research / MyVLM

Star

Official Implementation for "MyVLM: Personalizing VLMs for User-Specific Queries" (ECCV 2024)

personalization vision-language-models

Updated Jul 5, 2024
Python

BAAI-Agents / GPA-LM

Star

This repo is a live list of papers on game playing and large multimodality model - "A Survey on Game Playing Agents and Large Models: Methods, Applications, and Challenges".

games ai gcc planning gameplay awesome-list agents gameai vlm multimodal agent-framework large-language-models llm generative-ai vision-language-models general-computer-control

Updated Sep 3, 2024

baaivision / DenseFusion

Star

DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

vlm image-descriptions visual-perception mllm multimodal-large-language-models vision-language-models

Updated Dec 6, 2024
Python

NishilBalar / Awesome-LVLM-Hallucination

Star

up-to-date curated list of state-of-the-art Large vision language models hallucinations research work, papers & resources

mlm hallucination large-language-models llm mllm large-vision-language-models multimodal-large-language-models hallucination-evaluation hallucination-detection vision-language-models lvlm hallucination-mitigation hallucination-survey hallucination-research hallucination-benchmark multimodal-language-model

Updated May 10, 2025

GeoPixel: A Pixel Grounding Large Multimodal Model for Remote Sensing is specifically developed for high-resolution remote sensing image analysis, offering advanced multi-target pixel grounding capabilities.

remote-sensing segmentation-models foundation-models large-vision-language-models large-multimodal-models vision-language-models grounding-llms

Updated May 28, 2025
Python

yu-rp / apiprompting

Star

[ECCV 2024] API: Attention Prompting on Image for Large Vision-Language Models

visual-prompting prompting vision-language-model large-vision-language-model large-vision-language-models large-multimodal-models vision-language-models

Updated Oct 10, 2024
Python

OpenGVLab / PIIP

Star

[NeurIPS 2024 Spotlight ⭐️] Parameter-Inverted Image Pyramid Networks (PIIP)

computer-vision image-classification object-detection semantic-segmentation instance-segmentation vision-transformer multimodal-large-language-models vision-language-models

Updated May 16, 2025
Python

drive-bench / toolkit

Star

[ICCV'25] Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

autonomous-driving chatgpt vision-language-models phi-3 internvl qwen2-vl driving-with-language

Updated Jun 30, 2025
Python

erfanshayegani / Jailbreak-In-Pieces

Star

[ICLR 2024 Spotlight 🔥 ] - [ Best Paper Award SoCal NLP 2023 🏆] - Jailbreak in pieces: Compositional Adversarial Attacks on Multi-Modal Language Models

alignment ai-safety vlm llm vision-language-models cross-modality-safety-alignment multi-modal-models

Updated Jun 6, 2024
Python

elkhouryk / RS-TransCLIP

Star

[ICASSP 2025] Open-source code for the paper "Enhancing Remote Sensing Vision-Language Models for Zero-Shot Scene Classification"

remote-sensing aerial-imagery image-classification satellite-imagery earth-observation scene-classification transductive-learning zero-shot-classification vision-language-models

Updated Jul 3, 2025
Python

lezhang7 / SAIL

Star

[CVPR 2025 Highlight] Official Pytorch codebase for paper: "Assessing and Learning Alignment of Unimodal Vision and Language Models"

efficient-learning vision-language-models

Updated Jun 13, 2025
Jupyter Notebook

jiayuww / SpatialEval

Star

[NeurIPS'24] SpatialEval: a benchmark to evaluate spatial reasoning abilities of MLLMs and LLMs

machine-learning gemini reasoning claude spatial-reasoning multimodal-deep-learning foundation-models large-language-models gpt-4v vision-language-models llama3 gpt-4o

Updated Jan 23, 2025
Python

prism-visual-spatial-intelligence / Awesome-Visual-Spatial-Reasoning

Star

This is a project about visual spatial reasoning.

embodied-ai visual-spatial-reasoning vision-language-models

Updated Jun 29, 2025
Shell

vera-framework / VERA

Star

This is the code repo for the paper VERA: Explainable Video Anomaly Detection via Verbalized Learning of Vision-Language Models (CVPR 2025).

video-anomaly-detection vision-language-models automatic-prompt-tuning

Updated Jul 5, 2025
Python

D2I-Group / awesome-vision-time-series

Star

This is an official repository for "Harnessing Vision Models for Time Series Analysis: A Survey".

time-series vision-models large-multimodal-models vision-language-models large-vision-models

Updated Jun 12, 2025
Python

vanillaer / CPL-ICML2024

Star

[ICML 2024] Offical code repo for ICML2024 paper "Candidate Pseudolabel Learning: Enhancing Vision-Language Models by Prompt Tuning with Unlabeled Data"

unlabeled-data pseudolabels vision-language-models

Updated Jun 21, 2024
Python

paulgavrikov / vlm_shapebias

Star

Official code for "Can We Talk Models Into Seeing the World Differently?" (ICLR 2025).

steering-behaviors shape-bias vision-language-models iclr2025

Updated Jan 26, 2025
Python

ytaek-oh / awesome-vl-compositionality

Star

Awesome Vision-Language Compositionality, a comprehensive curation of research papers in literature.

vision-language-models vision-language-compositionality

Updated Feb 13, 2025

Improve this page

Add a description, image, and links to the vision-language-models topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the vision-language-models topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

vision-language-models

Here are 66 public repositories matching this topic...

baaivision / EVE

zli12321 / Vision-Language-Models-Overview

snap-research / MyVLM

BAAI-Agents / GPA-LM

baaivision / DenseFusion

NishilBalar / Awesome-LVLM-Hallucination

mbzuai-oryx / GeoPixel

yu-rp / apiprompting

OpenGVLab / PIIP

drive-bench / toolkit

erfanshayegani / Jailbreak-In-Pieces

elkhouryk / RS-TransCLIP

lezhang7 / SAIL

jiayuww / SpatialEval

prism-visual-spatial-intelligence / Awesome-Visual-Spatial-Reasoning

vera-framework / VERA

D2I-Group / awesome-vision-time-series

vanillaer / CPL-ICML2024

paulgavrikov / vlm_shapebias

ytaek-oh / awesome-vl-compositionality

Improve this page

Add this topic to your repo