large-vision-language-models

Here are 27 public repositories matching this topic...

BradyFU / Awesome-Multimodal-Large-Language-Models

✨✨Latest Advances on Multimodal Large Language Models

multi-modality instruction-following in-context-learning large-language-models chain-of-thought instruction-tuning visual-instruction-tuning large-vision-language-model multimodal-instruction-tuning large-vision-language-models multimodal-large-language-models multimodal-in-context-learning multimodal-chain-of-thought

Updated Sep 25, 2024

Paranioar / Awesome_Matching_Pretraining_Transfering

Star

The Paper List of Large Multi-Modality Model, Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insight.

tutorial awesome-list vision-and-language video-text-recognition cross-modal-retrieval visual-semantic-embedding image-text-matching video-text-retrieval image-text-retrieval multimodal-pretraining large-language-models large-vision-language-models multimodal-large-language-models memory-efficient-tuning parameter-efficient-fine-tuning large-vision-models

Updated Jul 11, 2024

ShareGPT4Omni / ShareGPT4Video

Star

[NeurIPS 2024 D&B Track] An official implementation of ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

gpt sora text-to-video large-language-models chatgpt large-vision-language-models large-multimodal-models gpt-4v large-video-language-models

Updated Aug 7, 2024
Python

NVlabs / DoRA

Star

[ICML2024 (Oral)] Official PyTorch implementation of DoRA: Weight-Decomposed Low-Rank Adaptation

deep-neural-networks deep-learning lora commonsense-reasoning vision-and-language large-language-models parameter-efficient-tuning instruction-tuning large-vision-language-models parameter-efficient-fine-tuning

Updated Aug 30, 2024
Python

burglarhobbit / Awesome-Medical-Large-Language-Models

Star

Curated papers on Large Language Models in Healthcare and Medical domain

large-language-models large-vision-language-models multimodal-large-language-models

Updated Aug 7, 2024

YingqingHe / Awesome-LLMs-meet-Multimodal-Generation

Star

🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

text-to-speech multimodality text-to-image text-to-audio text-to-video text-to-music multimodal-models aigc large-language-models text-to-3d multimodal-generation text-to-sound large-vision-language-models multimodal-large-language-models

Updated Sep 25, 2024
HTML

khuangaf / Awesome-Chart-Understanding

Star

A curated list of recent and past chart understanding work based on our survey paper: From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models.

awesome-list large-vision-language-models chart-understanding chart-question-answering chart-captioning chart-summarization

Updated Aug 8, 2024

BradyFU / Video-MME

Star

✨✨Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

video mme large-language-models large-vision-language-models multimodal-large-language-models video-mme

Updated Jun 18, 2024

llmbev / talk2bev

Star

Talk2BEV: Language-Enhanced Bird's Eye View Maps (Accepted to ICRA'24)

autonomous-driving occupancy-grid-map birds-eye-view gpt-4 large-language-models large-vision-language-models

Updated Jan 29, 2024
Python

tianyi-lab / HallusionBench

Star

[CVPR'24] HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

benchmark benchmarks lmm hallucination gpt-4 large-language-models llm llava large-vision-language-models vlms gpt-4v

Updated Sep 30, 2024
Python

ShareGPT4Omni / ShareGPT4V

Star

[ECCV 2024] ShareGPT4V: Improving Large Multi-modal Models with Better Captions

gpt language-model large-language-models chatgpt instruction-tuning vision-language-model large-vision-language-models gpt4v large-multimodal-models gpt-4v eccv2024

Updated Jul 1, 2024
Python

FudanDISC / ReForm-Eval

Star

An benchmark for evaluating the capabilities of large vision-language models (LVLMs)

benchmark multimodal pre-training reformulation embodied-ai instruction-following gpt4 in-context-learning large-language-models llm instruction-tuning large-vision-language-models visual-chain-of-thought multimodal-chain-of-thought

Updated Nov 17, 2023
Python

MMStar-Benchmark / MMStar

Star

[NeurIPS 2024] This repo contains evaluation code for the paper "Are We on the Right Way for Evaluating Large Vision-Language Models"

evaluation multimodality multimodal-learning visual-question-answering multimodal large-language-models llm llms large-vision-language-model large-vision-language-models large-multimodal-models lvlms lvlm

Updated Sep 26, 2024
Python

yfzhang114 / LLaVA-Align

Star

This is the official repo for Debiasing Large Visual Language Models, including a Post-Hoc debias method and Visual Debias Decoding strategy.

hallucination debiasing large-vision-language-models

Updated Mar 28, 2024
Python

SuperBruceJia / Awesome-Mixture-of-Experts

Star

Awesome Mixture of Experts (MoE): A Curated List of Mixture of Experts (MoE) and Mixture of Multimodal Experts (MoME)

artificial-intelligence sparse moe load-balancing multimodal-learning mixture-of-experts mome gating-network foundation-models large-language-models llms large-language-model large-vision-language-models expert-network llms-reasoning llms-benchmarking mixtrure-of-multimodal-experts sparse-moe sparse-mixture-of-experts sparse-mixture-of-multimodal-experts

Updated Sep 25, 2024

yu-rp / apiprompting

Star

[ECCV 2024] API: Attention Prompting on Image for Large Vision-Language Models

visual-prompting prompting vision-language-model large-vision-language-model large-vision-language-models large-multimodal-models vision-language-models

Updated Sep 26, 2024
Python

sled-group / moh

Star

Official Repository of Multi-Object Hallucination in Vision-Language Models

multimodal large-vision-language-models object-hallucination

Updated Sep 25, 2024
Python

praj2408 / End-to-end-LLM-and-image-model-application-using-Gemini-Pro

Star

Gemini Pro, your do-it-all AI tool, translates languages, sparks creativity, and answers questions, all while efficiently running on devices from phones to data centers, making it accessible for developers and businesses to unlock AI's potential.

google gemini vision-api gemini-api large-language-models llms large-vision-language-models gemini-pro

Updated Jan 27, 2024
Python

bowen-upenn / Multi-Agent-VQA

Star

[CVPR 2024 CVinW] Multi-Agent VQA: Exploring Multi-Agent Foundation Models on Zero-Shot Visual Question Answering

open-world multi-agent scene-graph zero-shot-learning visual-question-answering multimodal scene-understanding foundation-models large-language-models large-vision-language-models

Updated Sep 21, 2024
Python

SuperBruceJia / Awesome-Large-Vision-Language-Model

Star

Awesome Large Vision-Language Model: A Curated List of Large Vision-Language Model

machine-learning natural-language-processing computer-vision deep-learning artificial-intelligence artificial-general-intelligence general-artificial-intelligence vision-and-language foundation-models large-language-models large-vision-language-model large-vision-language-models multimodal-large-language-models

Updated Sep 24, 2024

Improve this page

Add a description, image, and links to the large-vision-language-models topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the large-vision-language-models topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

large-vision-language-models

Here are 27 public repositories matching this topic...

BradyFU / Awesome-Multimodal-Large-Language-Models

Paranioar / Awesome_Matching_Pretraining_Transfering

ShareGPT4Omni / ShareGPT4Video

NVlabs / DoRA

burglarhobbit / Awesome-Medical-Large-Language-Models

YingqingHe / Awesome-LLMs-meet-Multimodal-Generation

khuangaf / Awesome-Chart-Understanding

BradyFU / Video-MME

llmbev / talk2bev

tianyi-lab / HallusionBench

ShareGPT4Omni / ShareGPT4V

FudanDISC / ReForm-Eval

MMStar-Benchmark / MMStar

yfzhang114 / LLaVA-Align

SuperBruceJia / Awesome-Mixture-of-Experts

yu-rp / apiprompting

sled-group / moh

praj2408 / End-to-end-LLM-and-image-model-application-using-Gemini-Pro

bowen-upenn / Multi-Agent-VQA

SuperBruceJia / Awesome-Large-Vision-Language-Model

Improve this page

Add this topic to your repo