add support for moondream vision language model #6899

vikhyat · 2024-04-25T08:15:25Z

This required making the following changes to the CLIP model:

Support for patch embedding bias.
Make class embedding and pre-layernorm optional.
Add support for post-layernorm.

I verified that the LLaVA model still works as expected after this change.

This required making the following changes to the CLIP model: 1. Support for patch embedding bias. 2. Make class embedding and pre-layernorm optional. 3. Add support for post-layernorm.

examples/llava/clip.cpp

CoderCowMoo · 2024-04-26T15:13:49Z

Would this be a general support for all SigLIP based encoders or just for moondream2?

* add support for moondream vision language model This required making the following changes to the CLIP model: 1. Support for patch embedding bias. 2. Make class embedding and pre-layernorm optional. 3. Add support for post-layernorm. * Update examples/llava/clip.cpp --------- Co-authored-by: Georgi Gerganov <ggerganov@gmail.com>

This broke the server's LLaVA support in a non-obvious way. See ggerganov/llama.cpp#6899 See ggerganov/llama.cpp#7060

This reverts commit 46e12c4.

…el (ggerganov#6899)"" This reverts commit 9da243b.

* Revert "Revert "llava : add support for moondream vision language model (#6899)"" This reverts commit 9da243b. * Fix num_positions and embeddings initialization

vikhyat added 2 commits April 25, 2024 01:13

add support for moondream vision language model

7c50cb0

This required making the following changes to the CLIP model: 1. Support for patch embedding bias. 2. Make class embedding and pre-layernorm optional. 3. Add support for post-layernorm.

Merge branch 'master' into master

d1d176e

ggerganov approved these changes Apr 25, 2024

View reviewed changes

examples/llava/clip.cpp Outdated Show resolved Hide resolved

Update examples/llava/clip.cpp

3d77120

ggerganov merged commit 46e12c4 into ggerganov:master Apr 25, 2024
26 of 31 checks passed

cjpais mentioned this pull request Apr 27, 2024

Support for InternVL #6803

Open

LostRuins mentioned this pull request May 4, 2024

llava 1.5 invalid output after first inference (llamacpp server) #7060

Closed

SignalRT mentioned this pull request May 4, 2024

May 2024 Binary Update (Take 2) SciSharp/LLamaSharp#712

Merged

9 tasks

jart added a commit to Mozilla-Ocho/llamafile that referenced this pull request May 7, 2024

Revert moondream vision language model support

aa8c01a

This broke the server's LLaVA support in a non-obvious way. See ggerganov/llama.cpp#6899 See ggerganov/llama.cpp#7060

ggerganov added a commit that referenced this pull request May 8, 2024

Revert "llava : add support for moondream vision language model (#6899)"

9da243b

This reverts commit 46e12c4.

abetlen added a commit to abetlen/llama.cpp that referenced this pull request May 9, 2024

Revert "Revert "llava : add support for moondream vision language mod…

77740fb

…el (ggerganov#6899)"" This reverts commit 9da243b.

abetlen mentioned this pull request May 9, 2024

Fix moondream support #7163

Merged

ggerganov pushed a commit that referenced this pull request May 10, 2024

llava : fix moondream support (#7163)

d11afd6

* Revert "Revert "llava : add support for moondream vision language model (#6899)"" This reverts commit 9da243b. * Fix num_positions and embeddings initialization

cmp-nct mentioned this pull request Jun 20, 2024

Bug: moondream2 inference not correct (severe quality degradation compared to reference) #8037

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

add support for moondream vision language model #6899

add support for moondream vision language model #6899

vikhyat commented Apr 25, 2024

CoderCowMoo commented Apr 26, 2024

add support for moondream vision language model #6899

add support for moondream vision language model #6899

Conversation

vikhyat commented Apr 25, 2024

CoderCowMoo commented Apr 26, 2024