Tags · ggml-org/llama.cpp

b6919

scripts : add script to bench models (#16894)

Nov 1, 2025
7fd205a
zip
tar.gz
Downloads

b6916

vendor : update cpp-httplib to 0.27.0 (#16846)

Signed-off-by: Adrien Gallouët <angt@huggingface.co>

Nov 1, 2025
dd5e8ca
zip
tar.gz
Downloads

b6915

mtmd: refactor preprocessing + support max/min pixels (#16878)

* mtmd: refactor preprocessing + support max/min pixels

* fix mlp type

* implement mix/max pixels

* improve hparams

* better image preproc for qwen

* fix

* fix out of bound composite

* fix (2)

* fix token calculation

* get_merge_kernel_size()

* fix llama4 and lfm2

* gonna fix them all

* use simple resize for qwen

* qwen: increase min tokens

* no resize if dst size == src size

* restore to initial min/max tokens value for qwen

Nov 1, 2025
cf659bb
zip
tar.gz
Downloads

b6912

common : allow --system-prompt-file for diffusion-cli (#16903)

Nov 1, 2025
961660b
zip
tar.gz
Downloads

b6910

vulkan: Fix multi_add invalid descriptor usage (#16899)

Nov 1, 2025
5d8bb90
zip
tar.gz
Downloads

b6909

vulkan: fuse mul_mat+add and mul_mat_id+add_id (#16868)

* vulkan: fuse mul_mat+add and mul_mat_id+add_id

The fusion is only applied for the mat-vec mul paths.

* Apply suggestions from code review

Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com>

* fix 32b build

---------

Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com>

Nov 1, 2025
2e76e01
zip
tar.gz
Downloads

b6908

CUDA: Remove unneded bias/gate dims in fused mmvq (#16858)

* CUDA: Remove unneded bias/gate dims in fused mmvq

Pointed out
[here](#16847 (comment))
that only a single value is needed per target col per thread

* Apply suggestions from code review

Co-authored-by: Johannes Gäßler <johannesg@5d6.de>

* Fix "Error 991-D: extra braces are nonstandard" during compilation

---------

Co-authored-by: Johannes Gäßler <johannesg@5d6.de>

Nov 1, 2025
d3dc9dd
zip
tar.gz
Downloads

b6907

refactor : llama-model.cpp (#16252)

* Sqashed: llama-model.cpp refactoring

* Fix formatting of attn / ffn / ffn_moe calls

* Fix import regression / unify spacing in models.h

* totally DID NOT miss those!

* Add missing qwen3vl(moe) models

* Add missing new .cpp files to build

* Remove extra semicolons

* Editor checker

* Update src/models/models.h

Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com>

---------

Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com>

Oct 31, 2025
bea0452
zip
tar.gz
Downloads

b6906

model : Minimax M2 (#16831)

* Model: Minimax M2

* Cleanup

* Cleanup pt. 2

* Cleanup pt. 3

* Update convert_hf_to_gguf_update.py - merge catch blocks

Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com>

* Remove vocab models and test

* Remove all redundant hparam settings covered by TextModel

* Move super to start, don't set block_count

* Update src/llama-model.cpp

Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com>

* Update gguf-py/gguf/constants.py

Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com>

---------

Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com>

Oct 31, 2025
0de0a01
zip
tar.gz
Downloads

b6905

model : add Granite Hybrid nano types (#16896)

Signed-off-by: Giuseppe Scrivano <gscrivan@redhat.com>

Oct 31, 2025
e58d585
zip
tar.gz
Downloads

PreviousNext

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

b6919

b6916

b6915

b6912

b6910

b6909

b6908

b6907

b6906

b6905

Tags: ggml-org/llama.cpp