test1111111111111112

Follow

test1111111111111112

Follow

Popular repositories Loading

llama-cpp-turboquant-gemma4 llama-cpp-turboquant-gemma4 Public

TurboQuant llama.cpp fork with optimized turbo4 kernels for Gemma 4 D=256/512 heads — lazy K/V, batch decode, warp-cooperative write. 120 t/s with 3.8x KV compression on RTX 3090.

C++ 4