Bug: Command-R-PLUS fails to load

### Name and Version

.\llama-cli --version
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 CUDA devices:
  Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes
version: 4154 (55ed008b)
built with MSVC 19.29.30157.0 for x64

### Which operating systems do you know to be affected?

Windows

### GGML backends

CPU, CUDA

### Hardware

Ryzen 7800x3D + RTX 3090

### Model

[c4ai-command-r-plus](https://huggingface.co/mradermacher/c4ai-command-r-plus-GGUF), specifically IQ3_S quant.

### Steps to Reproduce

Trying to load model "c4ai-command-r-plus" by running following commands:
llama-server.exe -m "G:/llm/c4r+/c4ai-command-r-plus.IQ3_S.gguf"
llama-server.exe -m "G:/llm/c4r+/c4ai-command-r-plus.IQ3_S.gguf" -ngl 30 -c 16384 --cache-type-v q4_0 --cache-type-k q4_0 --no-kv-offload --flash-attn

### First Bad Commit

Can't provide exact commit, but I've isolated this bug to release [b3990](https://github.com/ggerganov/llama.cpp/releases/tag/b3990)
Last release in which model loads is [b3989](https://github.com/ggerganov/llama.cpp/releases/tag/b3989)

### Relevant log output

```shell
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 CUDA devices:
  Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes
build: 4154 (55ed008b) with MSVC 19.29.30157.0 for x64
system info: n_threads = 8, n_threads_batch = 8, total_threads = 16

system_info: n_threads = 8 (n_threads_batch = 8) / 16 | AVX = 1 | AVX_VNNI = 0 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | AVX512_BF16 = 0 | AMX_INT8 = 0 | FMA = 1 | NEON = 0 | SVE = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | RISCV_VECT = 0 | WASM_SIMD = 0 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 |

main: HTTP server is listening, hostname: 127.0.0.1, port: 8080, http threads: 15
main: loading model
llama_load_model_from_file: using device CUDA0 (NVIDIA GeForce RTX 3090) - 22457 MiB free
llama_model_loader: loaded meta data with 39 key-value pairs and 642 tensors from G:/llm/c4r+/c4ai-command-r-plus.IQ3_S.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = command-r
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = C4Ai Command R Plus
llama_model_loader: - kv   3:                         general.size_label str              = 104B
llama_model_loader: - kv   4:                            general.license str              = cc-by-nc-4.0
llama_model_loader: - kv   5:                          general.languages arr[str,10]      = ["en", "fr", "de", "es", "it", "pt", ...
llama_model_loader: - kv   6:                      command-r.block_count u32              = 64
llama_model_loader: - kv   7:                   command-r.context_length u32              = 131072
llama_model_loader: - kv   8:                 command-r.embedding_length u32              = 12288
llama_model_loader: - kv   9:              command-r.feed_forward_length u32              = 33792
llama_model_loader: - kv  10:             command-r.attention.head_count u32              = 96
llama_model_loader: - kv  11:          command-r.attention.head_count_kv u32              = 8
llama_model_loader: - kv  12:                   command-r.rope.freq_base f32              = 75000000.000000
llama_model_loader: - kv  13:     command-r.attention.layer_norm_epsilon f32              = 0.000010
llama_model_loader: - kv  14:                          general.file_type u32              = 26
llama_model_loader: - kv  15:                      command-r.logit_scale f32              = 0.833333
llama_model_loader: - kv  16:                command-r.rope.scaling.type str              = none
llama_model_loader: - kv  17:                       tokenizer.ggml.model str              = gpt2
llama_model_loader: - kv  18:                         tokenizer.ggml.pre str              = command-r
llama_model_loader: - kv  19:                      tokenizer.ggml.tokens arr[str,256000]  = ["<PAD>", "<UNK>", "<CLS>", "<SEP>", ...
llama_model_loader: - kv  20:                  tokenizer.ggml.token_type arr[i32,256000]  = [3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, ...
llama_model_loader: - kv  21:                      tokenizer.ggml.merges arr[str,253333]  = ["Ġ Ġ", "Ġ t", "e r", "i n", "Ġ a...
llama_model_loader: - kv  22:                tokenizer.ggml.bos_token_id u32              = 5
llama_model_loader: - kv  23:                tokenizer.ggml.eos_token_id u32              = 255001
llama_model_loader: - kv  24:            tokenizer.ggml.padding_token_id u32              = 0
llama_model_loader: - kv  25:               tokenizer.ggml.add_bos_token bool             = true
llama_model_loader: - kv  26:               tokenizer.ggml.add_eos_token bool             = false
llama_model_loader: - kv  27:           tokenizer.chat_template.tool_use str              = \n{%- macro json_to_python_type(json_s...
llama_model_loader: - kv  28:                tokenizer.chat_template.rag str              = {{ bos_token }}{% if messages[0]['rol...
llama_model_loader: - kv  29:                   tokenizer.chat_templates arr[str,2]       = ["tool_use", "rag"]
llama_model_loader: - kv  30:                    tokenizer.chat_template str              = {{ bos_token }}{% if messages[0]['rol...
llama_model_loader: - kv  31:               general.quantization_version u32              = 2
llama_model_loader: - kv  32:                                general.url str              = https://huggingface.co/mradermacher/c...
llama_model_loader: - kv  33:              mradermacher.quantize_version str              = 2
llama_model_loader: - kv  34:                  mradermacher.quantized_by str              = mradermacher
llama_model_loader: - kv  35:                  mradermacher.quantized_at str              = 2024-09-01T15:04:31+02:00
llama_model_loader: - kv  36:                  mradermacher.quantized_on str              = db3
llama_model_loader: - kv  37:                         general.source.url str              = https://huggingface.co/CohereForAI/c4...
llama_model_loader: - kv  38:                  mradermacher.convert_type str              = hf
llama_model_loader: - type  f32:  193 tensors
llama_model_loader: - type q4_K:   64 tensors
llama_model_loader: - type q6_K:    1 tensors
llama_model_loader: - type iq3_s:  384 tensors
llm_load_vocab: special_eos_id is not in special_eog_ids - the tokenizer config may be incorrect
llm_load_vocab: special tokens cache size = 37
llm_load_vocab: token to piece cache size = 1.8426 MB
llm_load_print_meta: format           = GGUF V3 (latest)
llm_load_print_meta: arch             = command-r
llm_load_print_meta: vocab type       = BPE
llm_load_print_meta: n_vocab          = 256000
llm_load_print_meta: n_merges         = 253333
llm_load_print_meta: vocab_only       = 0
llm_load_print_meta: n_ctx_train      = 131072
llm_load_print_meta: n_embd           = 12288
llm_load_print_meta: n_layer          = 64
llm_load_print_meta: n_head           = 96
llm_load_print_meta: n_head_kv        = 8
llm_load_print_meta: n_rot            = 128
llm_load_print_meta: n_swa            = 0
llm_load_print_meta: n_embd_head_k    = 128
llm_load_print_meta: n_embd_head_v    = 128
llm_load_print_meta: n_gqa            = 12
llm_load_print_meta: n_embd_k_gqa     = 1024
llm_load_print_meta: n_embd_v_gqa     = 1024
llm_load_print_meta: f_norm_eps       = 1.0e-05
llm_load_print_meta: f_norm_rms_eps   = 0.0e+00
llm_load_print_meta: f_clamp_kqv      = 0.0e+00
llm_load_print_meta: f_max_alibi_bias = 0.0e+00
llm_load_print_meta: f_logit_scale    = 8.3e-01
llm_load_print_meta: n_ff             = 33792
llm_load_print_meta: n_expert         = 0
llm_load_print_meta: n_expert_used    = 0
llm_load_print_meta: causal attn      = 1
llm_load_print_meta: pooling type     = 0
llm_load_print_meta: rope type        = 0
llm_load_print_meta: rope scaling     = none
llm_load_print_meta: freq_base_train  = 75000000.0
llm_load_print_meta: freq_scale_train = 1
llm_load_print_meta: n_ctx_orig_yarn  = 131072
llm_load_print_meta: rope_finetuned   = unknown
llm_load_print_meta: ssm_d_conv       = 0
llm_load_print_meta: ssm_d_inner      = 0
llm_load_print_meta: ssm_d_state      = 0
llm_load_print_meta: ssm_dt_rank      = 0
llm_load_print_meta: ssm_dt_b_c_rms   = 0
llm_load_print_meta: model type       = ?B
llm_load_print_meta: model ftype      = IQ3_S - 3.4375 bpw
llm_load_print_meta: model params     = 103.81 B
llm_load_print_meta: model size       = 42.79 GiB (3.54 BPW)
llm_load_print_meta: general.name     = C4Ai Command R Plus
llm_load_print_meta: BOS token        = 5 '<BOS_TOKEN>'
llm_load_print_meta: EOS token        = 255001 '<|END_OF_TURN_TOKEN|>'
llm_load_print_meta: PAD token        = 0 '<PAD>'
llm_load_print_meta: LF token         = 136 'Ä'
llm_load_print_meta: FIM PAD token    = 0 '<PAD>'
llm_load_print_meta: EOG token        = 0 '<PAD>'
llm_load_print_meta: EOG token        = 255001 '<|END_OF_TURN_TOKEN|>'
llm_load_print_meta: max token length = 1024
D:\a\llama.cpp\llama.cpp\ggml\src\ggml.c:2020: GGML_ASSERT(ggml_can_repeat(b, a)) failed
```


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Bug: Command-R-PLUS fails to load #10472

Name and Version

Which operating systems do you know to be affected?

GGML backends

Hardware

Model

Steps to Reproduce

First Bad Commit

Relevant log output

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Bug: Command-R-PLUS fails to load #10472

Description

Name and Version

Which operating systems do you know to be affected?

GGML backends

Hardware

Model

Steps to Reproduce

First Bad Commit

Relevant log output

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions