fix debug build

microsoft · May 1, 2024 · 93a6f63 · 93a6f63
1 parent 38b03b7
commit 93a6f63
Showing 1 changed file with 0 additions and 1 deletion.
diff --git a/onnxruntime/contrib_ops/cuda/sparse/sparse_attention.cc b/onnxruntime/contrib_ops/cuda/sparse/sparse_attention.cc
@@ -176,7 +176,6 @@ Status SparseAttention<T>::ComputeInternal(OpKernelContext* context) const {
   output_shape[2] = static_cast<int64_t>(parameters.hidden_size);
   Tensor* output = context->Output(0, output_shape);
 
-  assert(parameters.past_kv_format == AttentionQkvFormat::Q_K_V_BNSH);
   std::vector<int64_t> present_dims = {
       parameters.batch_size, parameters.kv_num_heads, parameters.max_sequence_length, parameters.head_size};
   TensorShape present_shape(present_dims);