[Feature] Graph mode for deepseek v2/v3 by SidaoY · Pull Request #347 · vllm-project/vllm-ascend

SidaoY · 2025-03-18T03:17:38Z

Graph mode for deepseek v2/v3

Signed-off-by: SidaoY <1024863041@qq.com>

Signed-off-by: MengqingCao <cmq0113@163.com>

Signed-off-by: SidaoY <1024863041@qq.com>

SidaoY · 2025-03-19T06:29:22Z

CI failed due to network issues.

… larger bs Signed-off-by: linfeng-yuan <1102311262@qq.com>

Signed-off-by: linfeng-yuan <1102311262@qq.com>

… into graph_mode_v073

Signed-off-by: Yizhou Liu <liuyizhou5@h-partners.com>

Signed-off-by: linfeng-yuan <1102311262@qq.com>

feat: support torchrun for multinode dp

ganyi1996ppo · 2025-03-27T01:47:13Z

@SidaoY Please also file a PR to master branch

Signed-off-by: mengwei805 <mengwei25@huawei.com>

Signed-off-by: Yizhou Liu <liuyizhou5@h-partners.com>

… into graph_mode_v073

Signed-off-by: libaokui <libaokui@huawei.com>

* Add support for pd separation * make patch for pd separation based on vllm-ascend --------- Co-authored-by: q30056305 <qianzihui@huawei.com>

Signed-off-by: Yizhou Liu <liuyizhou5@h-partners.com>

… models, change rope for q Signed-off-by: Yizhou Liu <liuyizhou5@h-partners.com>

…ronment variable Signed-off-by: Yizhou Liu <liuyizhou5@h-partners.com>

…te torch.compile Signed-off-by: Yizhou Liu <liuyizhou5@h-partners.com>

Signed-off-by: linfeng-yuan <1102311262@qq.com>

tt545571022 · 2025-04-09T06:10:07Z

I try to run example/offline_inference_npu.py with graph mode using 029f304 branch，But I encountered the following error:

[rank0]: Traceback (most recent call last):
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/torch_npu/dynamo/torchair/_utils/error_code.py", line 43, in wapper
[rank0]:     return func(*args, **kwargs)
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/torch_npu/dynamo/torchair/npu_fx_compiler.py", line 322, in __call__
[rank0]:     return self._get_compiled_gm(gm, example_inputs)
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/torch_npu/dynamo/torchair/npu_fx_compiler.py", line 358, in _get_compiled_gm
[rank0]:     return _GmRunner(self._gen_compiled_gm(gm, example_inputs))
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/torch_npu/dynamo/torchair/npu_fx_compiler.py", line 376, in _gen_compiled_gm
[rank0]:     concrete_graph: ConcreteGraphBase = _NpuGraphConverter(
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/torch_npu/dynamo/torchair/npu_fx_compiler.py", line 152, in run
[rank0]:     super().run(*args, **kwargs)
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/torch/fx/interpreter.py", line 146, in run
[rank0]:     self.env[node] = self.run_node(node)
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/torch_npu/dynamo/torchair/npu_fx_compiler.py", line 146, in run_node
[rank0]:     return super().run_node(n)
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/torch/fx/interpreter.py", line 203, in run_node
[rank0]:     return getattr(self, n.op)(n.target, args, kwargs)
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/torch_npu/dynamo/torchair/npu_fx_compiler.py", line 119, in inner
[rank0]:     result = f(self, target, args, kwargs)
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/torch_npu/dynamo/torchair/npu_fx_compiler.py", line 206, in call_function
[rank0]:     return self._wrap('call_function')(target, args, kwargs)
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/torch_npu/dynamo/torchair/npu_fx_compiler.py", line 193, in inner
[rank0]:     npu_outputs = self._graph.parse_node(target, args_npu, kwargs_npu, meta_outputs)
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/torch_npu/dynamo/torchair/_ge_concrete_graph/continguous_utils.py", line 152, in wrapper
[rank0]:     return func(self, target, args_new, kwargs_new, meta_outputs)
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/torch_npu/dynamo/torchair/_ge_concrete_graph/fx2ge_converter.py", line 838, in parse_node
[rank0]:     raise RuntimeError(f"Unsupported torch op {target} by ge")
[rank0]: RuntimeError: Unsupported torch op auto_functionalized by ge

[rank0]: While executing %auto_functionalized : [num_users=2] = call_function[target=torch.ops.higher_order.auto_functionalized](args = (atb._npu_rotary_embedding.default,), kwargs = {positions: %arg16_1, query: %view_2, key: %view_3, head_size: 64, cos_sin_cache: %arg15_1, is_neox_style: False})
[rank0]: Original traceback:
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/vllm/model_executor/models/deepseek_v2.py", line 677, in forward
[rank0]:     hidden_states = self.model(input_ids, positions, kv_caches,
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/vllm/model_executor/models/deepseek_v2.py", line 633, in forward
[rank0]:     hidden_states, residual = layer(positions, hidden_states,
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/vllm/model_executor/models/deepseek_v2.py", line 550, in forward
[rank0]:     hidden_states = self.self_attn(
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/vllm/model_executor/models/deepseek_v2.py", line 469, in forward
[rank0]:     return self.mla_attn(hidden_states_or_q_c, kv_c_normed, k_pe, kv_cache,
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/vllm_ascend/ops/attention.py", line 65, in attention_forward
[rank0]:     return self.impl.forward(self, query, key, value, self_kv_cache,
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/vllm_ascend/attention.py", line 1115, in forward
[rank0]:     q_pe, k_pe = self.rotary_emb(attn_metadata.input_positions,
[rank0]:   File "/root/anaconda3/envs/asd-graph/lib/python3.10/site-packages/vllm_ascend/ops/rotary_embedding.py", line 77, in rope_deepseek_forward_oot
[rank0]:     torch_npu._npu_rotary_embedding(

how should I solve this problem？
environment：
910B2C
pip list | grep vllm
vllm 0.7.3+empty
vllm_ascend 0.1.dev97+g029f304
and the docker is from quay.io/ascend/vllm-ascend:v0.7.3rc1
@SidaoY @MengqingCao

Signed-off-by: mengwei805 <mengwei25@huawei.com>

github-actions bot added module:ops module:core labels Mar 18, 2025

SidaoY force-pushed the graph_mode_v073 branch 7 times, most recently from f030e15 to 8026c32 Compare March 18, 2025 09:10

Feat: Graph mode for deepseek v2/v3.

c52d5d8

Signed-off-by: SidaoY <1024863041@qq.com>

SidaoY force-pushed the graph_mode_v073 branch 5 times, most recently from cc64a96 to 3453767 Compare March 19, 2025 01:30

Feat: Graph mode for deepseek v2/v3.

a8f7628

Signed-off-by: SidaoY <1024863041@qq.com>

SidaoY force-pushed the graph_mode_v073 branch from 3453767 to a8f7628 Compare March 19, 2025 01:42

MengqingCao and others added 4 commits March 19, 2025 01:53

code format

ef947ec

Signed-off-by: MengqingCao <cmq0113@163.com>

code format

9e3b74e

Signed-off-by: MengqingCao <cmq0113@163.com>

code format

029f304

Signed-off-by: MengqingCao <cmq0113@163.com>

Add kv_cache format cast for graph mode.

a1b9d74

Signed-off-by: SidaoY <1024863041@qq.com>

SidaoY force-pushed the graph_mode_v073 branch from f78b610 to a1b9d74 Compare March 19, 2025 03:43

SidaoY force-pushed the graph_mode_v073 branch from b1b53a7 to a1b9d74 Compare March 20, 2025 06:20

linfeng-yuan and others added 6 commits March 20, 2025 14:34

feat: add padding mechanism to avoid recompiling given longer seq and…

0376b42

… larger bs Signed-off-by: linfeng-yuan <1102311262@qq.com>

fix: fix the incompatibility with compilation level = 0

07bd5fa

Signed-off-by: linfeng-yuan <1102311262@qq.com>

Merge branch 'graph_mode_v073' of https://github.com/SidaoY/vllm-ascend…

574fb22

… into graph_mode_v073

fix: resolved accuracy issue; a significant improvement.

2afd2b1

Signed-off-by: Yizhou Liu <liuyizhou5@h-partners.com>

[Feat] add expert tensor parallel size to model parallel initialization

012c541

Signed-off-by: Yizhou Liu <liuyizhou5@h-partners.com>

fix: fix multi-card problems and add mark_static for other cards

6d1d309

Signed-off-by: linfeng-yuan <1102311262@qq.com>

Merge pull request #3 from SidaoY/graph_mode_v073_wj

9400ca5

feat: support torchrun for multinode dp

MTP graph mode padding

e50feda

Signed-off-by: mengwei805 <mengwei25@huawei.com>

mengwei805 force-pushed the graph_mode_v073 branch from a0ae60b to e50feda Compare March 27, 2025 06:34

Yizhou Liu and others added 6 commits March 27, 2025 15:25

feat: implement fused_experts_with_mc2

3d960d6

Signed-off-by: Yizhou Liu <liuyizhou5@h-partners.com>

Merge branch 'graph_mode_v073' of https://github.com/SidaoY/vllm-ascend…

6216246

… into graph_mode_v073

[Fix] Fix init problem

c48c41f

Signed-off-by: libaokui <libaokui@huawei.com>

Add support for pd separation (#4)

1f4e182

* Add support for pd separation * make patch for pd separation based on vllm-ascend --------- Co-authored-by: q30056305 <qianzihui@huawei.com>

[Fix] Fix comm problem for non-MC2 scenario

d1dd99a

Signed-off-by: Yizhou Liu <liuyizhou5@h-partners.com>

[Fix] Refactor final hidden states handling in attention and deepseek…

bac6f81

… models, change rope for q Signed-off-by: Yizhou Liu <liuyizhou5@h-partners.com>

yiz-liu force-pushed the graph_mode_v073 branch from 3be9b45 to bac6f81 Compare March 31, 2025 02:37

[Fix] Update deepseek model to conditionally enable MC2 based on envi…

0a4ea03

…ronment variable Signed-off-by: Yizhou Liu <liuyizhou5@h-partners.com>

github-actions bot added the module:quantization label Apr 1, 2025

[Feat] Mileston: a small step for a man. Enable MC2 and fully integra…

d32cc09

…te torch.compile Signed-off-by: Yizhou Liu <liuyizhou5@h-partners.com>

yiz-liu force-pushed the graph_mode_v073 branch from 57e9f65 to d32cc09 Compare April 1, 2025 10:23

linfeng-yuan and others added 4 commits April 2, 2025 17:51

adapt moe_gating_topK operation in graph mode

0115440

Signed-off-by: linfeng-yuan <1102311262@qq.com>

[tool] Add profiling decorator to measure decode time

b327964

[fix] Fix accuracy issue in MC2

efd846a

feat: support npu_prefetch in graph mode

bdcc98a

NeverRaR and others added 2 commits April 9, 2025 17:26

[Feat] support capture model while warming up model (#5)

89c3c88

[perf] enable NZ format support in QuantBatchMatmul for int8 mode

18b5d70

mengwei805 force-pushed the graph_mode_v073 branch 2 times, most recently from 30aee2a to f6b64bc Compare April 10, 2025 11:20

add MTP support w8a8 quant

f5804d2

Signed-off-by: mengwei805 <mengwei25@huawei.com>

mengwei805 force-pushed the graph_mode_v073 branch from f6b64bc to f5804d2 Compare April 10, 2025 11:37

libaokui-1 added 2 commits April 11, 2025 19:39

性能优化

8de71d8

加入profile_run关闭开关

a0604c7

wangxiyuan mentioned this pull request Apr 27, 2025

[Release]: vLLM Ascend v0.7.3 release checklist #644

Closed

46 tasks

SidaoY closed this Apr 27, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Comments

[Feature] Graph mode for deepseek v2/v3#347

[Feature] Graph mode for deepseek v2/v3#347
SidaoY wants to merge 37 commits intovllm-project:v0.7.3-devfrom
SidaoY:graph_mode_v073

SidaoY commented Mar 18, 2025

Uh oh!

SidaoY commented Mar 19, 2025

Uh oh!

ganyi1996ppo commented Mar 27, 2025

Uh oh!

tt545571022 commented Apr 9, 2025 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

13 participants

Comments

Conversation

SidaoY commented Mar 18, 2025

Uh oh!

SidaoY commented Mar 19, 2025

Uh oh!

ganyi1996ppo commented Mar 27, 2025

Uh oh!

tt545571022 commented Apr 9, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

13 participants

tt545571022 commented Apr 9, 2025 •

edited

Loading