- 12/31/2025: MindIE SD提供稀疏Attention计算能力
- 12/25/2025:vLLM Omni x MindIE SD 实现 Qwen-Image-Edit-2511 / Qwen-Image-Layered 昇腾原生高性能推理
- 11/30/2025:MindIE SD 正式宣布开源并面向公众开放!会议日历
MindIE SD(Mind Inference Engine Stable Diffusion)是 MindIE 的视图生成推理模型套件,它的目标是为稳定扩散(Stable Diffusion, SD)系列大模型提供在昇腾硬件及其软件栈上的端到端推理解决方案。该软件系统内部集成了各功能模块,并对外提供统一的编程接口。
以下是两个 MindIE-SD 代码仓库智能体,只需点击 "Ask AI" 徽章,即可进入其专属页面,有效缓解源码阅读的困难,开启智能代码学习与问答体验!它们将帮助您更深入地理解 MindIE-SD 的运行原理,并协助解决使用过程中遇到的问题与错误。
|- benchmarks // 提供核心kernel的性能看护和compilation的加速效果看护
|- build // 编译脚本
|- csrc // 昇腾kernel代码位置
|- docs // 项目文档
|- examples
|- cache // cache特性样例:使能cache进行模型加速
|- service // 服务化样例:将命令行模式改造成服务化方式
|- wan // 模型推理样例:模型推理命令以及参数配置
|- mindiesd
|- cache_agent // 高阶特性:提供cache能力
|- compilation // 提供编译能力,基于fx graph实现自动改图(可依旧保持单算子下发)。
|- eplb // 高阶特性:提供专家并行负载均衡能力
|- layers // 提供基础的pytorch的layer接口
|- quantization // 高阶特性:提供量化能力
|- utils // 核心工具模块,提供共享的基础设施服务和通用功能
|- tests // 测试用例MindIE SD 架构和关键特性详见架构介绍。 MindIE SD 支持魔乐社区、vLLM Omni、Cache Dit等框架/社区,现已支持主流扩散模型,对于部分 diffusers 模型进行了昇腾硬件亲和的加速改造,详见模型/框架支持情况,模型也支持手动改造,详见 examples。
本章节以 Wan2.1 模型为例,展示如何使用 MindIE SD 进行文本生成视频,关于该模型的更多推理内容请参见 Modelers - MindIE/Wan2.1。
开始推理前,请先完成环境准备和 MindIE SD 安装。可结合以下文档阅读:
安装模型所需依赖并执行推理:
git clone https://modelers.cn/MindIE/Wan2.1.git && cd Wan2.1
pip install -r requirements.txt
# Wan2.1-T2V-14B 8 卡推理
bash examples/wan/infer_t2v.sh --model_base="/home/{用户名}/Wan2.1-T2V-14B"下面以 Wan2.1 模型为例,展示在 Atlas 800I A2 (1*64G) 机器上单卡和多卡实现不同加速特性的加速效果。
其中Cache表示使用AttentionCache特性,TP表示使用Tensor Parallel特性,FA稀疏表示使用FA稀疏中的RainFusion特性,CFG表示使用CFG并行特性,Ulysses表示使用Ulysses并行加速特性,模型生成的视频的HW为832480,sample_steps 为50。
| Baseline | + Cache 加速比1.6 | + Cache 加速比2.0 | + Cache 加速比2.4 |
|---|---|---|---|
| 860.2s | 631.7s 1.36x | 541.8s 1.59x | 516.9s *1.66x |
![]() |
![]() |
![]() |
![]() |
| 模型 | 卡数 | 并行策略 | 视频输出分辨率 | 算子优化 | cache 算法优化 | FA 稀疏 | 50 步 E2E 耗时(s) | 加速比 |
|---|---|---|---|---|---|---|---|---|
| Wan2.1 | 2 | VAE | 832*480 | √ | √ | √ | 548.8 | 1.02x |
| Wan2.1 | 2 | TP | 832*480 | √ | √ | √ | 502.8 | 1.12x |
| Wan2.1 | 2 | CFG | 832*480 | √ | √ | √ | 332.6 | 1.69x |
| Wan2.1 | 2 | Ulysses | 832*480 | √ | √ | √ | 327.6 | *1.71x |
注:* 号表示最优加速效果。
| 模型 | 卡数 | 并行策略 | 视频输出分辨率 | 算子优化 | cache 算法优化 | FA 稀疏 | 50 步 E2E 耗时(s) | 加速比 |
|---|---|---|---|---|---|---|---|---|
| Wan2.1 | 4 | TP=4, VAE | 832*480 | √ | √ | √ | 204.0 | 2.754x |
| Wan2.1 | 4 | CFG=2, TP=2, VAE | 832*480 | √ | √ | √ | 175.8 | 3.19x |
| Wan2.1 | 4 | Ulysses=4, VAE | 832*480 | √ | √ | √ | 151.1 | 3.71x |
| Wan2.1 | 4 | CFG=2, Ulysses=2, VAE | 832*480 | √ | √ | √ | 147.9 | *3.79x |
| Wan2.1 | 8 | TP=8, VAE | 832*480 | √ | √ | √ | 141.5 | 3.96x |
| Wan2.1 | 8 | CFG=2, TP=4, VAE | 832*480 | √ | √ | √ | 102.9 | 5.45x |
| Wan2.1 | 8 | Ulysses=8, VAE | 832*480 | √ | √ | √ | 78.1 | 7.18x |
| Wan2.1 | 8 | CFG=2, Ulysses=4, VAE | 832*480 | √ | √ | √ | 76.4 | *7.34x |
注:* 号表示最优加速效果。
@misc{RainFusion2.0@2025,
title = {RainFusion2.0: Temporal-Spatial Awareness and Hardware-Efficient Block-wise Sparse Attention},
url = {https://gitcode.com/Ascend/MindIE-SD.git},
note = {Open-source software available at https://gitcode.com/Ascend/MindIE-SD.git},
author = {Aiyue Chen and others},
year = {2025}
}




