Skip to content

Ascend/MindIE-SD

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

155 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

MindIE SD

📢 Latest News

  • 12/31/2025: MindIE SD提供稀疏Attention计算能力
  • 12/25/2025:vLLM Omni x MindIE SD 实现 Qwen-Image-Edit-2511 / Qwen-Image-Layered 昇腾原生高性能推理
  • 11/30/2025:MindIE SD 正式宣布开源并面向公众开放!会议日历

🚀 简介

MindIE SD(Mind Inference Engine Stable Diffusion)是 MindIE 的视图生成推理模型套件,它的目标是为稳定扩散(Stable Diffusion, SD)系列大模型提供在昇腾硬件及其软件栈上的端到端推理解决方案。该软件系统内部集成了各功能模块,并对外提供统一的编程接口。

以下是两个 MindIE-SD 代码仓库智能体,只需点击 "Ask AI" 徽章,即可进入其专属页面,有效缓解源码阅读的困难,开启智能代码学习与问答体验!它们将帮助您更深入地理解 MindIE-SD 的运行原理,并协助解决使用过程中遇到的问题与错误。

Zread     DeepWiki

🔍目录结构

|- benchmarks         // 提供核心kernel的性能看护和compilation的加速效果看护
|- build              // 编译脚本
|- csrc               // 昇腾kernel代码位置
|- docs               // 项目文档
|- examples
  |- cache            // cache特性样例:使能cache进行模型加速
  |- service          // 服务化样例:将命令行模式改造成服务化方式
  |- wan              // 模型推理样例:模型推理命令以及参数配置
|- mindiesd
  |- cache_agent      // 高阶特性:提供cache能力
  |- compilation      // 提供编译能力,基于fx graph实现自动改图(可依旧保持单算子下发)。
  |- eplb             // 高阶特性:提供专家并行负载均衡能力
  |- layers           // 提供基础的pytorch的layer接口
  |- quantization     // 高阶特性:提供量化能力
  |- utils            // 核心工具模块,提供共享的基础设施服务和通用功能
|- tests              // 测试用例

🚀 架构介绍及关键特性

MindIE SD 架构和关键特性详见架构介绍。 MindIE SD 支持魔乐社区、vLLM Omni、Cache Dit等框架/社区,现已支持主流扩散模型,对于部分 diffusers 模型进行了昇腾硬件亲和的加速改造,详见模型/框架支持情况,模型也支持手动改造,详见 examples。

⚡️ 快速开始

本章节以 Wan2.1 模型为例,展示如何使用 MindIE SD 进行文本生成视频,关于该模型的更多推理内容请参见 Modelers - MindIE/Wan2.1

开始推理前,请先完成环境准备和 MindIE SD 安装。可结合以下文档阅读:

安装模型所需依赖并执行推理:

git clone https://modelers.cn/MindIE/Wan2.1.git && cd Wan2.1
pip install -r requirements.txt

# Wan2.1-T2V-14B 8 卡推理
bash examples/wan/infer_t2v.sh --model_base="/home/{用户名}/Wan2.1-T2V-14B"

🌟 加速特性效果展示

下面以 Wan2.1 模型为例,展示在 Atlas 800I A2 (1*64G) 机器上单卡和多卡实现不同加速特性的加速效果。

其中Cache表示使用AttentionCache特性,TP表示使用Tensor Parallel特性,FA稀疏表示使用FA稀疏中的RainFusion特性,CFG表示使用CFG并行特性,Ulysses表示使用Ulysses并行加速特性,模型生成的视频的HW为832480,sample_steps 为50。

单卡加速效果

cache 加速效果

Baseline + Cache 加速比1.6 + Cache 加速比2.0 + Cache 加速比2.4
860.2s 631.7s 1.36x 541.8s 1.59x 516.9s *1.66x

并行策略效果

双卡单个并行策略效果

模型 卡数 并行策略 视频输出分辨率 算子优化 cache 算法优化 FA 稀疏 50 步 E2E 耗时(s) 加速比
Wan2.1 2 VAE 832*480 548.8 1.02x
Wan2.1 2 TP 832*480 502.8 1.12x
Wan2.1 2 CFG 832*480 332.6 1.69x
Wan2.1 2 Ulysses 832*480 327.6 *1.71x

注:* 号表示最优加速效果。

多卡并行策略组合效果

模型 卡数 并行策略 视频输出分辨率 算子优化 cache 算法优化 FA 稀疏 50 步 E2E 耗时(s) 加速比
Wan2.1 4 TP=4, VAE 832*480 204.0 2.754x
Wan2.1 4 CFG=2, TP=2, VAE 832*480 175.8 3.19x
Wan2.1 4 Ulysses=4, VAE 832*480 151.1 3.71x
Wan2.1 4 CFG=2, Ulysses=2, VAE 832*480 147.9 *3.79x
Wan2.1 8 TP=8, VAE 832*480 141.5 3.96x
Wan2.1 8 CFG=2, TP=4, VAE 832*480 102.9 5.45x
Wan2.1 8 Ulysses=8, VAE 832*480 78.1 7.18x
Wan2.1 8 CFG=2, Ulysses=4, VAE 832*480 76.4 *7.34x

注:* 号表示最优加速效果。

📝 Paper Citations

@misc{RainFusion2.0@2025,
    title = {RainFusion2.0: Temporal-Spatial Awareness and Hardware-Efficient Block-wise Sparse Attention},
    url = {https://gitcode.com/Ascend/MindIE-SD.git},
    note = {Open-source software available at https://gitcode.com/Ascend/MindIE-SD.git},
    author = {Aiyue Chen and others},
    year = {2025}
    }

💖 联系我们

About

No description, website, or topics provided.

Resources

License

Code of conduct

Contributing

Security policy

Stars

Watchers

Forks

Packages

 
 
 

Contributors