v26.6.0
构建来源:v26.6.0 分支最新合入 7ef21de。
相比 v26.1.0 的主要变化
- 新增和完善 GVA(Grouped Value Attention)支持,覆盖 GDN 前反向链路中的多个 AscendC 算子与示例路径。
- 扩展 Vdim=256 场景支持,包含
chunk_bwd_dv_local、recompute_wu_fwd、prepare_wy_repr_bwd_full以及fwd_h/fwd_o等相关路径。 - 增强 A5 / 950 适配,补齐 CausalConv1d、CausalConv1d backward、prepare / full / da / dv 等算子在 950 目标上的编译与运行支持。
- 多个算子补充或优化 fast-kernel-launch(
<<<>>>)调用路径,包括chunk_fwd_o、chunk_gated_delta_rule_fwd_h、chunk_bwd_dqkwg、prepare_wy_repr_bwd_da/full、recompute_wu_fwd、chunk_gated_delta_rule_bwd_dhu等。 - 新增
npu_solve_tri/ SolveTri 相关 AscendC 算子、文档和测试。 - 仓库目录重构为
fla.ops.ascendc/fla.ops.triton分层布局,补充 PR 模板、NPU CI、example ST case 矩阵和一键验证脚本。 - 新增一键 wheel 打包能力:wheel 内嵌 torch_custom
.so、Triton Python 算子与 AscendC OPP 运行产物,安装后可直接import fla_npu使用。
Wheel 包
本次发布提供 aarch64 wheel,wheel 元数据版本为 26.6.0,tag 为 py3-none-any,产品通过 wheel build tag 区分:
flash_linear_attention_npu-26.6.0-910b.aarch64-py3-none-any.whlflash_linear_attention_npu-26.6.0-910_93.aarch64-py3-none-any.whlflash_linear_attention_npu-26.6.0-950.aarch64-py3-none-any.whl
SHA256:
flash_linear_attention_npu-26.6.0-910b.aarch64-py3-none-any.whl:7844a4affacc230b312401c674d623d2e1fa3ef5d17b21510488e400edf96204flash_linear_attention_npu-26.6.0-910_93.aarch64-py3-none-any.whl:483acda74b34545fd76fe5875e92e07f73990dd6e291d6e5c48472851eb3b485flash_linear_attention_npu-26.6.0-950.aarch64-py3-none-any.whl:b00e52e0d4743f5582ab42f0c5eabe59cb4a8d9ab6d480f4a2d655890dd4e2ea
构建与验证
- 910b / 910_93 wheel 基于 CANN 8.5.2 构建。
- 950 wheel 基于 CANN 9.0.0 构建;950 目标需要 CANN 9.0.0 或之后版本。
- 三个 wheel 均通过 wheel 文件名解析和 metadata 检查:
Root-Is-Purelib: true,Tag: py3-none-any。 - 910b wheel 通过安装、导入、API 检查和
flash_gated_delta_rule.pyforward/backward 烟测。 - 910b wheel 已验证可在 CANN 9.0.0 和 CANN 9.1.0 runtime 下完成 API 与 example 烟测。
- 三包一键构建耗时约 8 分 28 秒。