Skip to content

v26.6.0

Latest

Choose a tag to compare

@weinachuan weinachuan released this 04 Jul 14:14
7ef21de

v26.6.0

构建来源:v26.6.0 分支最新合入 7ef21de

相比 v26.1.0 的主要变化

  • 新增和完善 GVA(Grouped Value Attention)支持,覆盖 GDN 前反向链路中的多个 AscendC 算子与示例路径。
  • 扩展 Vdim=256 场景支持,包含 chunk_bwd_dv_localrecompute_wu_fwdprepare_wy_repr_bwd_full 以及 fwd_h/fwd_o 等相关路径。
  • 增强 A5 / 950 适配,补齐 CausalConv1d、CausalConv1d backward、prepare / full / da / dv 等算子在 950 目标上的编译与运行支持。
  • 多个算子补充或优化 fast-kernel-launch(<<<>>>)调用路径,包括 chunk_fwd_ochunk_gated_delta_rule_fwd_hchunk_bwd_dqkwgprepare_wy_repr_bwd_da/fullrecompute_wu_fwdchunk_gated_delta_rule_bwd_dhu 等。
  • 新增 npu_solve_tri / SolveTri 相关 AscendC 算子、文档和测试。
  • 仓库目录重构为 fla.ops.ascendc / fla.ops.triton 分层布局,补充 PR 模板、NPU CI、example ST case 矩阵和一键验证脚本。
  • 新增一键 wheel 打包能力:wheel 内嵌 torch_custom .so、Triton Python 算子与 AscendC OPP 运行产物,安装后可直接 import fla_npu 使用。

Wheel 包

本次发布提供 aarch64 wheel,wheel 元数据版本为 26.6.0,tag 为 py3-none-any,产品通过 wheel build tag 区分:

  • flash_linear_attention_npu-26.6.0-910b.aarch64-py3-none-any.whl
  • flash_linear_attention_npu-26.6.0-910_93.aarch64-py3-none-any.whl
  • flash_linear_attention_npu-26.6.0-950.aarch64-py3-none-any.whl

SHA256:

  • flash_linear_attention_npu-26.6.0-910b.aarch64-py3-none-any.whl: 7844a4affacc230b312401c674d623d2e1fa3ef5d17b21510488e400edf96204
  • flash_linear_attention_npu-26.6.0-910_93.aarch64-py3-none-any.whl: 483acda74b34545fd76fe5875e92e07f73990dd6e291d6e5c48472851eb3b485
  • flash_linear_attention_npu-26.6.0-950.aarch64-py3-none-any.whl: b00e52e0d4743f5582ab42f0c5eabe59cb4a8d9ab6d480f4a2d655890dd4e2ea

构建与验证

  • 910b / 910_93 wheel 基于 CANN 8.5.2 构建。
  • 950 wheel 基于 CANN 9.0.0 构建;950 目标需要 CANN 9.0.0 或之后版本。
  • 三个 wheel 均通过 wheel 文件名解析和 metadata 检查:Root-Is-Purelib: trueTag: py3-none-any
  • 910b wheel 通过安装、导入、API 检查和 flash_gated_delta_rule.py forward/backward 烟测。
  • 910b wheel 已验证可在 CANN 9.0.0 和 CANN 9.1.0 runtime 下完成 API 与 example 烟测。
  • 三包一键构建耗时约 8 分 28 秒。