v26.6.0

构建来源：v26.6.0 分支最新合入 7ef21de。

相比 v26.1.0 的主要变化

新增和完善 GVA（Grouped Value Attention）支持，覆盖 GDN 前反向链路中的多个 AscendC 算子与示例路径。
扩展 Vdim=256 场景支持，包含 chunk_bwd_dv_local、recompute_wu_fwd、prepare_wy_repr_bwd_full 以及 fwd_h/fwd_o 等相关路径。
增强 A5 / 950 适配，补齐 CausalConv1d、CausalConv1d backward、prepare / full / da / dv 等算子在 950 目标上的编译与运行支持。
多个算子补充或优化 fast-kernel-launch（<<<>>>）调用路径，包括 chunk_fwd_o、chunk_gated_delta_rule_fwd_h、chunk_bwd_dqkwg、prepare_wy_repr_bwd_da/full、recompute_wu_fwd、chunk_gated_delta_rule_bwd_dhu 等。
新增 npu_solve_tri / SolveTri 相关 AscendC 算子、文档和测试。
仓库目录重构为 fla.ops.ascendc / fla.ops.triton 分层布局，补充 PR 模板、NPU CI、example ST case 矩阵和一键验证脚本。
新增一键 wheel 打包能力：wheel 内嵌 torch_custom .so、Triton Python 算子与 AscendC OPP 运行产物，安装后可直接 import fla_npu 使用。

本次发布提供 aarch64 wheel，wheel 元数据版本为 26.6.0，tag 为 py3-none-any，产品通过 wheel build tag 区分：

SHA256：

flash_linear_attention_npu-26.6.0-910b.aarch64-py3-none-any.whl: 7844a4affacc230b312401c674d623d2e1fa3ef5d17b21510488e400edf96204
flash_linear_attention_npu-26.6.0-910_93.aarch64-py3-none-any.whl: 483acda74b34545fd76fe5875e92e07f73990dd6e291d6e5c48472851eb3b485
flash_linear_attention_npu-26.6.0-950.aarch64-py3-none-any.whl: b00e52e0d4743f5582ab42f0c5eabe59cb4a8d9ab6d480f4a2d655890dd4e2ea

910b / 910_93 wheel 基于 CANN 8.5.2 构建。
950 wheel 基于 CANN 9.0.0 构建；950 目标需要 CANN 9.0.0 或之后版本。
三个 wheel 均通过 wheel 文件名解析和 metadata 检查：Root-Is-Purelib: true，Tag: py3-none-any。
910b wheel 通过安装、导入、API 检查和 flash_gated_delta_rule.py forward/backward 烟测。
910b wheel 已验证可在 CANN 9.0.0 和 CANN 9.1.0 runtime 下完成 API 与 example 烟测。
三包一键构建耗时约 8 分 28 秒。