-
Notifications
You must be signed in to change notification settings - Fork 2.4k
README
wangzhaode edited this page Jun 5, 2026
·
3 revisions
本目录汇总 MNN 在不同硬件 / 算子上的性能优化实现说明,作为 review、扩展与移植的参考。
| 文档 | 内容 |
|---|---|
arm_low_bit_gemm.md |
ARM CPU 低 bit (W2 / W3 / W4 / W8) GEMM kernel 数据排布与汇编优化 |
gemm_speed_benchmark.md |
GEMM 性能基准测试(多后端、多精度、LLM 典型尺寸) |
gemv_bw_benchmark.md |
GEMV 带宽 microbenchmark (LLM decode 带宽 roofline,CPU/Metal,w8/w4/w3/w2) |
后续新增:LinearAttention CPU 优化、TurboQuant KV Cache、CUDA Blackwell sm_120 适配 等,欢迎按相同结构补充。