- **Grid kernel 参数解析不完整** — 使用 grid 编写的 kernel 在输入处通过 `arg0-argn` 指定 grid 索引, post-finalize-llo.txt文件 中缺少 `enqueue_dma` 等指令,指令集不完整。 - **指令串行模拟** — 当前所有指令按串行执行模拟,但实际硬件上可以并行运行。 - **OpStream 种类有限** — 目前仅支持 VPU、DMA 和 Control 三种 stream,需要扩展。 - **Compute bound 判定** — bound 通过计算时间占总时间比例来判断;若无通信,必然是 compute bound。 - **exp TFLOPs 估算不准** — `exp` 指令的 TFLOPs 按 1 来计算,结果偏差较大。 - **Vector load 带宽估算不准** — vector load 当前用 HBM 带宽估算,实际应按 VMEM → 寄存器的带宽计算。 - **Unknown 指令零开销** — 遇到未知指令时直接视为零开销,可能导致低估总时间。
arg0-argn指定 grid 索引, post-finalize-llo.txt文件 中缺少enqueue_dma等指令,指令集不完整。exp指令的 TFLOPs 按 1 来计算,结果偏差较大。