dgemm_release_V1.0: 普通整合版本,支持大部分输入形状,支持四种转置模式,实现 C = A x B + C dgemm_release_V1.1: 相比V1.0,增加了lda, ldb, ldc参数
sgemm_release_V1.3.1: 普通整合版本,支持大部分输入形状,支持四种转置模式,实现 C = A x B + C sgemm_release_V1.3.2: 相比V1.3.1,实现了 C = alpha*A x B + beta
irr_shortA_dgemm_release_V0.0:shortA型不规则矩阵乘,支持大部分输入形状,支持四种转置模式,实现 C = A x B + C irr_thinB_dgemm_release_V0.0:thinB型不规则矩阵乘,支持大部分输入形状,支持四种转置模式,实现 C = A x B + C
irr_shortA_sgemm_release_V0.0:shortA型不规则矩阵乘,支持大部分输入形状,支持四种转置模式,实现 C = A x B + C irr_thinB_sgemm_release_V0.0:thinB型不规则矩阵乘,支持大部分输入形状,支持四种转置模式,实现 C = A x B + C irr_thinB_sgemm_release_V1.2:thinB型不规则矩阵乘,支持大部分输入形状,支持四种转置模式,实现 C =alpha*AxB + beta
(更详细的理论分析和性能测试报告放在 /相关说明 路径下)
transpose: 支持 单精度/双精度 任意形状的矩阵转置操作。
stencil_2d_V1.2: 通过 指令级并行+数据预取 优化 Jacobi 迭代。