demo对应的材料
+ https://mlc.ai/zh/chapter_tensor_program/case_study.html

In [76]:
import numpy as np
import tvm
from tvm.ir.module import IRModule
from tvm.script import tir as T
import IPython
from tvm import te

来看一个例子，对于两个大小为128x128的矩阵A和B，进行如下两步张量运算
$$
Y_{i, j} = \sum_k A_{i, k} \times B_{k, j} \\
C_{i, j} = \mathbb{relu}(Y_{i, j}) = \mathbb{max}(Y_{i, j}, 0)
$$
使用numpy数组中的计算实现这两个操作

In [54]:
dtype = "float32"
a_np = np.random.rand(128, 128).astype(dtype)
b_np = np.random.rand(128, 128).astype(dtype)
# a @ b is equivalent to np.matmul(a, b)
c_mm_relu = np.maximum(a_np @ b_np, 0)

下面是实现mm_relu操作的一种方式

In [55]:
def lnumpy_mm_relu(A: np.ndarray, B: np.ndarray, C: np.ndarray):
    # 使用的缓冲区
    Y = np.empty((128, 128), dtype="float32")    
    for i in range(128):
        for j in range(128):
            for k in range(128):
                if k == 0:
                    Y[i, j] = 0
                Y[i, j] = Y[i, j] + A[i, k] * B[k, j]
    
    for i in range(128):
        for j in range(128):
            C[i, j] = max(Y[i, j], 0)

In [56]:
c_np = np.empty((128, 128), dtype=dtype)
lnumpy_mm_relu(a_np, b_np, c_np)
np.testing.assert_allclose(c_mm_relu, c_np, rtol=1e-5)

上述函数展示了这些计算的实现中使用的所有可能的元素
+ 多维缓冲区
+ 在数组维度上的循环
+ 在循环下执行的计算语句
下面是一种TVMScript的实现，这是一种嵌入在Python AST中的特定领域的方言

In [57]:
@tvm.script.ir_module
class MyModule:
    @T.prim_func
    def mm_relu(A: T.Buffer[(128, 128), "float32"],
                B: T.Buffer[(128, 128), "float32"],
                C: T.Buffer[(128, 128), "float32"],):
        # tir.noalias表示所有的缓冲区都不重叠
        T.func_attr({"global_symbol": "mm_relu", "tir.noalias": True})
        # 使用的缓冲区
        Y = T.alloc_buffer((128, 128), dtype="float32")
        for i, j, k in T.grid(128, 128, 128):
            with T.block("Y"):
                # 128指明外面的循环迭代器需要128
                vi = T.axis.spatial(128, i)
                vj = T.axis.spatial(128, j)
                vk = T.axis.reduce(128, k)
                # 在初始化阶段，将Y置为0
                with T.init():
                    Y[vi, vj] = T.float32(0)
                Y[vi, vj] = Y[vi, vj] + A[vi, vk] * B[vk, vj]
        for i, j in T.grid(128, 128):
            with T.block("C"):
                vi = T.axis.spatial(128, i)
                vj = T.axis.spatial(128, j)
                C[vi, vj] = T.max(Y[vi, vj], T.float32(0))

基本思想，使用`block`表示出可能的计算单元
+ `spatial axis`称为**空间轴**，会直接出现在计算结果的某一个维度上
+ `reduce axis`称为**规约轴**，不会直接出现在结果的某个维度上，但是为了得到结果需要遍历其
为什么要声明`spatial axis`和`reduce axis`，为了**给之后的分析和优化提供更多的信息**，`block`是一个自洽的计算，表示需要做很么样的计算，以及循环、外部的数据以来等信息，为后续做优化做准备
+ 这些附加信息也有助于我们进行机器学习编译分析，大部分时候在空间轴上做并行化，在规约轴上进行并行化将需要特定的策略

一些语法糖，可以直接将其与外部的迭代器绑定

In [58]:
@tvm.script.ir_module
class MyModuleWithAxisRemapSugar:
    @T.prim_func
    def mm_relu(A: T.Buffer[(128, 128), "float32"],
                B: T.Buffer[(128, 128), "float32"],
                C: T.Buffer[(128, 128), "float32"]):
        T.func_attr({"global_symbol": "mm_relu", "tir.noalias": True})
        Y = T.alloc_buffer((128, 128), dtype="float32")
        for i, j, k in T.grid(128, 128, 128):
            with T.block("Y"):
                vi, vj, vk = T.axis.remap("SSR", [i, j, k])
                with T.init():
                    Y[vi, vj] = T.float32(0)
                Y[vi, vj] = Y[vi, vj] + A[vi, vk] * B[vk, vj]
        for i, j in T.grid(128, 128):
            with T.block("C"):
                vi, vj = T.axis.remap("SS", [i, j])
                C[vi, vj] = T.max(Y[vi, vj], T.float32(0))

`@tvm.script.ir_module`和`@T.prim_func`这两个装饰器用于表示对应部分的类型。

`@tvm.script.ir_module`表示`MyModule`是一个`IRModule`。`IRModule`是在机器学习编译中保存张量函数集合的容器对象。

In [59]:
type(MyModule)

tvm.ir.module.IRModule

In [60]:
type(MyModule["mm_relu"])

tvm.tir.function.PrimFunc

两个张量函数的IRModule

In [61]:
@tvm.script.ir_module
class MyModuleWithTwoFunctions:
    @T.prim_func
    def mm(A: T.Buffer[(128, 128), "float32"],
           B: T.Buffer[(128, 128), "float32"],
           Y: T.Buffer[(128, 128), "float32"]):
        T.func_attr({"global_symbol": "mm", "tir.noalias": True})
        for i, j, k in T.grid(128, 128, 128):
            with T.block("Y"):
                vi, vj, vk = T.axis.remap("SSR", [i, j, k])
                with T.init():
                    Y[vi, vj] = T.float32(0)
                Y[vi, vj] = Y[vi, vj] + A[vi, vk] * B[vk, vj]

    @T.prim_func
    def relu(A: T.Buffer[(128, 128), "float32"],
             B: T.Buffer[(128, 128), "float32"]):
        T.func_attr({"global_symbol": "relu", "tir.noalias": True})
        for i, j in T.grid(128, 128):
            with T.block("B"):
                vi, vj = T.axis.remap("SS", [i, j])
                B[vi, vj] = T.max(A[vi, vj], T.float32(0))

下面关注元张量函数的变换，不同的实现有不同的性能

下面考虑一个numpy的实现

In [62]:
def lnumpy_mm_relu_v2(A: np.ndarray, B: np.ndarray, C: np.ndarray):
    Y = np.empty((128, 128), dtype="float32")
    for i in range(128):
        for j0 in range(32):
            for k in range(128):
                for j1 in range(4):
                    j = j0 * 4 + j1
                    if k == 0:
                        Y[i, j] = 0
                    Y[i, j] = Y[i, j] + A[i, k] * B[k, j]
    for i in range(128):
        for j in range(128):
            C[i, j] = max(Y[i, j], 0)

c_np = np.empty((128, 128), dtype=dtype)
lnumpy_mm_relu_v2(a_np, b_np, c_np)
np.testing.assert_allclose(c_mm_relu, c_np, rtol=1e-5)

In [63]:
IPython.display.Code(MyModule.script(), language="python")

创建一个以给定的MyModule作为输入的Schedule辅助类，并获取对块Y和相应循环的引用

In [64]:
sch = tvm.tir.Schedule(MyModule)
block_Y = sch.get_block("Y", func_name="mm_relu")
i, j, k = sch.get_loops(block_Y)

准备执行变换，首先将循环j分成两个循环，内部循环的长度为4

In [65]:
j0, j1 = sch.split(j, factors=[None, 4])

查看存储在sch.mod中的变换结果

In [66]:
IPython.display.Code(sch.mod.script(), language="python")

上面的变换创建了两个新的循环，`j_0`和`j_1`，分别对应范围32和4,下一步是重新排序这两个循环

下面将`j0`，`k`，`j1`进行了重排

In [67]:
sch.reorder(j0, k, j1)
IPython.display.Code(sch.mod.script(), language="python")

下面继续进行变换，首先使用原语`reverse_compute_at`将块C移动到Y的内循环里，因为在这里`block C`可以和`block Y`融合在一起计算

In [68]:
block_C = sch.get_block("C", "mm_relu")
# 将block C移动到循环j0下面
sch.reverse_compute_at(block_C, j0)
IPython.display.Code(sch.mod.script(), language="python")

目前为止都将**初始化和更新**放在一个块体中，这种组合形式为循环变换带来了便利，在循环变换之后，可以**将Y的初始化与归约更新分开**

In [69]:
sch.decompose_reduction(block_Y, k)
IPython.display.Code(sch.mod.script(), language="python")

上面的代码类似于下面的numpy实现


In [70]:
def lnumpy_mm_relu_v3(A: np.ndarray, B: np.ndarray, C: np.ndarray):
    Y = np.empty((128, 128), dtype="float32")
    for i in range(128):
        for j0 in range(32):
            # Y_init
            for j1 in range(4):
                j = j0 * 4 + j1
                Y[i, j] = 0
            # Y_update
            for k in range(128):
                for j1 in range(4):
                    j = j0 * 4 + j1
                    Y[i, j] = Y[i, j] + A[i, k] * B[k, j]
            # C
            for j1 in range(4):
                j = j0 * 4 + j1
                C[i, j] = max(Y[i, j], 0)

c_np = np.empty((128, 128), dtype=dtype)
lnumpy_mm_relu_v3(a_np, b_np, c_np)
np.testing.assert_allclose(c_mm_relu, c_np, rtol=1e-5)

构建与运行

In [71]:
rt_lib = tvm.build(MyModule, target="llvm")
a_nd = tvm.nd.array(a_np)
b_nd = tvm.nd.array(b_np)
c_nd = tvm.nd.empty((128, 128), dtype="float32")
type(c_nd)

tvm.runtime.ndarray.NDArray

原始的程序

In [72]:
func_mm_relu = rt_lib["mm_relu"]
func_mm_relu(a_nd, b_nd, c_nd)

np.testing.assert_allclose(c_mm_relu, c_nd.numpy(), rtol=1e-5)

构建后的程序

In [73]:
rt_lib_after = tvm.build(sch.mod, target="llvm")
rt_lib_after["mm_relu"](a_nd, b_nd, c_nd)
np.testing.assert_allclose(c_mm_relu, c_nd.numpy(), rtol=1e-5)

计算两者的时间差

In [74]:
f_timer_before = rt_lib.time_evaluator("mm_relu", tvm.cpu())
print("Time cost of MyModule %g sec" % f_timer_before(a_nd, b_nd, c_nd).mean)
f_timer_after = rt_lib_after.time_evaluator("mm_relu", tvm.cpu())
print("Time cost of transformed sch.mod %g sec" % f_timer_after(a_nd, b_nd, c_nd).mean)

Time cost of MyModule 0.00190783 sec
Time cost of transformed sch.mod 0.000267543 sec


上述两个案例的性能差距由缓存一致性带来，第二种方式的cache miss更低

下面来讨论张量表达式(TensorIR)

In [77]:
A = te.placeholder((128, 128), "float32", name="A")
B = te.placeholder((128, 128), "float32", name="B")
k = te.reduce_axis((0, 128), "k")
Y = te.compute((128, 128), lambda i, j: te.sum(A[i, k] * B[k, j], axis=k), name="Y")
C = te.compute((128, 128), lambda i, j: te.max(Y[i, j], 0), name="C")

上述更高级别的抽象表示的函数如下所示

In [78]:
te_func = te.create_prim_func([A, B, C]).with_attr({"global_symbol": "mm_relu"})
MyModuleFromTE = tvm.IRModule({"mm_relu": te_func})
IPython.display.Code(MyModuleFromTE.script(), language="python")