## 1 安装相关的包 

In [3]:
!pip install mlc-ai-nightly -f https://mlc.ai/wheels

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in links: https://mlc.ai/wheels
Collecting mlc-ai-nightly
  Downloading https://github.com/mlc-ai/utils/releases/download/v0.9.dev0/mlc_ai_nightly-0.12.dev665%2Bgdc912c8f2-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (51.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.7/51.7 MB[0m [31m13.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: mlc-ai-nightly
Successfully installed mlc-ai-nightly-0.12.dev665+gdc912c8f2


## 2 张量程序抽象 - TensorIR

In [4]:
import numpy as np
import tvm
from tvm.ir.module import IRModule
from tvm.script import tir as T

**TensorIR** 是TVM中使用的张量程序抽象。
矩阵A和B进行下面的张量计算：

* $Y_{i,j} = ∑_kA_{i,k} × B_{k,j}$
* $C_{i,j} = relu(Y_{i,j}) = max(Y_{i,j},0)$

使用numpy的实现如下：

In [22]:
dtype="float32"
a_np = np.random.rand(128, 128).astype(dtype)
b_np = np.random.rand(128, 128).astype(dtype)
c_mm_relu = np.maximum(a_np @ b_np, 0)
print(c_mm_relu)

[[30.30494  34.57876  36.26884  ... 35.283287 30.934914 35.274033]
 [33.829838 36.73033  38.386436 ... 36.54005  33.407047 37.380318]
 [29.350658 30.632877 33.236816 ... 32.653572 29.457397 32.983253]
 ...
 [30.833279 33.047626 33.271797 ... 34.206074 28.692577 34.247944]
 [28.001947 32.409687 33.02208  ... 33.403084 29.833324 32.671097]
 [31.265854 35.161953 36.716747 ... 34.57196  33.030727 35.781326]]


为了说明细节，我们写了一个低级Numpy，做了如下约定：
* 使用循环而不是数组函数
* 使用numpy.empty显式地分配数组

In [None]:
def lnumpy_mm_relu(A: np.ndarray, B: np.ndarray, C: np.ndarray):
    Y = np.empty((128, 128), dtype="float32")
    for i in range(128):
        for j in range(128):
            for k in range(128):
                if k == 0:
                    Y[i, j] = 0
                Y[i, j] = Y[i, j] + A[i, k] * B[k, j]
    for i in range(128):
      for j in range(128):
        C[i, j] = max(Y[i, j], 0)

In [None]:
c_np = np.empty((128, 128), dtype=dtype)
lnumpy_mm_relu(a_np, b_np, c_np)
np.testing.assert_allclose(c_mm_relu, c_np, rtol=1e-5)

上面代码展示了如何在实现低级别的mm_relu，示例代码包含实际计算中用到的所有可能元素：

* 多维缓冲区
* 在数组维度上循环
* 在循环下执行的计算语句

下面我们使用TensorIR实现mm_relu

In [None]:
@tvm.script.ir_module
class MyModule:
  @T.prim_func
  # 分配缓冲区
  def mm_relu(A: T.Buffer((128, 128), "float32"),
        B:T.Buffer((128, 128), "float32"),
        C:T.Buffer((128, 128), "float32")):
    T.func_attr({"global_symbol": "mm_relu", "tir.noalias":True})
    Y = T.alloc_buffer((128, 128), dtype="float32")
    for i, j , k in T.grid(128, 128, 128):
      # 计算块
      with T.block("Y"):
        vi = T.axis.spatial(128, i)
        vj = T.axis.spatial(128, j)
        vk = T.axis.reduce(128, k)
        with T.init():
          Y[vi, vj] = Y[vi, vj] + A[vi, vk] * B[vk, vj]
    for i, j in T.grid(128, 128):
      with T.block("C"):
        vi = T.axis.spatial(128, i)
        vj = T.axis.spatial(128, j)
        C[vi, vj] = T.max(Y[vi, vj], T.float32(0))

In [None]:
type(MyModule)

tvm.ir.module.IRModule

In [None]:
type(MyModule["mm_relu"])

tvm.tir.function.PrimFunc

## 3.函数参数与缓冲区

函数参数对应于与Numpy函数上的同一组参数

In [None]:
# TensorIR
def mm_relu(A: T.Buffer((128, 128), "float32"),
            B: T.Buffer((128, 128), "float32"),
            C: T.Buffer((128, 128), "float32")):
    ...
# numpy
def lnumpy_mm_relu(A: np.ndarray, B: np.ndarray, C: np.ndarray):
    ...

TensorIR在中间结果分配中也使用了缓冲区类型

In [None]:
# TensorIR
Y = T.alloc_buffer((128, 128), dtype="float32")
# numpy
Y = np.empty((128, 128), dtype="float32")

循环迭代
T.grid 是 TensorIR 中的语法糖，供我们书写多个嵌套的迭代器

In [None]:
# TensorIR
for i, j, k in T.grid(128, 128, 128):
# numpy
for i in range(128):
    for j in range(128):
        for k in range(128):

主要区别之一来自计算语句。TensorIR 包含一个名为 T.block 的额外结构。

In [None]:
# TensorIR
with T.block("Y"):
    vi = T.axis.spatial(128, i)
    vj = T.axis.spatial(128, j)
    vk = T.axis.reduce(128, k)
    with T.init():
        Y[vi, vj] = T.float32(0)
    Y[vi, vj] = Y[vi, vj] + A[vi, vk] * B[vk, vj]

# coressponding numpy code
vi, vj, vk = i, j, k
if vk == 0:
    Y[vi, vj] = 0
Y[vi, vj] = Y[vi, vj] + A[vi, vk] * B[vk, vj]

块 是 TensorIR 中的基本计算单位。一个块包含一组块轴（vi、vj、vk）和围绕它们定义的计算。

In [None]:
vi = T.axis.spatial(128, i)
vj = T.axis.spatial(128, j)
vk = T.axis.reduce(128, k)

上面三行声明了关于块轴的关键性质，
```python
[block_axis] = T.axis.[axis_type]([axis_range], [mapped_value])
```
* 定义了 vi、vj、vk 应被绑定到的位置（在本例中为 i、j 和 k）；

* 声明了 vi、vj、vk 的原始范围（T.axis.spatial(128, i) 中的 128）；

* 声明了块轴的属性（spatial, reduce）。

![](https://mlc.ai/zh/_images/tensor_ir_block_axis.png)



vi,vj 为空间轴，直接对应于块写入的缓冲区域的开始，涉及规约的轴vk被命名为规约轴。

In [None]:
# SSR means the properties of each axes are "spatial", "spatial", "reduce"
vi, vj, vk = T.axis.remap("SSR", [i, j, k])

相当于


In [None]:
vi = T.axis.spatial(range_of_i, i)
vj = T.axis.spatial(range_of_j, j)
vk = T.axis.reduce(range_of_k, k)

## 4.函数属性和装饰器

In [None]:
T.func_attr({"global_symbol": "mm_relu", "tir.noalias": True})

global_symbol 对应函数名，tir.noalias 是一个属性，表示所有的缓冲存储器不重叠。

@tvm.script.ir_module 表示 MyModule 是一个 IRModule。IRModule 是在机器学习编译中保存张量函数集合的容器对象。

一个IRModule 可以包含多个张量函数


一个 TensorIR 程序示例，并涵盖了大部分元素，包括：

* 参数和中间临时内存中的缓冲区声明；

* For 循环迭代；

* 块和块轴属性。

## 5.变换

In [7]:
@tvm.script.ir_module
class MyModule:
    @T.prim_func
    def mm_relu(A: T.Buffer((128, 128), "float32"),
                B: T.Buffer((128, 128), "float32"),
                C: T.Buffer((128, 128), "float32")):
        T.func_attr({"global_symbol": "mm_relu", "tir.noalias": True})
        Y = T.alloc_buffer((128, 128), dtype="float32")
        for i, j, k in T.grid(128, 128, 128):
            with T.block("Y"):
                vi, vj, vk = T.axis.remap("SSR", [i, j, k])
                with T.init():
                    Y[vi, vj] = T.float32(0)
                Y[vi, vj] = Y[vi, vj] + A[vi, vk] * B[vk, vj]
        for i, j in T.grid(128, 128):
            with T.block("C"):
                vi, vj = T.axis.remap("SS", [i, j])
                C[vi, vj] = T.max(Y[vi, vj], T.float32(0))

In [8]:
import IPython
IPython.display.Code(MyModule.script(), language="python")

In [10]:
sch = tvm.tir.Schedule(MyModule)

In [11]:
block_Y = sch.get_block("Y", func_name="mm_relu")
i, j, k = sch.get_loops(block_Y)

第一个变换将j拆分成两个循环，内部循环长度为4

In [12]:
j0, j1 = sch.split(j, factors=[None, 4])

In [13]:
IPython.display.Code(sch.mod.script(), language="python")

变换第一步，创建了两个新的循环，j_0和j_1, 分别对应范围32和4。下面重新排列这两个循环

In [18]:
sch.reorder(j0, k, j1)
IPython.display.Code(sch.mod.script(), language="python")

## 6.获取另一个变体

In [19]:
block_C = sch.get_block("C", "mm_relu")
sch.reverse_compute_at(block_C, j0)
IPython.display.Code(sch.mod.script(), language="python")

至此，我们将规约初始化和更新放在一个块体中。
循环变换之后，将Y元素的初始化跟归约分开。

In [20]:
sch.decompose_reduction(block_Y, k)
IPython.display.Code(sch.mod.script(), language="python")

变换后的代码类似于下面的low level的Numpy代码

In [23]:
def lnumpy_mm_relu_v3(A: np.ndarray, B: np.ndarray, C: np.ndarray):
    Y = np.empty((128, 128), dtype="float32")
    for i in range(128):
        for j0 in range(32):
            # Y_init
            for j1 in range(4):
                j = j0 * 4 + j1
                Y[i, j] = 0
            # Y_update
            for k in range(128):
                for j1 in range(4):
                    j = j0 * 4 + j1
                    Y[i, j] = Y[i, j] + A[i, k] * B[k, j]
            # C
            for j1 in range(4):
                j = j0 * 4 + j1
                C[i, j] = max(Y[i, j], 0)

c_np = np.empty((128, 128), dtype=dtype)
lnumpy_mm_relu_v3(a_np, b_np, c_np)
np.testing.assert_allclose(c_mm_relu, c_np, rtol=1e-5)

## 7.运行IRModule

In [24]:
rt_lib = tvm.build(MyModule, target="llvm")

In [25]:
a_nd = tvm.nd.array(a_np)
b_nd = tvm.nd.array(b_np)
c_nd = tvm.nd.empty((128, 128), dtype="float32")
type(c_nd)

tvm.runtime.ndarray.NDArray

In [26]:
func_mm_relu = rt_lib["mm_relu"]
func_mm_relu(a_nd, b_nd, c_nd)
np.testing.assert_allclose(c_mm_relu, c_nd.numpy(), rtol=1e-5)

变换后的MyModule

In [28]:
rt_lib_after = tvm.build(sch.mod, target="llvm")
rt_lib_after["mm_relu"](a_nd, b_nd, c_nd)
np.testing.assert_allclose(c_mm_relu, c_nd.numpy(), rtol=1e-5)

比较一下两者的时间差

In [29]:
f_timer_before = rt_lib.time_evaluator("mm_relu", tvm.cpu())
print("Time cost of MyModule %g sec" % f_timer_before(a_nd, b_nd, c_nd).mean)
f_timer_after = rt_lib_after.time_evaluator("mm_relu", tvm.cpu())
print("Time cost of transformed sch.mod %g sec" % f_timer_after(a_nd, b_nd, c_nd).mean)

Time cost of MyModule 0.00777025 sec
Time cost of transformed sch.mod 0.000878042 sec


两个代码运行时间有较大的差异，回忆一下两个代码

变换前

In [30]:
import IPython
IPython.display.Code(MyModule.script(), language="python")

变换后的代码

In [31]:
IPython.display.Code(sch.mod.script(), language="python")

![](https://mlc.ai/zh/_images/cpu_arch.png)

CPU有多级缓存，每个缓存的读取速度不一样，需要将数据提取到缓存中，然后CPU才能访问它。
重要的是，访问已经在缓存中的数据要快得多。CPU 采用的一种策略是获取彼此更接近的数据。 当我们读取内存中的一个元素时，它会尝试将附近的元素（更正式的名称为“缓存行”）获取到缓存中。 因此，当你读取下一个元素时，它已经在缓存中。 因此，具有连续内存访问的代码通常比随机访问内存不同部分的代码更快
![](https://mlc.ai/zh/_images/tensor_func_loop_order.png)
j1 这一迭代产生了对 B 元素的连续访问。具体来说，它意味着在 j1=0 和 j1=1 时我们读取的值彼此相邻。这可以让我们拥有更好的缓存访问行为。此外，我们使 C 的计算更接近 Y，从而实现更好的缓存行为。

尝试不同的j_factor,看如何影响代码性能

In [33]:
def transform(mod, jfactor):
  sch = tvm.tir.Schedule(mod)
  block_Y = sch.get_block("Y", func_name="mm_relu")
  i, j, k = sch.get_loops(block_Y)
  j0, j1 = sch.split(j, factors=[None, jfactor])
  sch.reorder(j0, k, j1)
  block_C = sch.get_block("C", "mm_relu")
  sch.reverse_compute_at(block_C, j0)
  return sch.mod

In [36]:
mod_transformed = transform(MyModule, jfactor=8)

In [41]:
rt_lib_transformed = tvm.build(mod_transformed, "llvm")
f_timer_transformed = rt_lib_transformed.time_evaluator("mm_relu", tvm.cpu())
print("Time cost of transformed mod_transformed %g sec" % f_timer_transformed(a_nd, b_nd, c_nd).mean)


Time cost of transformed mod_transformed 0.00315104 sec


In [39]:
mod_transformed = transform(MyModule, jfactor=4)


In [40]:
rt_lib_transformed = tvm.build(mod_transformed, "llvm")
f_timer_transformed = rt_lib_transformed.time_evaluator("mm_relu", tvm.cpu())
print("Time cost of transformed mod_transformed %g sec" % f_timer_transformed(a_nd, b_nd, c_nd).mean)


Time cost of transformed mod_transformed 0.00128655 sec


In [42]:
mod_transformed = transform(MyModule, jfactor=2)

In [43]:
rt_lib_transformed = tvm.build(mod_transformed, "llvm")
f_timer_transformed = rt_lib_transformed.time_evaluator("mm_relu", tvm.cpu())
print("Time cost of transformed mod_transformed %g sec" % f_timer_transformed(a_nd, b_nd, c_nd).mean)


Time cost of transformed mod_transformed 0.00257888 sec


## 8. 创建TensorIR的方法

### 8.1 通过TVMScript创建TensorIR

### 8.2 使用张量表达式创建TensorIR

In [46]:
from tvm import te
A = te.placeholder((128, 128), "float32", name="A")
B = te.placeholder((128, 128), "float32", name="B")
k = te.reduce_axis((0, 128), "k")
Y = te.compute((128, 128), lambda i, j: te.sum(A[i, k] * B[k, j], axis=k), name="Y")
C = te.compute((128, 128), lambda i, j : te.max(Y[i,j], 0), name="C")

In [47]:
te_func = te.create_prim_func([A,B,C]).with_attr({"global_symbol": "mm_relu"})
MyModuleFromTE = tvm.IRModule({"mm_relu":te_func})
IPython.display.Code(MyModuleFromTE.script(), language="python")

In [48]:
rt_lib_from_te = tvm.build(MyModuleFromTE, "llvm")

In [49]:
rt_lib_from_te["mm_relu"](a_nd, b_nd, c_nd)
np.testing.assert_allclose(c_mm_relu, c_nd.numpy(), rtol=1e-5)

TensorIR 开发过程
![](https://mlc.ai/zh/_images/mlc_process.png)