# 深度学习编译

随着行业的发展，特别是在终端设备上的推理需求逐渐增大，采用终端上的 GPU、DSP、ASIC等硬件设备计算的需求愈发广泛。另一方面，用于开发应用的上层框架也不断丰富。

丰富的上层框架应用和底层硬件设备带来了一个问题——每一种上层空间都要尝试适配主流的硬件设备，每一种底层硬件设备上都要适配主流的框架应用。这种工程任务是如此的繁重，因而对产业中所有的角色都是不利的。

针对这样的问题，多种中间层被提出。这样的中间层可以支持多个应用框架和多个设备（起码目标是这样）。其特别之处在于框架和设备都只需要对接到这样的中间层，而不需要对接到每个框架或设备，大大降低了开发成本。[2]



有了一个性能良好的模型，如何高效地实现则首先涉及到深度学习编译。深度学习模型是一个由各种算子，比如卷积算子，组成的计算图。深度学习编译则是优化这个计算图以及图中的各个算子和数据流，然后将其部署到各种设备上。[1]

图优化编译技术：以 Intel nGraph 和 TVM 为代表。强调自身采用特定的中间表示，对前端框架传递过来的计算图做计算优化，优化结果编译后在传递给后端设备。这种方法汲取了 LLVM 的设计思路。[2]

## 表述[3]

第一点的方便部署其实是伪命题，因为任何一个推理引擎都可以做到这一点，而且做得更好。在本文的设想中，模型部署这一当下有时候会造成麻烦的问题，会在整个生态完善后，变得像写 Hello World 那样轻而易举——我是指像用 Python 那样。

至于第二点，计算性能好往往需要足够的信息，一方面是模型的，另一方面是硬件信息，同时拥有这两点信息的是系统偏底层的部分。结合各类虚拟机，各类尝试抽象计算的系统设计，这样的编译功能应当可以放置到驱动中去。在底层抽象中，或许不一定是像 Android NNAPI 这样的表示，而是类程序语义的表示——表达能力更强，计算粒度更小的表示。

从用户价值来看，一个好的生态是不应当让用户考虑「编译」这种过程的，因为它干扰了用户尝试新想法的流程，这在深度学习环境中显得尤为重要——用户执行的是算法，而不是程序。基于这个逻辑，XLA 在易用性方面是优于 TVM 的。当然，系统总是可以持续更新迭代的，低端设备用 AOT ，其他用 JIT 或许是一个可期的状态，且对用户透明。




## 问题

首先以编译为核心存在一个重大的问题——可能只适用于 CPU 这类能使用 LLVM 作为后端代码生成的，或者支持 OpenCL 的 GPU 硬件设备，对于产业中不断涌现的以寒武纪 MLU 和 Google TPU 为代表的深度学习硬件加速器不太友好。[2]

## More

XLA（Accelerated Linear Algebra，加速线性代数）是一种优化TensorFlow计算的编译器。 XLA（加速线性代数）是为优化TensorFlow计算的特定领域编译器。它可以提高服务器和移动平台的速度、改进内存使用、提升便携性（或者说是可移植性）。 XLA框架是目前处于开发中的实验性项目。
https://www.tensorflow.org/xla/overview

Glow是一个机器学习的编译器和执行引擎，它可以面向多种硬件, 是基于LLVM项目进行了开发的。
https://github.com/pytorch/glow

[1]: https://cs.nju.edu.cn/lands/research4.html?0.9399114761232291
[2]: https://jackwish.net/2018/on-android-nnapi.html
[3]: https://jackwish.net/2019/on-deep-learning-system.html
[4]: https://zhuanlan.zhihu.com/p/101544149s