# TensorFlow模型的跨平台部署

## 背景

由于公司由于业务发展需要，结合公司现有技术栈、性能等因素考虑，现需要将在Python投研环境通过TensorFlow训练的模型移植到C++实盘生产环境，连调研带采坑实现前前后后花了三四天，先将整个过程与遇到的坑整理为笔记，方便以后查阅。

## 可选方案

事实上部署通过TensorFlow训练完成的模型方案有很多，仅仅是官网就提供了三种方案可选。

- 使用其他语言的TensorFlow    
包括C、C++、Java、Go、Swift等等。但是需要注意的是，存在一些令人困惑的现象，例如，如果你希望用C语言部署你的模型，那么你可能不用花很大的精力在编译TensorFlow在C中的动态链接库，如果你使用OSX，你甚至可以直接通过`brew install libtensorflow`一行命令完成动态链接库的安装与环境变量的导出。但是，官网没有提供任何C语言版本TensorFlow的文档，你只能通过动态库的头文件简短的注释去揣测每个API使用方法。而另一方面，使用C++版本的TensorFlow你需要手动从源代码尝试编译C++的动态库，这会遇到很多奇怪的问题，尤其当你是OSX用户时，这点之后的笔记会详细展开。由于Java、Go、Swift等没有尝试，这里就不再赘述了。

- 使用saved_model_cli
官网提供了较为详细的关于这个命令行工具的使用方法，大致是，如果你的系统Python环境，或者虚拟Python环境已经安装了TensorFlow，那么你可以通过这个工具轻而易举地从通过`SavedModelBuilder`这个模块保存的模型恢复并使用它在生产环境下工作，它同时支持通过命令行参数加载`.npy`类型的numpy数组直接作为模型的输入。由于官网有很详细的中文文档，所以这里也就不再赘述了。

- 使用TensorFlow Serving
Serving是一个TensorFlow专门用来做模型部署的模块，但是目前官网提供的文档还是英文的，在写这篇笔记时我还没有看完，按照计划应该是明天调研完毕。它支持将模型服务化，像一个Web服务一样运行在某个端口，然后通过gRPC与遵从RESTful-API的接口直接调用模型的预测功能，但是我还没有看完，希望明天能将这部分补全。

## 方案一：使用其他语言的TensorFlow

### 从源代码编译TensorFlow的C++动态链接库

首先，需要从GitHub上的 [TensorFlow](https://github.com/tensorflow/tensorflow) 仓库Clone源代码到目标机器，命令：
```
git clone git@github.com:tensorflow/tensorflow.git
```

#### 对应于 Ubuntu 16.04

然后，请确保以下依赖的对应版本已经正确安装：
- eigen >= 3.3.3   
  对于eigen，推荐通过源码安装，首先下载源码压缩包并解压：
  ```
  wget http://bitbucket.org/eigen/eigen/get/3.3.4.zip
  ```
  然后通过cmake生成MakeFile，注意eigen不允许In-Source builds，需要创建一个文件夹，可以起名为build，然后运行cmake命令：
  ```
  mkdir build && cd build
  cmake .. && make
  make install
  ```
- protobuf == 3.6.0    
  对于Protobuf的版本是3.6.0，是在
  ```
  tensorflow-master/tensorflow/contrib/cmake/external/protobuf.cmake
  ```
  这个目录指定的，如果没有这个文件，请先运行`cmake .`指令。
  对于protobuf的安装依然是推荐源码安装，安装过程基本同上：
  ```
  wget https://github.com/google/protobuf/releases/download/v3.6.0/protobuf-all-3.6.0.zip
  ```
  然后一次运行配置，编译、安装。
  ```
  ./configure
  make
  make install
  ```

当然，在当前系统Python环境下，或者虚拟Python环境下的依赖也是必须的。
```
sudo apt-get install python-numpy python-dev python-pip python-wheel
```
如果以上指令出现权限问题或者环境变量未导出请自行考虑解决。

#### 对应于 OSX 10.13.6

流程完全相同，有几处不同如下：
- eigen的安装请通过以下指令安装：
```
brew install --HEAD eigen
```
经过多次采坑和StackOverflow，确认是3.3.3和3.3.4版本的eigen存在一个C++模板偏特化的Bug，没有没有在Release版本中解决，请安装以上命令安装eigen，可以节省你一天时间。

当然，在当前系统Python环境下，或者虚拟Python环境下的依赖也是必须的。
```
pip install six numpy wheel 
brew install coreutils
```
如果以上指令出现权限问题或者环境变量未导出请自行考虑解决。

#### 安装 Bazel

这里由于Bazel官网有较为详细的教程，所以就不在此赘述了，请参阅：   
- [Ubuntu 16.04 Bazel 安装教程](https://docs.bazel.build/versions/master/install-ubuntu.html)     
- [OSX Bazel 安装教程](https://docs.bazel.build/versions/master/install-os-x.html)    

#### 运行configure

首先进入刚才TensorFlow的源码目录，执行以下命令：
```
./configure
```
然后根据交互式引导选择需要启用的编译选项，如是否启用CUDA等等。

#### 编译C++动态库

请执行以下指令编译TensorFlow的C++动态库：
```
bazel build //tensorflow:libtensorflow_cc.so
```
编译完成后，务必执行一下操作：
```
cp -r bazel-genfiles/ /usr/local/include/
cp -r tensorflow /usr/local/include/
cp -r third_party /usr/local/include/
cp -r bazel-bin/libtensorflow_cc.so /usr/local/lib/
cp -r bazel-bin/libtensorflow_framework.so /usr/local/lib/
```
至此，C++版本的TensorFlow动态库就编译完成了。

#### 验证动态链接库

可以新建一个C++项目，通过官网C++的API文档的一个 [简单例子](https://www.tensorflow.org/api_guides/cc/guide) 验证C++版本的TensorFlow是否正常运行。
```
#include "tensorflow/cc/client/client_session.h"
#include "tensorflow/cc/ops/standard_ops.h"
#include "tensorflow/core/framework/tensor.h"

int main() {
  using namespace tensorflow;
  using namespace tensorflow::ops;
  Scope root = Scope::NewRootScope();
  // Matrix A = [3 2; -1 0]
  auto A = Const(root, { {3.f, 2.f}, {-1.f, 0.f} });
  // Vector b = [3 5]
  auto b = Const(root, { {3.f, 5.f} });
  // v = Ab^T
  auto v = MatMul(root.WithOpName("v"), A, b, MatMul::TransposeB(true));
  std::vector<Tensor> outputs;
  ClientSession session(root);
  // Run and fetch v
  TF_CHECK_OK(session.Run({v}, &outputs));
  // Expect outputs[0] == [19; -3]
  LOG(INFO) << outputs[0].matrix<float>();
  return 0;
}
```
如果程序运行正常，那么结果会出处19和-3。