- author: Lee Meng
- date: 2018-09-04 23:45
- title: 一個給資料科學家看的 Docker 簡易指南
- slug: a-friendly-and-practical-docker-guide-for-data-scientists
- tags: 資料科學, Docker
- description: TEST
- summary: TEST
- image: docker-cover.jpg
- image_credit_url: https://www.flickr.com/photos/134416355@N07/31518965950
- status: draft

今天我們來聊聊如何將 <a href="https://zh.wikipedia.org/wiki/Docker_(%E8%BB%9F%E9%AB%94)" target="_blank">Docker</a> 應用在資料科學領域裡頭吧！

在這篇文章裡頭，我會用一些簡單的比喻來讓你理解何謂 Docker，以及身為資料科學家的我，常常使用 Docker 的 3 種方式。我們不會深入探討 Docker 本身是以什麼技術被實現的。反之，我們會專注在理解如何在資料科學領域裡頭活用 Docker。

這篇適合 2 種讀者：
- 對 Docker 有基本知識，且想讓自己的 Workflow 更有效率的資料科學家
- 熟悉 Docker，但想了解如何應用到資料科學領域的工程師

讓我們開始吧！

## 雲端運算 & Docker

在解釋何謂 Docker 之前，讓我把你已經非常熟悉的雲端運算（Cloud Computing）老朋友叫出來。

[Amazon Web Service（AWS）](https://aws.amazon.com/tw/)、[Google 雲端平台（GCP）](https://cloud.google.com/) 以及 [Microsoft Azure](https://azure.microsoft.com/zh-tw/) 大概是大家最耳熟能詳的幾家雲端計算 / 服務平台了。隨著時代的演進，這些平台提供越來越多樣的機器學習 API，讓開發人員不需做複雜的開發，透過一個 HTTP 要求就能直接使用各種酷炫的服務，比方說：
- [Amazon Lex](https://aws.amazon.com/tw/lex/) 讓你使用 Amazon Alexa 的深度學習技術建立聊天機器人
- [Google Cloud Vision API](https://cloud.google.com/vision/) 讓你快速建立一個圖像辨識服務
- [Azure Content Moderate API](https://azure.microsoft.com/zh-tw/services/cognitive-services/content-moderator/) 讓你自動審核網路上的圖片以及文字

儘管如此，很多時候只使用這些現成的 API 並不能滿足我們這些資料科學家（**D**ata **S**cientist）的野心。

<center>
    <img src="{filename}images/docker/network-2402637_1280.jpg" style="width:90%"/>
</center>
<center>
    比起使用現成 API，如何運用雲端運算來 scale 各種數據處理工作是一個 DS / DE 更常問的問題
    <br>
    <br>
    <br>
</center>

<a name="three-tasks"></a>除了直接用各家雲端平台提供的 API 以外，一個 DS 可能更常需要利用雲端上的計算資源來完成以下的工作：
- 開發、訓練並部署自己的機器學習模型
- 對大量數據做批次處理，將結果儲存後顯示在儀表板上
- 部署一些新的分析工具來提升分析團隊的效率

事實上，這就是本篇文章想要說明的 3 件 DS 可以活用 Docker 完成的事情。


當然你想得沒錯，這些工作並不只包含「資料科學」。除了統計分析以及演算法以外，這些工作還包含了不少軟體工程、資料工程甚至 [DevOps](https://zh.wikipedia.org/wiki/DevOps) 成分。當然資料工程師（**D**ata **E**ngineer）可以幫助你，但如果你想要自己快速地兜出一個解法呢？

<center>
    <img src="{filename}images/docker/work-2005640_1280.jpg" style="width:90%"/>
    <br>
    <br>
</center>

你可能覺得一個 DS 要在各種 deadlines 內完成以上所有的事情是不可能的。不過後面我們會發現，活用 Docker 能讓這些工作變得簡單許多。

如果你已經很熟悉 Docker，可以點擊[上面 3 個工作的任一連結](#three-tasks)，直接開始了解如何應用 Docker 在這些案例裡頭。

對那些不太熟悉 Docker 的你，也別擔心，讓我們花點篇幅以 DS 的角度了解 Docker 到底是什麼技術。我保證學會使用 Docker 以後，能讓你的開發效率至少增加 2 倍。

## Docker：可愛的大鯨魚

首先看看以下這張 Docker 示意圖：

有什麼感覺嗎？讓我們看著上圖，同時發揮點想像力。

如果你把雲端運算的平台想像成一個充滿運算資源的大海的話，Docker 就是一隻在裡頭悠遊的大鯨魚。這隻鯨魚將上述所有 DS 想要做的數據處理工作、執行的 App，一個個封裝成彼此獨立的貨櫃，並載著它們在這大海上自由漫遊。

<a href="https://towardsdatascience.com/how-docker-can-help-you-become-a-more-effective-data-scientist-7fc048ef91d5" target="_blank">Docker</a> 提供的抽象化讓我們能輕鬆地運行任何想使用的資料科學工具、軟體而不需花費過多時間在理解底層環境。

## 鯨魚背上的貨櫃：Docker 容器

實際上這一個個假想的貨櫃就代表著 Docker 術語裡頭的容器（Container）。

每個容器一般來說，都是一個「完整」的 App。DS 常用的 App 可以是：
- 一個包含 [TensorFlow](https://www.tensorflow.org/) 函式庫的 [Jupyter Notebook](http://jupyter.org/)
- 一個 ML 產品，如透過已訓練的模型來判斷圖片裡頭有沒有貓咪的 [Flask App](https://github.com/leemengtaiwan/cat-recognition-app)
- 一個 BI 工具如 [Superset](https://github.com/apache/incubator-superset)
- 一個簡單的 Python Script，針對輸入的大量數據做處理

要從頭建構這些 App 需要的環境不是不可能，但除了基本的 `pip install` 以外你還需要花不少工夫更令人不安的是，很多時候你在 Mac、Windows 上安裝環境的步驟跟你那雲端上的 Linux 機器上的安裝方式完全不同。

如果有人先幫我們把環境建好，我們不是就能馬上開始各種有趣的分析，而不用苦惱著 google 哪個函式庫要怎麼安裝了嗎？

Docker 的容器就是幫你把一個 App 所需要的所有環境都「容」納在一起。

<center>
    <img src="{filename}images/docker/docker-inside-container.png" style="width:90%"/>
</center>
<center>
    <a href="https://stackoverflow.com/a/50489813/2447655" target="_blank">Docker</a> 將一個 App 會使用到的 Python 函式庫、資料庫、甚至作業系統（OS）都包在一個自給自足的容器（CONTAINER）裡頭。想使用某個 App 的 DS 不用從頭建置環境，只需利用 Docker 啟動該容器即可開始工作
    <br>
    <br>
    <br>
</center>

容器裡頭不只包含 App 自己本身的程式碼，也涵蓋了所有能讓這個 App 順利執行的必要環境。

從上面的示意圖你可以猜到，這邊說的「環境」包含：
- App 需要的各種 Python 函式庫，如特定版本的 TensorFlow、Pandas 及 Jupyter Notebook
- MySQL、MongoDB 等 App 會用到的資料庫
- App 會用到的各種 metadata、資料集
- 各種 OS 限定的驅動程式（drivers）、依賴函式庫

包羅萬象。

因此只要我們能利用 Docker 把一個 App 需要執行的環境全部包在一個容器裡頭，我們就能在任何計算環境中啟動並運行任何 App。

而這正是 Docker 想要傳達給你的訊息：

In [None]:
#blockquote
Docker - Build, Ship, and Run Any App, Anywhere

因為連 OS 都被包起來了，實際上每個容器（container）的執行環境都是自給自足的（self-contained）。

你可以把它想像成非常輕量的[虛擬機器](https://zh.wikipedia.org/wiki/%E8%99%9B%E6%93%AC%E6%A9%9F%E5%99%A8)，其執行結果不會因為啟動該容器的計算環境不同而受到影響，在任何地方（Anywhere）都能執行，且執行的結果都是一樣的。

以我們前面的比喻來說的話，每個貨櫃（容器 / App）都是我們想要 Docker 幫我們運送（執行）的東西，而不管 Docker 這隻鯨魚（或大船）現在在哪個海洋（計算環境）裡頭，它都能使命必達。

<center>
    <img src="{filename}images/docker/container-on-the-sea.png" style="width:90%"/>
</center>
<center>
    <a href="https://flipboard.com/topic/container" target="_blank">Docker</a> 就像艘大船，幫我們在任何海洋（計算環境）上運送我們的貨櫃（容器）
    <br>
    <br>
    <br>
</center>

這邊所謂的「計算環境」指的是一個擁有計算資源，且我們實際運行 Docker 的地方。這計算環境可以是任何一家雲端服務平台，如 AWS 的某台 [EC2 機器](https://aws.amazon.com/tw/ec2/)之上、[GCP](https://cloud.google.com/kubernetes-engine/) 上一個包含數千台機器的群集（Cluster），或是你現在用來看本文的筆電。只要 Docker 能在該計算環境下運行，它就能幫我們在該環境「之上」運送任何貨櫃（執行任何容器 / App）。

簡單來說：

In [None]:
#blockquote
Docker 幫我們抽象化在任何 OS 上建置資料科學環境的工作。只要給 Docker 一個我們想使用的 App 的容器，它就能幫你在任何地方執行它並供我們使用。

## 貨櫃（Docker 容器）從哪來

在了解 Docker 這隻大鯨魚能幫我們運行任意的容器 / App 以後，你腦中浮現的第一個問題應該是：
- 這些容器（貨櫃）最初是怎麼被產生的？

非常好的一個問題。

事實上，要產生一個新的 Docker 容器 / App，Docker 需要一份「環境安裝步驟書」來讓它幫我們自動地建置容器內的環境，比方說使用什麼 OS，用什麼版本的 TensorFlow 等等。這份步驟書在 Docker 的世界裡被稱作 [Dockerfile](https://docs.docker.com/engine/reference/builder/)。

舉個例子，以下是 Tensorflow 官方釋出的一個 [Dockerfile](https://github.com/tensorflow/tensorflow/blob/master/tensorflow/tools/docker/Dockerfile)（截錄重要部分）：

```dockerfile
FROM ubuntu:16.04

...

RUN pip --no-cache-dir install \
        ipykernel \
        jupyter \
        numpy \
        pandas \
        sklearn \
        && \
    python -m ipykernel.kernelspec

...

# Install TensorFlow CPU version from central repo
RUN pip --no-cache-dir install \
    http://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.0.0-cp27-none-linux_x86_64.whl

...

CMD ["/run_jupyter.sh", "--allow-root"]
```

除了 `RUN`、`CMD` 等 Docker 專屬的關鍵字以後，你會發現這份 Dockfile 其實就只是記錄了你平常可能在本地開發時也會使用的 `pip install` 指令來安裝 Python 函式庫。差別在於利用第一行的 `FROM ubuntu:16.04` 的指令，我們要求 Docker 在這個容器裡頭建置一個 Ubuntu OS 後，在其之上安裝這些函式庫。

## 追求規模性：Docker 映像檔的誕生

聽完以上的解釋，你可能會覺得在我們每次要啟動一個新的容器的時候，Docker 就得拿出 Dockerfile，一步步建置該容器的環境以後，再交給我們使用。

這樣的實作也不是不行，但很沒有效率。為什麼？

<center>
    <img src="{filename}images/airflow/thought-2123970_1280.jpg" style="width:90%"/>
    <br/>
    <br/>
</center>

因為有時為了規模性（Scalability）的考量，你會想要用同一份 Dockerfile 在短時間內迅速地產生好幾個一模一樣的容器(s)：
- 用多個相同的機器學習模型對大量的新數據做預測
- 使用多個相同 Python Script 來處理大量數據

這時候與其在每次要啟動新的容器時就拿出 Dockerfile 從頭建置環境，我們可以先用這個 Dockerfile 把所有建置環境所需的步驟先做好一遍，然後存成一個 Docker 映像檔（image）。

等你之後真的要開始使用容器的時候， Docker 就能馬上利用該映像檔，啟動 1 個（或 100 個）相同的容器給你。

<center>
    <img src="{filename}images/docker/docker-three-basic-elements.png" style="width:90%"/>
</center>
<center>
    <a href="https://medium.com/platformer-blog/practical-guide-on-writing-a-dockerfile-for-your-application-89376f88b3b5" target="_blank">Docker 三元素</a>： Dockerfile、Docker 映像檔、Docker 容器
    <br>
    <br>
    <br>
</center>

Docker 聰明的地方在於，


都是由一個 Docker 映像檔（Image）所產生的。

你可以先想像這個映像檔是某個容器的快照（Snapshot），Docker 將所有該容器在被快照時的所有



只要你有一個映像檔， Docker 就能幫你「快速地」打造一個容器


我這樣一說，你可能會覺得每次當我們需要一個貨櫃（容器）的時候，Docker 就去看該設計圖來建置環境 

但這邊你會看到一個 Docker 很聰明的地方：Docker 

```sh
docker pull tensorflow/tensorflow
```
千層派登場：

```sh
$ docker pull tensorflow/tensorflow
Using default tag: latest
latest: Pulling from tensorflow/tensorflow
3b37166ec614: Already exists
ba077e1ddb3a: Already exists
34c83d2bc656: Already exists
84b69b6e4743: Already exists
0f72e97e1f61: Already exists
6086c6484ab2: Pull complete
25817b9e5842: Pull complete
5252e5633f1c: Pull complete
8de57ae4ad7d: Pull complete
4b7717108c3b: Pull complete
b65e9e47e80a: Pull complete
006d31e013ea: Pull complete
700521cc53f3: Pull complete
Digest: sha256:f45d87bd473bf999241afe444748a2d3a9be24f8d736a808277b4f3e32159566
Status: Downloaded newer image for tensorflow/tensorflow:latest
```


```
docker run -it -p 1234:8888 tensorflow/tensorflow
```

這些說明對第一次接觸 Docker 的你可能還是顯得很抽象，接下來讓我們實際操作 Docker 來體會一下這些概念。