# 環境構築

## 本章の流れ
 ディープラーニングを実装するためには**高性能な計算リソース**、また多くの**ライブラリ**が必要です。本章では機械学習の実装に先立ち、こちらの用意を**クラウド環境**を用いて進めます。大まかん手順は次の２ステップです。
### Step.1 VM (バーチャルマシン)作成
まずクラウド環境に**VM (バーチャルマシン)**を作成します。これは**ネットワーク上に存在するPCのこと**です。みなさんの手元にあるPCと同じように、処理装置（CPU、GPU）・補助記憶装置(ハードディスク)などの部品を選択し一つのマシンを組み上げます。  
クラウドを利用することにより、僅かな手順で自分の使用したいスペックのマシンが作成可能となります。

### Step.2 Docker イメージの構築
PC が完成したとしても、プログラムを動かすためにはソフトウェアが必要です。そのため、次のステップでは**機械学習を行うためのモジュールを用意**していきます。しかし、通常私達の使用するソフトウェアと異なりプログラミングで用いるモジュールは非常に繊細です。例として、順番通りにインストールを行わなければエラーが発生してしまうことがあります。
この問題を解決するために昨今よく用いられる技術が **Docker** です。Dcoker を使用することによりすでに作成された理想的な環境をそのまま導入することが出来ます。

それでは、さっそく「 VM 作成」そして「 Dcoker イメージの構築」を行っていきましょう。今回使用するプラットフォームは **Microsoft** **Azure** というクラウド環境です。

## Microsoft Azure
![Azurelogo](https://upload.wikimedia.org/wikipedia/commons/a/a8/Microsoft_Azure_Logo.svg)

Microsoft Azure は開発者や IT プロフェッショナルがアプリケーションのビルド、デプロイ、管理に使用できる各種クラウド サービスを統合した、現在も拡大を続けている集合体であり、サービスは世界規模のデータセンター ネットワークを介して配信されています。Azure では、お好みのツール、アプリケーション、フレームワークを使用し、好きな場所で自由にビルドとデプロイを行うことができます。

### Azure にログイン

アカウント情報をもとに、Azure にログインします。  
お配りしているアカウントでは、初期設定として、パスワードのリセットが必要ですので、初回ログイン後にパスワードを設定してください。  
また、こちらのパスワードを忘れるとログインできなくなるため、**パスワードは絶対にどこかへメモしておいてください**。
こちらのように、ダッシュボード画面へアクセスできた方は成功です。

![azurelogin](images/azure/azurelogin.png)

### インスタンスの作成
それでは、実際に仮想マシンを立ち上げてみましょう。  
この**仮想マシンのことをインスタンス**と呼びます。  
クラウドというとイメージが湧きにくいかも知れませんが、言い換えると**インターネットの先に設置してある PC** のことです。今回はその各パーツなどを指定して一つの仮想マシン-インスタンスを組み上げます。  
まずはじめに以下の手順で今回の PC の基本構成を構築していきましょう。

#### 「新規」から「Data Science Virtual Machine for Linux（Ubuntu）」を検索

![02](images/azure/new_tensorflow.png)

#### Data Science Virtual Machine for Linux（Ubuntu）を選択

![03](images/azure/select_tensorflow.png)

#### 「作成」を選択

![04](images/azure/create.png)

### 仮想マシンの作成
ここから PC の各部品などの設定を行っていきましょう。大まかなステップは以下となります。

1. 基本の設定
   * リソースグループの設定
   * 仮想マシン名の設定
   * 地域の設定
   * サイズの設定
   * ID,パスワードの設定
2. ディスクの設定
3. 確認及び作成

先程のインスタンスの作成で大まかな部品やソフトを選ぶことが出来ましたが、まだ完成品に至らない点が数多くあります。これから以下の設定を行い足りない部分を埋めていきましょう。

#### 基本の設定
**リソースグループ**
![resource](images/azure/resource.png)
「プロジェクトの詳細」-「リソースグループ」から**新規作成**を選びリソースグループを作成してきましょう。入力する文字列ですが、今回は分かりやすさのため**「handson-年月日」**と設定します。  
こちらのリソースグループで  PC の部品、各ネットワークなどの構成をひとまとめにして扱います。これで VM を使用する雛形ができました。

<br>
<br>

**仮想マシン名の設定**  
**地域の設定**  
![name](images/azure/name.png)
次に「インスタンスの詳細」から「仮想マシン名」を入力しましょう。仮想マシン名はその名の通りマシンの名前です。今回は「ディープラーニングハンズオン用のPC」として**「handson-名字」**と入力します。  
「地域」は**「米国中南部」**に設定してください。


<br>

**サイズの選択**  
マシンのスペック、処理装置を選択します。
まずはじめに「サイズ」から「サイズを変更します」をクリックしましょう。
![size](images/azure/size_1.png)

<br>

新しくウィンドウが現れたら上部にある「すべてのフィルター」をクリアをクリックしてください。
![filter](images/azure/filter.png)

<br>
  
最後に検索欄に「NC6」と打ち込み出てきたマシン一覧から「 NC6_promo 」を選択します。これでサイズの選択は終了です。  
![nc6](images/azure/NC6_promo.png)
ディープラーニングを実装するためには**分散処理が可能な処理装置、GPU が重要となります**。そのため、今回は安価かつ GPU の仕様が可能な「 NC6_promo 」を選択しました。

<br>

**ID,パスワードの設定**  
最後にIDとパスワードを設定します。こちらは**今回作成するVMにアクセスするためのもの**です。こちらも先程の Azure へのログインと同様忘れないようにメモをお願いいたします。  
パスワードの条件は「大文字を含む」「数字を含む」「12文字以上」
![idpass](images/azure/idpass.png)

#### ディスクの設定
![hdd](images/azure/hdd.png)
今回は環境を揃えるために「StandardHDD」を選択いたします。基本的には任意のもので構いません。

#### 確認及び作成
![confirm](images/azure/confirm.png)
以上の「基本」、「ディスク」の二つで基本的な設定は終了です。「確認及び作成」タブに移り最下部の「作成」ボタンをクリックしデプロイしましょう。

#### デプロイの完了待ち

![deploy](images/azure/deploy.png)

ダッシュボードの画面にデプロイ中と表示され、数分程度で完了します。  
お疲れさまでした。これでVMインスタンスの作成は終了です。  

これで以下のような環境を作ることが出来ました。
リソースグループが存在し、その中に VM を始めとした各部品や設定が存在するという状況です。  
![01](images/azure/azureenv.png)
しかし、このままではまだ **手元のローカル PC からこの VM を扱うことが出来ません**。**Jupyter Notebook 等の機械学習を行うためのライブラリも導入されていない**といった課題も残っています。  
そのため、ここから「手元の PC と VM の接続」、「機械学習用のライブラリの導入」といった残りの設定を行いきます。

### ポートの解放

Azureの設定として最後にポートの開放を設定しておきます。ポートとはこのあと使用する**環境にアクセスするための入り口と出口**です。この設定を忘れてしまうと Jupyter Notebookにアクセスできなくなてしまうため必ず行いましょう。
まずはじめに VM の画面を開きます。次にリソースグループから先ほど作成した VMの画面へと移動してください。

![machine](images/azure/machine.png)

<br>

その後左側の「ネットワーク」を選択し「受信ポートの規則を追加する」へと進みます。

![network](images/azure/network.png)


「宛先ポート範囲」に　**「8888」**、そして「名前」に**「Port_8888」**と入力しましょう。これでポート解放のための処理は完了です。デプロイが行われ、数分後からは指定したポート番号が使用可能になります。

![4](images/parallel/13.PNG)

図に起こすと以下のようになります。ネットワークとして**8888という出入り口を設定した**状況です。Port　は後ほどまた説明するため、まだ詳細が把握できていなくとも問題ありません。

![port](images/azure/port.png)

以上でAzureでの設定は終了です。お疲れさまでした。

### SSH で Virtual Machine（VM）へ接続

VM を作成したは良いですが、これではまだ操作をすることが出来ません。PC を動かすためにはキーボードやマウスが必須となるためです。
そこで、これから手元の PC と VM を接続しクラウド上のPCを手元のインターフェースで操作できるよう設定を行います。

#### Git Bash のインストール（Windows の方はインストールが必要）
（Mac を使用されている方は、**ターミナル**をご使用ください）
Windows の方は[こちらのURL](https://gitforwindows.org/)から `Git Bash` をダウンロードしてください。
**Git Bash　を用いることにより Linux コマンドが利用可能**となります。今回の講義資料は基本的に Linux コマンドベースに記述しているためこちらのインストールをおすすめします。

![5](images/parallel/19.PNG)

<br>
<br>

それでは早速手元の PC と VM を接続していきましょう。下に今から行う操作のイメージを添付します。
![ssh](images/azure/ssh.png)
接続を行うためにはまずどこにアクセスするかといった情報が必要です。私達が目的地に向かう際にも住所を頼りに移動します。  
したがって、手元の PC がアクセスする場所として Azure の VM に存在する**パブリック IP アドレス**が必要となります。「リソースグループ」から「 VM 」へと進み画面左上のパブリック IP をコピーしましょう。

それでは、いよいよ手元の PC から VM へと接続を行います。ターミナル（または Git Bash）を立ち上げ  `ssh VMで設定したID@パブリックIPアドレス`  
を入力してください。  
![6](images/parallel/14.PNG)

初めてのログインの際は下記のような確認が現れますので`yes`と入力して進みましょう。。

![7](images/parallel/15.PNG)

次に　VM　を作成した際のパスワードでログイン操作を行ってください。**セキュリティのため画面上に文字は現れませんので**、注意して入力しましょう。

![8](images/parallel/16.PNG)

ログインが成功すると下記のようなターミナルの画面に入ることができます。  
これで接続は完了です。

![9](images/parallel/17.PNG)

## Docker と Nvidia-docker で環境構築を時短
PC の接続も完了したため、最後に機械学習用の環境を作成しましょう。今回は昨今人気のある仮想環境構築用サービス **Docker** を使用します。


### Docker とは

![10](images/azure/02_06.png)

ローカル（Mac や Windows の手元の PC）とリモート（サーバー）で環境構築を毎回し直すのは非常に面倒です。
また、職場の PC と家の PC で再度環境構築を行ったり、職場では Windows、自宅ではMacだとすると、設定方法も全く変わってきて、シームレスな開発を行うことができません。

そこで現れた救世主が Docker です。

Docker というのは、Mac / Windows / Unix 問わずで動作し、その Docker と呼ばれる概念の上で、Linux の OS を動作させます。
そのため、Mac でも Linux の環境で操作したり、Windows でも Linux の環境で操作しておくことで、サーバーに実装する際にそのまま持っていくことができます。

![11](images/dev_flow/Container2x.png)

Docker は上記の画像の用に、Host OS（Mac, Windows, Unix）上で動作させ、その上でコンテナと呼ばれる仮想マシンを資源のある限りいくつでも作ることができます。

Azure の Data Science Virtual Machine には Docker が最初からインストールされています。

### Nvidia-docker とは

![12](images/azure/02_07.png)

Docker では仮想的な環境を簡単に共有することができますが、GPU をうまくつかむことができません。
そこで **Nvidia-docker** 登場しました。
中身としては nvidia が docker を元に作った **CUDA 環境の image を簡単に作れるようにする為のもの **です。
CUDA や CUDDN を手作業で導入するのが非常に面倒ですが、それを一気に解決してくれます。

環境設定で非常に時間を取られてしまうようなものなので、これで簡単に終わると考えれば相当楽です。

先ほど作成していただいた「 Data Science Virtual Machine for Linux Ubuntu CSP 」には最初から nvidia-docker がインストールされているため、特に設定等は不要です。

## ハンズオン用 GPU 搭載 VM を作成

まずは使用する Docker イメージを pull （ダウンロード）します。



```bash
sudo nvidia-docker pull kikagaku/handson_keras
```

![pull](images/azure/pull.png)
これにより先程作成した仮想環境上に機械学習の環境を落とすことが出来ました。
しかし、この機械学習の環境もまた一つの PC のように扱う必要があります。したがって次にこのダウンロードしたイメージベースにコンテナ（新たな PC 環境）を立ち上げます。

```bash
sudo nvidia-docker run -d -p 8888:8888 --name='handson' kikagaku/handson_keras
```
![run](images/azure/run.png)
これでコンテナが立ち上がり、機械学習の実装が可能となります。
この際に先程設定した VM 上の`Port:8888`が使用されます。つまり、VM と Docker コンテナでデータをやりとりするために先程前もって設定していたというわけです。



今回使用するコンテナはこの段階で自動的に Jupyter Notebook が立ち上がる設定となっています。
確認するため Web ブラウザから、`<VMのパブリックIPアドレス>:8888` を URL 欄に入力しアクセスしてください。

下記のように Jupyter Notebook へアクセスできれば完了です。

![13](images/parallel/18.PNG)

パスワードは `kikagaku` です。


## ２日目以降の Azure 立ち上げ方法

```bash
sudo nvidia-docker start handson
```
![start](images/azure/start.png)

２日目以降は、１日目に停止しておいたコンテナを起動するだけでいいので上記のコマンドで動作します。すでに docker イメージはダウンロードされているためです。
１日目同様に、`<VMのパブリックIPアドレス>:8888` にWebブラウザからアクセスし Jupyter Notebook を使用します。