# Environment Setup

## What you learn

機械学習の開発を行うための環境を構築する方法を学びます。今回はPythonにより機械学習モデルを開発します。

## Why you need

Data Scientistとして活動するために、開発環境の整備が必要です。

## How to do

今回構築する環境のイメージは下図となります。Technical Exerciseで、番号順に構築・使用方法の解説を行っていきます。Communication Exerciseで、環境構築時に確認を取るべきポイントについて解説していきます。

![00_environment_setup_001.PNG](./images/00_environment_setup_001.PNG)

### Technical Exercise

#### 1.SageMaker Studio Lab

Amazon SageMaker Studio Labはメールアドレスのみで、無料で利用できるJupyter Lab環境です。次のような特色があります。

* 12時間のCPU、4時間のGPUが利用可能。
* 15GBの静的ストレージがあり、作業内容が保管される。
* Gitと統合されており、GUIでファイルのバージョン管理が可能。
* Notebookに加えてTerminalも利用可能。

早速、TerminalからGitを使用してハンズオンに必要な資料をダウンロードしてみましょう。次のコマンドを実行し、ファイルエクスプローラーからフォルダが見えたら成功です。

```
git clone https://github.com/icoxfog417/ML-Enablement-Handson.git
```

##### Local Environment

Studio Labが利用できない場合、次の手順で1~3までの環境構築ができます。Studio LabはJupyter Labの環境なので、Jupyter Labの環境をローカルに構築すれば以後は同じように進めることができます。

1. [Minicondaのインストール](https://docs.conda.io/en/latest/miniconda.html)
2. ターミナルから`ml-handson`環境を作成: `conda create -n ml-handson python=3.9 pandas scikit-learn matplotlib jupyterlab`
3. ターミナルから`ml-handson`環境を有効化: `conda activate ml-handson`
4. ターミナルで上記の`git clone`のコマンドを実行しハンズオンのディレクトリに`cd`コマンドで移動
5. ターミナルからJupyter Labを起動: `jupyter lab`


#### 2. Jupyter Lab

[Jupyter Lab](https://jupyter.org/)はソースコードと実行結果を含むドキュメントを作成できるJupyter Notebookの高機能版です。オープンソースで開発されています。Jupyter Notebookではセルと呼ばれる単位で文書を作成していきます。実行済みのセルで作成した変数はそれより下の他のセルからも参照可能です。

* セルの追加
  * 上に追加: A、下に追加: B
* セルの削除
  * DD
* セルの種別の変更
  * ソースコード: Y
  * 文書: M
* セルの実行
  * 実行: Ctrl + Enter
  * 実行して下に移動: Shift + Enter

#### 3. conda

[conda](https://docs.conda.io/en/latest/)はPythonの仮想環境(Virtual environment)とインストールしたパッケージの管理ができるツールです。Python以外の言語も実はサポートしています。この開発ではPython 3.9、この開発ではPython 3.10でこのライブラリを使う、など開発プロジェクトによって利用するPythonのバージョンやライブラリが異なる場合にプロジェクトごと専用の環境=仮想環境です。

ターミナルを起動して、次のコマンドを実行してください。今回のハンズオンでは`pandas`という表形式データを扱うためのライブラリと`scikit-learn`という機械学習モデルが簡単に構築できるライブラリを主に扱います(作成時点では`matplotlib`がPython 3.10で動かないため3.9を指定しています)。

```
conda create -n ml-handson python=3.9 pandas scikit-learn matplotlib ipython ipykernel
```

実行が完了したら、作成した`ml-handson`の環境を有効にするためのコマンドを実行します。

```
conda activate ml-handson
```

Jupyter Notebook上で`ml-handson`が利用できるようにコマンドを実行します。Jupyter Notebookからは実行に使用する仮想環境を「カーネル」と呼びます。

```
ipython kernel install --user --name ml-handson
```

完了したら、Jupyter Notebookの右上にある虫の隣のボタンをクリックしカーネルを切り替えます(作成した仮想環境が反映されるまでに少し時間がかかります)。以降のプロセスでは、実行前にカーネルがが`ml-handson`になっていることを確認してください。


#### Python Tutorial

本演習ではPythonを使用します。Pythonの文法はここでは詳しく触れませんので、Referenceを参照してください。各大学から素晴らしい教材が公開されています。次に簡単な計算例を示します。

In [1]:
x = 2
y = 2
print(x + y)

4


#### File System Tutorial

Studio Labは、みなさんのPCと同じように静的なストレージを持ちます。本ハンズオンのディレクトリ構造は次のようになっています。

```
├── LICENSE
├── README.md          <- リポジトリの概要を記載した文書
├── data
│   ├── raw            <- 生データ
│   ├── interim        <- 中間データ
│   └── processed      <- 前処理済みデータ
│
├── docs               <- ドキュメント
│
├── models             <- 学習済みモデル、前処理用パイプライン
│
└── notebooks          <- Jupyter notebooks
```

ディレクトリの構成は、[cookiecutter-data-science](https://github.com/drivendata/cookiecutter-data-science)というテンプレートに沿っています。Jupyter Notebookは1プロセスにつき1つにしています。このプロセスを完了して次に進んでよいか、ステークホルダー間で確認するためのレポートとなるようにするためです。

#### Git

ファイルの管理にGitを使用しています。基本的なコマンドと意味は次のようになります。`commit`は変更を記録する単位であり、1回の`commit`の大きさはどれだけ変更を`add`で登録するかに依存します。通常、複数の目的が混在したり大きすぎる`commit`は好まれません。今回であれば、複数プロセスのJupyter Notebook、例えば`01_business_understanding.ipynb`と`02_analyze.ipynb`が同じ`commit`に含まれるのは好ましくありません。

* `git clone`: リモートのリポジトリからローカルにダウンロードする。
* `git add`: 変更内容を登録する。
* `git commit`: 変更内容を記録する。

リモートリポジトリがあれば、`git push`でリモートリポジトリに変更を反映できます。変更を反映することで他の人と変更内容を共有できます。他の人も変更していた場合、変更の競合を解決できるように、通常Gitのリポジトリに変更を加える際は専用のbranchを作成して作業します。

![00_environment_setup_002.PNG](./images/00_environment_setup_002.PNG)

branchの作成にはいくつかルールがありますが、基本的にはbranchを作成、branchをリモートリポジトリにpush、変更内容の確認/承認依頼(Pull Request)を作成、承認されたら反映(merge)を行います。



### Communication Exercise

Data Scientistとして環境を構築する際、誰に何を聞いたほうが良いでしょうか?

* Product Manager
* Business Analyst
* Data Analyst
* Architect 
* DevOps Engineer
* Software Engineer
* Operator
* System Admin
* IT Auditor
* Data architect
* Domain Expert


#### Examples

* IT Auditor
   * 必要十分なスペックのPCが用意可能か。
   * インストール可能なソフトウェアに制限はあるか。プロキシなどネットワークアクセスに制約はあるか。
   * 環境構築を行う上で制限を解除する必要がある場合、どのように申請すればよいか。
* Architect
   * 現在の開発でPythonは利用しているか。
   * 利用している場合、使用しているPythonのバージョンは何か。コーディングルールなどの開発標準があれば共有してほしい。
   * 利用していない場合、参考になりそうな既存の開発標準あるか。
   * 開発環境として利用してよい環境(AWSアカウントなど)。
* DevOps Engineer
   * ソースコード管理にどのようなサービスを利用しているか(GitHubなど)。Data Scientistでも利用してよいか。
   * これまで利用しているか。セットアップ方法にルールなどあるか聞いたほうが良いでしょう。開発ルールがあるなら合わせておく必要があるためです。

## Next Step

[Business Understanding](01_business_understanding.ipynb)


## References

1. 三谷純. [Python ゼロからはじめるプログラミング](https://mitani.cs.tsukuba.ac.jp/book_support/python/). 2021.
2. 東京大学 数理・情報教育研究センター. [Pythonプログラミング入門](https://utokyo-ipp.github.io/). 2020.
3. 岡崎直観. [Python早見帳](https://chokkan.github.io/python/index.html). 2020.
