# 実験の制約や進め方を確認する

実験について、構造や制約、進め方を整理しています。  
実験を実施する前に確認してください。  

実験フロートップページに戻る場合は[こちら](../experiment.ipynb)。新規タブで開きます。  

## 0. 研究リポジトリ名・実験パッケージ名を確認する  

以下のセルを実行すると、この実験実行環境で操作する実験パッケージの名前と、実験パッケージの存在する研究リポジトリ名を確認できます。

In [None]:
import os
os.chdir('/home/jovyan/WORKFLOWS/FLOW/')
from util.scripts import utils

%store -r
if 'EXPERIMENT_TITLE' not in locals().keys() : EXPERIMENT_TITLE = '-'
utils.show_name('blue', EXPERIMENT_TITLE)

## 1. 実験の格納場所について

実験は実験パッケージという単位で、実行実行環境の構築や実験データの管理が行われます。  
実験実行環境で「初期セットアップを行う」タスクを実行すると、1つの実験パッケージが研究リポジトリのexperimentsフォルダ配下に追加されます。  
以下の手順を繰り返すことで、下図のように複数の実験パッケージを作成することができます。  
1. 研究フローの「実験実行環境を作成する」タスクで実験実行環境を構築する
2. 構築した実験実行環境で「初期セットアップを行う」タスクを実行し、実験パッケージをexperiments配下に作成する

![experiments_structure](./images/experiments_structure.png)

## 2. 実験パッケージの構造について

実験実行環境で「初期セットアップを行う」を実行すると、DMPのデータセット構造(datasetStructure)に従い、実験に必要なフォルダ構成が実験パッケージに用意されます。データセット構造毎に用意されるフォルダ構造は以下です。  
データセット構造がfor_parametersの場合は、パラメータ毎にパラメータ設定ファイル格納用フォルダ(params)と出力データ格納用フォルダ(output_data)がパラメータ実験フォルダとして管理されます。  
パラメータ実験フォルダは、「初期セットアップを行う」タスクで1セット用意され、それ以降は「パラメータ実験用のディレクトリを追加する」タスクを実行すると1セットずつ追加することができます。

### データセット構造毎に用意される実験パッケージの構造
![exp_stracture](./images/exp_structure.png)

### 実験パッケージに用意されるフォルダやファイルの説明

|項番|ファイルもしくはフォルダ名|説明|
|:-|:-|:-|
|1|README.md|実験の説明と実験実行環境へのリンクが記述されます。実験の説明は、「実験の説明を記述する」タスクで記述を支援します。データセット構造に依らずに用意されるファイルです。|
|2|Snakefile|実験の再現性を担保するために、機械的に再実行可能な実験手順を記述します。「Snakefileに実験手順を記述する」タスクで記述を支援します。データセット構造に依らずに用意されるファイルです。|
|3|environment.yml|「実験を終了する」タスクを実行すると、当実行環境のconda環境構成が当ファイルに記録されます。データセット構造に依らずに用意されるファイルです。|
|4|requirements.txt|「実験を終了する」タスクを実行すると、当実行環境のpipでインストールされたパッケージ構成が記録されます。データセット構造に依らずに用意されるファイルです。|
|5|input_data|実験の入力データを格納するためのフォルダです。|
|6|source|実験のソースコードを格納するためのフォルダです。|
|7|test|「初期セットアップを行う」タスクで、オプションとしてtestフォルダを作成するセルを実行した場合のみ用意されます。実験ソースコードのテストコードを格納するためのフォルダです。|
|8|ci|「初期セットアップを行う」タスクで、オプションとしてciフォルダを作成するセルを実行した場合のみ用意されます。継続的インテグレーション(CI/C)Dツールの設定ファイル等を格納するためのフォルダです。|
|9|output_data|実験の出力データを格納するためのフォルダです。データセット構造がfor_parametersの場合は、パラメータ実験フォルダに、output_dataフォルダが用意されます。|
|10|パラメータ実験フォルダ|データセット構造がfor_parametersの場合に用意されるフォルダです。パラメータを変える実験を行う場合に、パラメータ毎にパラメータ設定ファイルとその出力データを格納します。パラメータ実験フォルダは、「初期セットアップを行う」タスクと「パラメータ実験用のディレクトリを追加する」タスクで作成されます。また、各タスクでは、自身でパラメータ実験フォルダ名を命名していただけます。「初期セットアップを行う」タスクでは、1セットのパラメータ実験フォルダが作成されます。実験の途中で、新しいパラメータ実験フォルダが必要になった場合は、「パラメータ実験用のディレクトリを追加する」タスクを実行することで、1セットずつ追加することが可能です。|
|11|params|データセット構造がfor_parametersの場合に用意されるフォルダです。実験のパラメータ設定ファイルを格納するためのフォルダです。|

## 3. 実験実施にあたっての制約について

実験を実施するにあたって以下の制約があります。  
以下の制約を満たすように、当実行環境で実験を実施してください。

各データセット構造で共通する制約と特有の制約があります。  
下記の条件を満たすように、実験の準備と実施を行ってください。  

- 共通制約
    - `当実験実行環境の対象実験パッケージのデータだけ`を更新すること  
        実験パッケージ毎に専用の実験実行環境が用意されます。実験実行環境で、対象外の他の実験パッケージのデータを更新した場合は、各タスクの同期処理の対象外となりGIN-forkに更新されません。対象実験パッケージのデータのみを更新してください。実験実行環境毎の対象実験パッケージは、各タスクの「0. 研究リポジトリ名・実験パッケージ名を確認する」で確認いただけます。 
    - [「実験パッケージに用意されるフォルダやファイルの説明」](#実験パッケージに用意されるフォルダやファイルの説明)にあるフォルダやファイルについては、`フォルダ構造やファイル名を更新しない`こと  
        ファイル・フォルダの位置の移動や、ファイル・フォルダ名の更新は行わないでください。ただし、「実験パッケージに用意されるフォルダやファイルの説明」にあるフォルダ内にユーザ自身で用意いただいたデータについては、フォルダ構造やファイル名の更新・削除が可能です。
    - ソースコードはPythonで記述し、`source`フォルダに配置すること
    - ソースコードのテストコードは、`test`フォルダに配置すること
    - 実験の入力データは`input_data`フォルダに配置すること
    - CI/CDツールの設定ファイル等は`ci`フォルダに配置すること
    - 実験結果が`output_data`フォルダに出力されるように、実験ソースコードを記述すること
- 特有制約
    - with_codeを選択した場合
        - なし
    - for_parametersを選択した場合
        - 各パラメータ実験の固有のパラメータファイルは、それぞれのparamsフォルダに配置すること
        - パラメータファイルは任意の種類を使用可(.txt, .yaml など)
        - 実験結果は各パラメータ実験のoutput_dataフォルダに配置すること

## 4. 実験実施の流れについて

「3. 実験実施にあたっての制約について」を確認してから実験を実施してください。  
実験に必要な入力データやソースコード等の用意や、ソースコードの実行と出力データの格納を当実行環境で行ってください。  
**当実験実行環境で実験パッケージのデータを更新しても、即時でGIN-forkに同期されませんので、「実験を途中保存する」タスクか「実験を終了する」タスクを実行して同期を行ってください。**  
GIN-forkに同期していない場合、実験実行環境に問題が生じた際にデータを復元できませんので、こまめに「実験を途中保存する」タスクを行って同期することを推奨します。  
また、実験パッケージ内の変更を蓄積してしまうと、競合が発生し同期に失敗しやすくなります。実験パッケージ内に変更を加えた際は、こまめに同期するようにしてください。  
実験が完了した場合は、`必ず「実験を終了する」タスクを実行して、実験の環境構成の記録と、GIN-forkへの実験データの同期を行ってください`。  

* 中断した実験への作業を再開する方法  
当実行環境へのリンクが、実験パッケージのREADME.mdに記載してあります。中断した実験の作業を再開したい場合は、実験パッケージのREADME.mdのリンクをクリックしてください。

* 完了した実験への作業を再開する方法  
「実験を終了する」タスクで実験環境を削除しますが、完了した実験の実行環境を再構築し、作業を再開していただくことが可能です。  
完了した実験を再開したい場合は、実験パッケージのREADME.mdにある新しい実験実行環境を構築するリンクをクリックしてください。  
新しく実験の実行環境が構築され、実験の作業実施やタスクの実行を行っていただけます。

## 5. 実験実行環境の操作について

実験実行環境の操作手順等（ファイル・フォルダの新規作成や更新・削除など）については、以下のドキュメントを参照ください。  
リンクをクリックすると別タブでドキュメントが開きます。  

- [Jupyter NbClassic](https://nbclassic.readthedocs.io/)  
  User Documentationに実行環境の操作手順があります。

## 6. 実験フロートップページに遷移する

以下のセルを実行し、表示されるリンクをクリックして実験フロートップページに戻ってください。

In [None]:
from IPython.display import display, HTML, Javascript
display(HTML("<a href='../experiment.ipynb'>実験フロートップページに遷移する</a>"))
display(Javascript('IPython.notebook.save_checkpoint();'))