# Amazon S3から複数のデータを取得する
[S3](https://aws.amazon.com/jp/s3/)のストレージにあるバケットまたはバケット内のフォルダをこの実験の入力データや実験ソースコードとして用意します。<br>

このタスクで用意できるS3ストレージのデータには、以下の制限があります。<br>
- **実験のデータとして利用したいデータを格納したS3のバケット名にドット(.)を含めないでください。**<br>
- **パブリックにアクセスできるS3ストレージのデータを対象にしています。そのため、非公開のデータは実験パッケージに用意できません。**

Jupyter Notebookの操作方法については、[こちら](https://support.rdm.nii.ac.jp/usermanual/60/#jp_operation)をご参照ください。<br>
共通メニューについては、[こちら](https://support.rdm.nii.ac.jp/usermanual/60/#jp_menu)をご参照ください。<br>
いずれも新規タブで開きます。

## 共通メニュー

In [None]:
import sys
sys.path.append("../..")
from nb_libs.utils.form import menu
menu.dg_menu(type='experiment')

## 1. データ取得に必要な情報の入力
S3よりデータを取得するための事前準備を行います。

### 1-1. AWSの接続情報の入力
AWSと接続するための情報を入力してください。<br>
入力後、`入力完了`ボタンを押下してください。<br>
- AWSアクセスキーID：AWSに接続するために必要です。
- AWSシークレットアクセスキー：AWSに接続するために必要です。
- バケット名：バケットに接続するために必要です。
- バケットの任意のフォルダパス：入力したフォルダパス配下の全てのファイルが取得対象となります。

#### 入力例
- AWSアクセスキーID：AKIAIOSFODNN7EXAMPLE
- AWSシークレットアクセスキー：wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY
- バケット名：sample-bucket
- バケットの任意のフォルダパス：sample_a/sample_a_1

In [None]:
import sys
sys.path.append('../..')
from nb_libs.experiment import prepare_multi_from_s3
prepare_multi_from_s3.input_aws_info()

### 1-2. 取得データの選択
上記で入力したバケットのデータが表示されます。<br>
表示されたデータから、この実験に必要な入力データやソースコードをクリックして選択してください。<br>
「複数のデータを選択する場合」や「選択を解除する場合」は、Ctrlキーを押しながらクリックしてください。<br>
選択後、`選択完了`ボタンを押下してください。

In [None]:
import sys
sys.path.append('../..')
from nb_libs.experiment import prepare_multi_from_s3
prepare_multi_from_s3.choose_get_data()

### 1-3. データの格納の指定
データの格納先を指定します。<br>
格納先のファイルパスには、実験パッケージ直下の既存フォルダである`input_data/`, `source/`を含めて入力してください。<br>
`input_data/`, `source/`配下に新たにフォルダを作成したい場合はここで指定することで作成可能です。(以下に記載される入力例を参照)<br>

以下の点に注意して入力してください。

<p style=""color:red;"">格納先のファイルパスは、<code>input_data/</code>、<code>source/</code>で始まる必要があります。<br>格納先のファイルパスの拡張子は、元のデータの拡張子と一致させる必要があります。</p>

入力後、`入力完了`ボタンを押下してください。<br>
※ 入力に誤りがある場合は、次の処理に進む前に、再度このセルを実行して下さい。<br>

#### 入力例
- 格納先のファイルパス
  - パターン１(input_data/の場合)：`input_data`/added_folder/sample_input.txt
  - パターン２(source/の場合)：`source`/added_folder/sample_src.txt

上記の入力例において、`added_folder/`は新規追加フォルダを表します。<br>

In [None]:
import sys
sys.path.append('../..')
from nb_libs.experiment import prepare_multi_from_s3
prepare_multi_from_s3.input_path()

## 2. データの取り込み
上記で入力したデータを取得します。

### 2-1. リポジトリへの追加準備
リポジトリに取得データの情報を登録する準備を行います。

In [None]:
# 取得データ情報の整理
import sys
sys.path.append('../..')
from nb_libs.experiment import prepare_multi_from_s3
prepare_multi_from_s3.prepare_addurls_data()

In [None]:
# リポジトリへの取得データ情報の登録
import sys
sys.path.append('../..')
from nb_libs.experiment import prepare_multi_from_s3
prepare_multi_from_s3.add_url()

### 2-2. データ取得履歴を記録
データの取得履歴を記録します。

In [None]:
import sys
sys.path.append('../..')
from nb_libs.experiment import prepare_multi_from_s3
prepare_multi_from_s3.save_annex()

### 2-3. 取得データの実データをダウンロード
取得データの実データをダウンロードします。

In [None]:
import sys
sys.path.append('../..')
from nb_libs.experiment import prepare_multi_from_s3
prepare_multi_from_s3.get_data()

### 2-4. 実行結果の保存の準備
タスクNotebookを保存し、同期の準備を行います。

In [None]:
import sys
sys.path.append('../..')
from nb_libs.experiment import prepare_multi_from_s3
sync_repo_args = prepare_multi_from_s3.prepare_sync()

## 3. GIN-forkに実行結果を同期
タスクの実行結果をGIN-forkに同期します。

`リポジトリ側の変更と競合しました。競合を解決してください。`と表示された場合は、[GIN-forkへの同期の失敗を解消する](../common/conflict_helper.ipynb)を参照して、競合を解消してください。

In [None]:
import sys
sys.path.append('../..')
from nb_libs.utils.gin import sync
from nb_libs.utils import message
from nb_libs.utils.except_class import DidNotFinishError
if not 'sync_repo_args' in locals():
    message.display.display_err(message.message.get('from_repo_s3', 'did_not_finish'))
    raise DidNotFinishError()
else:
    sync.syncs_with_repo(**sync_repo_args)

## 4. 実験フロートップページへ
実験フロートップページへ遷移するボタンを表示します。

In [None]:
import sys
sys.path.append('../..')
from nb_libs.utils.path import display
display.exp_top_link()