# S3からデータを用意する
ここでは、[S3](https://aws.amazon.com/jp/s3/)のストレージにあるデータを、この実験の入力データや実験ソースコードとして用意します。  

～ データガバナンス機能のデータ管理方法について ～  

データガバナンス機能では、大容量データの管理にあたって、ファイルのリンク情報と実データを分けて管理する技術「git-annex」を採用しています。  
それにより、軽容量なリンク情報をGIN-forkのリポジトリに保存することで、実験実行環境から実データにアクセス・ダウンロードすることができます。
  
以下は操作の概要図です。   

![S3ユースケース](./images/S3ユースケース.png)

実験フロートップページに戻る場合は[こちら](../experiment.ipynb)。新規タブで開きます。  

## 研究リポジトリ名・実験パッケージ名を確認する  
以下のセルを実行すると、この実験実行環境で操作する実験パッケージの名前と、実験パッケージの存在する研究リポジトリ名を確認できます。  


In [None]:
import os
os.chdir('/home/jovyan/WORKFLOWS/FLOW/')
from util.scripts import utils

%store -r
if 'EXPERIMENT_TITLE' not in locals().keys() : EXPERIMENT_TITLE = '-'
utils.show_name('blue', EXPERIMENT_TITLE)

## 必要な処理を以下から選択し、実行してください。
- [A：S3にある単一データを用意する場合](#A：S3にある単一データを用意する場合)
- [B：複数のデータを取得する場合](#B：複数のデータを取得する場合)

## A：S3にある単一データを用意する場合

### A-1. S3にあるデータのオブジェクトURLと、そのデータの格納先を入力する
このセクションでは、リポジトリに用意するS3にあるデータのオブジェクトとそのデータの格納先を指定します。<br>
以下のセルを実行すると`S3オブジェクトURL`と`データの格納先`の入力フォームが表示されます。<br>
格納先入力フォームには、実験パッケージ直下の既存フォルダである`input_data/`, `source/`を入力フォームに含めて入力してください。<br>
`input_data/`, `source/`以下に新たにフォルダを作成したい場合はここで指定することで作成可能です。(以下に記載される入力例を参照)<br>

以下の点に注意して入力してください。

<p style="color:red;">格納先のファイルパスは、`input_data/`, `source/`で始まる必要があります。<br>格納先のファイルパスの拡張子は、元のデータの拡張子と一致させる必要があります。</p>

入力が完了したら`入力を完了する`ボタンをクリックしてください。  
※ 入力に誤りがある場合は、次に進む前に、再度このセルを実行して下さい。  

#### 入力例
- S3オブジェクトURL：https://[bucket-title]].s3.ap-northeast-1.amazonaws.com/sample.txt  
- 格納先のファイルパス
  - パターン１(input_data/の場合)：`input_data`/added_folder/sample_input.txt  
  - パターン２(source/の場合)：`source`/added_folder/sample_src.txt  

上記の入力例において、`added_folder/`は新規追加フォルダを表します。<br>

In [None]:
from ipywidgets import Text, Button, Layout
style = {'description_width': 'initial'}
%store -r EXPERIMENT_TITLE

def on_click_callback(clicked_button: Button) -> None:
    global input_url
    global input_path
    input_url = text_url.value
    input_path = text_path.value
    if input_path.startswith('input_data/') or input_path.startswith('source/'):
        button.description='入力を完了しました。'
        button.layout=Layout(width='250px')
        button.button_style='success'
    else:
        button.description='`input_data/`か`source/`で始まる必要があります。修正後、再度クリックしてください。'
        button.layout=Layout(width='700px')
        button.button_style='danger'

text_path = Text(
    description='*格納先のファイルパス：',
    placeholder='Enter a file path here...',
    layout=Layout(width='700px'),
    style=style
)
text_url = Text(
    description='*S3にあるデータのオブジェクトURL：',
    placeholder='Enter a object URL here...',
    layout=Layout(width='700px'),
    style=style
)
button = Button(description='入力を完了する',layout=Layout(width='250px'))
button.on_click(on_click_callback)
text_url.on_submit(on_click_callback)
display(text_url, text_path, button)

### A-2. リンクを作成する
上のセルで入力いただいた内容から、git-annex管理用のリンクを作成します。

In [None]:
import traceback
from colorama import Fore

dest_path = '/home/jovyan/experiments/' + EXPERIMENT_TITLE + '/' + input_path
try:
    result = !git annex addurl --fast --file="$dest_path" $input_url
    # *Since the git annex addurl process does not raise an exception if it fails, the following process determines failure and raises an exception if it fails.
    for line in result:
        if 'failed' in line:
            raise Exception
except Exception:
    print(Fore.RED + 'リンク情報の作成に失敗しました。入力値を確認してください。\n')
    print(traceback.format_exc())
else:
    print(Fore.BLACK + 'リンク情報の作成に成功しました。\n')

### A-3. データの来歴の記録と、実データのダウンロードを行う

In [None]:
import os
import traceback
from datalad import api
from IPython.display import HTML, display, clear_output

git_path = []
try:
    # The data stored in the source folder is managed by git, but once committed in git annex to preserve the history.
    os.chdir('/home/jovyan/WORKFLOWS/FLOW/')
    from util.scripts import utils
    os.chdir(os.environ['HOME'])
    # *No metadata is assigned to the annexed file because the actual data has not yet been acquired.
    annex_pahts = [dest_path]
    os.system('git annex lock')
    utils.save_annex_and_register_metadata(gitannex_path=annex_pahts, gitannex_files=[], message='S3ストレージから実験のデータを用意')
    
    # Obtain the actual data of the created link.
    api.get(path=annex_pahts)

    if input_path.startswith('source/'):
        # Make the data stored in the source folder the target of git management.
        # Temporary lock on annex content
        !git annex lock
        # Unlock only the paths under the source folder.
        !git annex unlock "$dest_path"
        !git add "$dest_path"
        !git commit -m "Change content type : git-annex to git"
        !git annex metadata --remove-all "$dest_path"
        !git annex unannex "$dest_path"
        git_path.append(dest_path)
    else:
        # Attach sdDatePablished metadata to data stored in folders other than the source folder.
        utils.register_metadata_for_downloaded_annexdata(file_path=dest_path)
        
    annex_paths = list(set(annex_pahts) - set(git_path))

        
except Exception:
    display(HTML("<p><font color='red'>処理に失敗しました。用意したいデータにアクセス可能か確認してください。</font></p>"))
    print(traceback.format_exc())
else:
    clear_output()
    display(HTML("<p>来歴の記録とデータのダウンロードに成功しました。次の処理にお進みください。</p>"))


### A-4. GIN-forkのリポジトリに同期する

In [None]:
from IPython.display import display, Javascript
display(Javascript('IPython.notebook.save_checkpoint();'))

以下を実行して、`リポジトリ側の変更と競合しました。競合を解決してください。`と表示された場合は、[GINへの同期の失敗を解消する。](../conflict_helper.ipynb)を参照して、競合を解消してください。

In [None]:
import os
os.chdir('/home/jovyan/WORKFLOWS/FLOW/')
from util.scripts import utils
os.chdir(os.environ['HOME'])

git_path.append('WORKFLOWS/EX-WORKFLOWS/prepare_from_s3.ipynb')
get_path = 'experiments/{}'.format(EXPERIMENT_TITLE)
is_ok = utils.syncs_with_repo(git_path=git_path, gitannex_path=annex_paths, gitannex_files=annex_paths, message=EXPERIMENT_TITLE + '_実験データの用意', get_paths=[get_path])

### A-5. 実験フロートップページに遷移する

以下のセルを実行し、表示されるリンクをクリックして実験フロートップページに戻ってください。 

In [None]:
from IPython.display import display, HTML, Javascript
display(HTML("<a href='../experiment.ipynb'>実験フロートップページに遷移する</a>"))
display(Javascript('IPython.notebook.save_checkpoint();'))

## B：複数のデータを取得する場合

S3のバケットまたはバケット内のフォルダ単位でデータを取得します。<br>

### B-1. AWSと接続するための情報を入力する

フォルダ単位でデータを取得したい場合は、`任意のフォルダパス`にフォルダパスを入力してください。  
入力が完了したら`入力を完了する`ボタンをクリックしてください。<br>

#### 入力例
- AWSアクセスキーID：AKIAIOSFODNN7EXAMPLE
- AWSシークレットアクセスキー：wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY
- AWSリージョンコード：ap-northeast-1
- バケット名：sample-bucket
- バケットの任意のフォルダパス：sample_a/sample_a_1

In [None]:
from ipywidgets import Text, Button, Layout, Password
import boto3

style = {'description_width': 'initial'}

def on_click_callback(clicked_button: Button) -> None:
    button.description='入力を受け付けました。'
    button.button_style='success'

# テキストボックス
input_aws_access_key_id = Password(
    description='*AWSアクセスキーID：',
    placeholder='Enter your AWS access key ID here...',
    layout=Layout(width='700px'),
    style=style
)
input_aws_secret_access_key = Password(
    description='*AWSシークレットアクセスキー：',
    placeholder='Enter your AWS secret key here...',
    layout=Layout(width='700px'),
    style=style
)
input_aws_default_region = Text(
    description='*AWSリージョンコード：',
    placeholder='Enter AWS region name here...',
    layout=Layout(width='700px'),
    style=style
)
input_bucket_name = Text(
    description='*バケット名：',
    placeholder='Enter S3 bucket name here...',
    layout=Layout(width='700px'),
    style=style
)
input_prefix = Text(
    description='バケットの任意のフォルダパス：',
    placeholder='Enter bucket folder path here...',
    layout=Layout(width='700px'),
    style=style
)
button = Button(description='入力を完了する', layout=Layout(width='200px'))
button.on_click(on_click_callback)
display(input_aws_access_key_id, input_aws_secret_access_key, input_aws_default_region, input_bucket_name, input_prefix, button)

### B-2. 入力されたS3バケットに接続する

In [None]:
import traceback
from IPython.display import HTML, display
import boto3

aws_default_region = input_aws_default_region.value
bucket_name = input_bucket_name.value
prefix = input_prefix.value
paths=[]

try:
    s3 = boto3.resource(
        's3',
        aws_access_key_id = input_aws_access_key_id.value,
        aws_secret_access_key = input_aws_secret_access_key.value,
    ) 
    bucket = s3.Bucket(bucket_name)
    if len(prefix)==0:
        response = bucket.meta.client.list_objects_v2(Bucket=bucket.name)
    else:
        response = bucket.meta.client.list_objects_v2(Bucket=bucket.name, Prefix=prefix)
    for content in response['Contents']:
        paths.append(content['Key'])
except Exception:
    display(HTML("<p><font color='red'>S3バケットに接続できません。手順B-1の入力に間違いがないか確認してください。</font></p>"))
    print(traceback.format_exc())
else:
    display(HTML("<p>入力されたS3バケットに接続できました。次の処理にお進みください。</p>"))

### B-3. 必要なデータを選択する

以下のセルを実行すると、手順B-1で入力したS3バケットにあるデータが表示されます。  
表示されたデータから、この実験に必要な入力データやソースコードをクリックして選択してください。  
「複数のデータを選択する場合」や「選択を解除する場合」は、Ctrlキーを押しながらクリックしてください。  
選択したら`選択を完了する`ボタンをクリックしてください。<br>

In [None]:
import panel as pn
pn.extension()
column = pn.Column()
gui_list = []

# Eliminate folders from the list of folders and files (paths) retrieved from the S3 bucket, display a GUI for file selection as a file list, and accept input.
for path in paths:
    if path.endswith('/'):
        pass
    else:
        gui_list.append(path)
        
def generate_dest_list(event):
    done_button.button_type = "success"
    done_button.name = "選択完了しました。次の処理にお進みください。"
    global dest_list
    dest_list = []
    for i in range(len(column)):
        if len(column[i].value) > 0:
            dest_list.append('### ' + column[i].name)
        for index in range(len(column[i].value)):
            dest_list.append(pn.widgets.TextInput(name=column[i].value[index], placeholder='Enter a file path here...', width=700))
    
column.append(pn.widgets.MultiSelect(name = "S3ファイル", options=gui_list, size=len(gui_list), sizing_mode='stretch_width'))
done_button = pn.widgets.Button(name= "選択を完了する", button_type= "primary")
done_button.on_click(generate_dest_list)
column.append(done_button)
column

### B-4. 選択したデータの格納先を入力する

このセクションでは、手順B-3で選択したデータの格納先を指定します。<br>
以下のセルを実行するとデータの格納先入力フォームが表示されます。<br>
格納先入力フォームには、実験パッケージ直下の既存フォルダである`input_data/`, `source/`を入力フォームに含めて入力してください。<br>
`input_data/`, `source/`以下に新たにフォルダを作成したい場合はここで指定することで作成可能です。(以下に記載される入力例を参照)<br>

以下の点に注意して入力してください。

<p style="color:red;">格納先のファイルパスは、`input_data/`, `source/`で始まる必要があります。<br>格納先のファイルパスの拡張子は、元のデータの拡張子と一致させる必要があります。</p>

入力が完了したら`入力を完了する`ボタンをクリックしてください。<br>
※ 入力に誤りがある場合は、次の処理に進む前に、再度このセルを実行して下さい。<br>

#### 入力例
- 格納先のファイルパス
  - パターン１(input_data/の場合)：`input_data`/added_folder/sample_input.txt  
  - パターン２(source/の場合)：`source`/added_folder/sample_src.txt   

上記の入力例において、`added_folder/`は新規追加フォルダを表します。<br>

In [None]:
import panel as pn
from IPython.display import HTML, display

def verify_input_text(event):
    for i in range(len(column)):
        panel_type = str(type(column[i]))
        if 'TextInput' in panel_type:
            if column[i].value_input.startswith('input_data/') or column[i].value_input.startswith('source/'):
                done_button.button_type = "success"
                done_button.name = "入力を完了しました。次の処理にお進みください。"
            else:
                done_button.button_type = "danger"
                done_button.name = "`input_data/`か`source/`で始まる必要があります。修正後、再度クリックしてください。"
                break
            
done_button = pn.widgets.Button(name= "入力を完了する", button_type= "primary")
done_button.on_click(verify_input_text)
column = pn.Column()
for gui in dest_list:
    column.append(gui)
column.append(done_button)
column

### B-5. 選択したデータのリンクを指定した格納先に用意する

In [None]:
import os
import csv
import traceback
from datalad import api
from IPython.display import HTML, display

# Export the download URL and download destination to a csv file to generate the link in datalad addurls.
objects=[]
%store -r EXPERIMENT_TITLE
package_path = 'experiments/' + EXPERIMENT_TITLE

for i in range(len(column)):
    panel_type = str(type(column[i]))
    if 'TextInput' in panel_type:
        # 半角スペースを+に置換する
        s3_file_path = column[i].name
        s3_file_path = s3_file_path.replace(" ", "+")

        url = "https://%s.s3.%s.amazonaws.com/%s" % (
            bucket_name,
            aws_default_region,
            s3_file_path
        )
        objects.append([package_path + '/' + column[i].value_input, url])
        
os.chdir(os.environ['HOME'])
!mkdir -p .tmp
with open('/home/jovyan/.tmp/datalad-addurls.csv', 'w+') as f:
    writer = csv.writer(f)
    writer.writerow(['who','link'])
    for obj in objects:
        writer.writerow([obj[0],obj[1]])

# Run datalad addurls to create a git annex link pointing to the external file.
result = ''
try:
    result = !datalad addurls --nosave --fast .tmp/datalad-addurls.csv '{link}' '{who}'
    for line in result:
        if 'addurls(error)' in line  or 'addurls(impossible)' in line:
            raise Exception
except Exception:
    display(HTML("<p><font color='red'>リンクの作成に失敗しました。用意したいデータにアクセス可能か確認してください。</font></p>"))
    print(traceback.format_exc())
else:
    display(HTML("<p>リンクの作成に成功しました。次の処理にお進みください。</p>"))

### B-6. データの来歴の記録と、実データのダウンロードを行う¶

In [None]:
import os
from datalad import api
from IPython.display import HTML, display, clear_output
import traceback

try:
    # The list of file paths prepared in this task is summarized in datalad_get_path.
    datalad_get_path = []
    for obj in objects:
        datalad_get_path.append(obj[0])

    # The data stored in the source folder is managed by git, but once committed in git annex to preserve the history.
    os.chdir('/home/jovyan/WORKFLOWS/FLOW/')
    from util.scripts import utils
    os.chdir(os.environ['HOME'])
    # *No metadata is assigned to the annexed file because the actual data has not yet been acquired.
    os.system('git annex lock')
    utils.save_annex_and_register_metadata(gitannex_path=datalad_get_path, gitannex_files=[],  message='S3ストレージの' + bucket_name + 'バケットから実験のデータを用意')

    # Obtain the actual data of the created link.
    api.get(path=datalad_get_path)

    # Make the data stored in the source folder the target of git management.
    source_path = []
    for path in datalad_get_path:
        if path.startswith('experiments/' + EXPERIMENT_TITLE + '/source'):
            source_path.append(path)

    if len(source_path) > 0:
        # Make path str for git or annex command
        src_list = list[str]()
        for src_path in source_path:
            src_list.append('"{}"'.format(src_path))

        git_arg_path = ' '.join(src_list)
        # Temporary lock on annex content
        !git annex lock
        # Unlock only the paths under the source folder.
        !git annex unlock $git_arg_path
        !git add $git_arg_path
        !git commit -m "Change content type : git-annex to git"
        !git annex metadata --remove-all $git_arg_path
        !git annex unannex $git_arg_path

    # Attach sdDatePablished metadata to data stored in folders other than the source folder.
    except_source_path = list(set(datalad_get_path) - set(source_path))
    for file_path in except_source_path:
        utils.register_metadata_for_downloaded_annexdata(file_path=file_path)
    
except Exception:
    display(HTML("<p><font color='red'>処理に失敗しました。用意したいデータにアクセス可能か確認してください。</font></p>"))
    print(traceback.format_exc())
else:
    clear_output()
    display(HTML("<p>来歴の記録とデータのダウンロードに成功しました。次の処理にお進みください。</p>"))

### B-7. GIN-forkのリポジトリに同期する

In [None]:
from IPython.display import display, Javascript
display(Javascript('IPython.notebook.save_checkpoint();'))

以下を実行して、`リポジトリ側の変更と競合しました。競合を解決してください。`と表示された場合は、[GINへの同期の失敗を解消する。](../conflict_helper.ipynb)を参照して、競合を解消してください。

In [None]:
import os
os.chdir('/home/jovyan/WORKFLOWS/FLOW/')
from util.scripts import utils
os.chdir(os.environ['HOME'])

git_path = source_path
git_path.append('WORKFLOWS/EX-WORKFLOWS/prepare_from_s3.ipynb')
get_path = 'experiments/{}'.format(EXPERIMENT_TITLE)
is_ok = utils.syncs_with_repo(git_path=git_path, gitannex_path=except_source_path, gitannex_files=except_source_path, message=EXPERIMENT_TITLE + '_実験データの用意', get_paths=[get_path])

### B-8. 実験フロートップページに遷移する

以下のセルを実行し、表示されるリンクをクリックして実験フロートップページに戻ってください。

In [None]:
from IPython.display import display, HTML, Javascript
display(HTML("<a href='../experiment.ipynb'>実験フロートップページに遷移する</a>"))
display(Javascript('IPython.notebook.save_checkpoint();'))