# 実験に利用するデータを用意する

実験を行う上で必要となる入力データ、参照データを解析環境に用意します。

## 1. 実験に利用するデータを用意する

### 1-1. 概要
実験を行う上で必要となる入力データ、参照データを用意するタスクです。<br>
GRDM内に用意しているデータであれば実行環境起動時に連携されているはずなので、実験の実データの場所 （ `/data/experiment/ [実験サブフロー作成時に指定したディレクトリ名] /`）にデータを配置してください。（この場所であればリサーチフローからGRDMに同期対象となります。）<br>
また、GRDM以外にあるデータを参照する場合は、オープンサイエンス、また再現性の観点から、永続性の高い場所を指定することをお勧めします。シンボリックリンクを作成して本環境から参照できるように設定してください。<br>
※利用期間が限定的な環境などの場合、タイミングによっては再現性確認ができない可能性もあります。ご注意ください。

### 1-2. ローカルPCから実験に利用するデータを用意する
ローカルPCから実験に利用するデータを配置する場合は以下の手順で実施してください。<br>
※他にも方法はありますが、代表的なやり方を例示します。

1. ダッシュボードビューを開く
2. アップロードする場所を開く
3. アップロードするファイルをドロップする
4. Uploadボタンからアップロードするファイルを選択する

### 1-3.外部のストレージやリポジトリのデータを用意する
実験に利用するデータが外部のストレージやリポジトリに存在する場合は、実験で使用できるように実験環境内に配置する必要があります。<br>

1. AWS S3ストレージからデータを用意する
1. Githubからデータを用意する

#### 1-3-1. AWS S3ストレージからデータを用意する
AWS S3ストレージからファイルをダウンロードする方法を説明します。<br>
このサンプルでは、AWS S3パケット（dg-rcos-test）上にあるsample/sample.csvを`/home/jovyan/data/experiment/exp_A/python_boilerplate/tests/sample.csv`にダウンロードする方法を提示します。<br>
※S3のboto3を使ってファイルをダウンロードするにはアクセスキーとシークレットアクセスキーが必要になりますので、AWS上でアクセスキーとシークレットキーを発行しておいてください。<br>

以下のフォームに必要事項を入力して「実行」を押してください。<br>
転送元データパスと転送先には、ディレクトリパスまたはファイルパスを指定してください。ディレクトリパスの場合は末尾を`/`にしてください。<br>

・アクセスキー（e.g. AKIA5QNFEKNI45ACSXP2）<br>
・シークレットアクセスキー（e.g. CqWaVLOP1nARne6dGiCA2qoxg86FR/WLY6sJ7Zeu）<br>
・バケット名（e.g. dg-rcos-test）<br>
・転送元データパス（e.g. sample/sample.csv）<br>
・転送先（e.g. data/ecperiment/exp_A/python_boilerplate/tests/sample.csv）<br>
・実行（ボタン）<br>

In [None]:
import os
import sys
import traceback
import re

import panel as pn
from IPython.display import display
from botocore.exceptions import ClientError

sys.path.append('../../../../../..')
from library.task_director import TaskDirector
from library.utils.widgets import Button, MessageBox
from library.utils.config import message as msg_config
from library.utils.error import InputWarning
from library.utils.string import StringManager
from library.utils.storage_provider import AWS
from library.utils.setting import get_data_dir


script_file_name = "prepare_data"
notebook_name = script_file_name+'.ipynb'

class AWSPreparer():

    def __init__(self, form_box, message_box:MessageBox) -> None:
        self._form_box = form_box
        self._msg_output = message_box

        # define widgets
        self.access_key_title = msg_config.get('prepare_data', 'access_key_title')
        self.access_key_form = pn.widgets.PasswordInput(
            name=self.access_key_title,
            width=600,
            max_length=20
        )
        self.secret_key_title = msg_config.get('prepare_data', 'secret_key_title')
        self.secret_key_form = pn.widgets.PasswordInput(
            name=self.secret_key_title,
            width=600,
            max_length=40
        )
        self.bucket_title = msg_config.get('prepare_data', 'bucket_title')
        self.bucket_form = pn.widgets.TextInput(
            name=self.bucket_title,
            width=600,
            max_length=63
        )
        self.aws_path_title = msg_config.get('prepare_data', 'aws_path_title')
        self.aws_path_form = pn.widgets.TextInput(
            name=self.aws_path_title,
            width=600
        )
        self.local_path_title = msg_config.get('prepare_data', 'local_path_title')
        self.local_path_form = pn.widgets.TextInput(
            width=400,
            margin=(0, 10)
        )
        self.submit_button = Button()
        self.submit_button.width = 600
        self.submit_button.set_looks_init(msg_config.get('prepare_data', 'submit'))

    def define_aws_form(self, data_dir: str):
        home_path = os.environ['HOME']
        if not home_path.endswith("/"):
            home_path += "/"
        data_dir = data_dir.replace(home_path, '')
        if not data_dir.endswith("/"):
            data_dir += "/"
        self.local_path_form.value = data_dir
        self.local_path_form.value_input = data_dir
        # display
        self._form_box.append(self.access_key_form)
        self._form_box.append(self.secret_key_form)
        self._form_box.append(self.bucket_form)
        self._form_box.append(self.aws_path_form)
        title = pn.pane.Markdown(self.local_path_title, margin=(0, 10))
        path_text = pn.pane.Markdown(f"{home_path}", margin=(0, 0, 0, 5))
        widgets = pn.Column(title, pn.Row(path_text, self.local_path_form, margin=(0, 10)))
        self._form_box.append(widgets)
        self._form_box.append(self.submit_button)

    def set_submit_button_callback(self, func):
        self.submit_button.on_click(func)

    def get_data(self):
        access_key = self.access_key_form.value_input
        secret_key = self.secret_key_form.value_input
        bucket_name = self.bucket_form.value_input
        aws_path = self.aws_path_form.value_input
        local_path = self.local_path_form.value_input

        requred_msg = msg_config.get('prepare_data', 'required_format')
        invalid_msg = msg_config.get('prepare_data', 'invalid_format')

        # 入力項目の確認
        try:
            # アクセスキー
            access_key = StringManager.strip(access_key, remove_empty=False)
            if StringManager.is_empty(access_key):
                raise InputWarning(requred_msg.format(self.access_key_title))
            if len(access_key) != 20:
                raise InputWarning(invalid_msg.format(self.access_key_title))
            if StringManager.has_whitespace(access_key):
                raise InputWarning(invalid_msg.format(self.access_key_title))
            # シークレットアクセスキー
            secret_key = StringManager.strip(secret_key, remove_empty=False)
            if StringManager.is_empty(secret_key):
                raise InputWarning(requred_msg.format(self.secret_key_title))
            if len(secret_key) != 40:
                raise InputWarning(invalid_msg.format(self.secret_key_title))
            if StringManager.has_whitespace(secret_key):
                raise InputWarning(invalid_msg.format(self.secret_key_title))
            # バケット名
            bucket_name = StringManager.strip(bucket_name)
            if StringManager.is_empty(bucket_name):
                raise InputWarning(requred_msg.format(self.bucket_title))
            if not re.fullmatch(r'^[a-z0-9][a-z0-9\.-]{1,61}[a-z0-9]$', bucket_name):
                # 以下の条件を満たさない場合エラー
                #   3文字以上63文字以下
                #   小文字・数字・ドット・ハイフンのみ
                #   先頭と末尾は小文字か数字のみ
                raise InputWarning(invalid_msg.format(self.bucket_title))
            if re.search(r'\.{2,}', bucket_name):
                # ドットが連続する場合エラー
                raise InputWarning(invalid_msg.format(self.bucket_title))
            # 転送元データパス（AWS）
            aws_path = StringManager.strip(aws_path)
            if StringManager.is_empty(aws_path):
                raise InputWarning(requred_msg.format(self.aws_path_title))
            # 転送先
            local_path = StringManager.strip(local_path)
            if StringManager.is_empty(local_path):
                raise InputWarning(requred_msg.format(self.aws_path_title))

            if aws_path.endswith("/") != local_path.endswith("/"):
                self._msg_output.update_warning(msg_config.get('prepare_data', 'path_warning'))
                raise InputWarning(msg_config.get('prepare_data', 'invalid'))

        except InputWarning as e:
            self.submit_button.set_looks_warning(str(e))
            raise

        # 先頭に/がある場合joinで失敗するので確認
        if local_path.startswith("/"):
            local_path.replace("/", '')
        local_path = os.path.join(os.environ['HOME'], local_path)
        # データ取得
        try:
            AWS.download(access_key, secret_key, bucket_name, aws_path, local_path)
        except FileExistsError as e:
            # 転送先が既に存在する
            self._msg_output.update_warning(msg_config.get('prepare_data', 'local_path_exist'))
            self.submit_button.set_looks_warning(invalid_msg.format(self.local_path_title))
            raise InputWarning(str(e))
        except FileNotFoundError as e:
            # 転送元が存在しない
            self._msg_output.update_warning(msg_config.get('prepare_data', 'aws_file_not_found'))
            self.submit_button.set_looks_warning(invalid_msg.format(self.aws_path_title))
            raise InputWarning(str(e))
        except ClientError as e:
            if e.response["ResponseMetadata"]["HTTPStatusCode"] == 403:
                # アクセスキーかシークレットアクセスキーが間違っている
                self._msg_output.update_warning(msg_config.get('prepare_data', 'aws_unauthorized'))
                self.submit_button.set_looks_warning(msg_config.get('prepare_data', 'invalid'))
                raise InputWarning(str(e))
            elif e.response['Error']['Code'] == 'NoSuchBucket':
                # バケットが存在しない
                self._msg_output.update_warning(msg_config.get('prepare_data', 'bucket_not_found'))
                self.submit_button.set_looks_warning(invalid_msg.format(self.bucket_title))
                raise InputWarning(str(e))
            elif e.response["ResponseMetadata"]["HTTPStatusCode"] == 404:
                # 転送元が存在しない
                self._msg_output.update_warning(msg_config.get('prepare_data', 'aws_file_not_found'))
                self.submit_button.set_looks_warning(invalid_msg.format(self.aws_path_title))
                raise InputWarning(str(e))
            else:
                raise


class DataPreparer(TaskDirector):

    def __init__(self, working_path:str) -> None:
        """ExperimentEnvBuilder コンストラクタ

        Args:
            working_path (str): [実行Notebookファイルパス]
        """
        super().__init__(working_path, notebook_name)
        self.data_dir = get_data_dir(self.nb_working_file_path)

        # フォームボックス
        self._form_box = pn.WidgetBox()
        self._form_box.width = 900
        # メッセージ用ボックス
        self._msg_output = MessageBox()
        self._msg_output.width = 900

        self.aws_pre = AWSPreparer(self._form_box, self._msg_output)

    @TaskDirector.task_cell("1")
    def from_AWS(self):
        # タスク開始によるサブフローステータス管理JSONの更新
        self.doing_task()

        # フォーム定義
        self.aws_pre.define_aws_form(self.data_dir)
        self.aws_pre.set_submit_button_callback(self.aws_callback)
        # フォーム表示
        pn.extension()
        form_section = pn.WidgetBox()
        form_section.append(self._form_box)
        form_section.append(self._msg_output)
        display(form_section)

    @TaskDirector.callback_form("aws_preparer")
    def aws_callback(self, event):
        self.aws_pre.submit_button.set_looks_processing()
        self._msg_output.clear()
        try:
            self.aws_pre.get_data()

        except InputWarning as e:
            self.log.warning(str(e))
            return
        except Exception:
            message = f'## [INTERNAL ERROR] : {traceback.format_exc()}'
            self.aws_pre.submit_button.set_looks_error(msg_config.get('prepare_data', 'submit'))
            self._msg_output.update_error(message)
            self.log.error(message)
            return

        self._form_box.clear()
        self._msg_output.update_success(msg_config.get('prepare_data', 'success'))


DataPreparer(working_path=os.path.abspath('__file__')).from_AWS()

#### 1-3-2. Githubからデータを用意する
GithubからリポジトリをCloneする方法を説明します。
Github上のCodeメニューからhttpsのURLをコピーします。
プライベートリポジトリの場合はGitbunのアカウント、アクセストークンが必要になります。あらかじめ準備をお願いします。以下のフォームに必要事項を入力して「実行」を押してください。<br>


・リポジトリURL<br>
・アカウント名<br>
・アクセストークン<br>
・転送先<br>
・実行（ボタン）<br>

In [None]:
# TODO: Implement

## 2. Gakunin RDMに保存する

In [None]:
import os
import sys

sys.path.append('../../../../../..')
from library.task_director import TaskDirector

script_file_name = "prepare_data"
notebook_name = script_file_name+'.ipynb'

class DataPreparer(TaskDirector):

    def __init__(self, working_path:str) -> None:
        """ExperimentEnvBuilder コンストラクタ

        Args:
            working_path (str): [実行Notebookファイルパス]
        """
        super().__init__(working_path, notebook_name)
        self.data_dir = get_data_dir(self.nb_working_file_path)

    TaskDirector.task_cell("3")
    def completed_task(self):
        # フォーム定義
        source = [self.data_dir]
        self.define_save_form(source)
        # フォーム表示
        pn.extension()
        form_section = pn.WidgetBox()
        form_section.append(self.save_form_box)
        form_section.append(self.save_msg_output)
        display(form_section)

DataPreparer(working_path=os.path.abspath('__file__')).completed_task()

## サブフローメニューへ

サブフローメニューへアクセスするボタンを表示します

In [None]:
# サブフローメニューへアクセスするボタンを表示
import os
import sys
sys.path.append('../../../../../..')
from library.task_director import TaskDirector

script_file_name = "prepare_data"
notebook_name = script_file_name+'.ipynb'
TaskDirector(os.path.abspath('__file__'), notebook_name).return_subflow_menu()