# 実験に利用するデータを用意する
実験を行う上で必要となる入力データ、参照データを用意するタスクです。

実験の実データの場所 （ `/data/experiment/ [実験サブフロー作成時に指定したデータフォルダ名] /`）、また「実験パッケージの構成を用意する」タスクで作成したデータフォルダ構造内の適切な場所にデータを用意してください。<br>
GakuNin RDM以外のサーバー（AWS S3,Githubなど）にある場合は、実行中の環境にコピーしてください。<br>
AWS S3とGithubに関してはフォームが準備されていますので、手順に従って処理を進めてください。<br>
※それ以外の場合は手順が準備されていませんので手動でアップロードしてください。<br>

## ローカルPCから実験に利用するデータを用意する
ローカルPCから実験に利用するデータを配置する場合は以下の手順で実施してください。<br>
※他にも方法はありますが、代表的なやり方を例示します。

1. ダッシュボードビューを開く<br>
左上のJupyterhubアイコンをクリックしてダッシュボードビューを開きます。<br>
![ダッシュボードビューを開く](./images/RF003010_dashboard_view.png)

2. アップロードする場所を開く<br>
準備データをアップロードする場所を開きます。実験サブフロー作成時に作成したデータフォルダは
/data/experiment/exp_A になります。（exp_Aは指定したフォルダ名）<br>
![データフォルダ](./images/RF003010_data_folder.png)

3. アップロードするファイルをドロップする、もしくは、Uploadボタンからアップロードするファイルを選択する<br>
フォルダを開いたらアップロードしたいファイルをドロップするか、右上のUploadボタンからファイルを選択してください。<br>
![アップロード](./images/RF003010_upload.png)

4. アップロードを実行する。<br>
ファイルごとに青いUploadボタンを押したらファイルがアップロードされます。<br>
![アップロード完了](./images/RF003010_completed.png)

## 外部のストレージやリポジトリのデータを用意する
実験に利用するデータが外部のストレージやリポジトリに存在する場合は、実験で使用できるように実験環境内に配置する必要があります。<br>

1. AWS S3ストレージからデータを用意する
1. Githubからデータを用意する

#### 1.AWS S3ストレージからデータを用意する
AWS S3ストレージからファイルをダウンロードする方法を説明します。<br>
※S3のboto3を使ってファイルをダウンロードするにはアクセスキーとシークレットキーが必要になりますので、AWS上でアクセスキーとシークレットキーを発行しておいてください。<br>

以下のフォームに必要事項を入力して「実行する」を押してください。
転送元データパスと転送先には、フォルダパスまたはファイルパスを指定してください。フォルダパスの場合は末尾を`/`にしてください。<br>

・アクセスキー（e.g. AKIA5QNFEKNI45ACSXP2）<br>
・シークレットキー（e.g. CqWaVLOP1nARne6dGiCA2qoxg86FR/WLY6sJ7Zeu）<br>
・バケット名（e.g. dg-rcos-test）<br>
・転送元データパス（e.g. sample/sample.csv）<br>
・転送先（e.g. data/ecperiment/exp_A/python_boilerplate/tests/sample.csv）<br>
・実行する（ボタン）<br>

In [None]:
# AWS S3ストレージからデータを用意する
import os
import re
import traceback
from typing import Callable

from botocore.exceptions import ClientError
from IPython.core.display import Javascript
from IPython.display import display
import panel as pn

from library.task_director import TaskDirector
from library.utils.config import message as msg_config
from library.utils.error import InputWarning
from library.utils.setting import get_data_dir
from library.utils.storage_provider import aws
from library.utils.string import StringManager
from library.utils.widgets import Button, MessageBox


script_file_name = "prepare_data"
notebook_name = script_file_name+'.ipynb'


class AWSPreparer():
    """AWS S3からデータを取得するクラスです。

    Attributes:
        instance:
            _form_box (pn.WidgetBox): フォームを格納する。
            _msg_output (MessageBox): ユーザーに提示するメッセージを格納する。
            access_key_title(str):アクセスキーのタイトル
            access_key_form(pn.widgets):アクセスキーのフォーム
            secret_key_title(str):シークレットキーのタイトル
            secret_key_form(pn.widgets):シークレットキーのフォーム
            bucket_title(str):バケットのタイトル
            bucket_form(pn.widgets):バケットのフォーム
            aws_path_title(str):AWSパスのタイトル
            aws_path_form(pn.widgets):AWSパスのフォーム
            local_path_title(str):ローカルパスのタイトル
            local_path_form(pn.widgets):ローカルパスのフォーム
            submit_button(Button):ボタンを設定する。
    """

    def __init__(self, form_box: pn.WidgetBox, message_box: MessageBox) -> None:
        """AWSPreparer コンストラクタのメソッドです。

        Args:
            form_box(pn.WidgetBox) : フォームを格納する。
            message_box(MessageBox):メッセージを格納する。
        """
        self._form_box = form_box
        self._msg_output = message_box

        # define widgets
        self.access_key_title = msg_config.get('prepare_data', 'access_key_title')
        self.access_key_form = pn.widgets.PasswordInput(
            name=self.access_key_title,
            width=600,
            max_length=20
        )
        self.secret_key_title = msg_config.get('prepare_data', 'secret_key_title')
        self.secret_key_form = pn.widgets.PasswordInput(
            name=self.secret_key_title,
            width=600,
            max_length=40
        )
        self.bucket_title = msg_config.get('prepare_data', 'bucket_title')
        self.bucket_form = pn.widgets.TextInput(
            name=self.bucket_title,
            width=600,
            max_length=63
        )
        self.aws_path_title = msg_config.get('prepare_data', 'aws_path_title')
        self.aws_path_form = pn.widgets.TextInput(
            name=self.aws_path_title,
            width=600
        )
        self.local_path_title = msg_config.get('prepare_data', 'aws_local_title')
        self.local_path_form = pn.widgets.TextInput(
            width=400,
            margin=(0, 10)
        )
        self.submit_button = Button()
        self.submit_button.width = 500
        self.submit_button.set_looks_init(msg_config.get('prepare_data', 'submit'))

    def define_aws_form(self, data_dir: str):
        """awsのフォームを定義するメソッドです。

        Args:
            data_dir (str): dataディレクトリのパス
        """

        home_path = os.environ['HOME']
        if not home_path.endswith("/"):
            home_path += "/"
        data_dir = data_dir.replace(home_path, '')
        if not data_dir.endswith("/"):
            data_dir += "/"
        self.local_path_form.value = data_dir
        self.local_path_form.value_input = data_dir
        # display
        self._form_box.append(self.access_key_form)
        self._form_box.append(self.secret_key_form)
        self._form_box.append(self.bucket_form)
        self._form_box.append(self.aws_path_form)
        title = pn.pane.Markdown(self.local_path_title, margin=(0, 10))
        path_text = pn.pane.Markdown(f"{home_path}", margin=(0, 0, 0, 5))
        widgets = pn.Column(title, pn.Row(path_text, self.local_path_form, margin=(0, 10)))
        self._form_box.append(widgets)
        self._form_box.append(self.submit_button)

    def set_submit_button_callback(self, func: Callable):
        """submit_buttonがクリックされたときの処理を追加するメソッドです。

        Args:
            func (Callable): ボタンがクリックされた時にトリガーされるメソッド
        """

        self.submit_button.on_click(func)

    def get_data(self):
        """入力された値を利用してデータを取得するメソッドです。

        Raises:
            InputWarning: 入力不備によるエラー
        """

        access_key = self.access_key_form.value_input
        secret_key = self.secret_key_form.value_input
        bucket_name = self.bucket_form.value_input
        aws_path = self.aws_path_form.value_input
        local_path = self.local_path_form.value_input

        requred_msg = msg_config.get('prepare_data', 'required_format')
        invalid_msg = msg_config.get('prepare_data', 'invalid_format')

        # 入力項目の確認
        try:
            # アクセスキー
            access_key = StringManager.strip(access_key, remove_empty=False)
            if StringManager.has_whitespace(access_key):
                raise InputWarning(invalid_msg.format(self.access_key_title))
            if StringManager.is_empty(access_key):
                raise InputWarning(requred_msg.format(self.access_key_title))
            if len(access_key) != 20:
                raise InputWarning(invalid_msg.format(self.access_key_title))
            # シークレットアクセスキー
            secret_key = StringManager.strip(secret_key, remove_empty=False)
            if StringManager.has_whitespace(secret_key):
                raise InputWarning(invalid_msg.format(self.secret_key_title))
            if StringManager.is_empty(secret_key):
                raise InputWarning(requred_msg.format(self.secret_key_title))
            if len(secret_key) != 40:
                raise InputWarning(invalid_msg.format(self.secret_key_title))
            # バケット名
            bucket_name = StringManager.strip(bucket_name)
            if StringManager.is_empty(bucket_name):
                raise InputWarning(requred_msg.format(self.bucket_title))
            if not re.fullmatch(r'^[a-z0-9][a-z0-9\.-]{1,61}[a-z0-9]$', bucket_name):
                # 以下の条件を満たさない場合エラー
                #   3文字以上63文字以下
                #   小文字・数字・ドット・ハイフンのみ
                #   先頭と末尾は小文字か数字のみ
                raise InputWarning(invalid_msg.format(self.bucket_title))
            if re.search(r'\.{2,}', bucket_name):
                # ドットが連続する場合エラー
                raise InputWarning(invalid_msg.format(self.bucket_title))
            # 転送元データパス（AWS）
            aws_path = StringManager.strip(aws_path)
            if StringManager.is_empty(aws_path):
                raise InputWarning(requred_msg.format(self.aws_path_title))
            # 転送先
            local_path = StringManager.strip(local_path)
            if StringManager.is_empty(local_path):
                raise InputWarning(requred_msg.format(self.local_path_title))

            if aws_path.endswith("/") != local_path.endswith("/"):
                self._msg_output.update_warning(msg_config.get('prepare_data', 'aws_path_warning'))
                raise InputWarning(msg_config.get('prepare_data', 'invalid'))

        except InputWarning as e:
            self.submit_button.set_looks_warning(str(e))
            raise

        # 先頭に/がある場合joinで失敗するので確認
        if local_path.startswith("/"):
            local_path.replace("/", '')
        local_path = os.path.join(os.environ['HOME'], local_path)
        # データ取得
        try:
            aws.download(access_key, secret_key, bucket_name, aws_path, local_path)
        except FileExistsError as e:
            # 転送先が既に存在する
            self._msg_output.update_warning(msg_config.get('prepare_data', 'aws_local_exist'))
            self.submit_button.set_looks_warning(invalid_msg.format(self.local_path_title))
            raise InputWarning(str(e))
        except FileNotFoundError as e:
            # 転送元が存在しない
            self._msg_output.update_warning(msg_config.get('prepare_data', 'aws_file_not_found'))
            self.submit_button.set_looks_warning(invalid_msg.format(self.aws_path_title))
            raise InputWarning(str(e))
        except ClientError as e:
            if e.response["ResponseMetadata"]["HTTPStatusCode"] == 403:
                # アクセスキーかシークレットアクセスキーが間違っている
                self._msg_output.update_warning(msg_config.get('prepare_data', 'aws_unauthorized'))
                self.submit_button.set_looks_warning(msg_config.get('prepare_data', 'invalid'))
                raise InputWarning(str(e))
            elif e.response['Error']['Code'] == 'NoSuchBucket':
                # バケットが存在しない
                self._msg_output.update_warning(msg_config.get('prepare_data', 'bucket_not_found'))
                self.submit_button.set_looks_warning(invalid_msg.format(self.bucket_title))
                raise InputWarning(str(e))
            elif e.response["ResponseMetadata"]["HTTPStatusCode"] == 404:
                # 転送元が存在しない
                self._msg_output.update_warning(msg_config.get('prepare_data', 'aws_file_not_found'))
                self.submit_button.set_looks_warning(invalid_msg.format(self.aws_path_title))
                raise InputWarning(str(e))
            else:
                raise


class DataPreparer(TaskDirector):
    """AWS S3からデータを取得するための画面表示を行うクラスです。

    Attributes:
        instance:
            _form_box (pn.WidgetBox): フォームを格納する。
            _msg_output (MessageBox): ユーザーに提示するメッセージを格納する。
            data_dir(str):データディレクトリのパス
            aws_pre(AWSPreparer):AWSPreparerクラスを呼び出す。
    """

    def __init__(self, working_path: str) -> None:
        """DataPreparer コンストラクタのメソッドです。

        Args:
            working_path (str): 実行Notebookファイルパス
        """
        super().__init__(working_path, notebook_name)
        self.data_dir = get_data_dir(self.nb_working_file_path)

        # フォームボックス
        self._form_box = pn.WidgetBox()
        self._form_box.width = 900
        # メッセージ用ボックス
        self._msg_output = MessageBox()
        self._msg_output.width = 900

        self.aws_pre = AWSPreparer(self._form_box, self._msg_output)

    @TaskDirector.task_cell("1")
    def from_AWS(self):
        """awsのフォームを定義し、表示するメソッドです。"""

        # タスク開始によるサブフローステータス管理JSONの更新
        self.doing_task()

        # フォーム定義
        self.aws_pre.define_aws_form(self.data_dir)
        self.aws_pre.set_submit_button_callback(self.aws_callback)
        # フォーム表示
        pn.extension()
        form_section = pn.WidgetBox()
        form_section.append(self._form_box)
        form_section.append(self._msg_output)
        display(form_section)
        display(Javascript('IPython.notebook.save_checkpoint();'))

    @TaskDirector.callback_form("S3からデータを取得する")
    def aws_callback(self, event):
        """S3からデータを取得するメソッドです。"""

        self.aws_pre.submit_button.set_looks_processing()
        self._msg_output.clear()
        try:
            self.aws_pre.get_data()

        except InputWarning as e:
            self.log.warning(traceback.format_exc())
            return
        except Exception:
            message = f'## [INTERNAL ERROR] : {traceback.format_exc()}'
            self.aws_pre.submit_button.set_looks_error(msg_config.get('prepare_data', 'submit'))
            self._msg_output.update_error(message)
            self.log.error(message)
            return

        self._form_box.clear()
        self._msg_output.update_success(msg_config.get('prepare_data', 'success'))


DataPreparer(working_path=os.path.abspath('__file__')).from_AWS()

#### 2.Githubからデータを用意する
GithubからリポジトリをCloneする方法を説明します。
Github上のCodeメニューからhttpsのURLをコピーします。
プライベートリポジトリの場合はGithubのアカウント、アクセストークンが必要になります。あらかじめ準備をお願いします。以下のフォームに必要事項を入力して「実行する」を押してください。<br>

・リポジトリURL<br>
・アカウント名<br>
・アクセストークン<br>
・転送先<br>
・実行する（ボタン）<br>

In [None]:
# Githubからデータを用意する
import os
import re
import traceback
import urllib.parse

import git
from IPython.core.display import Javascript
from IPython.display import display
import panel as pn

from library.task_director import TaskDirector
from library.utils.config import message as msg_config
from library.utils.error import InputWarning
from library.utils.setting import get_data_dir
from library.utils.string import StringManager
from library.utils.widgets import Button, MessageBox


script_file_name = "prepare_data"
notebook_name = script_file_name+'.ipynb'


class GitHubPreparer():
    """Githubからデータを用意するクラスです。

    Attributes:
        instance:
            _form_box (pn.WidgetBox): フォームを格納する。
            giturl_title(str):GitのURLのタイトル
            giturl_form(pn.widgets):GitのURLのフォーム
            username_title(str):ユーザー名のタイトル
            username_form(pn.widgets):ユーザー名のフォーム
            token_title(str):トークンのタイトル
            token_form(pn.widgets):トークンのフォーム
            local_path_title(str):ローカルパスのタイトル
            local_path_form(pn.widgets):ローカルパスのフォーム
            submit_button(Button):ボタンを設定する。
    """

    def __init__(self, form_box: pn.WidgetBox) -> None:
        """GitHubPreparer コンストラクタのメソッドです。

        Args:
            form_box (pn.WidgetBox): フォームを格納する。
        """
        self._form_box = form_box

        self.giturl_title = msg_config.get('prepare_data', 'giturl_title')
        self.giturl_form = pn.widgets.TextInput(
            name=self.giturl_title,
            width=600
        )
        self.username_title = msg_config.get('prepare_data', 'github_username_title')
        self.username_form = pn.widgets.TextInput(
            name=self.username_title,
            width=600
        )
        self.token_title = msg_config.get('prepare_data', 'github_token_title')
        self.token_form = pn.widgets.PasswordInput(
            name=self.token_title,
            width=600
        )
        self.local_path_title = msg_config.get('prepare_data', 'github_local_title')
        self.local_path_form = pn.widgets.TextInput(
            width=400,
            margin=(0, 10)
        )
        self.submit_button = Button()
        self.submit_button.width = 500
        self.submit_button.set_looks_init(msg_config.get('prepare_data', 'submit'))

    def set_submit_button_callback(self, func: Callable):
        """submit_buttonがクリックされたときの処理を追加するメソッドです。

        Args:
            func (Callable): ボタンがクリックされた時にトリガーされるメソッド
        """
        self.submit_button.on_click(func)

    def define_url_form(self, data_dir: str):
        """GithubのURLの定義をするメソッドです。

        Args:
            data_dir (str): データディレクトリのパス
        """
        home_path = os.environ['HOME']
        if not home_path.endswith("/"):
            home_path += "/"
        data_dir = data_dir.replace(home_path, '')
        if not data_dir.endswith("/"):
            data_dir += "/"
        self.local_path_form.value = data_dir
        self.local_path_form.value_input = data_dir
        # display
        self._form_box.append(self.giturl_form)
        self._form_box.append(self.username_form)
        self._form_box.append(self.token_form)
        title = pn.pane.Markdown(self.local_path_title, margin=(0, 10))
        path_text = pn.pane.Markdown(f"{home_path}", margin=(0, 0, 0, 5))
        widgets = pn.Column(title, pn.Row(path_text, self.local_path_form, margin=(0, 10)))
        self._form_box.append(widgets)
        self._form_box.append(self.submit_button)


    def get_data(self) -> str:
        """入力された値を利用してデータを取得するメソッドです。

        Raises:
            InputWarning: 入力不備によるエラー

        Returns:
            str:ローカルパスの値を返す。
        """
        giturl = self.giturl_form.value_input
        username = self.username_form.value_input
        token = self.token_form.value_input
        local_path = self.local_path_form.value_input

        warning_message = []
        requred_msg = msg_config.get('prepare_data', 'required_format')
        invalid_msg = msg_config.get('prepare_data', 'invalid_format')

        # git clone URL
        giturl =  StringManager.strip(giturl)
        if StringManager.is_empty(giturl):
            warning_message.append(requred_msg.format(self.giturl_title))
        elif not re.match(r'^https?://(?!/).*', giturl):
            warning_message.append(invalid_msg.format(self.giturl_title))

        # local path
        local_path = StringManager.strip(local_path)
        if StringManager.is_empty(giturl):
            warning_message.append(requred_msg.format(self.local_path_title))
        else:
            if local_path.startswith("/"):
                local_path.replace("/", '')
            local_path = os.path.join(os.environ['HOME'], local_path)
            if os.path.exists(local_path):
                warning_message.append(msg_config.get('prepare_data', 'github_local_exist'))

        # username and token
        username = StringManager.strip(username)
        token = StringManager.strip(token, remove_empty=False)
        is_username = not StringManager.is_empty(username)
        is_token = not StringManager.is_empty(token)
        if is_username and is_token:
            pattern = r'^[a-zA-Z0-9_-]+$'
            if not re.match(pattern, username):
                warning_message.append(invalid_msg.format(self.username_title))
            if not re.match(pattern, token):
                warning_message.append(invalid_msg.format(self.token_title))
            if re.match(pattern, username) and re.match(pattern, token):
                giturl = giturl.replace("https://", f"https://{username}:{token}@")
        elif is_username or is_token:
            warning_message.append(msg_config.get('prepare_data', 'private_required'))

        # encode url
        giturl = urllib.parse.quote(giturl, safe='/:@')

        # 入力項目に不正があったとき
        if len(warning_message) > 0:
            warning_message = "<br>".join(warning_message)
            self.submit_button.set_looks_init()
            raise InputWarning(warning_message)

        try:
            git.Repo.clone_from(
                url=giturl,
                to_path=local_path
            )
        except git.exc.GitCommandError as e:
            if 'Authentication failed' in str(e):
                message = msg_config.get('prepare_data', 'github_authorised_error')
                self.submit_button.set_looks_init()
                raise InputWarning(message)
            else:
                message = msg_config.get('prepare_data', 'github_not_read')
                self.submit_button.set_looks_init()
                raise InputWarning(message)

        # success
        return local_path


class DataPreparer(TaskDirector):
    """Githubからデータを取得するための画面表示を行うクラスです。

    Attributes:
        instance:
            _form_box (pn.WidgetBox): フォームを格納する。
            _msg_output(MessageBox): ユーザーに提示するメッセージを格納する。
            github_pre(GitHubPreparer):GitHubPreparerクラスを呼び出す。
            data_dir(str):データディレクトリのパス
    """

    def __init__(self, working_path: str) -> None:
        """DataPreparer コンストラクタのメソッドです。

        Args:
            working_path (str): 実行Notebookファイルパス
        """
        super().__init__(working_path, notebook_name)
        self.data_dir = get_data_dir(self.nb_working_file_path)

        # フォームボックス
        self._form_box = pn.WidgetBox()
        self._form_box.width = 900
        # メッセージ用ボックス
        self._msg_output = MessageBox()
        self._msg_output.width = 900

        self.github_pre = GitHubPreparer(self._form_box)

    @TaskDirector.task_cell("2")
    def from_github(self):
        """Githubのフォームを定義し、表示するメソッドです。"""
        # タスク開始によるサブフローステータス管理JSONの更新
        self.doing_task()

        # フォーム定義
        self.github_pre.define_url_form(self.data_dir)
        self.github_pre.set_submit_button_callback(self.github_callback)
        # フォーム表示
        pn.extension()
        form_section = pn.WidgetBox()
        form_section.append(self._form_box)
        form_section.append(self._msg_output)
        display(form_section)
        display(Javascript('IPython.notebook.save_checkpoint();'))

    @TaskDirector.callback_form("GitHubからデータを取得する")
    def github_callback(self, event):
        """Githubからデータを取得するメソッドです。"""
        self.github_pre.submit_button.set_looks_processing()
        self._msg_output.clear()
        try:
            local_path = self.github_pre.get_data()

        except InputWarning as e:
            self._msg_output.update_warning(str(e))
            self.log.warning(traceback.format_exc())
            return
        except Exception:
            message = f'## [INTERNAL ERROR] : {traceback.format_exc()}'
            self.github_pre.submit_button.set_looks_error(msg_config.get('prepare_data', 'submit'))
            self._msg_output.update_error(message)
            self.log.error(message)
            return

        self._form_box.clear()
        message = msg_config.get('prepare_data', 'github_success').format(local_path)
        self._msg_output.update_success(message)


DataPreparer(working_path=os.path.abspath('__file__')).from_github()

## GakuNin RDMに保存する
タスクの状態をGakuNin RDMに保存します。

In [None]:
# GakuNin RDMに保存する
import os

from IPython.display import display
import panel as pn

from library.task_director import TaskDirector
from library.utils.setting import get_data_dir


script_file_name = "prepare_data"
notebook_name = script_file_name+'.ipynb'


class DataPreparer(TaskDirector):
    """GRDMに保存するクラスです。

    Attributes:
        instance:
            data_dir(str):データディレクトリパス
            nb_working_file_path (str): 実行Notebookパス
            save_form_box(pn.WidgetBox):フォームを格納する。
            save_msg_output(Message):ユーザーに提示するメッセージを格納する。

    """
    def __init__(self, working_path: str) -> None:
        """DataPreparer コンストラクタのメソッドです。

        Args:
            working_path (str): 実行Notebookファイルパス
        """
        super().__init__(working_path, notebook_name)
        self.data_dir = get_data_dir(self.nb_working_file_path)

    @TaskDirector.task_cell("3")
    def completed_task(self):
        """GRDMに保存するボタンの表示をするメソッドです。"""
        # フォーム定義
        source = [self.data_dir]
        self.define_save_form(source)
        # フォーム表示
        pn.extension()
        form_section = pn.WidgetBox()
        form_section.append(self.save_form_box)
        form_section.append(self.save_msg_output)
        display(form_section)
        display(Javascript('IPython.notebook.save_checkpoint();'))


DataPreparer(working_path=os.path.abspath('__file__')).completed_task()

## サブフローメニューを表示する

サブフローメニューへ遷移するボタンを表示します。

In [None]:
# サブフローメニューを表示する
import os
from library.task_director import TaskDirector

script_file_name = "prepare_data"
notebook_name = script_file_name+'.ipynb'
TaskDirector(os.path.abspath('__file__'), notebook_name).return_subflow_menu()