# 解析処理を実施する

用意したデータと解析プログラムを使って解析処理を実施するタスクです。<br>データや解析プログラムは事前に用意しておいてください。

## 解析手法を確認する

解析処理実施に当たって準備したデータからどのような解析が可能か、またそれを実施するためにはどのような手法を用いたらよいかを検討します。

### 代表的な解析手法

代表的な解析手法を以下に示します。<br>
各解析手法の特徴を把握し、利用環境や目的に合わせて適切な解析手法を選択してください。<br>

| No | 解析手法 | 概要 |
| ---: | :--- | :--- |
| 1 | クロス集計 | 複数の属性を掛け合わせて集計する解析手法 |
| 2 | ロジスティック回帰分析 | ある事象の発生確率を複数の要因と組み合わせて解析する手法 |
| 3 | アソシエーション分析 | 特性の事象に関連して別の事象が発生するパターンを見付だす解析手法 |
| 4 | 決定木分析 | 	仮定を繰り返しツリー構造にして結果を予測する解析手法 |
| 5 | クラスター分析 | 異なるデータの集合体から類似するデータを集めて属性や特徴を解析する手法 |


（参考）総務省統計局データサイエンス・オンライン講座<br>
「社会人のためのデータサイエンス入門」<br>
https://gacco.org/stat-japan<br>

## 解析環境を把握する

### 実行中の解析環境の状態を表示する

実行中の解析環境の状態を確認するには以下のコマンドを実行してください。

| No | 対象 | コマンド（例） |
| ---: | :--- | :--- |	
| 1 | CPU情報 | lscpu |
| 2 | メモリ情報 | free -m |
| 3 | ディスク使用量 | df -h |
| 4 | OSバージョン | lsb_release -a |
| 5 | カーネルバージョン | uname -r |
| 6 | システムアーキテクチャ | uname -m |
| 7 | インストール済みの<br>ソフトウェア | pip list<br>conda list<br>apt list --installed |


## 解析ツールを選択する

### 研究に適した解析ツールを選択する

解析の環境や手法に合わせて適切なツールを選択してください。<br>
選択してたツールのオペレーションに必要なプログラミング言語の理解も必要になります。<br>
<br>
代表的なデータ解析ツール<br>
* SPSS
* Stata
* SAS
* Nvivo

代表的なデータ解析に用いられる言語<br>
* R
* Python



## 解析処理を実施する
準備が整ったら解析処理を実施します。<br>
解析処理は各分野や研究者、研究グループによって様々なので、ここでは解析処理を実施する場所（フォルダ）を表示します。<br>
それ以降は各々適切な解析ツールや手法で解析処理を実施してください。

### 解析処理を実施するフォルダを表示する
実験サブフロー作成時に指定されたフォルダを開きます。<br>
※解析環境を構築するタスクで作成したmdxなどの別環境で解析を実施した場合は、リサーチフローから直接アクセスはできませんので、それぞれの環境で解析処理を実施してください。

In [None]:
# 解析処理を実施するフォルダを表示する
import os
from library.utils.access import open_data_folder

open_data_folder(os.path.abspath('__file__'))

## データクリーニング（データクレンジング）

解析の障害となる不要な属性や重複データを取り除き、解析しやすい状態を構築してください。<br>
（ノイズ・誤記録除去、名寄せ、必要な属性、記録時との同一性の担保）<br>
データクリーニング用のソフトウェアを利用することも有効です。<br>

##  Gakunin RDMに保存する
タスクの状態をGakunin RDMに保存します。

In [None]:
# Gakunin RDMに保存する
import os

from IPython.core.display import Javascript
from IPython.display import display
import panel as pn

from library.task_director import TaskDirector
from library.utils.setting import get_data_dir


script_file_name = "check_experiment_results.ipynb"
notebook_name = script_file_name+'.ipynb'


class ResultsChecker(TaskDirector):
    """ GRDMに保存するクラスです。

    Attributes:
        instance:
            data_dir(str):データディレクトリのパス
            nb_working_file_path (str): 実行Notebookパス
            save_form_box(pn.WidgetBox):フォームを格納する。
            save_msg_output(Message):ユーザーに提示するメッセージを格納する。
    """

    def __init__(self, working_path:str) -> None:
        """ ResultsChecker コンストラクタのメソッドです。

        Args:
            working_path (str): 実行Notebookファイルパス
        """
        super().__init__(working_path, notebook_name)
        self.data_dir = get_data_dir(self.nb_working_file_path)

    TaskDirector.task_cell("3")
    def completed_task(self):
        """ GRDMに保存するボタンの表示をするメソッドです。"""
        # フォーム定義
        source = [self.data_dir]
        self.define_save_form(source)
        # フォーム表示
        pn.extension()
        form_section = pn.WidgetBox()
        form_section.append(self.save_form_box)
        form_section.append(self.save_msg_output)
        display(form_section)
        display(Javascript('IPython.notebook.save_checkpoint();'))


ResultsChecker(working_path=os.path.abspath('__file__')).completed_task()

## サブフローメニューを表示する

サブフローメニューへ遷移するボタンを表示します。

In [None]:
# サブフローメニューを表示する
import os
from library.task_director import TaskDirector

script_file_name = "perform_experiment_process"
notebook_name = script_file_name+'.ipynb'
TaskDirector(os.path.abspath('__file__'), notebook_name).return_subflow_menu()