# Part:0 本ノートブックの実行手順  
 - 事前準備
     - 前処理後のデータ
     - ファイル形式：csvファイル
     - 格納先：../data/raw/　に格納(ディレクトリの変更可)
 - 実施内容
     - Patr1: ライブラリのインポートです。 

     - Part2: パラメータの設定を行います。
       - ランダムシードの設定
       - 目的変数のリスト（targets）を作成
       - 構築する予測モデルの集合（models）を作成
       - 予測モデルのパラメータを設定

     - Part3: データを読み込みます。実施項目は下記です。
       - データの保存先のパスやデータ名称を指定します（変更がある場合はここで指定してください）。
       - カラム名に全角文字列が含まれるか判定を行います。
       - カラム名に全角文字列が含まれた場合は、半角文字へ変更します。
       - インプットデータの確認を行います。問題がある場合は、前処理を再度行ってください。
         - Cell_typeのカラムが一列目にあるか確認
         - 欠損値データの有無を確認
         - 文字データの有無を確認
         - ユニーク数が1つのカラムが無いか確認
       - 目的変数のリスト（targets）に含まれない目的変数を削除
       - (対数処理を施す)

     
     - Part4: データの正規化・標準化を目的変数別に実施します。
     
     - Part5: データを学習データと評価データに目的変数別に分割します。Cell_type毎に比率が等しくなるように実施します。  
     
     - Part6: 予測モデルの学習を行います。各種モデルのパラメータはPart3で設定した通りに実行されます。  
       - 実行結果は/models/実行時の日付時刻/tarined/目的変数名/ に'実行時の日付\_モデル名\_目的変数名.pickle'という名前で保存されます  
    
     - Part7: 分析条件（実験条件）をjson型式のファイルに保存します。
     
     - Part8: 評価データに対して予測を行います。
       - 実行結果は/models/実行時の日付時刻/predicts/目的変数名/ に'実行時の日付\_モデル名\_目的変数名.csv'という名前で保存されます 
     
     - Part9: 目的変数別に各モデルの評価指標を算出します。
     
     - Part10: 構築したモデルの変数重要度、回帰係数、yyプロット、残差プロットを出力します。
       - 実行結果は/models/実行時の日付時刻/feature_analysis_plot/目的変数名/ に'実行時の日付\_モデル名\_目的変数名.png'という名前で保存されます    

# Part:1 ライブラリのインポート

In [1]:
import datetime
import json
import os
from os.path import join
import pickle
import pytz
import shutil

import numpy as np
import pandas as pd

# 可視化用ライブラリ
import matplotlib.pyplot as plt
%matplotlib inline

import seaborn as sns

# 標準化を行うライブラリ
from sklearn.preprocessing import StandardScaler

# データを学習・評価データへ分割するライブラリ
from sklearn.model_selection import train_test_split

# 機械学習ライブラリ
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from sklearn.neural_network import MLPRegressor

# スコア計算ライブラリ
from sklearn.metrics import r2_score
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error

# エラーを発生させるライブラリ
from numpy.linalg import LinAlgError

# Part:2 諸設定
 ここでは以下の設定と処理を行います。
 - 対象となる目的変数をリストの形式でtargetsに保存してください。
 - 予測モデルの学習・検証を行う対象のモデルを集合の形式でmodelsに保存してください。
 - 実験結果を保存するフォルダを/models/以下に'yyyymmddhhmm'の形式で作成します。
 - 元のデータセットから今回対象となる目的変数以外の目的変数のカラムを削除します。

In [2]:
# ランダムシードの値を設定してください。
RANDOM_STATE = 42

# 学習データと評価データを分割するときの、評価データの割合を設定してください。
TEST_SIZE = 0.2

# 使用する目的変数を指定してください。
targets = ['T_2', 'T_12', 'T_1635']

# モデルは次の9種から選んでください文字列は大文字小文字など例と同じ書き方でお願いします。
# 「"LinearRegression", "Ridge", "Lasso", "ElasticNet", "GBDT", "AdaBoost", "RandomForest", "SVR", "MLP"」
models = ["LinearRegression", "Ridge", "Lasso", "ElasticNet", "GBDT", "AdaBoost", "RandomForest", "SVR", "MLP"]

# 対数変換処理の有無の記録(実際に処理を行う場合対数変換処理のマークダウンセルをコードセルに変更してコメントアウト解除し実行してもらう必要があります)
# 対数変換処理を行う場合は実験条件に記録しておくためにscale='Log'と変更してください
# 対数変換を行わない場合：scale = 'Linear', 対数変換を行う場合: scale = 'Log'.
scale = 'Linear'

# モデルのパラメータを設定してください。
# ここに記載していなパラメータについてはscikit-learnの初期設定値が自動で適用されます。
param_adaboost = {'n_estimators': 50, 'learning_rate': 1, 'random_state': RANDOM_STATE}

param_elasticnet = {'alpha': 0.2, 'l1_ratio': 0.5, 'fit_intercept': True, 'normalize': False,
                    'positive': False, 'random_state': RANDOM_STATE}

param_gbdt = {'learning_rate': 0.1, 'n_estimators': 100, 'subsample': 1.0, 'min_samples_split': 2,
              'min_samples_leaf': 1, 'min_weight_fraction_leaf': 0.0, 'max_depth': 3,
              'alpha': 0.9, 'random_state': RANDOM_STATE}

param_lasso = {'alpha': 0.2, 'fit_intercept': True, 'normalize': False, 'random_state': RANDOM_STATE}

param_linearregression = {'fit_intercept': True, 'normalize': False}

param_mlp = {'hidden_layer_sizes': (100, ), 'activation': 'relu', 'solver': 'adam',
             'alpha': 0.0001, 'learning_rate': 'constant', 'learning_rate_init': 0.001,
             'max_iter': 200, 'random_state': RANDOM_STATE}

param_randomforest = {'n_estimators': 100, 'max_depth': None, 'random_state': RANDOM_STATE}

param_ridge = {'alpha': 100, 'fit_intercept': True, 'normalize': False, 'random_state': RANDOM_STATE}

param_svr = {'kernel': 'rbf', 'degree': 3, 'gamma': 'scale', 'C': 10, 'epsilon': 0.1}

model_param_dict = {'AdaBoost': param_adaboost, 'ElasticNet': param_elasticnet, 'GBDT': param_gbdt,
                    'Lasso': param_lasso, 'LinearRegression': param_linearregression, 'MLP': param_mlp,
                    'RandomForest': param_randomforest, 'Ridge': param_ridge, 'SVR': param_svr}

#### モデルパラメータのフルオプション
```
# Adaboostのパラメータ
param_adaboost = {'base_estimator': None, 'n_estimators': 50, 'learning_rate': 1.0,
                  'loss': 'linear', 'random_state': None}

# ElasticNet回帰のパラメータ
param_elasticnet = {'alpha': 1.0, 'l1_ratio': 0.5, 'fit_intercept': True, 'normalize': False,
                    'precompute': False, 'max_iter': 1000, 'copy_X': True, 'tol': 0.0001,
                    'warm_start': False, 'positive': False, 'random_state': None, 'selection': 'cyclic'}

# GBDTのパラメータ
param_gbdt = {'loss': 'ls', 'learning_rate': 0.1, 'n_estimators': 100, 'subsample': 1.0, 'criterion': 'friedman_mse', 
              'min_samples_split': 2, 'min_samples_leaf': 1, 'min_weight_fraction_leaf': 0.0, 'max_depth': 3, 
              'min_impurity_decrease': 0.0, 'min_impurity_split': None, 'init': None, 'random_state': None, 
              'max_features': None, 'alpha': 0.9, 'verbose': 0, 'max_leaf_nodes': None, 'warm_start': False, 
              'presort': 'deprecated', 'validation_fraction': 0.1, 'n_iter_no_change': None, 'tol': 0.0001, 'ccp_alpha': 0.0}


# Lasso回帰のパラメータ
param_lasso = {'alpha': 1.0, 'fit_intercept': True, 'normalize': False, 'precompute': False,
               'copy_X': True, 'max_iter': 1000, 'tol': 0.0001, 'warm_start': False,
               'positive': False, 'random_state': None, 'selection': 'cyclic'}

# 線形回帰のパラメータ
param_linearregression = {'fit_intercept': True, 'normalize': False, 'copy_X': True, 'n_jobs': None}

# ニューラルネットのパラメータ
param_mlp = {'hidden_layer_sizes': (100, ), 'activation': 'relu', 'solver': 'adam', 'alpha': 0.0001,
             'batch_size': 'auto', 'learning_rate': 'constant', 'learning_rate_init': 0.001,
             'power_t': 0.5, 'max_iter': 200, 'shuffle': True, 'random_state': None, 'tol': 0.0001,
             'verbose': False, 'warm_start': False, 'momentum': 0.9, 'nesterovs_momentum': True,
             'early_stopping': False, 'validation_fraction': 0.1, 'beta_1': 0.9, 'beta_2': 0.999,
             'epsilon': 1e-08, 'n_iter_no_change': 10, 'max_fun': 15000}

# ランダムフォレストのパラメータ
param_randomforest = {'n_estimators': 100, 'criterion': 'mse', 'max_depth': None,
                      'min_samples_split': 2, 'min_samples_leaf': 1, 'min_weight_fraction_leaf': 0.0,
                      'max_features': 'auto', 'max_leaf_nodes': None, 'min_impurity_decrease': 0.0,
                      'min_impurity_split': None, 'bootstrap': True, 'oob_score': False, 'n_jobs': None,
                      'random_state': None, 'verbose': 0, 'warm_start': False, 'ccp_alpha': 0.0, 'max_samples': None}

# Ridge回帰のパラメータ
param_ridge = {'alpha': 1.0, 'fit_intercept': True, 'normalize': False, 'copy_X': True,
               'max_iter': None, 'tol': 0.001, 'solver': 'auto', 'random_state': None}

# SVMのパラメータ
param_svr = {'kernel': 'rbf', 'degree': 3, 'gamma': 'scale', 'coef0': 0.0, 'tol': 0.001,
             'C': 1.0, 'epsilon': 0.1, 'shrinking': True, 'cache_size': 200, 'verbose': False, 'max_iter': -1}
```

# Part:3 データの読み込み  

In [3]:
# 予測モデルの学習結果を保存するディレクトリを作成.

# フォルダの名前は'yyyymmdd時刻'の形式でつくられます
# 例) 2020年10月15日9時24分に実行した場合、folder_name = '202010150924' になります
date_time = datetime.datetime.now(pytz.timezone('Asia/Tokyo'))
folder_name = date_time.strftime('%Y%m%d%H%M')

# フォルダは ../models の配下に作成します
if not os.path.exists(f'../models/{folder_name}'):
    os.makedirs(f'../models/{folder_name}')

# 入力データのディレクトリと学習結果などを出力するディレクトリを定義
input_dir = '../data/raw/'
output_dir = f'../models/{folder_name}' 

In [4]:
# 以下にあるcsvデータを読み込みます
input_file_name = 'preprocessed_df.csv'
df = pd.read_csv(join(input_dir, input_file_name), encoding="shift_jis")

# 入力データを保存します
input_file_dir_path = f'{output_dir}/input_data'
if not os.path.exists(input_file_dir_path):
    os.makedirs(input_file_dir_path)
shutil.copy(join(input_dir, input_file_name), f'{input_file_dir_path}/{input_file_name}')

'../models/202011271803/input_data/preprocessed_df.csv'

In [5]:
def zenkaku_column_exists(data):
    """カラム名に全角文字列が含まれているか確認を行う。

    カラム名に全角文字列が含まれるか確認し、結果に対して以下の文章を表示する。

    - 全角文字列を含む場合
      ⇒ 全角文字が含まれています。
    
    - 全角文字列を含まない場合
      ⇒ 全角文字は含まれていません。

    Args:
        data (pd.DataFrame): 確認するデータフレーム.

    """
    ZENKAKU_ls = [chr(0xff01 + i) for i in range(94)]
    columns_name = "".join(data.columns)
    for m in columns_name:
        if m in ZENKAKU_ls:
            print('全角文字が含まれています。')
            return

    print('全角文字は含まれていません。')

In [6]:
zenkaku_column_exists(df)

全角文字は含まれていません。


In [7]:
def transform_zenkaku_to_hankaku(data):
    """カラム名の全角文字を半角文字へ変換する.
    
    Args:
        df (pd.DataFrame): 対象とするデータ.

    Returns:
        output_df (pd.DataFrame): カラム名が半角になっているデータ.

    """
    ZEN = "".join(chr(0xff01 + i) for i in range(94))
    HAN = "".join(chr(0x21 + i) for i in range(94))
    ZEN_to_HAN = str.maketrans(ZEN, HAN)

    output_df = data.copy()
    for column in output_df.columns:
        if not set(column).isdisjoint(set(ZEN)):
            output_df = output_df.rename(columns={column: column.translate(ZEN_to_HAN)})
    
    return output_df

In [8]:
# 全角のカラム名が含まれている際に半角に修正します
df = transform_zenkaku_to_hankaku(df)

zenkaku_column_exists(df)

全角文字は含まれていません。


In [9]:
def check_models(models):
    """modelsの入力が正しいか確認する
    
    - 想定していないモデル（ex. 決定木モデル）が記入された際にエラーが表示されるか
    - 大文字・小文字の記載が間違っている際（ex. 正解：GBDT、入力：Gbdt）にエラーが表示されるか
    - modelsに何も記入しなかった際に学習するモデルが選択されていないのでエラーが表示されるか
    
    Args:
        models (list): 用いる機械学習モデルの名称のリスト
    
    """
    if len(models) == 0:
        raise ValueError("modelsが空です。")

    correct_model_ls = ["LinearRegression", "Ridge", "Lasso", "ElasticNet",
                        "GBDT", "AdaBoost", "RandomForest", "SVR", "MLP"]
    
    check_models = list(set(models) - set(correct_model_ls))
    if len(check_models) >= 1:
        raise ValueError(f"不適切なモデル名がmodelsに入力されています。\n不適当な入力: {check_models}")


def check_null(df):
    """欠損値の有無を確認する
    
    - 説明変数に欠損値がある場合、エラーが発生するか
    - 目的変数に欠損値がある場合、エラーが発生しないか
    - Cell_typeに欠損値がある場合、エラーが発生するか
    
    Args:
        df (pd.DataFrame): 対象のデータフレーム
    
    """
    target_col_ls = [col for col in df.columns if 'T_' in col]
    df_feature = df.drop(target_col_ls, axis=1)
    null_columns = list(df_feature.columns[df_feature.isnull().any()])
    
    if len(null_columns) >= 1:
        raise ValueError(f"以下のカラムには欠損値が含まれています。\n欠損値を含む変数名: {null_columns}")


def check_column_first(df):
    """データにCell_typeが含まれていることを確認する

    - 一列目が間違っている場合にエラーが発生するか

    Args:
        df (pd.DataFrame): 対象のデータフレーム

    """
    if 'Cell_type' != df.columns[0]:
        raise ValueError(f"カラムの一列目に'Cell_type'がありません。\nカラムの一列目の名称: {df.columns[0]}")


def check_cell_type(df):
    """Cell_type列の値が想定される形であるか確認する
    
    Args:
        df (pd.DataFrame): 対象のデータフレーム

    """
    wrong_index_ls = list(df.loc[~df['Cell_type'].str.match(r'[0-9]+_[0-9]+'), 'Cell_type'])
    if len(wrong_index_ls) >= 1:
        raise ValueError(f'Cell_type列の中身が〇_〇の形になっていない行があります。\n該当する値: {wrong_index_ls}')


def check_targets(df, targets):
    """目的変数の入力が正しいか確認する
    
    - targetsに含まれる目的変数が無い場合にエラーが発生するか
    - targetsが全角、スペース有りで記入（スクリプト上）された際、エラーが発生するか
    - targetsに何も記入しなかった際に目的変数が選択されていないのでエラーが表示されるか
    
    Args:
        df (pd.DataFrame): 対象のデータフレーム
        targets (list): 対象の目的変数のリスト
    
    """
    if len(targets) == 0:
        raise ValueError("targetsが空です。")

    target_col_ls = [col for col in df.columns if 'T_' in col]
    not_targets_ls = [t_col for t_col in targets if t_col not in target_col_ls]
    
    if len(not_targets_ls) >= 1:
        raise ValueError(f"以下の目的変数が入力データに含まれていません。\n含まれていない目的変数名: {not_targets_ls}")


def check_str(df, targets):
    """文字列の有無を確認する

    - 説明変数に文字列がある場合、エラーが発生するか
    - 目的変数（target）に文字列がある場合、エラーが発生するか
    - 目的変数（target以外）に文字列があった場合、エラーが発生しないか
    
    Args:
        df (pd.DataFrame): 対象のデータフレーム
        targets (list): 対象の目的変数のリスト

    """
    target_col_ls = [col for col in df.columns if 'T_' in col]
    not_targets_ls = [t_col for t_col in target_col_ls if t_col not in targets]
    str_columns = list(df.drop(['Cell_type']+not_targets_ls, axis=1).select_dtypes('object').columns)
    if len(str_columns) != 0:
        raise ValueError(f"以下のカラムには文字列が含まれています。\n文字列を含む変数名: {str_columns}")


def check_unique_one(df):
    """ユニーク数が1のものを確認する

    説明変数にユニーク数1がある際に対象の説明変数を列挙するか
    目的変数（target）にユニーク数1があった際、メッセージが出力されるか
    目的変数（target以外）にユニーク数1があった際、メッセージが出力されないか

    Args:
        df (pd.DataFrame): 対象のデータフレーム

    Returns:
        Bool: ユニーク数が1のものがあったか否か

    """
    target_col_ls = [col for col in df.columns if 'T_' in col]
    df_feature = df.drop(target_col_ls, axis=1)
    df_check = df.loc[:, list(df_feature.columns) + targets]
    not_unique_columns = list(df_check.columns[df_check.nunique() <= 1])
    if len(not_unique_columns) != 0:
        print(f"以下のカラムはユニークが1つです。\nユニークが1つの変数名: {not_unique_columns}")
        return True

    return False


def check_experiment_condtion(df, models, targets):
    """データを確認する

    以下の項目に対して、入力データが適切に前処理が施されているか、settingが正しく行われているかを確認する
      - modelsの入力が正しいか
      - 欠損値の有無の確認
      - データに'Cell_type'のカラムが含まれているか
      - データに設定したtargetsリストに含まれる目的変数が全て含まれているか
      - 文字データの有無
      - 値をユニークな1種類のものしか持たないようなカラムの有無の確認

    Args:
        df (pd.DataFrame): 対象のデータフレーム
        models (list): 用いる機械学習モデルの名称のリスト
        targets (list): 対象の目的変数のリスト
          
    """
    check_models(models)
    check_null(df)
    check_column_first(df)
    check_cell_type(df)
    check_targets(df, targets)
    check_str(df, targets)
    isin_flg = check_unique_one(df)
    if isin_flg:
        return None

    return print('適切に前処理が施されています')

In [10]:
# データセットの確認をします。
check_experiment_condtion(df, models, targets)

適切に前処理が施されています


In [11]:
def remove_targets_columns_not_in_input(df, targets):
    """指定する目的変数以外の目的変数を削除する

    Args:
        df (pd.DataFrame): 対象のデータ.
        targets (list): 指定する目的変数のリスト.
          
    Returns:
        pd.DataFrame: 指定する目的変数以外の目的変数を削除したデータ.

    """
    remove_columns = []
    for column in df.columns:
        if (column[:2] == 'T_') and (column not in targets):
            remove_columns.append(column)
    
    return df.drop(remove_columns, axis=1)

In [12]:
# 元のデータセットから今回の目的変数に含まれない目的変数のカラムを削除する処理を行います
df = remove_targets_columns_not_in_input(df, targets)

# 今回の予測モデルの構築で用いる特徴量の名称のリストを作成します
features = list(df.drop(['Cell_type'] + targets, axis=1).columns)

# 正規化前のデータフレームのmin, maxと連続値 or ダミー変数であるかを記録したcsvファイルを保存します。
features_min_max_path = f'{output_dir}/features_min_max'
if not os.path.exists(features_min_max_path):
    os.mkdir(features_min_max_path)

min_max = df.loc[:, features].agg([min, max]).T
min_max['type'] = ['dummy' if 'D_' in col else 'real' for col in features]

min_max.T.to_csv(join(features_min_max_path, 'min_max_type.csv'), encoding='shift_jis')

In [13]:
def log_transform(data, targets):
    """対数変換を行う関数

    Args:
        data(pd.DataFrame): 対数変換を行うデータ.
        targets(str or list of str): 対数変換を行うカラムの一覧.

    Return:
        log_data(pd.DataFrame): 対数変換されたデータ.

    """
    log_data = data.copy()
    if isinstance(targets, str):
        targets = [targets]
    else:
        targets = list(targets)

    for columns in targets:
        log_data[columns] = np.log(log_data[columns])

    return log_data


def log_inverse_transform(data, targets):
    """逆対数変換を行う関数

    Args:
        data(pd.DataFrame): 逆対数変換を行うデータ.
        targets(str or list of str): 逆対数変換を行うカラムの一覧.

    Return:
        log_inverse_data(pd.DataFrame): 逆対数変換されたデータ.

     """
    log_inverse_data = data.copy()
    if isinstance(targets, str):
        targets = [targets]
    else:
        targets = list(targets)

    for columns in targets:
        log_inverse_data[columns] = np.exp(log_inverse_data[columns])

    return log_inverse_data

In [14]:
# 目的変数に対して、対数変換を行います.
if scale == 'Log':
    df = log_transform(df, targets)

# Part:4 データの標準化

In [15]:
def create_target_data(input_data, features, targets):
    """目的変数に対応したデータセットを作成する.

    各目的変数ごとに値が欠損している行を削除したデータフレームを目的変数名に紐付けて保存する.

    Args:
        input_data (pd.DataFrame): 説明変数と目的変数を持つデータ.
        features (list): 説明変数のリスト.
        targets (list): 目的変数のリスト.
      
    Returns:
      output_dict (dict): 各目的変数に対応したデータを持つ辞書.

    """
    output_dict = {}
    for target in targets:
        output_dict[target] = (input_data.loc[:, ['Cell_type'] + features + [target]]
                                         .dropna(how='any', axis=0)
                                         .reset_index(drop='True'))
    return output_dict

In [16]:
# 目的変数毎にデータセットを分割します。
df_dic = create_target_data(df, features, targets)

In [17]:
def transform_standard_scale(output_dir_path, data_dict, targets):
    """データに対し標準化を行う.

    Args:
        output_dir_path (str): アウトプット先のフォルダパス.
        data_dict (dict): 目的変数をキーとするデータの辞書.
        targets (list): 目的変数のリスト.
      
    Returns:
        output_dict (dict): 各目的変数に対応した標準化済みデータを持つ辞書.

    """
    # 標準化オブジェクトと標準化後のデータフレームを保存するフォルダを作成
    save_path_dict = {'sc_object': join(output_dir_path, 'sc_object'),
                      'normalized_data': join(output_dir_path, 'normalized_data')}
    for path in save_path_dict.values():
        if not os.path.exists(path):
            os.makedirs(path)
    
    # 標準化オブジェクトの設定
    sc = StandardScaler()

    output_dict = {}
    for target in targets:
        target_data = data_dict[target]

        df_sc = sc.fit_transform(target_data.drop('Cell_type', axis=1))
        df_sc = pd.concat([pd.DataFrame(target_data['Cell_type'], columns=['Cell_type']), 
                           pd.DataFrame(df_sc, columns=target_data.drop('Cell_type', axis=1).columns)],
                          axis=1)
        
        output_dict[target] = df_sc

        # オブジェクトを保存する.
        df_sc.to_csv(join(save_path_dict['normalized_data'], f'{target}_normalized_data.csv'),
                     encoding='shift_jis', index=False)
        with open(join(save_path_dict['sc_object'], f'{target}_sc_object.pickle'), 'wb') as f:
            pickle.dump(sc, f)

        (pd.DataFrame({'mean': sc.mean_, 'std': sc.scale_},
                      index=df_sc.drop(columns='Cell_type').columns)
           .to_csv(join(save_path_dict['sc_object'], f'{target}_sc_object.csv'), encoding='shift_jis'))
    
    return output_dict

In [18]:
# データセットの標準化を行います。
df_dic = transform_standard_scale(output_dir, df_dic, targets)

# Part:5 学習データと評価データの分割

In [19]:
def data_split_by_celltype(df, test_size=TEST_SIZE, random_state=RANDOM_STATE):
    """データセットをセルタイプに応じて均等に学習データと評価データに分割する.

    Args:
        df (pd.DataFrame): 分割を行うデータ.
        test_size (float): 分割時の評価データの比率.
        random_state (int): ランダムシード値.

    Returns:
        df_train (pd.DataFrame): 学習データ.
        df_test (pd.DataFrame): 評価データ.

    Notes:
        Cell_typeの行の表示名がセルタイプ_XXの形になっていること. ex) "1_11"

    """
    # 結果を格納する空のデータフレームを作る.
    df_train, df_test = pd.DataFrame(), pd.DataFrame()

    # 1タイプごとにデータを分割する.
    for _, one_type_data in df.groupby(df['Cell_type'].str.split('_', expand=True)[0]):
        trains, tests = train_test_split(one_type_data, test_size=test_size,
                                         random_state=random_state)

        df_train = pd.concat([df_train, trains])
        df_test = pd.concat([df_test, tests])

    df_train.reset_index(drop=True, inplace=True)
    df_test.reset_index(drop=True, inplace=True)

    return df_train, df_test

In [20]:
# 各データセットを学習データと評価データへ分割します。
for target in targets:
    df_target_train_sc, df_target_test_sc = data_split_by_celltype(df_dic[target],
                                                                   test_size=TEST_SIZE,
                                                                   random_state=RANDOM_STATE)

    save_dir = f'{output_dir}/split_data/{target}'
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)

    df_target_train_sc.to_csv(join(save_dir, 'train.csv'), encoding="shift_jis", index=False)
    df_target_test_sc.to_csv(join(save_dir, 'test.csv'), encoding="shift_jis", index=False)

    df_dic[target] = (df_target_train_sc, df_target_test_sc)

# Part:6 予測モデルの学習

In [21]:
def get_model(model_name):
    """モデルを取得する
    
    Args:
        model_name (str): モデルの名前.
    
    Returns:
        class: モデル.

    """
    model_dict = {"LinearRegression": LinearRegression(),
                  "Ridge": Ridge(),
                  "Lasso": Lasso(),
                  "ElasticNet": ElasticNet(),
                  "GBDT": GradientBoostingRegressor(),
                  "AdaBoost": AdaBoostRegressor(),
                  "RandomForest": RandomForestRegressor(),
                  "SVR": SVR(),
                  "MLP": MLPRegressor()}

    model = model_dict.get(model_name)

    if model is None:
        raise ValueError(f'model_nameが違います: {model_name}')

    return model


def models_train(output_dir_path, df_dic, features, targets, models, folder_name, model_param_dict):
    """目的変数のリストと用いる機械学習モデルの集合を受け取り学習したモデルを出力する関数.

    各データに対してモデルを学習し、pickleファイルで保存する.

    Args:
        output_dir_path (str): アウトプット先のフォルダパス.
        df_dic (dict): key: 目的変数名、values: (学習データ, 評価データ)とする辞書.
        features (list): 説明変数のリスト.
        targets (list): 目的変数のリスト.
        models (list): 用いる機械学習モデルの名称のリスト. 現状では以下の9つの候補から選択.
 　                   {"LinearRegression", "Ridge", "Lasso", "ElasticNet",
                       "GBDT", "AdaBoost", "RandomForest", "SVR", "MLP"}
        folder_name (str): 今回の実験の各種記録を行っているフォルダの名前
        model_param_dict (dict): key: モデル名, values: パラメータの辞書とする各モデルのパラメータの辞書. 

    Notes:
        線形モデルをfitする際、LinAlgErrorが発生する場合があります。
        LinAlgErrorが発生した場合、再度fitを行います。
        10回繰り返してもエラーが発生する場合は処理が止まります。

        LinAlgError: 最小二乗法を行った時に、SDVの値が収束しない場合にLinAlgErrorが発生します。
        参考URL: http://oppython.hatenablog.com/entry/2014/01/21/003245

    """
    for target in targets:
        print(f'学習を開始します。目的変数: {target}')
        path_train_target = join(output_dir_path, f'trained_model/{target}')
        if not os.path.exists(path_train_target):
            os.makedirs(path_train_target)

        df_train, _ = df_dic[target]
        for model_name in models:
            model = get_model(model_name)
            model.set_params(**model_param_dict[model_name])
            # numpyのライブラリー起因でSVDが求まらない時があるため、10回までmodel.fit()を繰り返します。
            # 詳細はdocstringのNotesと参考URLをご参照ください。
            for i in range(10):
                try:
                    model.fit(df_train[features], df_train[target])
                    break
                except LinAlgError:
                    if i == 9:
                        raise RuntimeError(f'学習に失敗しました. モデル名: {model_name}')
                    else:
                        print(f'"{model_name}" の学習時にLinAlgErrorが発生しました。再度学習します。')
                        continue

            filename = f'{folder_name}_{model_name}_{target}.pickle'
            with open(join(path_train_target, filename), 'wb') as f:
                pickle.dump(model, f)

    print('すべての目的変数に対して学習が完了しました。')

In [22]:
# 各モデル・データセット毎に学習を行います。
models_train(output_dir, df_dic, features, targets, models, folder_name, model_param_dict)

学習を開始します。目的変数: T_2
学習を開始します。目的変数: T_12
学習を開始します。目的変数: T_1635
すべての目的変数に対して学習が完了しました。


# Part:7 分析条件の保存

In [23]:
# 実験条件をjson型式で保存します。
json_path = f'{output_dir}/experiment_info_json'
if not os.path.exists(json_path):
    os.makedirs(json_path)

for model in models:
    for target in targets:
        experiment_info = {'target': target, 'features': features, 'scale': scale,
                           'test_size': TEST_SIZE, 'model': model, 'random_state': RANDOM_STATE,
                           'folder_name': folder_name, 'param': model_param_dict[model],
                           'trained_model_path': f'{output_dir}/trained_model/{target}/{folder_name}_{model}_{target}.pickle',
                           'sc_object_path': f'{output_dir}/sc_object/{target}_sc_object.pickle',
                           'summary_statistics_path': f'{output_dir}/features_min_max/min_max_type.csv',
                           'input_data_path': f'{input_file_dir_path}/{input_file_name}'}

        with open(join(json_path, f'{model}_{target}_experiment_info.json'), 'w') as f:
            json.dump(experiment_info, f, indent=2)

# Part:8 評価データの予測

In [24]:
def inverse_standard_scale(output_dir_path, data, target, scale):
    """標準化を戻す関数
    
    Args:
        output_dir_path (str): アウトプット先のフォルダパス.
        data (pd.DataFrame): 標準化を戻すデータ.
        target (str): 目的変数名.
        scale (str): 目的変数のスケール. 'Linear' or `Log`.
    
    Returns:
        output_data (pd.DataFrame): 標準化を戻したデータ.

    """
    df_sc = pd.read_csv(f'{output_dir_path}/sc_object/{target}_sc_object.csv', index_col=0)
    output_data = (data * df_sc.loc[target, 'std']) + df_sc.loc[target, 'mean']
    
    if scale == 'Log':
        col_name = output_data.columns
        output_data.columns = [target]
        output_data = log_inverse_transform(output_data, target)
        output_data.columns = col_name

    return output_data


def models_predicts(output_dir_path, df_dic, features, targets, folder_name, scale='Linear'):
    """学習後のモデルを用いて評価データの予測値を求めcsv形式で保存する.

    各種目的変数に対して各種モデルの予測値を「models/folder_name/predicts/'スケール'/'目的変数名'」 の配下に
    「folder_name_'モデル名'_'目的変数名'.csv」という名称で出力する

    各種目的変数の値を「models/folder_name/observes/'スケール'/'目的変数名'」 の配下に
    「folder_name_'目的変数名'.csv」という名称で出力する
    
    Args:
        output_dir_path (str): アウトプット先のフォルダパス.
        df_dic (dict): key: 目的変数名、values: (学習データ, 評価データ)とする辞書.
        features (list): 説明変数のリスト.
        targets (list): 目的変数のリスト.
        folder_name (str): 今回の実験の各種記録を行っているフォルダの名前.
        scale (str): 目的変数のスケール. 'Linear' or `Log`.

    """
    for target in targets:
        _, df_test = df_dic[target]
        
        # 予測結果を格納するフォルダ
        path_predicts_dict = {'standard_scale': f'{output_dir_path}/predicts/standard_scale/{target}',
                              'raw_scale': f'{output_dir_path}/predicts/raw_scale/{target}'}
        
        # 目的変数の値を格納するフォルダ
        path_observes_dict = {'standard_scale': f'{output_dir_path}/observes/standard_scale/{target}',
                              'raw_scale': f'{output_dir_path}/observes/raw_scale/{target}'}

        for path_dict in [path_predicts_dict, path_observes_dict]:
            for path in path_dict.values():
                if not os.path.exists(path):
                    os.makedirs(path)

        # 目的変数の値を保存
        df_obs = df_test.set_index('Cell_type')[[target]]
        df_obs.to_csv(join(path_observes_dict['standard_scale'], f'{folder_name}_{target}.csv'))
        df_obs_raw = inverse_standard_scale(output_dir_path, df_obs, target, scale)
        df_obs_raw.to_csv(join(path_observes_dict['raw_scale'], f'{folder_name}_{target}.csv'))

        # 学習済みモデルのパスを取得
        trained_files = os.listdir(join(output_dir_path, f'trained_model/{target}'))
        for trained_file in trained_files:
            with open(f'{output_dir_path}/trained_model/{target}/{trained_file}', 'rb')as f:
                model = pickle.load(f)

            df_pred = pd.DataFrame(model.predict(df_test[features]),
                                   columns=['predicts'], index=df_test['Cell_type'])
            
            file_name = f'{folder_name}_{trained_file[13:-4]}.csv'
            df_pred.to_csv(join(path_predicts_dict['standard_scale'], file_name))

            df_pred_raw = inverse_standard_scale(output_dir_path, df_pred, target, scale)
            df_pred_raw.to_csv(join(path_predicts_dict['raw_scale'], file_name))

    print('予測が完了しました')

In [25]:
# 各モデル・データセットごとに予測値を算出します。
models_predicts(output_dir, df_dic, features, targets, folder_name, scale=scale)

予測が完了しました


# Part:9 評価指標の算出

In [26]:
def mape(test, pred):
    """MAPEスコアを計算する.
    
    Args:
        test (np.array): 実測値.
        pred (np.array): 予測値.
    
    Returns:
        np.array: MAPEの値.

    """
    return np.mean(np.abs((pred - test) / test)) * 100


def smape(test, pred):
    """S-MAPEスコアを計算する.
    
    Args:
        test (np.array): 実測値.
        pred (np.array): 予測値.

    Returns:
        np.array: S-MAPEの値.
    
    """
    return 100 / len(test) * np.sum(2 * np.abs(pred - test) / (np.abs(pred) + np.abs(test)))


def max_error_rate(test, pred):
    """真の値と予測値の誤差の差分割合の最大値を計算する.
    
   Args:
        test (np.array): 実測値.
        pred (np.array): 予測値.
    
    Returns:
        np.array: max_error_rate(MER)の値.

    """
    dif = np.abs(np.subtract(test, pred))
    mer = np.abs(max(dif) / test[dif.argmax()])

    return mer * 100


def calculate_scores(test, pred, p, model_name):
    """7つのスコア(R2, MAE, MSE, RMSE, MAPE, S-MAPE, MER)を計算してデータフレーム形式で結果を出力する.

    Args:
        test (np.array): 実測値.
        pred (np.array): 予測値.
        p (int): 説明変数の個数.
        model_name (str): 予測に用いたモデルの名前
    
    Returns:
        score_comparisons (pd.DataFrame): 各スコアの結果をまとめたデータフレーム.

    """
    test = np.array(test)
    pred = np.array(pred)
    scores = pd.DataFrame({'r2_score': r2_score(test, pred),
                           'mae_score': mean_absolute_error(test, pred),
                           'mse_score': mean_squared_error(test, pred),
                           'rmse_score': np.sqrt(mean_squared_error(test, pred)),
                           'mape_score': mape(test, pred),
                           'smape_score': smape(test, pred),
                           'max_error_rate': max_error_rate(test, pred)},
                           index=[model_name])
    return scores

In [27]:
def evaluation_scores(output_dir_path, targets, models, folder_name):
    """評価指標の一覧を表示する

    Args:
        output_dir_path (str): アウトプット先のフォルダパス.
        targets (list): 目的変数のリスト.
        models (list): 用いる機械学習モデルの名称のリスト. 現状では以下の9つの候補から選択.
 　                   {"LinearRegression", "Ridge", "Lasso", "ElasticNet",
                       "GBDT", "AdaBoost", "RandomForest", "SVR", "MLP"}
        folder_name (str): 今回の実験の各種記録を行っているフォルダの名前.
        
    """
    for target in targets:
        # 評価指標を格納するフォルダ
        path_score_dict = {'standard_scale': f'{output_dir_path}/score/standard_scale/{target}',
                           'raw_scale': f'{output_dir_path}/score/raw_scale/{target}'}
        for path in path_score_dict.values():
            if not os.path.exists(path):
                os.makedirs(path)

        # 予測結果を格納しているフォルダ
        path_predicts_dict = {'standard_scale': f'{output_dir_path}/predicts/standard_scale/{target}',
                              'raw_scale': f'{output_dir_path}/predicts/raw_scale/{target}'}

        # 目的変数の値を格納しているフォルダ
        path_observes_dict = {'standard_scale': f'{output_dir_path}/observes/standard_scale/{target}',
                              'raw_scale': f'{output_dir_path}/observes/raw_scale/{target}'}

        for scale_name in ['standard_scale', 'raw_scale']:
            print(f'目的変数名: {target}, 目的変数のスケール: {scale_name}')
            
            score_comparison = pd.DataFrame()
            test = pd.read_csv(join(path_observes_dict[scale_name], f'{folder_name}_{target}.csv'),
                               index_col=0)[target]

            for predict_file in os.listdir(path_predicts_dict[scale_name]):
                pred = pd.read_csv(join(path_predicts_dict[scale_name], predict_file), index_col=0)['predicts']
                
                # 予測値が無限大になるサンプルを削除する.
                test_pred = pd.DataFrame({'test': test, 'pred': pred})
                drop_cell_types = list(test_pred.loc[test_pred['pred'] == np.inf, :].index)
                if len(drop_cell_types) >= 1:
                    print(f' > {predict_file[13:-7]}において、予測値が無限大になっているサンプルがあります。\n',
                          f'> 以下のサンプルを削除して評価指標は計算しています。\n',
                          f'> 削除するサンプル: {drop_cell_types}')
                test_pred = test_pred.drop(index=drop_cell_types)

                scores = calculate_scores(test_pred['test'], test_pred['pred'],
                                          len(features), predict_file[13:-7])
                score_comparison = pd.concat([score_comparison, scores])

            algorithm_order_target = [f'{algorithm}_{target}' for algorithm in models]
            display_score_comparison = score_comparison.reindex(index=algorithm_order_target)
            display_score_comparison.to_csv(join(path_score_dict[scale_name], f'{folder_name}_{target}_score.csv'),
                                            encoding='shift_jis')
            
            display(display_score_comparison)

In [28]:
# モデルの評価指標の一覧を算出する。
evaluation_scores(output_dir, targets, models, folder_name)

目的変数名: T_2, 目的変数のスケール: standard_scale


Unnamed: 0,r2_score,mae_score,mse_score,rmse_score,mape_score,smape_score,max_error_rate
LinearRegression_T_2,-3.640411e+23,47214240000.0,3.310084e+23,575333300000.0,28359510000000.0,14.65473,6110993000000000.0
Ridge_T_2,0.9552703,0.04438746,0.040671,0.2016705,30.45365,9.967452,53.27655
Lasso_T_2,0.8942111,0.06904848,0.09618977,0.3101448,24.70654,22.940846,33.24282
ElasticNet_T_2,0.945248,0.04811428,0.04978391,0.2231231,22.36017,17.122999,24.25379
GBDT_T_2,0.9962903,0.009958113,0.003373078,0.05807821,5.167142,3.374557,66.34753
AdaBoost_T_2,0.9874856,0.02514565,0.01137883,0.1066716,15.45278,12.129208,111.877
RandomForest_T_2,0.9914209,0.01358927,0.007800623,0.08832113,3.86321,3.015696,8.448543
SVR_T_2,0.9490437,0.09344939,0.04633255,0.21525,55.95761,58.221158,1242.273
MLP_T_2,0.8632096,0.07675101,0.1243782,0.3526729,51.41756,17.02564,1914.06


目的変数名: T_2, 目的変数のスケール: raw_scale


Unnamed: 0,r2_score,mae_score,mse_score,rmse_score,mape_score,smape_score,max_error_rate
LinearRegression_T_2,-3.640411e+23,654896500000.0,6.368518e+25,7980300000000.0,22227520000000.0,130.581102,2970097000000000.0
Ridge_T_2,0.9552703,0.615687,7.824997,2.79732,545.3661,136.434117,51.02149
Lasso_T_2,0.8942111,0.9577536,18.50667,4.301938,2546.328,152.720429,32.84415
ElasticNet_T_2,0.945248,0.6673807,9.578299,3.094883,1741.354,142.258536,23.96292
GBDT_T_2,0.9962903,0.1381264,0.6489717,0.8055878,79.97889,53.656155,57.39603
AdaBoost_T_2,0.9874856,0.3487888,2.189258,1.479614,696.3834,130.454047,96.7827
RandomForest_T_2,0.9914209,0.1884932,1.50082,1.22508,5.146665,5.114614,8.347222
SVR_T_2,0.9490437,1.296212,8.914266,2.985677,4814.282,169.727338,50446.73
MLP_T_2,0.8632096,1.064593,23.93005,4.891835,894.5573,153.610689,77726.95


目的変数名: T_12, 目的変数のスケール: standard_scale


Unnamed: 0,r2_score,mae_score,mse_score,rmse_score,mape_score,smape_score,max_error_rate
LinearRegression_T_12,-9.320622e+23,121810700000.0,8.708612e+23,933199500000.0,18114110000000.0,32.052776,1628493000000000.0
Ridge_T_12,0.952798,0.1207612,0.04410264,0.2100063,23.61262,22.487804,221.1408
Lasso_T_12,0.8659496,0.2917061,0.1252484,0.3539045,46.54492,46.28285,67.19155
ElasticNet_T_12,0.8998225,0.2387627,0.09359963,0.3059406,40.03823,37.477738,56.27435
GBDT_T_12,0.9563871,0.1112611,0.04074923,0.2018644,22.9532,22.898721,219.8371
AdaBoost_T_12,0.8824441,0.2642111,0.109837,0.3314167,53.10786,65.639429,199.4091
RandomForest_T_12,0.9478674,0.1164874,0.04870948,0.2207023,24.38195,24.231021,221.104
SVR_T_12,0.943201,0.1259356,0.0530695,0.2303682,25.29672,22.438494,213.9155
MLP_T_12,0.9079251,0.1374234,0.08602911,0.2933072,27.32774,24.849035,382.2742


目的変数名: T_12, 目的変数のスケール: raw_scale


Unnamed: 0,r2_score,mae_score,mse_score,rmse_score,mape_score,smape_score,max_error_rate
LinearRegression_T_12,-9.320622e+23,179121500000000.0,1.883102e+30,1372262000000000.0,65541190000000.0,55.14375,1.247587e+16
Ridge_T_12,0.952798,177.5783,95365.08,308.8124,56.26656,41.685802,80.34914
Lasso_T_12,0.8659496,428.9512,270830.1,520.4134,538.4263,72.651593,46.91859
ElasticNet_T_12,0.8998225,351.0984,202394.6,449.8829,458.7071,63.968125,39.29532
GBDT_T_12,0.9563871,163.6085,88113.87,296.8398,51.40306,35.449737,79.87547
AdaBoost_T_12,0.8824441,388.5201,237505.4,487.3453,320.6372,72.501307,72.45316
RandomForest_T_12,0.9478674,171.2937,105326.7,324.5407,43.25115,28.243059,80.33578
SVR_T_12,0.943201,185.1871,114754.5,338.7544,170.956,44.859362,1638.805
MLP_T_12,0.9079251,202.0799,186024.6,431.3056,85.93241,42.846015,2928.6


目的変数名: T_1635, 目的変数のスケール: standard_scale


Unnamed: 0,r2_score,mae_score,mse_score,rmse_score,mape_score,smape_score,max_error_rate
LinearRegression_T_1635,-1.484467e+17,55779600.0,1.215809e+17,348684500.0,25961670000.0,12.668868,47463840000.0
Ridge_T_1635,0.9984124,0.01782878,0.001300254,0.03605904,7.895623,8.139172,3.953388
Lasso_T_1635,0.9580077,0.07736385,0.03439252,0.1854522,27.60573,29.844472,38.96073
ElasticNet_T_1635,0.9784629,0.04470184,0.01763933,0.1328131,17.01426,19.849819,35.73989
GBDT_T_1635,0.9685147,0.02665136,0.02578712,0.1605837,1.269135,1.416722,16.99783
AdaBoost_T_1635,0.9465113,0.04001407,0.04380829,0.2093043,6.352474,7.746147,25.73165
RandomForest_T_1635,0.9779535,0.02209518,0.01805651,0.1343745,1.936416,2.582571,16.53892
SVR_T_1635,0.6324454,0.1606127,0.3010346,0.5486662,82.56782,49.621118,66.85185
MLP_T_1635,0.5154646,0.103064,0.3968442,0.6299558,37.18891,10.998123,86.27822


目的変数名: T_1635, 目的変数のスケール: raw_scale


Unnamed: 0,r2_score,mae_score,mse_score,rmse_score,mape_score,smape_score,max_error_rate
LinearRegression_T_1635,-1.484467e+17,16606040000.0,1.077573e+22,103806200000.0,5648290000.0,12.698954,45775250000.0
Ridge_T_1635,0.9984124,5.307772,115.2417,10.73507,24.29073,24.660169,3.812742
Lasso_T_1635,0.9580077,23.03185,3048.213,55.21062,86.6192,59.033438,36.0164
ElasticNet_T_1635,0.9784629,13.3081,1563.375,39.53954,47.97698,37.166698,33.03897
GBDT_T_1635,0.9685147,7.934327,2285.515,47.80706,1.050997,1.107243,16.39311
AdaBoost_T_1635,0.9465113,11.91251,3882.734,62.31159,13.49432,13.504054,24.81622
RandomForest_T_1635,0.9779535,6.577915,1600.351,40.00438,0.8137869,0.836168,15.95053
SVR_T_1635,0.6324454,47.8157,26680.73,163.3424,139.7734,81.470853,64.47351
MLP_T_1635,0.5154646,30.68298,35172.35,187.5429,29.86621,25.917668,83.20876


# Part:10 学習した予測モデルの特徴を分析

In [29]:
def models_features(output_dir_path, features, targets, folder_name):
    """回帰係数/変数重要度を取得・描画する

    各目的変数に対して各種モデルの回帰係数 or 変数重要度の値を取得及び描画する。
    「models/folder_name/feature_analysis_plot/'目的変数名'」配下に
    「folder_name_'モデル名'_'目的変数名'.csv」、
    「folder_name_'モデル名'_'目的変数名'.png」という名称で出力する
      
    - 予測モデルが決定木系('AdaBoost', 'GBDT', 'RandomForest')
      ⇒ 変数重要度を取得・描画する。
    
    - 予測モデルが線形回帰系('ElasticNet', 'Lasso', 'LinearRegression', 'Ridge')
      ⇒ 回帰係数を取得・描画する。
    
    - 予測モデルが上記以外('SVR', 'MLP')
      ⇒ 何もしない.


    Args:
        output_dir_path (str): アウトプット先のフォルダパス.
        features (list): 説明変数のリスト.
        targets (list): 目的変数のリスト.
        folder_name (str): 今回の実験の各種記録を行っているフォルダの名前.

    """
    linear_regression_alg = {'El', 'La', 'Li', 'Ri'}
    decesion_tree_alg = {'Ad', 'GB', 'Ra'}

    for target in targets:
        # 特徴重要度(線形回帰)のグラフを格納するパスを指定、フォルダを作成
        feature_analysis_target_path = join(output_dir_path, f'feature_analysis_plot/{target}')
        if not os.path.exists(feature_analysis_target_path):
            os.makedirs(feature_analysis_target_path)
        
        trained_file_path = join(output_dir_path, f'trained_model/{target}')
        trained_files = os.listdir(trained_file_path)
        for trained_file in trained_files:
            with open(join(trained_file_path, trained_file), 'rb') as f:
                model = pickle.load(f)
            file_name = f"{folder_name}_{trained_file[13:-7]}"
            fig, ax = plt.subplots()

            # 線形回帰系のアルゴリズムは0でない値を持つ回帰係数をを上位10個出力する
            if trained_file[13:15] in linear_regression_alg:
                model_coefficient = (pd.DataFrame(model.coef_, index=features, columns=['coef'])
                                       .query('coef != 0'))

                model_coefficient.sort_values('coef', key=lambda col: abs(col), ascending=False, inplace=True)
                model_coefficient['is_plus'] = model_coefficient['coef'] >= 0
                (model_coefficient.drop('is_plus', axis=1)
                                  .to_csv(join(feature_analysis_target_path, f'{file_name}.csv'),
                                          encoding='utf-8_sig'))
                
                plot_data = model_coefficient.head(10).sort_values('coef', key=lambda col: abs(col))
                plot_data['coef'].plot(kind='barh', ax=ax, legend=False,
                                       title=f'coef: {trained_file[13:-7]}',
                                       color=plot_data['is_plus'].map({True: '#1f77b4',  # 青色
                                                                       False: '#d62728'}))  # 赤色
            # 決定木系のアルゴリズムは特徴重要度を上位10個を出力する
            elif trained_file[13:15] in decesion_tree_alg:
                model_feature_importances = (pd.DataFrame(model.feature_importances_.T,
                                                         index=features, columns=['feature_importances'])
                                               .sort_values('feature_importances', ascending=False))
                model_feature_importances.to_csv(join(feature_analysis_target_path, f'{file_name}.csv'),
                                                 encoding='utf-8_sig')
                
                (model_feature_importances[0:10].sort_values('feature_importances')
                                                .plot(kind='barh', ax=ax, legend=False,
                                                      title=f'feature inportance: {trained_file[13:-7]}',
                                                      color='#1f77b4'))
            else:
                plt.close()
                continue

            plt.grid()
            plt.savefig(join(feature_analysis_target_path, f'{file_name}.png'),
                        facecolor='white', bbox_inches='tight')
            
            plt.close()

In [30]:
# モデル毎に変数需要度・回帰係数を算出・描画します。
models_features(output_dir, features, targets, folder_name)

In [31]:
def residual_plot(output_dir_path, targets, folder_name):
    """実測値と予測結果の残差を可視化する

    Args:
        output_dir_path (str): アウトプット先のフォルダパス.
        target (str): 目的変数の名前のリスト.
        folder_name (str): 今回の実験の各種記録を行っているフォルダの名前.

    """
    for target in targets:
        # 画像を格納するフォルダ
        path_plot_dict = {'standard_scale': f'{output_dir_path}/yy_residual_plots/standard_scale/{target}',
                          'raw_scale': f'{output_dir_path}/yy_residual_plots/raw_scale/{target}'}
        for path in path_plot_dict.values():
            if not os.path.exists(path):
                os.makedirs(path)

        # 予測結果を格納しているフォルダ
        path_predicts_dict = {'standard_scale': f'{output_dir_path}/predicts/standard_scale/{target}',
                              'raw_scale': f'{output_dir_path}/predicts/raw_scale/{target}'}

        # 目的変数の値を格納しているフォルダ
        path_observes_dict = {'standard_scale': f'{output_dir_path}/observes/standard_scale/{target}',
                              'raw_scale': f'{output_dir_path}/observes/raw_scale/{target}'}

        for scale_name in ['standard_scale', 'raw_scale']:
            for predict_file in os.listdir(path_predicts_dict[scale_name]):
                obs = pd.read_csv(join(path_observes_dict[scale_name], f'{folder_name}_{target}.csv'),
                                  index_col=0)[target]
                pred = pd.read_csv(join(path_predicts_dict[scale_name], predict_file),
                                   index_col=0)['predicts']
                
                df_score = pd.DataFrame({'Observed': obs, 'Predicted': pred},
                                        index=pred.index)
                # 予測値が無限大になるサンプルを削除する.
                df_score = df_score.loc[df_score['Predicted'] != np.inf, :]

                df_score['residual'] = df_score['Predicted'] - df_score['Observed']

                df_score['Cell_type'] = df_score.index
                df_score.index = df_score.index.str.split('_', expand=True)
                df_score.index.names = ['type', 'sample_no']
                df_score.reset_index(inplace=True)

                # yyプロットと残差プロットを描画する.
                fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(13, 4))
                cell_types = df_score['type']
                hue_order = list(str(i) for i in range(int(cell_types.min()), int(cell_types.max())+1))
                plot_args = dict(hue='type', hue_order=hue_order, data=df_score)
                sns.scatterplot(x='Observed', y='Predicted', ax=ax1, legend=False, **plot_args)
                sns.scatterplot(x=df_score.index, y='residual', ax=ax2, **plot_args)

                lim_max = df_score[['Observed', 'Predicted']].max().max()
                lim_min = df_score[['Observed', 'Predicted']].min().min()

                if abs(df_score['Observed']).max() > abs(df_score['Predicted']).max():
                    ticks = ax1.get_xticks()
                else:
                    ticks = ax1.get_yticks()

                if (ticks[-1] - ticks[-2]) < 0.5:
                    buffer = 0.05
                else:
                    buffer = 0.5

                if (ticks[-1] - ticks[-2]) < 0.1:
                    ax1.tick_params(axis='x', labelrotation=90)

                ax1.set_yticks(ticks)
                ax1.set_xticks(ticks)

                ax1.set_xlim([lim_min - buffer, lim_max + buffer])
                ax1.set_ylim([lim_min - buffer, lim_max + buffer])
                ax1.set_aspect('equal', adjustable='box')

                ylim_min, ylim_max = ax2.get_ylim()
                if abs(df_score['residual'].min()) < abs(df_score['residual'].max()):
                    ax2.set_ylim([-1*ylim_max, ylim_max])
                else:
                    ax2.set_ylim([ylim_min, -1 * ylim_min])

                ax1.set_ylabel('Predicted')
                ax1.set_xlabel('Observed')
                ax2.set_ylabel('residual')
                ax1.set_title(f'Observed-Predicted Plot\n{predict_file[13:-7]}: {scale_name}')
                ax2.set_title(f'residual plot\n{predict_file[13:-7]}: {scale_name}')

                for ax in [ax1, ax2]:
                    ax.grid()
                ax2.legend(bbox_to_anchor=(1.05, 1), loc='upper left', title='Cell_type')

                plt.savefig(join(path_plot_dict[scale_name], f'{folder_name}_{predict_file[13:-7]}.png'),
                            bbox_inches="tight", dpi=100)
                plt.close()

                (df_score.loc[:, ['Cell_type', 'Observed', 'Predicted', 'residual']]
                         .to_csv(join(join(path_plot_dict[scale_name],
                                 f'{folder_name}_{predict_file[13:-7]}.csv'))))

In [32]:
# yyプロット、残差プロットを描画します。
residual_plot(output_dir, targets, folder_name)