## 回帰モデル全般のサンプルコード

In [29]:
# ライブラリーのインポート
import os
from os.path import join
import pickle
import shutil

import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

# ボストンの住宅価格データ
from sklearn.datasets import load_boston

# 前処理
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# 回帰モデル
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.svm import SVR

# 評価指標
from sklearn.metrics import r2_score
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error

In [15]:
# データセットの読込み
boston = load_boston()

# 説明変数の格納
df = pd.DataFrame(boston.data, columns = boston.feature_names)
# 目的変数の追加
df['MEDV'] = boston.target

# データの中身を確認
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


In [20]:
df.shape[1]

14

### パラメータ設定

In [3]:
# ランダムシード値
RANDOM_STATE = 10

# 学習データと評価データの割合
TEST_SIZE = 0.2

# 対象モデル
models = ["LinearRegression",
          "Ridge",
          "Lasso",
          "ElasticNet",
          "GBDT",
          "AdaBoost",
          "RandomForest",
          "SVR"]

# パラメータ設定
param_linearregression = {'normalize': False}
param_ridge = {'alpha': 0.1, 'random_state': RANDOM_STATE}
param_lasso = {'alpha': 0.1, 'random_state': RANDOM_STATE}
param_elasticnet = {'alpha': 0.1, 'l1_ratio': 0.5,
                    'random_state': RANDOM_STATE}
param_randomforest = {'n_estimators': 50, 'max_depth': 5,
                      'random_state': RANDOM_STATE}
param_gbdt = {'learning_rate': 0.1, 'n_estimators': 50,
              'subsample': 1.0, 'min_samples_split': 2,
              'min_samples_leaf': 1, 'min_weight_fraction_leaf': 0.0,
              'max_depth': 3, 'alpha': 0.9, 'random_state': RANDOM_STATE}
param_adaboost = {'n_estimators': 50, 'learning_rate': 1,
                  'random_state': RANDOM_STATE}
param_svr = {'kernel': 'rbf', 'degree': 3, 'gamma': 'scale', 'C': 10,
             'epsilon': 0.1}

param_dict = {'LinearRegression': param_linearregression, 'Ridge': param_ridge,
              'Lasso': param_lasso, 'ElasticNet': param_elasticnet,
              'RandomForest': param_randomforest, 'GBDT': param_gbdt,
              'AdaBoost': param_adaboost, 'SVR': param_svr}

# outputディレクトリ
output_dir = f'models/' 

### 前処理

In [21]:
# 学習データと評価データを作成
x_train, x_test, y_train, y_test = train_test_split(df.iloc[:, 0:df.shape[1]-1],
                                                    df.iloc[:, df.shape[1]-1],
                                                    test_size=TEST_SIZE,
                                                    random_state=RANDOM_STATE)

#データを標準化
sc = StandardScaler()
sc.fit(x_train) #学習用データで標準化
x_train_std = sc.transform(x_train)
x_test_std = sc.transform(x_test)

### モデルの学習

In [22]:
def _get_model(model_name):
    """モデルを取得する
    
    Args:
        model_name (str): モデルの名前
    
    Returns:
        model           : モデル
    """
    model_dict = {"LinearRegression": LinearRegression(),
                  "Ridge": Ridge(),
                  "Lasso": Lasso(),
                  "ElasticNet": ElasticNet(),
                  "GBDT": GradientBoostingRegressor(),
                  "AdaBoost": AdaBoostRegressor(),
                  "RandomForest": RandomForestRegressor(),
                  "SVR": SVR()}

    model = model_dict.get(model_name)

    if model is None:
        raise ValueError(f'model_nameが違います: {model_name}')

    return model

In [23]:
def models_train(output_dir_path, train, target, models, param_dict):
    """モデルの学習

    Args:
        output_dir_path (str): アウトプット先のフォルダパス.
        train (nd.array)     : 学習データの説明変数
        target (Series)      : 学習データの目的変数
        features (list)      : 説明変数のリスト.
        models (list)        : 機械学習モデルのリスト
        param_dict (dict)    : key: モデル名, values: パラメータ 

    """
    path_train_target = join(output_dir_path, f'trained_model/')
    if not os.path.exists(path_train_target):
        os.makedirs(path_train_target)
    
    for model_name in models:
        model = _get_model(model_name)
        model.set_params(**param_dict[model_name])
        model.fit(train, target)
        
        filename = f'{model_name}.pickle'
        with open(join(path_train_target, filename), 'wb') as f:
            pickle.dump(model, f)

    return print('学習完了')

In [24]:
# モデルの学習
models_train(output_dir, x_train_std, y_train, models, param_dict)

学習完了


### モデルの予測

In [12]:
def models_predicts(output_dir_path, test):
    """評価データの予測

    Args:
        output_dir_path (str): アウトプット先のフォルダパス.
        test (nd.array)      : 評価データの説明変数

    Returns:
        pred_dict (dict)     : モデルに対応した予測結果を持つ辞書.
    """
    # 学習済みモデルのパスを取得
    trained_files = os.listdir(join(output_dir_path, f'trained_model/'))
    pred_dict = {}

    for trained_file in trained_files:
        with open(f'{output_dir_path}/trained_model/{trained_file}', 'rb')as f:
            model = pickle.load(f)            
        pred_dict[trained_file[:-7]] = model.predict(test)

    return pred_dict

In [55]:
pred_dict = models_predicts(output_dir, x_test_std)

### 評価指標算出

In [67]:
def _mape(true, pred):  
    """MAPEを計算する
    Args:
        true (np.array) : 実測値
        pred (np.array) : 予測値

    Returns:
        np.array        : mapeの計算結果
    """
    return np.mean(np.abs((true - pred) / true)) * 100

# SMAPEの計算
def _smape(true, pred):
    """SMAPEを計算する
    Args:
        true (np.array) : 実測値
        pred (np.array) : 予測値

    Returns:
        np.array        : smapeの計算結果
    """
    return 100/len(true) * np.sum(2 * np.abs(pred - true) / (np.abs(pred) + np.abs(true)))

def _calculate_scores(true, pred, models):
    """全ての評価指標を計算する
    Args:
        true (np.array)      : 実測値
        pred (np.array)      : 予測値
        models (list)        : 機械学習モデルのリスト
    
    Returns:
        scores (pd.DataFrame): 各評価指標を纏めた結果
    """
    scores = pd.DataFrame({'R2': r2_score(true, pred_dict[model]),
                           'MAE': mean_absolute_error(true, pred_dict[model]),
                           'MSE': mean_squared_error(true, pred_dict[model]),
                           'RMSE': np.sqrt(mean_squared_error(true, pred_dict[model])),
                           'MAPE': _mape(true, pred_dict[model]),
                           'SMAPE': _smape(true, pred_dict[model])},
                           index = [model])
    
    return scores

In [70]:
def display_scores(true, pred_dict, models):
    """評価指標の一覧を表示する

    Args:
        true (np.array)      : 実測値
        pred_dict (dict)     : key: モデル名, values: 予測結果
        models (list)        : 機械学習モデルのリスト
    
    """
    
    score_comparison = pd.DataFrame()
    for model in models:
        pred = pred_dict[model]
        true_pred = pd.DataFrame({'true': true, 'pred': pred})
        scores = _calculate_scores(true_pred['true'], true_pred['pred'])
        score_comparison = pd.concat([score_comparison, scores])
        
    
    display(display_score_comparison)

In [71]:
display_scores(y_test, pred_dict, models)

NameError: name 'model' is not defined

In [54]:
type(scores.values())

dict_values

In [50]:
df = pd.DataFrame(scores.values(), index=scores.keys())

KeyError: 0

In [None]:


# スコア計算のためのライブ
# モデルの学習
lr = LinearRegression()
lr.fit(x_train_std, y_train)

# 予測　
pred_lr = lr.predict(x_test_std)

# 評価
# 決定係数(R2)
r2_lr = r2_score(y_test, pred_lr)

# 平均絶対誤差(MAE)
mae_lr = mean_absolute_error(y_test, pred_lr)

print("R2　:　%.3f" % r2_lr)
print("MAE : %.3f" % mae_lr)

# 回帰係数
print("Coef = ", lr.coef_)
# 切片
print("Intercept =", lr.intercept_)

In [None]:
type(y_train)

In [None]:
plt.xlabel("pred_lr")
plt.ylabel("y_test")
plt.scatter(pred_lr, y_test)

plt.show()

In [None]:
# モデルの学習
ridge = Ridge(alpha=10)
ridge.fit(x_train_std, y_train)

# 予測　
pred_ridge = ridge.predict(x_test_std)

# 評価
# 決定係数(R2)
r2_ridge = r2_score(y_test, pred_ridge)

# 平均絶対誤差(MAE)
mae_ridge = mean_absolute_error(y_test, pred_ridge)

print("R2　:　%.3f" % r2_ridge)
print("MAE : %.3f" % mae_ridge)

# 回帰係数
print("Coef = ", ridge.coef_)

In [None]:
df_ridge = pd.DataFrame(pred_ridge)

In [None]:
df_lr = pd.DataFrame(pred_lr)

In [None]:
df_lr.columns = ['lr']
print(df_lr)

In [None]:
pd.concat([df_ridge, df_lr, df_lr], axis=1, sort=False)

In [None]:
df_ridge.columns = ['ridge']
print(df_ridge)

In [None]:
pd.DataFrame(pd.np.column_stack([df_ridge, pred_lr, dtype=int]))

In [None]:
plt.xlabel("pred_ridge")
plt.ylabel("y_test")
plt.scatter(pred_ridge, y_test)

plt.show()

In [None]:
# モデルの学習
lasso = Lasso(alpha=0.05)
lasso.fit(x_train_std, y_train)

# 予測　
pred_lasso = lasso.predict(x_test_std)

# 評価
# 決定係数(R2)
r2_lasso = r2_score(y_test, pred_lasso)

# 平均絶対誤差(MAE)
mae_lasso = mean_absolute_error(y_test, pred_lasso)

print("R2　:　%.3f" % r2_lasso)
print("MAE : %.3f" % mae_lasso)

# 回帰係数
print("Coef = ", lasso.coef_)

In [None]:
plt.xlabel("pred_lasso")
plt.ylabel("y_test")
plt.scatter(pred_lasso, y_test)

plt.show()

In [None]:
# モデルの学習
elasticnet = ElasticNet(alpha=0.05)
elasticnet.fit(x_train_std, y_train)

# 予測　
pred_elasticnet = elasticnet.predict(x_test_std)

# 評価
# 決定係数(R2)
r2_elasticnet = r2_score(y_test, pred_elasticnet)

# 平均絶対誤差(MAE)
mae_elasticnet = mean_absolute_error(y_test, pred_elasticnet)

print("R2　:　%.3f" % r2_elasticnet)
print("MAE : %.3f" % mae_elasticnet)

# 回帰係数
print("Coef = ", elasticnet.coef_)

In [None]:
plt.xlabel("pred_elasticnet")
plt.ylabel("y_test")
plt.scatter(pred_elasticnet, y_test)

plt.show()

In [None]:
# モデルの学習
RF = RandomForestRegressor()
RF.fit(x_train_std, y_train)

# 予測　
pred_RF = RF.predict(x_test_std)

# 評価
# 決定係数(R2)
r2_RF = r2_score(y_test, pred_RF)

# 平均絶対誤差(MAE)
mae_RF = mean_absolute_error(y_test, pred_RF)

print("R2　:　%.3f" % r2_RF)
print("MAE : %.3f" % mae_RF)

# 変数重要度
print("feature_importances = ", RF.feature_importances_)

In [None]:
plt.xlabel("pred_RF")
plt.ylabel("y_test")
plt.scatter(pred_RF, y_test)

plt.show()

In [None]:
# モデルの学習
GBDT = GradientBoostingRegressor()
GBDT.fit(x_train_std, y_train)

# 予測　
pred_GBDT = GBDT.predict(x_test_std)

# 評価
# 決定係数(R2)
r2_GBDT = r2_score(y_test, pred_GBDT)

# 平均絶対誤差(MAE)
mae_GBDT = mean_absolute_error(y_test, pred_GBDT)

print("R2 : %.3f" % r2_GBDT)
print("MAE : %.3f" % mae_GBDT)

# 変数重要度
print("feature_importances = ", GBDT.feature_importances_)

In [None]:
plt.xlabel("pred_GBDT")
plt.ylabel("y_test")
plt.scatter(pred_GBDT, y_test)

plt.show()

In [None]:
# モデルの学習
SVR = SVR(kernel='linear', C=1, epsilon=0.1, gamma='auto')
SVR.fit(x_train_std, y_train)

# 予測　
pred_SVR = SVR.predict(x_test_std)

# 評価
# 決定係数(R2)
r2_SVR = r2_score(y_test, pred_SVR)

# 平均絶対誤差(MAE)
mae_SVR = mean_absolute_error(y_test, pred_SVR)

print("R2 : %.3f" % r2_SVR)
print("MAE : %.3f" % mae_SVR)

# 回帰係数
print("Coef = ", SVR.coef_)

In [None]:
plt.xlabel("pred_SVR")
plt.ylabel("y_test")
plt.scatter(pred_SVR, y_test)

plt.show()

In [None]:
# 必要なライブラリーのインポート
import pandas as pd
import numpy as np
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.svm import SVR

# データセットの読込み
boston = load_boston()

# データフレームの作成
df = pd.DataFrame(boston.data, columns = boston.feature_names)
# 目的変数の追加
df['MEDV'] = boston.target

# 学習データと評価データを作成
x_train, x_test, y_train, y_test = train_test_split(df.iloc[:, 0:13], df.iloc[:, 13],
                                                    test_size=0.2, random_state=1)

#データを標準化
sc = StandardScaler()
sc.fit(x_train) #学習用データで標準化
x_train_std = sc.transform(x_train)
x_test_std = sc.transform(x_test)

In [None]:
# スコア計算のためのライブラリ
import pandas as pd
import numpy as np
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.svm import SVR

def preprocess_sc(df):
    """データを学習データと評価データに分割し、標準化を行う

    Parameters
    ----------
    df : pd.DataFrame
        データセット（説明変数＋目的変数）

    Returns
    -------
    x_train_std : pd.DataFrame
        標準化後の学習データ（説明変数）
    y_train : pd.DataFrame
        学習データ（目的変数）
    x_test_std : pd.DataFrame
        標準化後の評価データ（説明変数）
    y_test : pd.DataFrame
        評価データ（目的変数）
    """
    x_train, x_test, y_train, y_test = train_test_split(df.iloc[:, 0:13], df.iloc[:, 13],
                                                        test_size=0.2, random_state=1)

    #データを標準化
    sc = StandardScaler()
    sc.fit(x_train) #学習用データで標準化
    x_train_std = sc.transform(x_train)
    x_test_std = sc.transform(x_test)

    return x_train_std, x_test_std, y_train, y_test

def Linear_Regression(x_train_std, y_train, x_test_std):  
    """線形回帰で予測する

    Parameters
    ----------
    x_train_std : pd.DataFrame
        標準化後の学習データ（説明変数）
    y_train : pd.DataFrame
        学習データ（目的変数）
    x_test_std : pd.DataFrame
        標準化後の評価データ（説明変数）

    Returns
    -------
    pred_lr : pd.DataFrame
        線形回帰の予測結果
    """
    lr = LinearRegression()
    lr.fit(x_train_std, y_train)

    pred_lr = lr.predict(x_test_std)

    return pred_lr

def Ridge_Regression(x_train_std, y_train, x_test_std, ALPHA=10.0):  
    """Ridge回帰で予測する

    Parameters
    ----------
    x_train_std : pd.DataFrame
        標準化後の学習データ（説明変数）
    y_train : pd.DataFrame
        学習データ（目的変数）
    x_test_std : pd.DataFrame
        標準化後の評価データ（説明変数）
    ALPHA : float
        正則化パラメータα

    Returns
    -------
    pred_ridge : pd.DataFrame
        Ridge回帰の予測結果
    """
    ridge = Ridge(alpha=ALPHA)
    ridge.fit(x_train_std, y_train)

    pred_ridge = ridge.predict(x_test_std)

    return pred_ridge

def Lasso_Regression(x_train_std, y_train, x_test_std, ALPHA=0.05):  
    """Lasso回帰で予測する

    Parameters
    ----------
    x_train_std : pd.DataFrame
        標準化後の学習データ（説明変数）
    y_train : pd.DataFrame
        学習データ（目的変数）
    x_test_std : pd.DataFrame
        標準化後の評価データ（説明変数）
    ALPHA : float
        正則化パラメータα

    Returns
    -------
    pred_lasso : pd.DataFrame
        Lasso回帰の予測結果
    """
    lasso = Lasso(alpha=ALPHA)
    lasso.fit(x_train_std, y_train)

    pred_lasso = lasso.predict(x_test_std)

    return pred_lasso

def ElasticNet_Regression(x_train_std, y_train, x_test_std, ALPHA=0.05):  
    """ElasticNet回帰で予測する

    Parameters
    ----------
    x_train_std : pd.DataFrame
        標準化後の学習データ（説明変数）
    y_train : pd.DataFrame
        学習データ（目的変数）
    x_test_std : pd.DataFrame
        標準化後の評価データ（説明変数）
    ALPHA : float
        正則化パラメータα

    Returns
    -------
    pred_elasticnet : pd.DataFrame
        ElasticNet回帰の予測結果
    """
    elasticnet = ElasticNet(alpha=ALPHA)
    elasticnet.fit(x_train_std, y_train)

    pred_elasticnet = elasticnet.predict(x_test_std)

    return pred_elasticnet

def RandomForest_Regressor(x_train_std, y_train, x_test_std):  
    """RandomForest回帰で予測する

    Parameters
    ----------
    x_train_std : pd.DataFrame
        標準化後の学習データ（説明変数）
    y_train : pd.DataFrame
        学習データ（目的変数）
    x_test_std : pd.DataFrame
        標準化後の評価データ（説明変数）

    Returns
    -------
    pred_RF : pd.DataFrame
        RandomForest回帰の予測結果
    """
    RF = RandomForestRegressor()
    RF.fit(x_train_std, y_train)

    pred_RF = RF.predict(x_test_std)

    return pred_RF

def GradientBoosting_Regressor(x_train_std, y_train, x_test_std):  
    """GBDTで予測する

    Parameters
    ----------
    x_train_std : pd.DataFrame
        標準化後の学習データ（説明変数）
    y_train : pd.DataFrame
        学習データ（目的変数）
    x_test_std : pd.DataFrame
        標準化後の評価データ（説明変数）

    Returns
    -------
    pred_GBDT : pd.DataFrame
        GBDTの予測結果
    """
    GBDT = GradientBoostingRegressor()
    GBDT.fit(x_train_std, y_train)

    pred_GBDT = GBDT.predict(x_test_std)

    return pred_GBDT

def SVR_Regression(x_train_std, y_train, x_test_std):  
    """SVRで予測する

    Parameters
    ----------
    x_train_std : pd.DataFrame
        標準化後の学習データ（説明変数）
    y_train : pd.DataFrame
        学習データ（目的変数）
    x_test_std : pd.DataFrame
        標準化後の評価データ（説明変数）

    Returns
    -------
    pred_SVR : pd.DataFrame
        GBDTの予測結果
    """
    svr = SVR()
    svr.fit(x_train_std, y_train)

    pred_SVR = svr.predict(x_test_std)

    return pred_SVR

def main():
    # データセットの読込み
    boston = load_boston()

    # データフレームの作成
    # 説明変数の格納
    df = pd.DataFrame(boston.data, columns = boston.feature_names)

    # 目的変数の追加
    df['MEDV'] = boston.target

    # データの前処理
    x_train_std, x_test_std, y_train, y_test = preprocess_sc(df)

    pred_lr = pd.DataFrame(Linear_Regression(x_train_std, y_train, x_test_std))
    pred_ridge = pd.DataFrame(Ridge_Regression(x_train_std, y_train, x_test_std, ALPHA=10.0))
    pred_lasso = pd.DataFrame(Lasso_Regression(x_train_std, y_train, x_test_std, ALPHA=0.05))
    pred_elasticnet = pd.DataFrame(ElasticNet_Regression(x_train_std, y_train, x_test_std, ALPHA=0.05))
    pred_RF = pd.DataFrame(RandomForest_Regressor(x_train_std, y_train, x_test_std))
    pred_GBDT = pd.DataFrame(GradientBoosting_Regressor(x_train_std, y_train, x_test_std))
    pred_SVR = pd.DataFrame(SVR_Regression(x_train_std, y_train, x_test_std))
    pred_all = pd.concat([df_lr, pred_ridge, pred_lasso, pred_elasticnet, pred_RF, pred_GBDT, pred_SVR], axis=1, sort=False)
    pred_all.columns = ["df_lr", "pred_ridge", "pred_lasso", "pred_elasticnet", "pred_RF", "pred_GBDT", "pred_SVR"]

    return pred_all

if __name__ == "__main__":
    pred_all = main()

In [None]:
pred_all