In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

df = pd.read_csv("train.csv")

X = df[["GrLivArea", "YearBuilt"]].values
y = df[["SalePrice"]].values.flatten()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# 標準化
sc = StandardScaler()
tr_X_train = sc.fit_transform(X_train)
tr_X_test = sc.fit_transform(X_test)



### 【問題1】ブレンディングのスクラッチ実装
ブレンディング をスクラッチ実装し、単一モデルより精度があがる例を 最低3つ 示してください。精度があがるとは、検証データに対する平均二乗誤差（MSE）が小さくなることを指します。<br>


In [2]:
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor


# 線形回帰による分析
lm = LinearRegression().fit(tr_X_train, y_train)
lm_pred = lm.predict(tr_X_test)
lm_mean_squared_error = mean_squared_error(y_test, lm_pred)
print("線形回帰による平均二乗誤差 : {:.5f}".format(lm_mean_squared_error))

# SVR
svr= SVR(C=1.0, epsilon=0.2).fit(tr_X_train, y_train)
svr_pred = svr.predict(tr_X_test)
svr_mean_squared_error = mean_squared_error(y_test, svr_pred)
print("SVRによる平均二乗誤差      : {:.5f}".format(svr_mean_squared_error))

# 決定木
dtr = DecisionTreeRegressor(max_depth=3).fit(tr_X_train, y_train)
dtr_pred = dtr.predict(tr_X_test)
dtr_mean_squared_error = mean_squared_error(y_test, dtr_pred)
print("決定木による平均二乗誤差   : {:.5f}".format(dtr_mean_squared_error))


# ブレンディング
mean_pred = (0.1 * lm_pred) + (0.9 * svr_pred) + (0.1 * dtr_pred)
print("ブレンディング : {:.5f}".format(mean_squared_error(y_test, mean_pred)))


線形回帰による平均二乗誤差 : 2850683002.96796
SVRによる平均二乗誤差      : 7054588160.53784
決定木による平均二乗誤差   : 3274901353.14446
ブレンディング : 5374735716.99173


In [3]:
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor


# 線形回帰による分析
lm = LinearRegression().fit(tr_X_train, y_train)
lm_pred = lm.predict(tr_X_test)
lm_mean_squared_error = mean_squared_error(y_test, lm_pred)
print("線形回帰による平均二乗誤差           : {:.5f}".format(lm_mean_squared_error))

# 決定木
dtr = DecisionTreeRegressor(max_depth=3).fit(tr_X_train, y_train)
dtr_pred = dtr.predict(tr_X_test)
dtr_mean_squared_error = mean_squared_error(y_test, dtr_pred)
print("決定木による平均二乗誤差             : {:.5f}".format(dtr_mean_squared_error))

# ランダムフォレスト
rfr = RandomForestRegressor(max_depth=2, random_state=0).fit(tr_X_train, y_train)
rfr_pred = rfr.predict(tr_X_test)
rfr_mean_squared_error = mean_squared_error(y_test, rfr_pred)
print("ランダムフォレストによる平均二乗誤差 : {:.5f}".format(rfr_mean_squared_error))


# ブレンディング
mean_pred = (0.2 * lm_pred) + (0.3 * dtr_pred) + (0.5 * rfr_pred)
print("ブレンディング : {:.5f}".format(mean_squared_error(y_test, mean_pred)))


線形回帰による平均二乗誤差           : 2850683002.96796
決定木による平均二乗誤差             : 3274901353.14446
ランダムフォレストによる平均二乗誤差 : 3451492508.72350
ブレンディング : 3015405890.93751


In [4]:
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor


# SVR
svr= SVR(C=1.0, epsilon=0.2).fit(tr_X_train, y_train)
svr_pred = svr.predict(tr_X_test)
svr_mean_squared_error = mean_squared_error(y_test, svr_pred)
print("SVRによる平均二乗誤差                : {:.5f}".format(svr_mean_squared_error))

# 決定木
dtr = DecisionTreeRegressor(max_depth=3).fit(tr_X_train, y_train)
dtr_pred = dtr.predict(tr_X_test)
dtr_mean_squared_error = mean_squared_error(y_test, dtr_pred)
print("決定木による平均二乗誤差             : {:.5f}".format(dtr_mean_squared_error))

# ランダムフォレスト
rfr = RandomForestRegressor(max_depth=2, random_state=0).fit(tr_X_train, y_train)
rfr_pred = rfr.predict(tr_X_test)
rfr_mean_squared_error = mean_squared_error(y_test, rfr_pred)
print("ランダムフォレストによる平均二乗誤差 : {:.5f}".format(rfr_mean_squared_error))


# ブレンディング
mean_pred = (0.6 * svr_pred) + (0.2 * dtr_pred) + (0.2 * rfr_pred)
print("ブレンディング : {:.5f}".format(mean_squared_error(y_test, mean_pred)))


SVRによる平均二乗誤差                : 7054588160.53784
決定木による平均二乗誤差             : 3274901353.14446
ランダムフォレストによる平均二乗誤差 : 3451492508.72350
ブレンディング : 4829063214.17070


### 【問題2】バギングのスクラッチ実装
バギング をスクラッチ実装し、単一モデルより精度があがる例を 最低1つ 示してください。<br>

### バギングとは
バギングは入力データの選び方を多様化する方法です。訓練データから重複を許した上でランダムに抜き出すことで、N種類のサブセット（ ブートストラップサンプル ）を作り出します。それらによってモデルをN個学習し、推定結果の平均をとります。ブレンディングと異なり、それぞれの重み付けを変えることはありません。<br>
<a href="https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html">sklearn.model_selection.train_test_split — scikit-learn 0.21.3 documentation</a><br>
推定結果の平均をとる部分はブレンディングと同様の実装になります。<br>

In [5]:
class Bagging():
    def __init__(self):
        self.model_list = []
        self.sc = StandardScaler()

    def fit(self, models, X, y):
        for boost_num, model in enumerate(models):
            bst_X_train, bst_X_test, bst_y_train, bst_y_test = train_test_split(X, y, test_size=0.2, random_state=boost_num, shuffle=True)
            tr_X_train = self.sc.fit_transform(bst_X_train)
            tr_X_test = self.sc.fit_transform(bst_X_test)
            model_fit_result = model.fit(bst_X_train, bst_y_train)
            self.model_list.append(model_fit_result)

    def predict(self, X):
        self.pred_data = np.zeros((X.shape[0],len(self.model_list)))
        for i, model in enumerate(self.model_list):
            self.pred = model.predict(X)
            self.pred_data[:,i] = self.pred
        self.final_pred = np.mean(self.pred_data, axis=1)
        return self.final_pred


In [6]:

models = [DecisionTreeRegressor(max_depth=3), DecisionTreeRegressor(max_depth=3), DecisionTreeRegressor(max_depth=3)]

bg = Bagging()
bg.fit(models = models, X = X, y = y)
final_pred = bg.predict(tr_X_test)
print("バギング : {:.5f}".format(mean_squared_error(y_test, final_pred)))


バギング : 11830182263.32102


### 【問題3】スタッキングのスクラッチ実装
スタッキング をスクラッチ実装し、単一モデルより精度があがる例を 最低1つ 示してください。<br>
<br>
### スタッキングとは
スタッキングの手順は以下の通りです。<br>最低限ステージ0とステージ1があればスタッキングは成立するため、それを実装してください。まずは $K_0=3, M_0=2$ 程度にします。<br>
#### 《学習時》
（ステージ $0$ ）<br>
　訓練データを $K_0$ 個に分割する。<br>
　分割した内の $(K_0 - 1)$ 個をまとめて訓練データ、残り $1$ 個を推定用データとする組み合わせが $K_0$ 個作れる。<br>
　あるモデルのインスタンスを $K_0$ 個用意し、異なる訓練データを使い学習する。<br>
　それぞれの学習済みモデルに対して、使っていない残り $1$ 個の推定用データを入力し、推定値を得る。（これをブレンドデータと呼ぶ）<br>
　さらに、異なるモデルのインスタンスも $K_0$ 個用意し、同様のことを行う。モデルが $M_0$ 個あれば、 $M_0$ 個のブレンドデータが得られる。<br>
<br>
（ステージ $n$ ）<br>
　ステージ $n-1$ のブレンドデータを$M_{n-1}$ 次元の特徴量を持つ訓練データと考え、 $K_n$ 個に分割する。以下同様である。<br>
<br>
（ステージ $N$ ）＊最後のステージ<br>
　ステージ $N-1$ の $M_{N-1}$ 個のブレンドデータを$M_{N-1}$ 次元の特徴量の入力として、1種類のモデルの学習を行う。これが最終的な推定を行うモデルとなる。<br>
#### 《推定時》
（ステージ $0$ ）<br>
　テストデータを $K_0×M_0$ 個の学習済みモデルに入力し、$K_0×M_0$ 個の推定値を得る。これを $K_0$ の軸で平均値を求め $M_0$ 次元の特徴量を持つデータを得る。（ブレンドテストと呼ぶ）<br>
<br>
（ステージ $n$ ）<br>
　ステージ $n-1$ で得たブレンドテストを $K_n×M_n$ 個の学習済みモデルに入力し、$K_n×M_n$ 個の推定値を得る。これを $K_n$ の軸で平均値を求め $M_0$ 次元の特徴量を持つデータを得る。（ブレンドテストと呼ぶ）<br>
<br>
（ステージ $N$ ）＊最後のステージ<br>
　ステージ $N-1$ で得たブレンドテストを学習済みモデルに入力し、推定値を得る。

In [337]:
from sklearn.model_selection import KFold


class Stacking():

    def __init__(self, models, end_model):
        self.models = models
        self.end_model = end_model

        self.brend_pred = np.array([]) # X_test + ブレンドデータ（配列）
        self.X_test_brend = np.array([]) # X_test + ブレンドデータ（配列）
        self.brend_data = np.array([]) # end_modelを検証するための特徴量

        self.brend_preds = np.array([]) # 検証結果格納用
        self.model_list = [] # モデル格納用

    def fit(self, X, y, k, random_num):
        self.k = k
        self.fit_models = []
        kf = KFold(n_splits=self.k, random_state=random_num, shuffle=True)
        # モデル数分ループ
        _i = 0
        for model in self.models:
            # 再分割(※)する訓練データ数分ループ　※本データ→訓練、検証の２つに分け、訓練データを更に訓練、検証に分ける
            for train_index, test_index in kf.split(X):
                # predictでの検証用に学習モデルを保存しておく
                self.fit_models.append(model.fit(X[train_index], y[train_index]))
                # ブレンドデータ
                y_pred = model.predict(X[test_index])
                # ブレンドデータを新たな特徴量として扱う
                self.brend_pred = np.append(self.brend_pred, y_pred)
            if _i == 0:
                self.X_test_brend = np.append(self.X_test_brend, self.brend_pred.reshape(self.brend_pred.shape[0], 1))
            else :
                self.X_test_brend = np.append(self.X_test_brend.reshape(self.X_test_brend.shape[0], 1), self.brend_pred.reshape(self.brend_pred.shape[0], 1), axis = 1)
            # モデルの検証ごとにデータ(pred)を分けたいため、初期化
            self.brend_pred = np.array([])
            _i += 1
        print("self.X_test_brend:{}".format(self.X_test_brend.shape))
        self.end_model.fit(self.X_test_brend, y)

    def predict(self, X):
#         self.pred_data = np.zeros((X.shape[0],self.k))
        self.brend_pred = np.array([])
        mean_pred = np.array([])
        # モデル数分ループ
        i = 1
        for model in self.fit_models:
            # ブレンドデータ
            y_pred = model.predict(X)
            if (i == 1) or (i % self.k == 1) :
                self.brend_pred = np.append(self.brend_pred, y_pred.reshape(y_pred.shape[0], 1))
                self.brend_pred = self.brend_pred.reshape(y_pred.shape[0], 1)
            else :
                self.brend_pred = np.append(self.brend_pred, y_pred.reshape(y_pred.shape[0], 1), axis = 1)
                # モデルデータ数(モデル数×ループ回数) / モデル数 をすることで、モデル事にデータの平均が取れる
                # モデル毎に平均を取る→ndarray(X.shape[0]、モデル数（＝X.shape[1])）とする
                if (i % self.k) == 0:
                    # if文に入って最初の１回目　ndarrayへ綺麗に追加できないので…
                    if (i / self.k) == 1:
                        mean_pred = np.mean(self.brend_pred, axis = 1)
                        mean_pred = mean_pred.reshape(mean_pred.shape[0], 1)
                        self.brend_pred = np.array([])
                    else:
                        mean_pred = np.append(mean_pred, np.mean(self.brend_pred, axis = 1).reshape(y_pred.shape[0], 1), axis = 1)
            i += 1

        # end_modelにてブレンドデータをpredict
        end_pred = self.end_model.predict(mean_pred)

        return end_pred



In [338]:
models = [LinearRegression(), DecisionTreeRegressor(max_depth=3)]

sk = Stacking(models, end_model=SVR(C=1.0, epsilon=0.2))
sk.fit(X=tr_X_train, y=y_train, k=3, random_num=42)
end_pred = sk.predict(X_test)
print(end_pred.shape)
print("スタッキング : ", mean_squared_error(y_test, end_pred))


self.X_test_brend:(1168, 2)
(292,)
スタッキング :  7077222322.083442
