# Sprint8 アンサンブル学習
---
3種類のアンサンブル学習をスクラッチ実装していきます。そして、それぞれの効果を小さめのデータセットで確認します。

-    ブレンディング
-    バギング
-    スタッキング

### 小さなデータセットの用意

以前も利用した回帰のデータセットを用意します。

House Prices: Advanced Regression Techniques

この中のtrain.csvをダウンロードし、目的変数としてSalePrice、説明変数として、GrLivAreaとYearBuiltを使います。

train.csvを学習データ8割、検証データ2割に分割してください。

In [42]:
import pandas as pd

df = pd.read_csv("train.csv")

X = df[['GrLivArea', 'YearBuilt']].values
y = df['SalePrice'].values

from sklearn.model_selection import train_test_split

# 訓練データと検証データの分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

print(X_train.shape, X_test.shape, X.shape)

(1168, 2) (292, 2) (1460, 2)


## 【問題1】ブレンディングのスクラッチ実装
---
ブレンディング をスクラッチ実装し、単一モデルより精度があがる例を 最低3つ 示してください。精度があがるとは、検証データに対する平均二乗誤差（MSE）が小さくなることを指します。

### 単一モデルにおいて前処理、ハイパーパラメータなどの設定をしない場合

In [43]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_absolute_error

# 線形回帰
lr = LinearRegression()
lr.fit(X_train, y_train)
lr_y_pred = lr.predict(X_test)
print("lr mse : ", mean_absolute_error(y_test, lr_y_pred))

# SVM
svm = SVR()
svm.fit(X_train, y_train)
svm_y_pred = svm.predict(X_test)
print("svm mse : ", mean_absolute_error(y_test, svm_y_pred))

# 決定木
cart = DecisionTreeRegressor()
cart.fit(X_train, y_train)
cart_y_pred = cart.predict(X_test)
print("cart mse : ", mean_absolute_error(y_test, cart_y_pred))

# Kmeans
knn = KNeighborsRegressor()
knn.fit(X_train, y_train)
knn_y_pred = knn.predict(X_test)
print("knn mse : ", mean_absolute_error(y_test, knn_y_pred))

# 各モデルに対して重み付けをして、足し合わせる。
blending_y_pred = 0.5 * lr_y_pred + \
                  0.1 * svm_y_pred + \
                  0.2 * cart_y_pred + \
                  0.2 * knn_y_pred
            
print("blending mse : ", mean_absolute_error(y_test, blending_y_pred))

ave_y_pred = (lr_y_pred + svm_y_pred + cart_y_pred + cart_y_pred)/4
print("ave mse : ", mean_absolute_error(y_test, ave_y_pred))

lr mse :  32711.07748550501
svm mse :  55442.18585049607
cart mse :  38260.88127853881
knn mse :  34761.789041095886
blending mse :  30548.94112676669
ave mse :  32980.46446371169


### 単一モデルにおいて前処理、ハイパーパラメータなどの設定を行った場合→多様モデル

In [44]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.metrics import mean_absolute_error

# 標準化
scaler = StandardScaler()
scaler.fit(X_train) #trainデータのみFitを実行する
X_train_std = scaler.transform(X_train)
X_test_std = scaler.transform(X_test)

# PCA
pca = PCA(n_components=2)
pca.fit(X_train)
X_train_pca = pca.transform(X_train)
X_test_pca = pca.transform(X_test)

# 線形回帰
lr = LinearRegression()
lr.fit(X_train_std, y_train)
lr_y_pred = lr.predict(X_test_std)
print("lr mse : ", mean_absolute_error(y_test, lr_y_pred))

# SVM
svm = SVR(kernel='linear', C=10 )
svm.fit(X_train, y_train)
svm_y_pred = svm.predict(X_test)
print("svm mse : ", mean_absolute_error(y_test, svm_y_pred))

# 決定木
cart = DecisionTreeRegressor(random_state=0, max_depth=7)
cart.fit(X_train, y_train)
cart_y_pred = cart.predict(X_test)
print("cart mse : ", mean_absolute_error(y_test, cart_y_pred))

# Kmeans
knn = KNeighborsRegressor(n_neighbors=9)
knn.fit(X_train_std, y_train)
knn_y_pred = knn.predict(X_test_std)
print("knn mse : ", mean_absolute_error(y_test, knn_y_pred))

# 各モデルに対して重み付けをして、足し合わせる。
blending_y_pred = 0.05 * lr_y_pred + \
                  0.05 * svm_y_pred + \
                  0.3 * cart_y_pred + \
                  0.6 * cart_y_pred
            
print("blending mse : ", mean_absolute_error(y_test, blending_y_pred))

ave_y_pred = (lr_y_pred + svm_y_pred + cart_y_pred + cart_y_pred)/4
print("ave mse : ", mean_absolute_error(y_test, ave_y_pred))

lr mse :  32711.07748550501
svm mse :  31511.233790687565
cart mse :  27769.37648917789
knn mse :  26977.90525114155
blending mse :  27667.65696696641
ave mse :  28517.983694043774


## 考察
---
単一モデルよりもブレンディングしたことによってMSEの精度が高くなった。
適用した手法：線形回帰、SVM、決定木、Kmeansの４つの手法
前処理としては、データを標準化にし、線形回帰とKmeansモデルへ適用した。SVMと決定木は逆にMSEの値が悪くなったので、標準化しないデータで学習させた。
各モデルのハイパーパラメータをチューニングすることによって精度が向上したと言える。
特に、決定木とKmeansの２つに関してはかなり良い結果となった。

最後に各モデルの結果を見て、重み付けをすることによって、更に精度が高くなった。
良いモデルに関しては比較的重み付けの比重を多くした。

また、各モデルの予測値を平均化した場合でも、そこそこ精度が良かった。
ただ、ハイパーパラメータの設定によっては一部の単一モデルより精度が下がっている。

## 【問題2】バギングのスクラッチ実装
---
バギング をスクラッチ実装し、単一モデルより精度があがる例を 最低1つ 示してください。

バギングとは

バギングは入力データの選び方を多様化する方法です。訓練データから重複を許した上でランダムに抜き出すことで、N種類のサブセット（ ブートストラップサンプル ）を作り出します。それらによってモデルをN個学習し、推定結果の平均をとります。ブレンディングと異なり、それぞれの重み付けを変えることはありません。

sklearn.model_selection.train_test_split — scikit-learn 0.21.3 documentation

推定結果の平均をとる部分はブレンディングと同様の実装になります。

In [45]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split

df = pd.read_csv("train.csv")

X = df[['GrLivArea', 'YearBuilt']]
y = df['SalePrice']

# 訓練データと検証データの分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# トレーニングデータからランダムに選択してブーストラップサンプルを作成する
np.random.seed(1)
rand_index = np.random.choice(X_train.index, 800, replace=True)
X_train1 = X_train.loc[rand_index]
y_train1 = y_train.loc[rand_index]

np.random.seed(2)
rand_index = np.random.choice(X_train.index, 800, replace=True)
X_train2 = X_train.loc[rand_index]
y_train2 = y_train.loc[rand_index]

np.random.seed(3)
rand_index = np.random.choice(X_train.index, 800, replace=True)
X_train3 = X_train.loc[rand_index]
y_train3 = y_train.loc[rand_index]

# SVR
svr = SVR(kernel='linear', C=10).fit(X_train1, y_train1)
y_pred1 =svr.predict(X_test)
print("svr1 MSE: ",mean_absolute_error(y_test, y_pred1))
svr = SVR(kernel='linear', C=10).fit(X_train2, y_train2)
y_pred2 =svr.predict(X_test)
print("svr2 MSE: ",mean_absolute_error(y_test, y_pred2))
svr = SVR(kernel='linear', C=10).fit(X_train3, y_train3)
y_pred3 =svr.predict(X_test)
print("svr3 MSE: ",mean_absolute_error(y_test, y_pred3))
svr_y_pred_mean = (y_pred1 + y_pred2 + y_pred3)/3
print("svr MSE(mean): ",mean_absolute_error(y_test, svr_y_pred_mean))

# 線形回帰
lr = LinearRegression().fit(X_train1, y_train1)
y_pred1 =lr.predict(X_test)
print("lr1 MSE: ",mean_absolute_error(y_test, y_pred1))
lr = LinearRegression().fit(X_train2, y_train2)
y_pred2 =lr.predict(X_test)
print("lr2 MSE: ",mean_absolute_error(y_test, y_pred2))
lr = LinearRegression().fit(X_train3, y_train3)
y_pred3 =lr.predict(X_test)
print("lr3 MSE: ",mean_absolute_error(y_test, y_pred3))
lr_y_pred_mean = (y_pred1 + y_pred2 + y_pred3)/3
print("lr MSE(mean): ",mean_absolute_error(y_test, lr_y_pred_mean))

# 決定木
cart =  DecisionTreeRegressor(random_state=0, max_depth=7).fit(X_train1, y_train1)
y_pred1 = cart.predict(X_test)
print("cart1 MSE: ",mean_absolute_error(y_test, y_pred1))
cart =  DecisionTreeRegressor(random_state=0, max_depth=7).fit(X_train2, y_train2)
y_pred2 = cart.predict(X_test)
print("cart2 MSE: ",mean_absolute_error(y_test, y_pred2))
cart =  DecisionTreeRegressor(random_state=0, max_depth=7).fit(X_train3, y_train3)
y_pred3 = cart.predict(X_test)
print("cart3 MSE: ",mean_absolute_error(y_test, y_pred3))
cart_y_pred_mean = (y_pred1 + y_pred2 + y_pred3)/3
print("cart MSE(mean): ",mean_absolute_error(y_test, cart_y_pred_mean))

# K-means
knn =  KNeighborsRegressor(n_neighbors=9).fit(X_train1, y_train1)
y_pred1 = knn.predict(X_test)
print("knn1 MSE: ",mean_absolute_error(y_test, y_pred1))
knn =  KNeighborsRegressor(n_neighbors=9).fit(X_train2, y_train2)
y_pred2 = knn.predict(X_test)
print("knn2 MSE: ",mean_absolute_error(y_test, y_pred2))
knn =  KNeighborsRegressor(n_neighbors=9).fit(X_train3, y_train3)
y_pred3 = knn.predict(X_test)
print("knn3 MSE: ",mean_absolute_error(y_test, y_pred3))
knn_y_pred_mean = (y_pred1 + y_pred2 + y_pred3)/3
print("knn MSE(mean): ",mean_absolute_error(y_test, knn_y_pred_mean))


final_y_pred = (svr_y_pred_mean + lr_y_pred_mean + cart_y_pred_mean + knn_y_pred_mean ) / 4
print("Final mse : {}".format(mean_absolute_error(y_test, final_y_pred)))


svr1 MSE:  31627.570259940287
svr2 MSE:  31526.400018666693
svr3 MSE:  31725.447716626557
svr MSE(mean):  31543.98288458716
lr1 MSE:  32532.637430708473
lr2 MSE:  32319.773532952793
lr3 MSE:  32403.635160465903
lr MSE(mean):  32336.056745369893
cart1 MSE:  32018.50285054226
cart2 MSE:  28870.362292575242
cart3 MSE:  31336.701144828065
cart MSE(mean):  27952.42621420905
knn1 MSE:  34410.394596651444
knn2 MSE:  34462.25837138508
knn3 MSE:  35796.3203957382
knn MSE(mean):  33206.6435819381
Final mse : 29439.033088542354


In [46]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold

df = pd.read_csv("train.csv")

X = df[['GrLivArea', 'YearBuilt']]
y = df['SalePrice']

# 訓練データと検証データの分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

models = [
            LinearRegression(),
            SVR(kernel='linear', C=10 ),
            DecisionTreeRegressor(random_state=0, max_depth=7),
            KNeighborsRegressor(n_neighbors=9)
        ]

class Bagging():
     
    def fit(self, models, X, y):
        self.model_list = []
        for j, model in enumerate(models):
            np.random.seed(j)
            self.rand_index = np.random.choice(X.index,X.shape[0], replace=True)
            self.X_rand = X.loc[self.rand_index]
            self.y_rand = y.loc[self.rand_index]
            self.model_list.append(model.fit(self.X_rand, self.y_rand))
            
    def predict(self, X, y):
#         print(X.shape[0])
#         print(len(self.model_list))
        self.pred_data = np.zeros((X.shape[0],len(self.model_list)))
        for i, model in enumerate(self.model_list):
            self.pred = model.predict(X)
            self.pred_data[:,i] = self.pred
        self.final_pred = np.mean(self.pred_data, axis=1)
        print("MSE(mean): ",mean_absolute_error(y, self.final_pred))
        return self.final_pred
    

df = pd.read_csv("train.csv")

X = df[['GrLivArea', 'YearBuilt']]
y = df['SalePrice']

bagging_ = Bagging()
bagging_.fit(models, X_train, y_train)
final_pred = bagging_.predict(X_test, y_test)


MSE(mean):  29268.938165749456


## 考察
---
各モデルをブーストラップサンプルをブーストラップサンプルで推定した結果を平均化することによって更に精度が上がったことが確認できました。

## 【問題3】スタッキングのスクラッチ実装
---
スタッキング をスクラッチ実装し、単一モデルより精度があがる例を 最低1つ 示してください。

In [47]:
import pandas as pd

df = pd.read_csv("train.csv")

X = df[['GrLivArea', 'YearBuilt']].values
y = df['SalePrice'].values

from sklearn.model_selection import train_test_split

# 訓練データと検証データの分割
X_train_org, X_test, y_train_org, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [48]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import KFold

models = [
            ['lr', LinearRegression()],
            ['svm', SVR()],
            ['cart', DecisionTreeRegressor()],
            ['knn', KNeighborsRegressor()]
        ]


# クロスバリデーション
n_folds = 5
kf = KFold(n_splits=n_folds, shuffle=True, random_state=42)

blend_train = np.zeros((X_train_org.shape[0], len(models)))
blend_test = np.zeros((X_test.shape[0], len(models)))

for j, (name, model) in enumerate(models):
    
    blend_test_j = np.zeros((X_test.shape[0], n_folds))

    # データセットを分割
    for i, (train_idx, valid_idx) in enumerate(kf.split(X_train_org, y_train_org)):
        
        X_train, y_train = X_train_org[train_idx], y_train_org[train_idx]
        X_valid, y_valid = X_train_org[valid_idx], y_train_org[valid_idx]
        
        model.fit(X_train, y_train)
        blend_train[valid_idx, j] = model.predict(X_valid)
        blend_test_j[:, i] = model.predict(X_test)

    # クロスバリデーションした予測値を平均化
    blend_test[:, j] = blend_test_j.mean(axis=1)
    print("{} mse: {}".format(name, mean_absolute_error(y_test, blend_test_j.mean(axis=1))))


blender = LinearRegression()
blender.fit(blend_train, y_train_org)
blender_pred = blender.predict(blend_test)

print("blending mse : ", mean_absolute_error(y_test, blender_pred))


lr mse: 32710.256655269444
svm mse: 55464.79206621753
cart mse: 30485.981506849315
knn mse: 33322.31534246575
blending mse :  30014.190098921626


## 考察
---
スタッキングで実行した結果、MSEの精度は上がった。

ただ、各モデルのハイパーパラメータを設定すると、以下のように一部の単一モデル（cart）より精度が落ちる場合もある。


lr mse: 32710.256655269444  
svm mse: 31514.52887818637   
cart mse: 25469.247447367132  
knn mse: 32499.18325722983   
blending mse :  28163.498199440211

In [49]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import KFold

models = [
            ['lr', LinearRegression()],
            ['svm', SVR(kernel='linear', C=10 )],
            ['cart', DecisionTreeRegressor(random_state=0, max_depth=7)],
            ['knn', KNeighborsRegressor(n_neighbors=9)]
        ]


# クロスバリデーション
n_folds = 5
kf = KFold(n_splits=n_folds, shuffle=True, random_state=42)

blend_train = np.zeros((X_train_org.shape[0], len(models)))
blend_test = np.zeros((X_test.shape[0], len(models)))

for j, (name, model) in enumerate(models):
    
    blend_test_j = np.zeros((X_test.shape[0], n_folds))

    # データセットを分割
    for i, (train_idx, valid_idx) in enumerate(kf.split(X_train_org, y_train_org)):
        
        X_train, y_train = X_train_org[train_idx], y_train_org[train_idx]
        X_valid, y_valid = X_train_org[valid_idx], y_train_org[valid_idx]
        
        model.fit(X_train, y_train)
        blend_train[valid_idx, j] = model.predict(X_valid)
        blend_test_j[:, i] = model.predict(X_test)

    # クロスバリデーションした予測値を平均化
    blend_test[:, j] = blend_test_j.mean(axis=1)
    print("{} mse: {}".format(name, mean_absolute_error(y_test, blend_test_j.mean(axis=1))))


blender = LinearRegression()
blender.fit(blend_train, y_train_org)
blender_pred = blender.predict(blend_test)

print("blending mse : ", mean_absolute_error(y_test, blender_pred))


lr mse: 32710.256655269444
svm mse: 31514.52887818637
cart mse: 25469.247447367132
knn mse: 32499.18325722983
blending mse :  28163.49819944018
