In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import lightgbm as lgb
from sklearn.ensemble import RandomForestRegressor
sns.set(palette="bright")

train = pd.read_csv("/Users/nobu/Documents/データセット/house-prices-advanced-regression-techniques/train.csv")

X = train.loc[:,['GrLivArea','YearBuilt']].values
y = train["SalePrice"].values

#訓練用80%と検証用20%に分割
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=1)
#特徴量を計算・標準化(計算は訓練データのみ)
from sklearn.preprocessing import StandardScaler
std = StandardScaler()
X_train_std = std.fit_transform(X_train)
X_test_std = std.transform(X_test)


This means that in case of installing LightGBM from PyPI via the ``pip install lightgbm`` command, you don't need to install the gcc compiler anymore.
Instead of that, you need to install the OpenMP library, which is required for running LightGBM on the system with the Apple Clang compiler.
You can install the OpenMP library by the following command: ``brew install libomp``.


# 【問題1】ブレンディングのスクラッチ実装

ブレンディング をスクラッチ実装し、単一モデルより精度があがる例を 最低3つ 示してください。

精度があがるとは、検証用データに対する平均二乗誤差（MSE）が小さくなることを指します。

ブレンディングとは
ブレンディングとは、N個の多様なモデルを独立して学習させ、推定結果を重み付けした上で足し合わせる方法です。

最も単純には平均をとります。多様なモデルとは、以下のような条件を変化させることで作り出すものです。


手法（例：線形回帰、SVM、決定木、ニューラルネットワークなど）

ハイパーパラメータ（例：SVMのカーネルの種類、重みの初期値など）

入力データの前処理の仕方（例：標準化、対数変換、PCAなど）

重要なのはそれぞれのモデルが大きく異なることです。


回帰問題でのブレンディングは非常に単純であるため、scikit-learnには用意されていません。


《補足》
分類問題の場合は、多数決を行います。回帰問題に比べると複雑なため、scikit-learnにはVotingClassifierが用意されています。



In [14]:
from sklearn.linear_model import LinearRegression
from sklearn import svm
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error

lr = LinearRegression()
lr.fit(X_train_std,y_train)
lr_pred = lr.predict(X_test_std)


clf = svm.SVC()
clf.fit(X_train_std,y_train)
clf_pred = clf.predict(X_test_std)


tree = DecisionTreeRegressor(max_depth=5)
tree.fit(X_train_std,y_train)
tree_pred = tree.predict(X_test_std)


tree_8 = DecisionTreeRegressor(max_depth=8)
tree_8.fit(X_train_std,y_train)
tree_8_pred = tree_8.predict(X_test_std)


print("===========MSE==============")
print("lr：\n{:.4f}".format(mean_squared_error(y_test,lr_pred)*1e-10))
print("===========MSE==============")
print("clf：\n{:.4f}".format(mean_squared_error(y_test,clf_pred)*1e-10))
print("===========MSE==============")
print("tree_5：\n{:.4f}".format(mean_squared_error(y_test,tree_pred)*1e-10))
print("===========MSE==============")
print("tree_8：\n{:.4f}".format(mean_squared_error(y_test,tree_8_pred)*1e-10))

lr：
0.2000
clf：
0.3097
tree_5：
0.1807
tree_8：
0.1900


In [3]:
blend_pred1 = (lr_pred + clf_pred) / 2
print("===========MSE==============")
print("(lr+clf)/2:\n{:.4f}".format(mean_squared_error(y_test, blend_pred1)*1e-10))

blend_pred2 = (lr_pred + tree_pred) / 2
print("===========MSE==============")
print("(lr+tree)/2:\n{:.4f}".format(mean_squared_error(y_test, blend_pred2)*1e-10))

blend_pred3 = (clf_pred + tree_pred) / 2
print("===========MSE==============")
print("(clf+tree)/2:\n{:.4f}".format(mean_squared_error(y_test, blend_pred3)*1e-10))

blend_pred4 = (lr_pred + clf_pred + tree_pred) / 3
print("===========MSE==============")
print("(lr+clf+tree)/3:\n{:.4f}".format(mean_squared_error(y_test, blend_pred4)*1e-10))

blend_pred5 = (tree_8_pred + tree_pred) / 2
print("===========MSE==============")
print("(tree_5+tree_8)/2:\n{:.4f}".format(mean_squared_error(y_test, blend_pred5)*1e-10))

(lr+clf)/2:
0.2245
(lr+tree)/2:
0.1603
(clf+tree)/2:
0.1853
(lr+clf+tree)/3:
0.1776
(tree_5+tree_8)/2:
0.1589


➡︎
* 線形回帰と決定木の平均をとったもの、
* 線形回帰・SVM・決定木の平均をとったもの、
* 深さ３と５の決定木を平均したものが、

単体のモデルよりも性能が良かった

# 【問題2】バギングのスクラッチ実装

バギング をスクラッチ実装し、単一モデルより精度があがる例を 最低1つ 示してください。

バギングとは

バギングは入力データの選び方を多様化する方法です。

学習データから重複を許した上でランダムに抜き出すことで、N種類のサブセット（ ブートストラップサンプル ）を作り出します。

それらによってモデルをN個学習し、推定結果の平均をとります。

ブレンディングと異なり、それぞれの重み付けを変えることはありません。


sklearn.model_selection.train_test_split — scikit-learn 0.21.3 documentation


scikit-learnのtrain_test_splitを、shuffleパラメータをTrueにして使うことで、ランダムにデータを分割することができます。

これによりブートストラップサンプルが手に入ります。


推定結果の平均をとる部分はブースティングと同様の実装になります。



In [4]:
def tree_bugging(X,y,num,time):#特徴量（array）、目的変数(array)、抽出する個数、試行回数
    
    #predの合計を初期化
    total_pred = 0
    
    for i in range(time):
    
        #shuffleをTrueにして分割
        X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42,shuffle=True)

        #特徴量を計算・標準化(計算は訓練データのみ)
        std = StandardScaler()
        X_train_std = std.fit_transform(X_train[:num,:])#全列の0行からnum行まで抽出(shuffle=Trueなので毎回違う)
        X_test_std = std.transform(X_test)

        #treeで学習＆推定
        tree = DecisionTreeRegressor(max_depth=5)
        tree.fit(X_train_std,y_train[:num])#num個抽出
        tree_pred = tree.predict(X_test_std)
        
        #推定結果を合計
        total_pred+=tree_pred
    
    #全試行の推定値の平均を算出
    result_pred = total_pred/time
    
    #算出した推定値を用いてmseを算出
    mse = mean_squared_error(y_test,result_pred)
    
    return round(mse)

In [5]:
print("===========MSE==============")
print("tree_5：\n{:.4f}".format(mean_squared_error(y_test,tree_pred)*1e-10))
print("===========MSE==============")
print("bugging：\n{:.4f}".format(tree_bugging(X,y,700,100)*1e-10))

tree_5：
0.1721
bugging：
0.1595


➡︎700個抽出、繰り返し回数１００回で深さ５の決定木単体のモデルより性能が良かった

# 【問題3】スタッキングのスクラッチ実装

スタッキング をスクラッチ実装し、単一モデルより精度があがる例を 最低1つ 示してください。


スタッキングとは
スタッキングの手順は以下の通りです。最低限ステージ0とステージ1があればスタッキングは成立するため、それを実装してください。まずは $K_0=3, M_0=2$ 程度にします。


《学習時》


（ステージ $0$ ）


学習データを $K_0$ 個に分割する。
分割した内の $(K_0 - 1)$ 個をまとめて学習用データ、残り $1$ 個を推定用データとする組み合わせが $K_0$ 個作れる。
あるモデルのインスタンスを $K_0$ 個用意し、異なる学習用データを使い学習する。
それぞれの学習済みモデルに対して、使っていない残り $1$ 個の推定用データを入力し、推定値を得る。（これをブレンドデータと呼ぶ）
さらに、異なるモデルのインスタンスも $K_0$ 個用意し、同様のことを行う。モデルが $M_0$ 個あれば、 $M_0$ 個のブレンドデータが得られる。

（ステージ $n$ ）


ステージ $n-1$ のブレンドデータを$M_{n-1}$ 次元の特徴量を持つ学習用データと考え、 $K_n$ 個に分割する。以下同様である。

（ステージ $N$ ）＊最後のステージ


ステージ $N-1$ の $M_{N-1}$ 個のブレンドデータを$M_{N-1}$ 次元の特徴量の入力として、1種類のモデルの学習を行う。これが最終的な推定を行うモデルとなる。

《推定時》


（ステージ $0$ ）


テストデータを $K_0×M_0$ 個の学習済みモデルに入力し、$K_0×M_0$ 個の推定値を得る。これを $K_0$ の軸で平均値を求め $M_0$ 次元の特徴量を持つデータを得る。（ブレンドテストと呼ぶ）

（ステージ $n$ ）


ステージ $n-1$ で得たブレンドテストを $K_n×M_n$ 個の学習済みモデルに入力し、$K_n×M_n$ 個の推定値を得る。これを $K_n$ の軸で平均値を求め $M_0$ 次元の特徴量を持つデータを得る。（ブレンドテストと呼ぶ）

（ステージ $N$ ）＊最後のステージ


ステージ $N-1$ で得たブレンドテストを学習済みモデルに入力し、推定値を得る。

In [19]:
#3つのモデルを使ったスタッキングにより、MSEを求める関数


def model3_stacking(X,y,model1,model2,model3):
    """
    X:feature(sample,columns)
    y:target(sample,1)
    model1~3:スタッキングに用いるモデル
    """
      
    """
    ベースモデルの学習、メタモデルの学習のためにデータを６つ作る
    """
    #メタモデル学習のための分割(割合はtrain8:test2)
    X_train_valid, X_meta_valid, y_train_valid, y_meta_valid = train_test_split(X, y, test_size=0.2, random_state=42)
    
    #分割したvalデータを用いてベースモデル学習のために分割(割合は5:5)
    X_train,X_test,y_train,y_test = train_test_split(X_train_valid,y_train_valid,test_size=0.5,random_state=42) 
    """
    ベースモデルの学習
    """
    
    #ベースモデルを学習させる
    model1.fit(X_train,y_train)
    model2.fit(X_train,y_train)
    model3.fit(X_train,y_train)
    
    #ベースモデルを学習させたものを使って推定する
    model1_pred = model1.predict(X_test)
    model2_pred = model2.predict(X_test)
    model3_pred = model3.predict(X_test)   
   
    #ベースモデルを学習させた結果でメタモデルを推定する
    val_model1_pred = model1.predict(X_meta_valid)
    val_model2_pred = model2.predict(X_meta_valid)
    val_model3_pred = model3.predict(X_meta_valid)
    
    #各モデル単体のMSEを算出
    print("model1単体のMSE:\n{:.4f}".format(mean_squared_error(y_meta_valid,val_model1_pred)*1e-10))
    print("model2単体のMSE:\n{:.4f}".format(mean_squared_error(y_meta_valid,val_model2_pred)*1e-10))
    print("model3単体のMSE:\n{:.4f}".format(mean_squared_error(y_meta_valid,val_model3_pred)*1e-10))
    
    """
    ベースモデルの推定結果を使ってメタモデルを学習させる（メタモデルにはベースモデルの学習に使ったデータは教えない）
    """
    #ベースモデルの推定結果をまとめる
    base_predictions = np.column_stack((model1_pred,model2_pred,model3_pred))
    
    #メタモデルの推定結果をまとめる
    meta_predictions = np.column_stack((val_model1_pred,val_model2_pred,val_model3_pred))
    
    #メタモデルの学習で用いるモデルとして線形回帰のインスタンスを作成
    meta_model = LinearRegression()
    
    #メタモデルの推定結果をまとめたもの入力として学習させる
    meta_model.fit(base_predictions,y_test)
    
    #スタッキングした最終的な予測をする
    meta_val_pred = meta_model.predict(meta_predictions)
    
    #最終的なMSEを算出
    print("stackingを行った結果のMSE:\n{:.4f}".format(mean_squared_error(y_meta_valid,meta_val_pred)*1e-10))

In [18]:
from sklearn.linear_model import LinearRegression
from sklearn import svm
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
import lightgbm as lgb

LR = LinearRegression()
CLF = svm.SVC()
TREE = DecisionTreeRegressor()
RFR =  RandomForestRegressor()
LGB = lgb.LGBMClassifier()


model3_stacking(X,y,
                model1=LR,
                model2 = CLF,
                model3 = TREE)

model1単体のMSE:
0.2493
model2単体のMSE:
0.4856
model3単体のMSE:
0.2675
stackingを行った結果のMSE:
0.2333


In [8]:
model3_stacking(X,y,
                model1=LR,
                model2 = CLF,
                model3 = RFR)

model1単体のMSE:
0.2493
model2単体のMSE:
0.4856
model3単体のMSE:
0.1608
stackingを行った結果のMSE:
0.1978


In [9]:
model3_stacking(X,y,
                model1=LR,
                model2 = CLF,
                model3 = LGB)

model1単体のMSE:
0.2493
model2単体のMSE:
0.4856
model3単体のMSE:
0.3472
stackingを行った結果のMSE:
0.2702


In [10]:
model3_stacking(X,y,
                model1=CLF,
                model2 = TREE,
                model3 = RFR)

model1単体のMSE:
0.4856
model2単体のMSE:
0.2704
model3単体のMSE:
0.1597
stackingを行った結果のMSE:
0.1719


In [11]:
model3_stacking(X,y,
                model1=CLF,
                model2 = TREE,
                model3 = LGB)

model1単体のMSE:
0.4856
model2単体のMSE:
0.2751
model3単体のMSE:
0.3472
stackingを行った結果のMSE:
0.2320


In [12]:
model3_stacking(X,y,
                model1=TREE,
                model2 = RFR,
                model3 = LGB)

model1単体のMSE:
0.2737
model2単体のMSE:
0.1628
model3単体のMSE:
0.3472
stackingを行った結果のMSE:
0.1665


スタッキングモデルによるMSEが、各モデルよりも性能が良かったのは
<br>「CLF・TREE・LGBM」の３つを使った時でMSEは0.232だった。

しかし最も性能が良かったのはランダムフォレストを単体で使う場合で、MSEは平均しておおよそ0.16だった。

➡︎ランダムフォレストはどのアンサンブルと比べてもほとんどの場合で高い精度示した。
<br>➡︎自らアンサンブルのモデルを構築するのは、労力に対して精度があまり良くない（良いモデルを探すのが大変）。
<br>➡︎単に精度を上げたいのであれば、とりあえずとしてランダムフォレストを使うのは有効？