In [1]:
import numpy as np
from sklearn.datasets import load_boston #Scikit-learnからbostonのデータをインポート
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from lightgbm import LGBMRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

boston = load_boston() #データをbostonに代入

X, y = load_boston(return_X_y=True)

X_train_valid, X_test, y_train_valid, y_test = train_test_split(X, y, test_size=0.2, random_state=100)
X_train, X_valid, y_train, y_valid = train_test_split(X_train_valid, y_train_valid, test_size=0.2, random_state=100)

print(X.shape, X_train.shape, X_valid.shape, X_test.shape)

(506, 13) (323, 13) (81, 13) (102, 13)


In [2]:
# 第1段階のモデル作成

first_model_1 = LinearRegression() # 線形回帰
first_model_2 = RandomForestRegressor() # ランダムフォレスト回帰
first_model_3 = LGBMRegressor() # LightGBM 

first_model_1.fit(X_train, y_train)
first_model_2.fit(X_train, y_train)
first_model_3.fit(X_train, y_train)

# 結果の検証 
test_pred_1 = first_model_1.predict(X_test)
test_pred_2 = first_model_2.predict(X_test)
test_pred_3 = first_model_3.predict(X_test)

#　各モデル個別の予測精度を平均二乗誤差で確認
print ("モデル1の平均2乗誤差: {:.4f}".format(mean_squared_error(y_test, test_pred_1)))
print ("モデル2の平均2乗誤差: {:.4f}".format(mean_squared_error(y_test, test_pred_2)))
print ("モデル3の平均2乗誤差: {:.4f}".format(mean_squared_error(y_test, test_pred_3)))

モデル1の平均2乗誤差: 24.4851
モデル2の平均2乗誤差: 10.1478
モデル3の平均2乗誤差: 13.4078


In [3]:
# スタッキングによる予測

# 第1段階の予測値(この後、メタモデルの入力に使用)
first_pred_1 = first_model_1.predict(X_valid)
first_pred_2 = first_model_2.predict(X_valid)
first_pred_3 = first_model_3.predict(X_valid)

#第1段階の予測値を積み重ねる
stack_pred = np.column_stack((first_pred_1, first_pred_2, first_pred_3))

# メタモデルの学習 
meta_model = LinearRegression()
meta_model.fit(stack_pred, y_valid)

# 各モデルの検証データを積み重ねる
stack_test_pred = np.column_stack((test_pred_1, test_pred_2, test_pred_3))

# スタッキングの検証
meta_test_pred = meta_model.predict(stack_test_pred)
print ("メタモデルの平均2乗誤差: {:.4f}".format(mean_squared_error(y_test, meta_test_pred)))

メタモデルの平均2乗誤差: 10.6706
