### サンプルデータの読み込み

In [22]:
# 計算用ライブラリ
import pandas as pd
# 表出力用ライブラリ
from IPython.core.display import display
# load_bostonデータの読み込み
from sklearn.datasets import load_boston

dataset = load_boston()
print(dataset.keys())
# 下記でshapeを確認一致するためデータフレームにそのままセットできる
print('dataのshape：',dataset.data.shape)
print('feature_namesのshape：',dataset.feature_names.shape)

# データフレームにデータをセット
# Dataframeは多次元の場合に使用、第一引数にデータ,colunsにカラム名をセットする
X = pd.DataFrame(dataset.data, columns=dataset.feature_names)
# Seriesは1次元の場合に使用
y = pd.Series(dataset.target, name='y')

print('-------------------------------')
# 行列の確認
print(f'X shape:{X.shape}')
print('-------------------------------')
# 基礎統計の確認
print(y.describe())
display(X.join(y).head())

dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])
dataのshape： (506, 13)
feature_namesのshape： (13,)
-------------------------------
X shape:(506, 13)
-------------------------------
count    506.000000
mean      22.532806
std        9.197104
min        5.000000
25%       17.025000
50%       21.200000
75%       25.000000
max       50.000000
Name: y, dtype: float64


Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,y
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


### モデルの作成と評価 GradientBoostingRegressor

In [34]:
# 勾配ブースティングレグレッサーの読み込み
from sklearn.ensemble import GradientBoostingRegressor

# GradientBoostingRegressorのインスタンスを作成
est = GradientBoostingRegressor(n_estimators=100, max_depth=3, random_state=0)
# パラメーターをセットしている、max-depthは決定木の深さ、random_stateには何かを入れることに意義がある、n_estimatorsはxのデータ

# 学習
est.fit(X, y)
# .fitで学習開始、estは学習後のモデル

# 再予測
y_pred = est.predict(X)
display(y_pred[:10])

# 整合性をR2値で評価
from sklearn.metrics import r2_score
r2 = r2_score(y, y_pred)
print(f'R2 score:{r2}')
# 1に近いほど良いモデル、R2_scoreで評価

array([25.90772604, 21.96320179, 33.92712155, 34.14528061, 35.41267912,
       26.7925396 , 21.48031031, 20.87839556, 16.95411564, 18.45898255])

R2 score:0.9761405838418584


### 汎化性能を上昇させる

In [45]:
# モデルをテストデータと訓練データに分けるライブラリ
from sklearn.model_selection import train_test_split

# ホールドアウト法
# 訓練データを80%テストデータを20%に分割する
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)
print('X_train, X_test', X_train.shape, X_test.shape)
print('y_train, y_test', y_train.shape, y_test.shape)

# 訓練データを用い学習
# max_depthを変更し汎化性能の比較を行う
est_max_depth3 = GradientBoostingRegressor(max_depth=3, random_state=0)
est_max_depth3.fit(X_train, y_train)
est_max_depth10 = GradientBoostingRegressor(max_depth=10, random_state=0)
est_max_depth10.fit(X_train, y_train)

# モデルの評価
# R2の取得
# 訓練データで再予測したモデルを評価
r2_est_max_depth3 = r2_score(y_train, est_max_depth3.predict(X_train))
r2_est_max_depth10 = r2_score(y_train, est_max_depth10.predict(X_train))
# テストデータで予測したモデルを評価
r2_est_max_depth3_test = r2_score(y_test, est_max_depth3.predict(X_test))
r2_est_max_depth10_test = r2_score(y_test, est_max_depth10.predict(X_test))

# 性能指標の表示
print(f'Train Score(r2_est_max_depth3, r2_est_max_depth10):({r2_est_max_depth3},{r2_est_max_depth10})')
print(f'Test Score(r2_est_max_depth3_test, r2_est_max_depth10_test):({r2_est_max_depth3_test},{r2_est_max_depth10_test})')

X_train, X_test (404, 13) (102, 13)
y_train, y_test (404,) (102,)
Train Score(r2_est_max_depth3, r2_est_max_depth10):(0.977914662228525,0.9999999976745703)
Test Score(r2_est_max_depth3_test, r2_est_max_depth10_test):(0.9247384834677614,0.8384352559543518)
