# アンサンブル学習

アンサンブル学習とは複数のモデルを組み合わせて予測する手法です。  
ポイントは性能の低い学習器(弱学習器)を組み合わせて、高性能な学習器を作ることができる点です。  
アンサンブル学習には、バギングやブースティングなどがあります

# バギング

バギング(bootstrap aggregating: bagging)は、元の学習データからランダムにn行のデータを重複を許し抽出し、新しい学習データを作成するということを繰り返します。  
これをブートストラップと言います。  
学習器を並列に学習して組み合わせる手法だと言えます。  
分類の場合、結果の集約、回帰の場合は平均値をとったりします。  
バギングの利点として、学習器を並列で学習できることや、過学習しにくいことが挙げられます。  
以前みたランダムフォレストはバギングの1種です。

In [1]:
from sklearn.ensemble import BaggingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

x_train, x_test, y_train, y_test = train_test_split(cancer.data, 
                                                   cancer.target, stratify=cancer.target,
                                                   random_state=66)

model = BaggingClassifier(KNeighborsClassifier(), n_estimators=100, 
                                random_state=0)

model.fit(x_train, y_train)
score  = model.score(x_test, y_test)

print(score)

0.9370629370629371


# ブースティング

ブースティング(boosting)とは、学習データもモデルに逐次的に生成、構築しています。  
ブースティングは学習不足(underfitting)傾向の時に効果的な手法と言われています。  
ポイントは、学習器を順番に学習し、組み合わせていると言えます。

In [2]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.datasets import load_boston

boston = load_boston()
x = boston.data
y = boston.target
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1)

model = AdaBoostRegressor(DecisionTreeRegressor())
model.fit(x_train, y_train)

model.score(x_test, y_test)

0.9044603110849393

# XGBoost

XGBoost（eXtreme Gradient Boosting / 勾配ブースティング回帰木）とは、アンサンブル学習の一つで、ブースティングと決定木を組み合わせています。  
ブースティングとは、弱いモデル（弱学習器と呼びます）を複数作成し、一つ前の学習器の誤りを次の学習器が修正するという操作を繰り返し行うことで性能を向上させる手法です。  
勾配ブースティング回帰木では、浅い決定木を複数作成し、それぞれの決定木はデータの一部に対してしか良い予測を行うことができないため、ブースティングを行うことで性能を向上させています。  
パラメータ設定に敏感という欠点がありますが、正しく設定すればランダムフォレストよりも良い性能となります。  
また、XGBoostの名前に「回帰」とありますが、回帰と分類のどちらでも使用可能です。

# 回帰モデル

In [4]:
import pandas as pd
import numpy as np

# bostonのデータセットをインポート
from sklearn.datasets import load_boston
boston = load_boston()

x = boston.data
y = boston.target
df = pd.DataFrame(x, columns =  boston.feature_names)
df['target'] = boston.target

# train_test_splitでトレーニングデータとテストデータを分割
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1)

# xgboostをインポートして、回帰モデルであるXGBRegressorをインスタンス化
import xgboost as xgb
xgbr = xgb.XGBRegressor()
xgbr.fit(x_train, y_train)

# テストデータの予測
pred = xgbr.predict(x_test)

# モデルの評価とスコアの確認
from sklearn.metrics import r2_score
print(r2_score(pred, y_test)) # 0.8977199651347564

0.8977199651347564


# 分類モデル

In [5]:
import pandas as pd
import numpy as np

# irisのデータセットをインポート
from sklearn.datasets import load_iris
iris = load_iris()

x = iris.data
y = iris.target

df = pd.DataFrame(x)
df['target'] = y

# train_test_splitでトレーニングデータとテストデータを分割
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1)

# xgboostをインポートして、分類モデルであるXGBClassifierをインスタンス化
import xgboost as xgb
xgbc = xgb.XGBClassifier()
xgbc.fit(x_train, y_train)

# テストデータの予測
pred = xgbc.predict(x_test)

#モデルの評価とスコアの確認
from sklearn.metrics import accuracy_score
score = accuracy_score(pred, y_test)
print(score) # 0.9736842105263158

0.9736842105263158
