初心者のためのXGBoostを使った実装

In [None]:
import xgboost as xgb

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer
from sklearn.metrics import accuracy_score

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
#データセットを読み込み
cancer = load_breast_cancer()
#概要の表示
print(cancer.DESCR)

In [None]:
# 説明変数と目的変数に分離
X = cancer.data
y = cancer.target

In [None]:
#説明変数をpandasに変換しカラムの中身を確認
explanatory_variable = pd.DataFrame(X,columns=cancer.feature_names)
explanatory_variable

In [None]:
#目的変数をpandasに変換しカラムの中身を確認
response_variable = pd.DataFrame(y,columns=['target'])
response_variable

In [None]:
#訓練データとテストデータに分割
X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.2)

# XGBoost が扱うデータセットの形式に直す
# feature_namesには特徴量の可視化のため、カラム名を渡しておく。
xgb_train = xgb.DMatrix(X_train, label=Y_train, feature_names=cancer.feature_names)
xgb_test = xgb.DMatrix(X_test, label=Y_test, feature_names=cancer.feature_names)

In [None]:
#Booster Parameters(ブースターパラメータ)の設定
param = {
    # 二値分類問題
    'objective': 'binary:logistic',  
} 
#モデルを学習する
model = xgb.train(param, xgb_train)

In [None]:
#検証用データが各クラスに分類される確率を計算する
y_pred_proba = model.predict(xgb_test)
#検証用データの中身確認
print(y_pred_proba)

In [None]:
# しきい値 0.5 で 0, 1 に丸める
y_pred = np.where(y_pred_proba > 0.5, 1, 0)

In [None]:
#精度(Accuracy(正解率))を検証する
acc = accuracy_score(Y_test, y_pred)
print(acc)

In [None]:
#学習させたモデルから特徴量を確認
fig, ax1 = plt.subplots(figsize=(8,15))
xgb.plot_importance(model, ax=ax1)
plt.show()
#グラフをpngに出力
fig.savefig("FeatureImportance.png")