# XGBoostインストール

xgboostをインストールしてない環境ではXGBoostをインストールする必要があります。

In [None]:
pip install xgboost

# [1-1]XGBoostモジュールをインボート

In [None]:
import xgboost as xgb

# [1-2]irisデータの取得

特別な手順はありません。irisデータを取得して、pandasのDataFrameとSeriesを作成します。

In [None]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()

iris_data = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_target = pd.Series(iris.target)

In [None]:
print(iris_target)

# [1-3]訓練データとテストデータの取得

scikit-learnのtrain_test_splitでデータを訓練用とテスト用に分割します。

In [None]:
from sklearn.model_selection import train_test_split

train_x, test_x, train_y, test_y = train_test_split(iris_data, iris_target, test_size=0.2, shuffle=True)

# [1-4]xgboost用の型に変換する

xgboostではDMatrixを使用します。

DMatrixはnumpyのndarrayやpandasのDataFrameから作成できるので、データの扱いに苦労することは無いでしょう。

In [None]:
dtrain = xgb.DMatrix(train_x, label=train_y)

# [1-5]パラメータの設定

各種パラメータの設定を行います。

各パラメータの意味は次の通りです。

パラメータ名	意味
max_depth	木の最大深度
eta	学習率
objective	学習目的
num_class	クラス数
'objejective'に学習目的(回帰、分類等)を指定します。
今回は多クラス分類なので'multi:softmax'を指定しています

In [None]:
param = {'max_depth': 2, 'eta': 1, 'objective': 'multi:softmax', 'num_class': 3}

# [1-6]学習

num_roundは学習回数です。

In [None]:
num_round = 10
bst = xgb.train(param, dtrain, num_round)

# [1-7]予測

In [None]:
dtest = xgb.DMatrix(test_x)
pred = bst.predict(dtest)

# [1-8]精度の確認

scikit-learnのaccuracy_scoreで正解率を確認します。

In [None]:
from sklearn.metrics import accuracy_score

score = accuracy_score(test_y, pred)
print('score:{0:.4f}'.format(score))

# [1-9]重要度の可視化

どの特徴量が予測結果に寄与したのかを可視化します。

In [None]:
xgb.plot_importance(bst)