# 機械学習をPythonで実践する-11　　～ XGBoost ～
eXtreme Gradient Boostingの略。  
参考：https://datawokagaku.com/xgboost/

In [13]:
%load_ext autoreload
%autoreload 2
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.preprocessing import StandardScaler, PolynomialFeatures, label_binarize
# import statsmodels.api as sma
from sklearn.model_selection import train_test_split ,LeaveOneOut, cross_val_score, KFold, RepeatedKFold
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score, log_loss, confusion_matrix,ConfusionMatrixDisplay, \
accuracy_score, precision_score, recall_score,precision_recall_curve,f1_score,roc_curve,auc
from sklearn.decomposition import PCA
from sklearn.datasets import fetch_openml
from sklearn.cluster import KMeans
from scipy.cluster.hierarchy import linkage,dendrogram,fcluster
from sklearn import tree

%matplotlib inline
import matplotlib.pyplot as plt


The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## ○ XGBoostで分類
pipでxgboostをインストールする必要あり。  
xgboostライブラリからXGBClassifierをインポートして分類を行う。  
基本的な使い方はscikit-learnの各モデルと同じ。インスタンス生成してfitで学習する。  
分類器XGBClassifier()インスタンス生成時のパラメータは下記。  
* n_estimators : ブースティングの回数(=学習する決定木の数)．デフォルトは100．
* learning_rate : shrinkageのη．デフォルトは0.3。
* max_depth : 決定木の最高の深さ．デフォルトは6
* eval_metric : ブースティング時の各イテレーション時に使う評価指標(特に後述するearly stoppingに使用). sklearn.metricsのメソッドを渡すか，自作してもOK．デフォルトは 'logloss'
* early_stopping_rounds : early stoppingする際の，最低限ブースティングのイテレーションをする回数  

early stoppingとは、ブースティングのイテレーション時に評価指標がそれ以上上がらなくなったら自動で学習をやめてくれること。  

In [None]:
# xgboostをインストール。scikit-learnには入っていない。
%pip install xgboost

Collecting xgboost
  Downloading xgboost-1.7.3-py3-none-manylinux2014_x86_64.whl (193.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m193.6/193.6 MB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: xgboost
Successfully installed xgboost-1.7.3
[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.2[0m[39;49m -> [0m[32;49m22.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [2]:
# xgboostをインポート
from xgboost import XGBClassifier

In [55]:
# seabornのtitanicデータセットをインポート
df = sns.load_dataset('titanic')

In [56]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


<b>★重要  
XGBoostは欠損値に対処するアルゴリズムが組み込まれているため、欠損値（NaN）をdropする必要はなく、  
欠損値があるデータをそのままモデルに学習させることができる。</b>  
欠損値に別途値を代入してからXGBoostを学習させてもよいが、XGBoostを使う場合は欠損値対応はせずに、  
そのまま学習させることが多い。もし、欠損値のデータをdropすると学習データが減ってしまい一般的に精度が下がる。  

In [57]:
# survivedとalive以外を特徴量にする。.dropnaをする必要はない。
X = df.loc[:, (df.columns != 'survived') &  (df.columns != 'alive')]
X = pd.get_dummies(X, drop_first=True)
y = df['survived']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,random_state=0)

In [70]:
# XGBoostで学習。
model = XGBClassifier(early_stopping_rounds=10, learning_rate=0.3)
# 今回は本来のテストデータを検証データに使用。検証データに過学習気味になるので別途汎化性能を確かめること。
eval_set = [(X_test, y_test)]
model.fit(X_train, y_train, eval_set=eval_set, verbose=True)

[0]	validation_0-logloss:0.57144
[1]	validation_0-logloss:0.50862
[2]	validation_0-logloss:0.47251
[3]	validation_0-logloss:0.44833
[4]	validation_0-logloss:0.43609
[5]	validation_0-logloss:0.42633
[6]	validation_0-logloss:0.41920
[7]	validation_0-logloss:0.41309
[8]	validation_0-logloss:0.41486
[9]	validation_0-logloss:0.41235
[10]	validation_0-logloss:0.41368
[11]	validation_0-logloss:0.41320
[12]	validation_0-logloss:0.41130
[13]	validation_0-logloss:0.41106
[14]	validation_0-logloss:0.40937
[15]	validation_0-logloss:0.41233
[16]	validation_0-logloss:0.41574
[17]	validation_0-logloss:0.41736
[18]	validation_0-logloss:0.41702
[19]	validation_0-logloss:0.41751
[20]	validation_0-logloss:0.42046
[21]	validation_0-logloss:0.42060
[22]	validation_0-logloss:0.42052
[23]	validation_0-logloss:0.42221


XGBoostの場合、.fitはモデル自体も返してくる。  
本来１００回イテレーションを行うはずだが、[14]回目にloglossが最小になっているので、  
early-stoppingにより、24回目で学習を終了する。

In [71]:
y_pred = model.predict_proba(X_test)
log_loss(y_test,y_pred)

0.4093673156692521

In [72]:
accuracy_score(y_test, model.predict(X_test))

0.8395522388059702

普通の決定木による分類の方が精度が良い結果となった。(ML_notebook-9)  
今回は恐らく検証データに過学習してしまっているため、汎化性能が下がっていると思われる。

In [73]:
model.score(X_test, y_test)

0.8395522388059702