### scikit-learn

> `Cf.`
> + [scikit-learn 入門：6つの機能と分類・回帰の実装方法を徹底解説！](https://www.codexa.net/scikit-learn-intro/)
> + [ハイパーパラメータとは？チューニングの手法を徹底解説（XGBoost編）](https://www.codexa.net/hyperparameter-tuning-python/)

[scikit-learn](https://scikit-learn.org/stable/user_guide.html)
> + オープンソースの機械学習ライブラリ
> + (2007年) Google Summer of Code projectとしてDavid Cournapeau氏によって開発
> + `NumPy`、`SciPy`、`matplotlib`といったPythonのライブラリ上で動作
> + 手軽に機械学習の 前処理、 モデリング、 評価指標算出 
> + アルゴリズムが豊富
> 
> <img src='https://www.codexa.net/wp-content/uploads/2020/09/スクリーンショット-2020-09-29-11.20.30.png' width=55%>
>
>      公式には使用マップがある！(アルゴリズムチートシート)

#### - import

In [1]:
import sklearn

#### - 分類: classfication

>|英名|和名|
|:-:|:-:|
|sepal|がく|
|petal|花弁（花びら）|

> がくと花弁それぞれの長さと幅から、アヤメの種類を当てる分類問題を解くためのデータセット

##### - Dataset
>     アヤメ(iris)のデータセットと、ボストンの住宅価格のデータセットをインポート

In [2]:
import sklearn 
import pandas as pd
from sklearn.datasets import load_iris, load_boston

In [3]:
# i) irisデータセットの読込
iris = load_iris()

# ii) 特微量をデータフレームに格納して簡易表示
iris_features = pd.DataFrame(data = iris.data, columns = iris.feature_names)
iris_features.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [4]:
# iii) 特微量の基本統計量を確認
iris_features.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [5]:
# iv) 特微量の欠損値数の確認
iris_features.isnull().sum()

sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
dtype: int64

In [6]:
# v) ラベルを確認 （シリーズに格納、ラベル毎のデータ数表示）
iris_label = pd.Series(iris.target)
iris_label.value_counts()

2    50
1    50
0    50
dtype: int64

    (データセットの中身が確認できたので)

In [7]:
# vi) 訓練データ と テストデータ に分割
from sklearn.model_selection import train_test_split

features_train, features_test, label_train, label_test = train_test_split(iris_features, iris_label, test_size=0.5, random_state=0)

In [8]:
# 学習データとテストデータの構造確認
print(features_train.shape)
print(label_train.shape)
print(features_test.shape)
print(label_test.shape)

(75, 4)
(75,)
(75, 4)
(75,)


##### - アルゴリズム選定
> <img src='https://www.codexa.net/wp-content/uploads/2020/10/スクリーンショット-2020-10-02-17.15.04.png' width=45%>
>
>     START→Yes→Yes→Yes→Yes

> 「Linear SVC（サポートベクトルマシン）」が推奨とのこと。

##### - （分類） Linear SVC 

In [9]:
# vii) モジュールをインポートし、LinearSVCクラスのインスタンスを作成、fitメソッドで学習
from sklearn import svm

# LinearSVC インスタンス作成
"""
(データ分割と同様)
何回やっても、どの環境で実行しても結果が同じになるように、
インスタンス作成時にrandom_state引数を指定
"""
Linsvc = svm.LinearSVC(random_state = 0, max_iter = 3000)

# LinearSVC データ学習
Linsvc.fit(features_train, label_train)

LinearSVC(max_iter=3000, random_state=0)

    (モデルにデータを学習させたので)

In [10]:
# viii) アヤメ:iris の種類を予測
label_pred_linsvc = Linsvc.predict(features_test)
print(label_pred_linsvc)

[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 2 0 0 2 0 0 1 1 0 2 2 0 2 2 1 0
 2 1 1 2 0 2 0 0 1 2 2 1 2 1 2 2 1 2 2 2 2 1 2 2 0 2 1 1 1 1 2 0 0 2 1 0 0
 1]


    (以上) 無事に予測完了

---


> チートシート上で　```LinearSVC```がうまく予測できない場合に推奨されている
> + ```K近傍法(Kneighbor)```
> + ```ロジスティック回帰モデル（LogisticRegression）```（オーソドックスな分類手法）

    以下それぞれ分類予測

##### - （分類） K-Neighbors

In [11]:
# K近傍法　モジュールインストール
from sklearn.neighbors import KNeighborsClassifier

# K近傍法　インスタンス作成
Kneighbor = KNeighborsClassifier(n_neighbors=5)

# K近傍法　データ学習
Kneighbor.fit(features_train, label_train)

# K近傍法　種類予測
label_pred_KNeighbor = Kneighbor.predict(features_test)
print(label_pred_KNeighbor)

[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2 1 1 2 0 2 0 0 1 2 2 1 2 1 2 1 1 2 2 1 2 1 2 1 0 2 1 1 1 1 2 0 0 2 1 0 0
 1]


##### - （分類） ロジスティック回帰

In [12]:
# ロジスティック回帰
from sklearn.linear_model import LogisticRegression

# ロジスティック回帰　インスタンス作成
LogReg = LogisticRegression(random_state=0)

# ロジスティック回帰　データ学習
LogReg.fit(features_train, label_train)

# ロジスティック回帰　種類予測
label_pred_LogReg = LogReg.predict(features_test)
print(label_pred_LogReg)

[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 1 0 0 1 1 0 2 1 0 2 2 1 0
 2 1 1 2 0 2 0 0 1 2 2 1 2 1 2 1 1 2 1 1 2 1 2 1 0 2 1 1 1 1 2 0 0 2 1 0 0
 1]


    (以上) 3つのモデルで予測ができたので、今度はそれぞれの予測モデルの性能を比較。

---

##### - 評価指標: evaluation
> 評価指標として、今回は```正解率(accuracy)```を用い、```混同行列```と併せて表示。 
> + 正解率: 全ての予測のうち、正しく分類できていた予測の割合を表示
> + 混同行列: 実際のラベルと予測のラベルを行列形式で表示

> `Cf.`
> + []()

In [13]:
from sklearn.metrics import confusion_matrix

##### - (評価) SVM

In [14]:
# LinearSVM予測　混同行列　正解率
print('confusion matrix  = \n', confusion_matrix(y_true=label_test, y_pred=label_pred_linsvc))
print('accurary =', Linsvc.score(features_test, label_test))

confusion matrix  = 
 [[21  0  0]
 [ 0 25  5]
 [ 0  1 23]]
accurary = 0.92


##### - (評価) K-Neighbors 

In [15]:
# K近傍法予測　混同行列　正解率
print('confusion matrix  = \n', confusion_matrix(y_true=label_test, y_pred=label_pred_KNeighbor))
print('accurary =', Kneighbor.score(features_test, label_test))

confusion matrix  = 
 [[21  0  0]
 [ 0 29  1]
 [ 0  2 22]]
accurary = 0.96


##### - (評価) ロジスティック回帰

In [16]:
# ロジスティック回帰モデル予測　混同行列　正解率
print('confusion matrix  = \n', confusion_matrix(y_true=label_test, y_pred=label_pred_LogReg))
print('accurary =', LogReg.score(features_test, label_test))

confusion matrix  = 
 [[21  0  0]
 [ 0 29  1]
 [ 0  4 20]]
accurary = 0.9333333333333333


> `(考察)`
>
>    最近傍法（K-Neighbor）が最も分類予測の正答率が高い。

---

#### - 回帰: Regression

##### - Dataset

In [17]:
boston = load_boston()

# i) 特徴量データフレームに格納
boston_features = pd.DataFrame(data=boston.data, columns=boston.feature_names)

boston_features.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


> 
> + CRIM  : 町の人口あたり犯罪率
> + ZN    : 25000平方フィート以上の住宅地の割合
> + INDUS : 町ごとの非小売業の土地の割合
> + CHAS  : Charles川に関するダミー変数(川に接していたら1、そうでなければ0)
> + NOX   : 一酸化窒素濃度（1000万分の1）
> + RM    : 住居当たりの平均部屋数
> + AGE   : 1940年より前に建設された物件の割合
> + DIS   : ボストンの5つの雇用センターまでの重み付けされた距離
> + RAD   : 放射状高速道路へのアクセスしやすさ
> + TAX   : 10000ドル当たりの固定資産税総額
> + PTRATIO: 町ごとの生徒と教師の比率
> + B     : 1000(Bk – 0.63)^2 ※Bkは町の黒人比率
> + LSTAT : 低所得の人々の割合
>

In [18]:
boston_features.describe()    # 特徴量の基本統計量を確認

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97


In [19]:
boston_features.isnull().sum()    # 特徴量の欠損値確認

CRIM       0
ZN         0
INDUS      0
CHAS       0
NOX        0
RM         0
AGE        0
DIS        0
RAD        0
TAX        0
PTRATIO    0
B          0
LSTAT      0
dtype: int64

In [20]:
# ii) ターゲットをpandasのSeriesというデータ構造に格納
boston_target = pd.Series(data=boston.target)

boston_target.describe()

count    506.000000
mean      22.532806
std        9.197104
min        5.000000
25%       17.025000
50%       21.200000
75%       25.000000
max       50.000000
dtype: float64

In [22]:
# iii) 学習データ(訓練データ)　テストデータ　に分割
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(boston_features, boston_target, test_size=0.5, random_state=0)

> <img src='https://www.codexa.net/wp-content/uploads/2020/10/スクリーンショット-2020-10-02-17.16.29.png' width=45%>
> 
>>      START→Yes→No→Yes→Yes
>>      「few features should be important(少数の特徴量が重要である)」
>>      この質問に関しては、データを確認しただけでは判断がつかない...Yes No それぞれ実装
>> + `Lasso`
>> + `RidgeRegression`

In [24]:
# Lasso Regression
from sklearn.linear_model import Lasso
Lasso = Lasso(alpha=0.1, random_state=0)    # インスタンス作成
Lasso.fit(X_train, y_train)    # 学習
target_pred_Lasso = Lasso.predict(X_test)    # 予測

In [25]:
# Ridge Regression
from sklearn.linear_model import Ridge
Ridge = Ridge(alpha=0.5, random_state=0)    # インスタンス作成
Ridge.fit(X_train, y_train)    # 学習
target_pred_Ridge = Ridge.predict(X_test)    # 予測

In [26]:
# Cf.線形回帰
from sklearn.linear_model import LinearRegression
LinReg = LinearRegression()
LinReg.fit(X_train, y_train)
target_pred_LinReg = LinReg.predict(X_test)

    （３モデルの予測が出揃ったので）

##### - evaluation

In [30]:
# 評価指標
# （決定係数：「実際の値のうち予測モデルで説明できた割合」を表す評価指標で０〜１の範囲で変動）
# ① Lassoモデルによる回帰の評価（決定係数の表示）
print('R-squared : ', Lasso.score(X_test, y_test).round(3))
# ② Ridgeモデルによる回帰の評価（決定係数の表示）
print('R-squared : ', Ridge.score(X_test, y_test).round(3))
# Cf. ③ 線形回帰モデルによる回帰の評価（決定係数の表示）
print('R-squared : ', LinReg.score(X_test, y_test).round(3))

R-squared :  0.654
R-squared :  0.663
R-squared :  0.666


> `(考察)`
>
>     モデル間で性能に大差はないという結果に。
>     線形モデルが最も性能が良かったですが、チートシートにしたがって用いた二つのモデルもまずまずの性能を出せたと言える.

---

#### - モデルの評価と選択

> + (評価) Confusion Matrix: 混同行列
> + （選択） Cross Validation: 交差検証
>>     データセットを訓練データとテストデータに分割して
>>     モデルに学習させて スコアを出す 
>>     というプロセスを複数回繰り返し、全てのスコアの平均で性能を測る

In [31]:
from sklearn.model_selection import ShuffleSplit, cross_val_score

# データセットをランダムに５分割するための変数定義
cv = ShuffleSplit(n_splits=5, test_size=0.2, random_state=0)

# ① Lasso #cvを用いてクロスバリデーション実行
score = cross_val_score(Lasso, boston_features, boston_target, cv=cv)
print(score)
print('R-squared_Average : {0:.2f}'.format(score.mean()))

[0.55697477 0.65577592 0.59410602 0.78246293 0.78063311]
R-squared_Average : 0.67


In [32]:
# ② Ridge
# cv を用いてクロスバリデーション実行
score = cross_val_score(Ridge, boston_features, boston_target, cv=cv)
print(score)
print('R-squared_Average : {0:.2f}'.format(score.mean()))

[0.58364982 0.67498977 0.62322026 0.79457322 0.77713899]
R-squared_Average : 0.69


In [33]:
# ③ LinReg
# cv を用いてクロスバリデーション実行
score = cross_val_score(LinReg, boston_features, boston_target, cv=cv)
print(score)
print('R-squared_Average : {0:.2f}'.format(score.mean()))

[0.58922238 0.67790515 0.62474713 0.79455314 0.7751921 ]
R-squared_Average : 0.69


> `（考察）`
>
>      以上の結果から、今回の分類に関して、
>      Ridgeモデル、線形モデルの方がLassoモデルよりも優れていることを確認できました。

    モデルの評価と選択のための手法は他にもあります。

---

#### ハイパーパラメータチューニング - 3手法
> 少し乱暴な言い方をすると機械学習のアルゴリズムの「設定」

> `Cf.`
> + [ハイパーパラメータとは？チューニングの手法を徹底解説（XGBoost編）](https://www.codexa.net/hyperparameter-tuning-python/)

##### - 1. Grid Serach(グリッドサーチ):格子状

>> 与えられたハイパーパラメータの候補の値の全パターンのモデル構築を行う手法
>
>> `e.g.`
>>
>>     設定Aと設定Bのハイパーパラメータを調整する場合、
>>     設定Aには「1、3、5」の値、設定Bには「True、False」の値を候補として指定
>>     (3×２＝全6回のモデル訓練が異なる設定の値で実行される)。
>
>>`【メリット】`
>>
>>      調整する値の「あたり」が付いている場合は◎
>>      調整する値の数が少ない場合は◎
>
>>`【デメリット】`
>>
>>      モデル訓練回数が増えるので時間が掛かる
>>      計算コストが非常に高い

##### - 2. Random Search(ランダムサーチ)

>> 候補の値をランダムに組み合わせたモデル訓練を行いハイパーパラメータを検証する手法
>
>> `e.g.`
>>
>>     候補Aには10個の値、候補Bには5個、候補Cは30個の値があるとします。
>>     グリッドサーチでは全組み合わせ1500回（10 x 5 x 30）のモデル訓練を行います。
>>     仮に1回の訓練で30分要するとした場合31日と現実的でないことに。。。
>>
>>     そこでランダムサーチが役に立ちます。ランダムサーチで異なる組み合わせのハイパーパラメータを用いてモデル訓練を行い検証。
>
>> `【メリット】`
>>
>>     調整する値が多くても対応することが可能
>
>> `【デメリット】`
>>
>>     ランダムに検証するので「運任せ」の要素あり

##### - 3. Bayesian Optimization（ベイズ最適化）

>> ベイズ最適化をざっくりと解説すると「前回の結果を基に次に調べる値を決めていく」手法。
（不確かさを利用して次に探索を行うべき値を探していく最適化アルゴリズムの一種。
目的関数（Acquisition Function）を推定する代理モデル（Surrogate Model）にはガウス過程が用いられる）
>
>> 2つの戦略を使って最適化を順次的実行
>> + 「Exploration（探索）」
>> + 「Exploitation（活用）」
>
>> `e.g.` 
>> 
>>      よく行く居酒屋で飲み物を選ぶ時を想像してみてください。
>      先週来た時は泡盛を頼み、とても美味しいのを覚えています。
>      今回も似たような泡盛を頼めば恐らく前回と同様に楽しめることが想像できます。
>      これがExploitation（活用）です。
>>
>>      しかしメニューには日本酒や焼酎など、今まで頼んだことが無い飲み物もたくさんあります。
>      もしかすると泡盛よりも自分好みのお酒があるかもしれません。
>      そこで今回は日本酒を頼んでみることにします。これがExploration（探索）

> `Cf.`
> + [Human Resources Data Set - kaggle](https://www.kaggle.com/rhuebner/human-resources-data-set/metadata)

In [34]:
# i)　インポート
import pandas as pd

#Scikit-learn
from sklearn.model_selection import train_test_split #訓練、テストデータ分割
from sklearn.metrics import accuracy_score, confusion_matrix #正解率　混同行列
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV, KFold

# XGBoost
import xgboost as xgb

# Marplotlibのインライン表示
%matplotlib inline

In [36]:
# ii) データフレームセット
df = pd.read_csv('csv/HRDataset_v14.csv', index_col=['Employee_Name'])

#　必要なデータを列挙
df = df[['Termd', 'Position', 'Sex', 'MaritalDesc', 'RaceDesc', 
        'Department', 'ManagerName', 'RecruitmentSource', 
        'EngagementSurvey','EmpSatisfaction', 'SpecialProjectsCount', ]]
df.head()

Unnamed: 0_level_0,Termd,Position,Sex,MaritalDesc,RaceDesc,Department,ManagerName,RecruitmentSource,EngagementSurvey,EmpSatisfaction,SpecialProjectsCount
Employee_Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
"Adinolfi, Wilson K",0,Production Technician I,M,Single,White,Production,Michael Albert,LinkedIn,4.6,5,0
"Ait Sidi, Karthikeyan",1,Sr. DBA,M,Married,White,IT/IS,Simon Roup,Indeed,4.96,3,6
"Akinkuolie, Sarah",1,Production Technician II,F,Married,White,Production,Kissy Sullivan,LinkedIn,3.02,3,0
"Alagbe,Trina",0,Production Technician I,F,Married,White,Production,Elijiah Gray,Indeed,4.84,5,0
"Anderson, Carol",1,Production Technician I,F,Divorced,White,Production,Webster Butler,Google Search,5.0,4,0


## EDA（探索的データ解析）

---

余力があれば、以下のように更に深いEDAも！
+ 男女別（カラムSex）間で辞職率に違いはありますか？（ヒント：GroupBy）
+ 従業員の満足度（EmpSatisfaction）と辞職（Termd）に相関性はありますか？（ヒント：corrメソッド）

In [None]:
# 簡単なEDA（探索的データ解析）を行いデータを確認
df.shape

In [None]:
df.isnull().sum()

<hr>

（余談） 綺麗なデートセットであったが、もしも欠損値が存在する場合。

### 「前処理」

```Python
df[df.duplicated(keep=False)].head()
```

> pandasのデータフレームの```.duplicated()```メソッドは重複した行があればTrue、それ以外はFalseを戻す。
> duplicatedメソッドのkeep引数は重複した行の抽出方法を指定することが可能。(Falseと指定した場合、重複した全ての行をTrueとして戻す。よって重複行を表示させる)

```python
df.dropna(inplace=True)

df.duplicated().sum()
[out] 0 #欠損データが０個に
```

> ```.dropna()```メソッドは欠損値を含む行を除外したデータフレームを戻す。
> inplace引数（初期値 False）をTrue(データフレームに直接変更を加える可)

<hr>

In [None]:
df['Position'].value_counts()[0:10].plot(kind='pie', figsize=(4, 4))

In [None]:
df['RecruitmentSource'].value_counts()[0:10].plot(kind='pie', figsize=(4, 4))

In [None]:
df['Termd'].value_counts(dropna=False) # 「０:！辞職」「１：辞職」
# dropna引数（初期値 True）は欠損値の扱いを制御する引数

## 前処理
---

機械学習で使われる多くのモデリング手法は文字列の値を訓練データとして使用することは出来ません。

+ ダミー変数
 >ダミー変数とは数字ではないデータを数字に変換する手法をさす。
 > 文字列の値を持つ値をダミー変数に変換
 > + Position（肩書き）
 > + Sex（性別）
 > + MaritalDesc（結婚歴）
 > + RaceDesc（人種）
 > + Department（所属部署）
 > + ManagerName（上司の名前）
 > + RecruitmentSource（採用経由）

In [None]:
# iii) 文字列データを編集（ダミー変数）
dummy_cols = ['Position', 'Sex', 'MaritalDesc', 'RaceDesc', 
              'Department', 'ManagerName', 'RecruitmentSource']
df = pd.get_dummies(df, columns=dummy_cols)
df.shape

In [None]:
# iv) x:説明変数（特徴量）　y：目的変数　へ分割
x = df.drop(['Termd'], axis=1) #Termd以外は特徴量
y = df['Termd'] # 従業員の辞職を示すカラムTermd
x.shape, y.shape

In [None]:
# v） train:訓練データ　test:テストデータ　へ分割
seed = 42

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=seed)
x_train.shape, x_test.shape, y_train.shape, y_test.shape

In [None]:
# vi) 目的変数（カラムTermdの値）の分布を確認
pd.concat([y_train.value_counts(), y_test.value_counts()], axis=1)

    訓練データ（y_train）には、辞職76名、現職141名。
    テストデータ（y_test）には辞職2８名、現職66名なのが確認できます。

## ⓪ベースライン
---

+ XGBoost（XGBoostは勾配ブースティングのフレームワーク）を使い人事データセットの説明変数を用いて退職の有無（カラムTermd）を分類推測を行う。
>勾配ブースティングの学習プロセスは繰り返し処理（イテレーション）
>一つ前の学習結果の誤差を繰り返し学習する手法

+ XGBoostのハイパーパラメータの数は細かいのを含めると50以上。
> 中でも特にモデリングに影響の高い以下のハイパーパラメータの調整を行う。
> + min_child_weight
> + max_depth 木の深さ
> + colsample_bytree
> + subsample


In [None]:
# vii) XGBoostへ設定するハイパーパラメータを辞書型で作成
params = {'metric':'error',
          'objective':'binary:logistic',
          'n_estimators':50000,     #何回繰り返すか?
          'booster': 'gbtree',
          'learning_rate':0.01,
          'min_child_weight':1,
          'max_depth':5,
          'random_state':seed,
          'colsample_bytree':1,
          'subsample':1,
         }

In [None]:
# viii) ベースライン（モデル）の訓練
cls = xgb.XGBClassifier()
cls.set_params(**params)
cls.fit(x_train,
        y_train,
        early_stopping_rounds=50, # 50回以上モデル改善ない場合に学習プロセス停止　#学習完了毎時テストデータモデルの評価を実行、評価指標が一定の回数を改善しなくなった時点で学習ストップ
        eval_set=[(x_test, y_test)],
        eval_metric='error',
        verbose=1)

In [None]:
print('best score : ', cls.best_score)    # 最もスコアが良かった回のスコア
print('best iter : ', cls.best_iteration)    # 最もスコアが良かった回数

In [None]:
# ix) 予測 正解率 混同行列
pred_1 = cls.predict(x_test)

baseline = accuracy_score(y_test, pred_1)
print(baseline)

confusion_matrix(y_test, pred_1)

今回使用したハイパーパラメータの値では正解率は ```7６.59%``` となっているのが確認できる。

---

## ①グリッドサーチ（GridSearch）
> ハイパーパラメータをチューニング手法（GridSearchCV）でチューニング


In [None]:
# x） グリッドサーチ ： 16通り(2×2×2×2)の異なるハイパーパラメータの値を持つXGBoostの分類器の訓練
cv_params = {'metric':['error'], # [検証非対称]検証する対象ではないので1つの値のみを設定
                     'objective':['binary:logistic'], # [検証非対称]
                     'n_estimators':[50000],
                     'random_state':[seed],
                     'booster': ['gbtree'],
                     'learning_rate':[0.01],
                     'min_child_weight':[1,5],    # [検証対称]検証するハイパーパラメータには複数の候補値を設定　２つ
                     'max_depth':[1,3],    # [検証対称]２つ
                     'colsample_bytree':[0.5,1.0],    # [検証対称]２つ
                     'subsample':[0.5,1.0]    # [検証対称]２つ
                    }

xgb_cls = xgb.XGBClassifier()
cv = KFold(2, random_state=seed)

# Scikit-learnのGridSearchCV関数(CV:Cross Validation/交差検証)
cls_grid = GridSearchCV(xgb_cls, cv_params, cv=cv, scoring='accuracy', iid=False)
cls_grid.fit(x_train,
             y_train,
             early_stopping_rounds=50,
             eval_set=[(x_test, y_test)],
             eval_metric='error',
             verbose=0)

In [None]:
print(cls_grid.best_params_) # 交差検証で得た最も評価スコアが良いハイパーパラメータの値を戻す
print('best score : ', cls_grid.best_score_)

In [None]:
# xi) 予測 正解率 混同行列
pred_2 = cls_grid.best_estimator_.predict(x_test)

grid_score = accuracy_score(y_test, pred_2)
print(grid_score)

confusion_matrix(y_test, pred_2) # モデルがどのような推測結果を戻したのか混同行列で確認

今回使用したハイパーパラメータの値では正解率は ```６9.14%``` となっているのが確認できる。

---

## ②ランダムサーチ（RandomizedSearchCV）



In [None]:
# xii) ランダムサーチ
# グリッドサーチでは各パラメータで2つずつの候補、今回はそれぞれ10個の候補の値を指定
cv_params = {'metric':['error'],
             'objective':['binary:logistic'],
             'n_estimators':[50000],
             'random_state':[seed],
             'boosting_type': ['gbdt'],
             'learning_rate':[0.01],
             'min_child_weight':[1,2,3,4,5,6,7,8,9,10],
             'max_depth':[1,2,3,4,5,6,7,8,9,10],
             'colsample_bytree':[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0],
             'subsample':[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0],
            }
 
cls = xgb.XGBClassifier()
cls_rdn = RandomizedSearchCV(cls,
                             cv_params,
                             cv=KFold(2, random_state=seed),
                             random_state=seed,
                             n_iter=30,
                             iid=False,
                             scoring='accuracy')
cls_rdn.fit(x_train,
            y_train,
            early_stopping_rounds=50,
            eval_set=[(x_test, y_test)],
            eval_metric='error',
            verbose=0)

In [None]:
print(cls_rdn.best_params_)
print('best score : ', cls_rdn.best_score_)

In [None]:
# xiii) 予測 正解率 混同行列
pred_3 = cls_rdn.best_estimator_.predict(x_test)

rdn_score = accuracy_score(y_test, pred_3)
print(rdn_score)

confusion_matrix(y_test, pred_3)

今回使用したハイパーパラメータの値では正解率は ```70.21%``` となっているのが確認できる。

---

## ③ベイズ最適化（BayesianOptimization）
> ベイズ最適化ではオープンソースのライブラリが複数ある。
> 今回は、「BayesianOptimization」を利用してXGBoostのハイパーパラメータチューニングを行う。

In [None]:
from bayes_opt import BayesianOptimization

In [None]:
!pip install bayesian-optimization

In [None]:
from bayes_opt import BayesianOptimization

In [None]:
# xiv) ベイズ最適化
# 関数定義：調整を行うハイパーパラメータを引数、モデル訓練・テストデータを使った推測値を算出、正解率の値を戻す関数定義
def xgb_evaluate(min_child_weight, subsample, colsample_bytree, max_depth):
    params = {'metric': 'error',
              'objective':'binary:logistic',
              'n_estimators':50000,
              'random_state':42,
              'boosting_type':'gbdt',
              'learning_rate':0.01,              
              'min_child_weight': int(min_child_weight),
              'max_depth': int(max_depth),
              'colsample_bytree': colsample_bytree,
              'subsample': subsample,
             }
    # 学習
    cls = xgb.XGBClassifier()
    cls.set_params(**params)
    cls.fit(x_train,
            y_train,
            early_stopping_rounds=50,
            eval_set=[(x_test, y_test)],
            eval_metric='error',
            verbose=0)
    # 予測
    pred = cls.predict(x_test)
    score = accuracy_score(y_test, pred)
    return score


# ベイズ最適化
xgb_bo = BayesianOptimization(xgb_evaluate, 
                              {'min_child_weight': (1,20), #  1~20に属する値を候補の値として探索
                               'subsample': (.1,1),
                               'colsample_bytree': (.1,1),
                               'max_depth': (1,50)},
                              random_state=10)

# 検証実行
xgb_bo.maximize(init_points=15, n_iter=50, acq='ei')

In [None]:
optimized_params = xgb_bo.max['params']    # max属性:最評価スコア結果取得
optimized_params['max_depth'] = int(optimized_params['max_depth'])
optimized_params

In [None]:
# 固定されたハイパーパラメータを変数へ格納
fixed_params = {'metric':'error',
                'objective':'binary:logistic',
                'n_estimators':50000,
                'random_state':seed,
                'booster': 'gbtree',
                'learning_rate':0.01}

# 訓練
cls = xgb.XGBClassifier()
cls.set_params(**fixed_params, **optimized_params)
cls.fit(x_train,
        y_train,
        early_stopping_rounds=50,
        eval_set=[(x_test, y_test)],
        eval_metric='error',
        verbose=0)

In [None]:
# x) 予測 正解率 混同行列
pred_4 = cls.predict(x_test)

baseline = accuracy_score(y_test, pred_4)
print(baseline)

confusion_matrix(y_test, pred_4)

今回使用したハイパーパラメータの値では正解率は ```70.21%``` となっているのが確認できる。

---