本章では次の内容を取り上げる。

- モデルの性能の偏りのない推定量の算出
- 機会学習のアルゴリズムに共通する問題の診断
- 機会学習のモデルのチューニング
- さまざまな性能指標に基づく予測モデルの評価

## 6.1 パイプラインによるワークフローの効率化

In [1]:
import pandas as pd
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/'
                'breast-cancer-wisconsin/wdbc.data',
                header=None)

30個の特徴量をNumpy配列のオブジェクトXに割り当てる。LabelEncoderを使用することで、元のクラスラベルの文字列表現('M'および'B')を整数に変換。

In [2]:
from sklearn.preprocessing import LabelEncoder
X = df.loc[:,2:].values
y = df.loc[:,1].values
le = LabelEncoder()
y = le.fit_transform(y)
le.classes_

array(['B', 'M'], dtype=object)

配列yに格納されたクラスラベルを符号化した後は、悪性クラス1、良性クラス0で表されるようになる。具体的に示すには、適合されたLabelEncoderのtransformメソッドを呼び出し、2つのダミークラスラベルを渡せばよい。

In [3]:
le.transform(['M','B'])

array([1, 0], dtype=int64)

データセットをトレニンーグデータセットとテストデータセットに分割(8:2)

In [4]:
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=20,stratify=y,random_state=1)

## 6.1 パイプラインで変換器と推定器を結合する
最適な性能を得るために入力特徴量の尺度をそろえる。そのため標準化して、ロジスティクス回帰といった線形分類器に入力できるようにする。さらに**主成分分析(PCA)**を使用し、データを最初の30次元から2次元の部分空間に圧縮する。
トレーニングデータセットとテストデータセットの学習と変換を別々に行う代わりにStandardScaler,PCA,LogisticRegressionの3つのオブジェクトをパイプラインで結合する。

In [5]:
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
# 連結する処理としてスケーリング、主成分分析、ロジスティクス回帰を指定
pipe_lr = make_pipeline(StandardScaler(),PCA(n_components=2),LogisticRegression(random_state=1))
pipe_lr.fit(X_train,y_train)
y_pred = pipe_lr.predict(X_test)
print('Test Accuracy: %.3f' % pipe_lr.score(X_test,y_test))

Test Accuracy: 0.900


## 6.2 k分割交差検証を使ったモデルの性能の評価

In [14]:
import numpy as np
from sklearn.model_selection import StratifiedKFold

# 分割データ、分割数、乱数背姿勢器の状態を指定し、
# 層化k分割交差検証イテレータを表すStratifiedKFoldクラスのインスタンス化
kfold = StratifiedKFold(n_splits=10,random_state=1).split(X_train,y_train)
scores = []

"""
イテレータのインデックスと要素をループ処理：（上から順に）
    データをモデルに適合
    テストデータの正解率を算出
    リストに正解率を追加
    分割の番号、0以上の要素数、正解率を出力
"""
for k ,(train,test)in enumerate(kfold):
    # print(X_train[train])
    pipe_lr.fit(X_train[train],y_train[train])
    score = pipe_lr.score(X_train[test],y_train[test])
    scores.append(score)
    print('Fold: %2d, Class dist.:%s ,Acc: %.3f' % 
         (k+1,np.bincount(y_train[train]),score))

Fold:  1, Class dist.:[309 184] ,Acc: 0.946
Fold:  2, Class dist.:[309 184] ,Acc: 0.964
Fold:  3, Class dist.:[309 184] ,Acc: 0.946
Fold:  4, Class dist.:[309 184] ,Acc: 0.964
Fold:  5, Class dist.:[310 184] ,Acc: 0.964
Fold:  6, Class dist.:[310 185] ,Acc: 0.926
Fold:  7, Class dist.:[310 185] ,Acc: 0.944
Fold:  8, Class dist.:[310 185] ,Acc: 0.963
Fold:  9, Class dist.:[310 185] ,Acc: 0.963
Fold: 10, Class dist.:[310 185] ,Acc: 0.963


In [15]:
# 正解率の平均と標準偏差を出力
print('\nCV accuracy: %.3f +/- %.3f'% (np.mean(scores),np.std(scores)))


CV accuracy: 0.954 +/- 0.012


#### scikit-learnにk分割交差検証の性能指標を算出する関数も実装されている。

In [17]:
from sklearn.model_selection import cross_val_score
# 交差検証のcross_val_score関数でモデルの正解率を算出
# 推定量estimator、トレーニングデータX、予測値y、分割数cv、CPU数n_jobsを指定
scores = cross_val_score(estimator=pipe_lr,X=X_train,y=y_train,
                        cv=10,n_jobs=1)
print('CV accuracy scores:%s' % scores)

print('CV accuracy: %.3f +/- %.3f' % (np.mean(scores),np.std(scores)))

CV accuracy scores:[0.94642857 0.96428571 0.94642857 0.96428571 0.96363636 0.92592593
 0.94444444 0.96296296 0.96296296 0.96296296]
CV accuracy: 0.954 +/- 0.012


## 6.3 学習曲線と検証曲線によるアルゴリズムの診断
学習アルゴリズムの性能を向上させるのに役立つ**学習曲線(learning curve)**と**検証曲線(validation curve)**を取り上げる。
過学習（バリアンスが高い）または学習不足（バイアスが高い）の問題があるかどうかを、学習曲線を使用し診断する。

### 6.3.1 学習曲線を使ってバイアスとバリアンスの問題を診断する。

In [None]:
import matplotlib.pyplot as plt
from sklearn.model_selection import learning_curve
pipe_lr = make_pipeline(StandardScaler(),
                       LogisticRegression(penalty='l2',random_state=1))
# learning_curve関数で交差検証による正解率を算出
train_sizes,train_scores,test_scores = learning_curve(estimator=pipe_lr,
                                                     X=X_train,
                                                     y=y_train,
                                                     train_sizes=np.linspace(0.1,1.0,10),
                                                     cv=10,
                                                     n_jobs=1)