本章では次の内容を取り上げる。

- モデルの性能の偏りのない推定量の算出
- 機会学習のアルゴリズムに共通する問題の診断
- 機会学習のモデルのチューニング
- さまざまな性能指標に基づく予測モデルの評価

## 6.1 パイプラインによるワークフローの効率化

In [2]:
import pandas as pd
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/'
                'breast-cancer-wisconsin/wdbc.data',
                header=None)

30個の特徴量をNumpy配列のオブジェクトXに割り当てる。LabelEncoderを使用することで、元のクラスラベルの文字列表現('M'および'B')を整数に変換。

In [3]:
from sklearn.preprocessing import LabelEncoder
X = df.loc[:,2:].values
y = df.loc[:,1].values
le = LabelEncoder()
y = le.fit_transform(y)
le.classes_

array(['B', 'M'], dtype=object)

配列yに格納されたクラスラベルを符号化した後は、悪性クラス1、良性クラス0で表されるようになる。具体的に示すには、適合されたLabelEncoderのtransformメソッドを呼び出し、2つのダミークラスラベルを渡せばよい。

In [4]:
le.transform(['M','B'])

array([1, 0], dtype=int64)

データセットをトレニンーグデータセットとテストデータセットに分割(8:2)

In [5]:
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=20,stratify=y,random_state=1)

## 6.1 パイプラインで変換器と推定器を結合する
最適な性能を得るために入力特徴量の尺度をそろえる。そのため標準化して、ロジスティクス回帰といった線形分類器に入力できるようにする。さらに**主成分分析(PCA)**を使用し、データを最初の30次元から2次元の部分空間に圧縮する。
トレーニングデータセットとテストデータセットの学習と変換を別々に行う代わりにStandardScaler,PCA,LogisticRegressionの3つのオブジェクトをパイプラインで結合する。

In [8]:
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
# 連結する処理としてスケーリング、主成分分析、ロジスティクス回帰を指定
pipe_lr = make_pipeline(StandardScaler(),PCA(n_components=2),LogisticRegression(random_state=1))
pipe_lr.fit(X_train,y_train)
y_pred = pipe_lr.predict(X_test)
print('Test Accuracy: %.3f' % pipe_lr.score(X_test,y_test))

Test Accuracy: 0.900
