## <font color='blue'>前書き</font>

ここまでは、分類を行うための機械学習アルゴリズムと、それらのアルゴリズムの前処理について学んだ。<br>
ここからは、アルゴリズムをチューニングし、モデルの性能を評価することにより、機械学習の良いモデルを構築するベストプラクティスについて学ぶ<br>
以下に内容を書く
<li>モデルの性能の偏りのない推定量の算出</li>
<li>機械学習のアルゴリズムに共通する問題の診断</li>
<li>機械学習のモデルのチューニング</li>
<li>様々な性能指標に基づく予測モデルの評価</li>

## <font color='blue'>パイプラインによるワークフローの効率化</font>

これまでは、<font color='red'>特徴量をスケーリングする標準化</font>や<font color='red'>データを圧縮するための主成分分析</font>を学んだ。<br>
上記では、<font color='red'>トレーニングデータの学習で推定したパラメータを再利用する</font>ときは、別のテストデータセットのサンプルなど<br>
<font color='red'>新しいデータに対してスケーリングや圧縮を行う必要がある</font>ことを学んだ。<br>
ここでは、scikit-learnのPipelineを取り上げる<br>
<font color='red'>Pipelineを利用することで、任意の個数の変換ステップを含んだモデルを学習し、それを応用して新しいデータを予測できる。</font>

## <font color='blue'>Breast Cancer Wisconsinデータセットの読み込み</font>

このデータセットには悪性腫瘍細胞と良性腫瘍細胞の569サンプルが含まれている。<br>
診断結果のMは悪性であり、Bは良性ということを表している。<br>
DataFrameの最初の２つの列には、サンプルのIDとそれに対応する診断結果。<br>
DataFrameの３列目から32列目には、細胞核のデジタル画像から算出された30個の実数値の特徴量が含まれている。<br>

In [1]:
# データセットの読み込み
import pandas as pd
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases'
                     '/breast-cancer-wisconsin/wdbc.data', header=None)

In [2]:
# 最初の5行の取り出し
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,22,23,24,25,26,27,28,29,30,31
0,842302,M,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,84348301,M,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


In [3]:
# 30個の特徴量をNumpy配列のオブジェクトXに割り当てる
from sklearn.preprocessing import LabelEncoder
X = df.loc[:, 2:].values
y = df.loc[:, 1].values
le = LabelEncoder()
# クラスラベル(MおよびB)を整数に変換
y = le.fit_transform(y)

In [4]:
# ラベルがどのように変換されたか表示
le.transform(['M', 'B'])

array([1, 0])

In [5]:
# トレーニングデータセットの分割
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)



## <font color='blue'>パイプラインで変換器と推定器を結合</font>

多くの機械学習のアルゴリズムでは、最適な性能を得るために入力特徴量の尺度を揃える。<br>
Breast Cancer Wisconsinデータセットの列を標準化する。<br>
また、PCAを使用してデータを最初の30次元から2次元の部分空間に圧縮する。<br>
<font color='red'>トレーニングデータセットとテストデータセットの学習と変換を別々に行う代わりに</font><br>
<font color='red'>StandardScaler, PCA, LogisticRegressionの３つのオブジェクトをパイプラインで結合する。</font><br>

In [7]:
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
# 連結する処理としてスケーリング、主成分分析、ロジスティック回帰を指定
pipe_lr = Pipeline([('sc1', StandardScaler()), ('pca', PCA(n_components=2)), ('clf', LogisticRegression(random_state=1))])
pipe_lr.fit(X_train, y_train)
print('Test Accuracy: %.3f' % pipe_lr.score(X_test, y_test))

Test Accuracy: 0.947


## <font color='blue'>K分割交差検証を使ったモデルの性能の評価</font>

ホールドアウト法とK分割交差検証を用いると、モデルの汎化誤差-未知のデータに対するモデルの性能-を的確に推定できる。<br>

## <font color='blue'>ホールドアウト法</font>

ホールドアウト法は、機械学習のモデルの汎化性能を評価するために一般的に用いられているアプローチである。<br>
ホールドアウト法を用いて、元のデータセットをトレーニングデータセットとテストデータセットに分割する。<br>
ただし、機械学習では未知のデータに対する予測性能をさらに向上させるために、様々なパラメータ設定のチューニングや比較を行うことが重要になる。<br>
上記のプロセスをモデル選択といい、チューニングパラメータの最適な値を選択する分類問題を指す。<br>
チューニングパラメータは、ハイパーパラメータとも呼ばれる。<br>
さまざまなパラメータ値を使ってトレーニングを行った後、検証データセットを使ってモデルの性能を繰り返し評価している。<br>
パラメータ値のチューニング結果に満足したら、テストデータセットでのモデルの汎化誤差を評価する。<br>
ホールドアウト法の問題点<br>
元のトレーニングデータセットをトレーニングサブセットと検証サブセットにどのように分割するかで、性能の評価に影響が及ぶことである。<br>