# 6.1 パイプラインによるフローワークの効率化

scikit-learnのPipelineクラスを取り上げる
このクラスを利用すれば、任意の個数の変換ステップを含んだモデルを結合させ、そのモデルを適用して新しいデータを予測できるようになる

# 6.1.1 Breast Cancer Wisconsinデータセットを読み込む

このデータセットには、悪性腫瘍細胞と良性腫瘍細胞の569のサンプルが含まれている。

まず、UCIのWebサイトからpandasライブラリのread_csv関数を使ってデータセットを直接読み込む

In [3]:
import pandas as pd
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data',header=None)

次に、30個の特徴量をNumPy配列のオブジェクトXに割り当てる。
LabelEncoderを使用することで、元のクラスラベルの文字列表現（'M'および'B'）を整数に変換する

In [5]:
from sklearn.preprocessing import LabelEncoder
X = df.loc[:, 2:].values
y = df.loc[:, 1].values
le = LabelEncoder()
y = le.fit_transform(y)
le.classes_

array(['B', 'M'], dtype=object)

配列yに格納されたクラスラベル（診断結果）を符号化した後は、悪性腫瘍はクラス1、良性腫瘍はクラス0で表されるようになる

In [6]:
le.transform(['M','B'])

array([1, 0], dtype=int64)

In [7]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, stratify=y, random_state=1)

# 6.1.2 パイプラインで変換器と推定器を結合する

In [10]:
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
# 連結する処理としてスケーリング、主成分分析、ソジステッィク回帰を指定
pipe_lr = make_pipeline(StandardScaler(),PCA(n_components=2),LogisticRegression(random_state=1))
pipe_lr.fit(X_train, y_train)
y_pred = pipe_lr.predict(X_test)
print('Test Accuracy: %.3f' % pipe_lr.score(X_test, y_test))

Test Accuracy: 0.956


make_pipeline関数は、入力としてscikit-learnの変換器とscikit-learnの推定器を受け取る。変換器はいくつ設定してもよい