# パイプラインの構築

## 機械学習パイプラインとは<a name="description"></a>

特徴のスケーリング・次元削減・モデル適用など一連の処理の流れのこと。scikit-learnのAPIを利用して自動化できる。

## パイプライン構築<a name="pipeline"></a>

### データの準備<a name="data"></a>

In [None]:
import numpy as np
import pandas as pd

# ワインの組成からワインの種別を予測
# http://archive.ics.uci.edu/ml/datasets/Wine
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None)
df.columns = ['Class label', 'Alcohol', 'Malic acid', 'Ash', 'Alcalinity of ash', 'Magnesium', 'Total phenols', 'Flavanoids', 'Nonflavanoid phenols', 'Proanthocyanins', 'Color intensity', 'Hue', 'OD280/OD315 of diluted wines', 'Proline']

np.unique(df['Class label'])

In [None]:
df.tail()

In [None]:
from sklearn.model_selection import train_test_split

X, y = df.iloc[:, 1:].values, df.iloc[:, 0].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=0)

for name, arr in zip(['X_train', 'X_test', 'y_train', 'y_test'], [X_train, X_test, y_train, y_test]):
    print('{name}\n shape: {shape}\n sample: {sample}'.format(name=name, shape=arr.shape, sample=arr[:3]))

### 構築<a name="build"></a>

Pipelineオブジェクトの引数はタプルのリストで、各タプルは識別文字列(辞書型オブジェクトのキーのようなもの)とscikit-learnの変換器や識別器で構成される。各変換器・識別器はfit_transformを実行して次のステップに結果を渡し、最後の推定器でfitを実行する。

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

pipe = Pipeline([
    ('scaling', StandardScaler()),
    ('pca', PCA(n_components=2)),
    ('model', LogisticRegression(random_state=0))
])
pipe.fit(X_train, y_train)

In [None]:
print('Train Accuracy: {acc:.3f}'.format(acc=pipe.score(X_train, y_train)))
print('Test Accuracy: {acc:.3f}'.format(acc=pipe.score(X_test, y_test)))