<a href="https://colab.research.google.com/github/SeongwonTak/TIL_swtak/blob/master/DataScience/scikitlearn_pipeline.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Scikit-learn pipeline
출처 : 머신러닝 교과서 ch6-1

데이터 분석시에서는 범주형이나 스케일링, 정규화 같은 수많은 데이터 변환이 수행되어야 한다. (전처리) 이 과정을 한 번이 아닌 수 번을 해야 할 것인데 그 때마다 이 모든 변환을 직접 할 수는 없을 것이다.

다행스럽게도, Scikit-learn에서는 이 과정을 단순화 하는 도구로, 재사용하는 기능을 묶어주는 Pipeline이라는 기능이 존재한다. 이를 통해 연속된 변환을 순차적으로, 반복적으로 사용 가능하다.

## Pipeline 제작의 예시
Pipeline의 제작에서는 여러 변환기를 순서대로 나열한 다음에, 마지막에는 추정기가 들어가야 한다.

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer

In [4]:
data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target)

In [6]:
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
pipe_lr = make_pipeline(StandardScaler(),
                        PCA(n_components=3),
                        LogisticRegression(solver='liblinear', random_state=1))
pipe_lr.fit(X_train, y_train)
y_pred = pipe_lr.predict(X_test)
print('테스트 정확도 : %.3f' % pipe_lr.score(X_test, y_test))

테스트 정확도 : 0.958


## K_fold에 적용하기

In [8]:
#k_fold에 적용하기
from sklearn.model_selection import StratifiedKFold

kfold = StratifiedKFold(n_splits = 5).split(X_train, y_train)
scores = []
for k, (train, test) in enumerate(kfold):
  pipe_lr.fit(X_train[train], y_train[train])
  score = pipe_lr.score(X_train[test], y_train[test])
  scores.append(score)
  print('폴드 : %2d, 정확도 : %.3f' %(k+1, score))

print('정확도 : %.3f' %(np.mean(scores)))

폴드 :  1, 정확도 : 0.919
폴드 :  2, 정확도 : 0.941
폴드 :  3, 정확도 : 0.988
폴드 :  4, 정확도 : 0.941
폴드 :  5, 정확도 : 0.941
정확도 : 0.946
