# 파이썬 파이프라인

R에는 `magrittr` 팩키지를 통해서 `%>%`을 비롯하여 다양한 파이프 연산자를 제공하고 있다.
파이프라인을 사용하게 되면 함수를 모듈화시켜 디버깅도 쉽고 개발과정도 단순화할 수 있으며 레고 블록처럼 모듈을 교체하거나 바꿔서 기능을 수월하게 확장할 수 있다.

> **데이터프레임 `%>%` 함수1 `%>%` 함수2 `%>%` ...**

데이터 즉, 데이터프레임을 함수를 체인과 같은 방식으로 연결시켜 흘러보내 원하는 결과를 도출하는 방식으로 눈의 흐름과 사고의 흐름이 일치하게 되어 인지부하도 많이 줄어들게 된다. 반면에 파이프라인 없이 함수를 중첩시켜 사용하게 되면 눈의 흐름과 사고의 흐름이 역으로 흘러 정신적 스트레스가 올라갈 수 있다.

> ** ...(함수3(함수2(함수1(데이터프레임)))...)**

# `iris` 기계학습

[Managing Machine Learning Workflows with Scikit-learn Pipelines Part 1: A Gentle Introduction](https://www.kdnuggets.com/2017/12/managing-machine-learning-workflows-scikit-learn-pipelines-part-1.html) 에서 제시된 Scikit-learn 파이프라인 적용 사례를 살펴보자. 
가장 먼저 내장된 `iris` 데이터셋을 사용해서 기계학습 파이프라인을 구축했다.

## 경고 제거

쥬피터 노트북에서 경고를 보이지 않도록 조치한다!!!

In [13]:
 import warnings
warnings.filterwarnings("ignore")

## 기계학습 파이프라인

`Pipeline` 클래스가 필요하고 내부에 튜플 리스트로 전처리 작업을 포함해서 기계학습 예측모형을 파이프라인에 넣어 정의한다.
로지스틱 회귀분석 모형과 SVM 두가지 예측모형을 정규화 및 주성분 분석으로 추출하여 이를 분류모형에 넣어 예측모형을 적합시킨다.

In [16]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn import svm

# 데이터 가져오기
iris = load_iris()

# 훈련시험데이터 분할
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=777)

# 파이프라인 구축
pipe_lr = Pipeline([('scl', StandardScaler()),
                    ('pca', PCA(n_components=2)),
                    ('clf', LogisticRegression(random_state=777))])

pipe_svm = Pipeline([('scl', StandardScaler()),
                     ('pca', PCA(n_components=2)),
                     ('clf', svm.SVC(random_state=777))])

# 파이프라인 리스트: 수월한 반복
pipelines = [pipe_lr, pipe_svm]

# 모형 딕셔너리 정의
pipe_dict = {0: 'Logistic Regression', 1: 'Support Vector Machine'}

# 파이프라인 예측모형 적합
for pipe in pipelines:
    pipe.fit(X_train, y_train)

# 예측모형 정확도 비교
for model_idx, model in enumerate(pipelines):
    print(f'파이프라인 시험데이터 정확도({pipe_dict[model_idx]})\t: {model.score(X_test, y_test):.2f}')


파이프라인 시험데이터 정확도(Logistic Regression)	: 0.89
파이프라인 시험데이터 정확도(Support Vector Machine)	: 0.96


# 텍스트 Feature 기계학습모형

- [Spooky, "Work like a Pro with Pipelines and Feature Unions"](https://www.kaggle.com/metadist/work-like-a-pro-with-pipelines-and-feature-unions)
- [Chris Fotache(May 10, 2018), "Text Classification in Python: Pipelines, NLP, NLTK, Tf-Idf, XGBoost and more"](https://medium.com/@chrisfotache/text-classification-in-python-pipelines-nlp-nltk-tf-idf-xgboost-and-more-b83451a327e0)