# Pipeline
파이프라인은 여러 변환 단계를 정확한 순서대로 실행할 수 있도록 하는 것이다.

사이킷런은 연속된 변환을 순서대로 처리할 수 있도록 도와주는 Pipeline 클래스가 있다.

In [1]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
import numpy as np

### Define Pipeline

In [2]:
num_pipeline = Pipeline([
                         ('imputer', SimpleImputer(strategy="median")),
                         ('std_scaler', StandardScaler())
])


In [3]:
# sample test data
test_data = np.array([10,20,30,40,50,np.nan]).reshape(-1,1)
print(test_data)

x = num_pipeline.fit_transform(test_data)

print(x)

[[10.]
 [20.]
 [30.]
 [40.]
 [50.]
 [nan]]
[[-1.54919334]
 [-0.77459667]
 [ 0.        ]
 [ 0.77459667]
 [ 1.54919334]
 [ 0.        ]]


### Pipeline Example

파이프라인 실습에 필요한 임의의 데이터를 생성한다.


In [4]:
import pandas as pd
from io import StringIO

csv_data = \
'''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''

df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [5]:
# numpy array 형태로 변환.
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

In [6]:
# fit_transform 메소드로 파이프라인을 활용한 변환을 수행한다.
transformed = num_pipeline.fit_transform(df.values)
print(transformed)

[[-1.1769647  -1.1769647  -1.22474487 -1.22474487]
 [-0.09053575 -0.09053575  0.          1.22474487]
 [ 1.26750044  1.26750044  1.22474487  0.        ]]


In [7]:
# 개별적인 파이프라인의 단계를 확인할 수 있다.
num_pipeline.steps

[('imputer', SimpleImputer(strategy='median')),
 ('std_scaler', StandardScaler())]

In [8]:
num_pipeline.steps[0]

('imputer', SimpleImputer(strategy='median'))

In [9]:
# 개별 변환단계의 일부 옵션 파라미터를 수정할 수 있다.
num_pipeline.set_params(imputer__strategy='mean')  # 결측치 대체 방법 변경한다.

0,1,2
,steps,"[('imputer', ...), ('std_scaler', ...)]"
,transform_input,
,memory,
,verbose,False

0,1,2
,missing_values,
,strategy,'mean'
,fill_value,
,copy,True
,add_indicator,False
,keep_empty_features,False

0,1,2
,copy,True
,with_mean,True
,with_std,True


In [10]:
transformed = num_pipeline.fit_transform(df.values)
print(transformed)

[[-1.1769647  -1.1769647  -1.22474487 -1.22474487]
 [-0.09053575 -0.09053575  0.          1.22474487]
 [ 1.26750044  1.26750044  1.22474487  0.        ]]


## iris 데이터셋을 활용한 실습
iris dataset을 표준화하고 로지스틱 회귀모형을 통해 분류 모형을 생성한다.
파이프라인을 사용하면 전처리에서 부터 모형 생성을 포함할 수 있다.

In [11]:
from sklearn import datasets
from sklearn.linear_model import LogisticRegression

iris = datasets.load_iris()
features = iris.data
target = iris.target

In [12]:
pipe = Pipeline([
                 ("std_scaler", StandardScaler()),
                 ("classifier", LogisticRegression())
])

iris 데이터셋을 훈련데이터와 테스트데이터 셋으로 분리하고 fit 메소드를 사용하면 모델을 훈련할 수 있다.

In [13]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    features, target, test_size =0.2, stratify=target)

model = pipe.fit(X_train, y_train)

훈련된 모형에 새로운 임의의 데이터를 적용하여 분류가 되는지 확인해 본다.

In [14]:
new_obs = [[0.5, 0.5, 0.5, 0.5]]
print(pipe.predict(new_obs))
print(pipe.predict_proba(new_obs)) # 분류확률값을 리턴함(뒤에서 배웁니다.)

[0]
[[9.66358197e-01 3.36411031e-02 6.99483467e-07]]


## 실습하기

1. 타이타닉 데이터 셋을 읽어 들인다.
```
import pandas as pd
titanic = pd.read_csv('https://raw.githubusercontent.com/aonekoda/reference/main/data/titanic.csv')
titanic.head()
```

2. 해당 데이터셋에 대해서 결측치를 median으로 대체하고, 스케일링을 수행하는 파이프라인을 생성해보시오.

In [16]:
import pandas as pd
titanic = pd.read_csv('https://raw.githubusercontent.com/aonekoda/reference/main/data/titanic.csv')
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [18]:
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

In [19]:
pipes = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('std_scaler', StandardScaler())
])

In [25]:
test_data = pipes.fit_transform(titanic.Age.values.reshape(-1,1))