# sklearn_pipeline
- 사이킷런의 Pipeline 클래스는 연속된 변환을 순차적으로 처리할 수 있는 기능을 제공하는 유용한 래퍼(Wrapper) 도구

In [8]:
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

#### sklearn에서 제공하는 스케일링 종류 
- StandardScaler : 기본 스케일. 평균과 표준편차 사용
- MinMaxScaler : 최대/최소값이 각각 1, 0이 되도록 스케일링
- MaxAbsScaler : 최대절대값과 0이 각각 1, 0이 되도록 스케일링
- RobustScaler : 중앙값(median)과 IQR(interquartile range) 사용. 아웃라이어의 영향을 최소화

In [9]:
# 데이터셋 로드 
raw_boston = datasets.load_boston() 

X = raw_boston.data
y = raw_boston.target

# train / test 데이터 분할
X_tn, X_te, y_tn, y_te = train_test_split(X,y,random_state=7)

# 표준화 스케일링
std_scale = StandardScaler()
X_tn_std = std_scale.fit_transform(X_tn)
X_te_std  = std_scale.transform(X_te)

# 학습
clf_linear =  LinearRegression()
clf_linear.fit(X_tn_std, y_tn)

# 예측
pred_linear = clf_linear.predict(X_te_std)

# 평가
mean_squared_error(y_te, pred_linear)

29.515137790197567

###  파이프라인 (Pipeline) 적용

In [10]:
# train / test 데이터 분할
X_tn, X_te, y_tn, y_te = train_test_split(X,y,random_state=7)

# 파이프라인 (Pipeline)
linear_pipline = Pipeline([
    ('scaler',StandardScaler()), 
    ('linear_regression', LinearRegression()) 
])

# 학습
linear_pipline.fit(X_tn, y_tn)

# 예측
pred_linear = linear_pipline.predict(X_te)

# 평가
mean_squared_error(y_te, pred_linear)

29.515137790197567