In [1]:
# scikit-Learn 파이프라인 코드
## train set와 test set의 데이터 손실 회피
## 교차 검증 및 모델 선택 유형을 획일화
## 재현성 증가

In [2]:
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

In [3]:
# example data iris setting
iris = load_iris()
 
X = iris.data
y = iris.target

In [4]:
# 변수 선택
feat_sel = SelectKBest(f_classif, k=2)
X_selected = feat_sel.fit_transform(X, y)
print('선택된 변수 :', feat_sel.get_feature_names_out())
print()

선택된 변수 : ['x2' 'x3']



In [5]:
# 표준화
scaler = StandardScaler()
scaler.fit(X_selected)
X_transformed = scaler.transform(X_selected)
print(X_transformed[:5, :])
print()

[[-1.34022653 -1.3154443 ]
 [-1.34022653 -1.3154443 ]
 [-1.39706395 -1.3154443 ]
 [-1.2833891  -1.3154443 ]
 [-1.34022653 -1.3154443 ]]



In [6]:
# 모델학습
clf = DecisionTreeClassifier(max_depth=3)
clf.fit(X_transformed, y)
print('예측 : ', clf.predict(X_transformed)[:3])
print('학습 정확도 : ', clf.score(X_transformed, y))

예측 :  [0 0 0]
학습 정확도 :  0.9733333333333334


In [7]:
# use pipeline 
## pipeline([('WORK1_NAME', WORK1_CLASS), ('WORK1_NAME', WORK1_CLASS)..])

In [13]:
## 작업등록 (set WORK_NAME ver)

pipeline = Pipeline([('Feature_Selection', SelectKBest(f_classif, k=2)), ## 변수 선택
 ('Standardization', StandardScaler()),  ## 표준화
 ('Decision_Tree', DecisionTreeClassifier(max_depth=3)) ## 학습 모델
])
 
pipeline.fit(X, y) ## 모형 학습
print(pipeline.predict(X)[:3]) ## 예측
print(pipeline.score(X, y)) ## 성능 평가

[0 0 0]
0.9733333333333334


In [14]:
## 작업등록 (set WORK_NAME AUTO)

# pipeline = make_pipeline(SelectKBest(f_classif, k=2), 
#               StandardScaler(), 
#               DecisionTreeClassifier(max_depth=3))
# pipeline
# pipeline.fit(X, y) ## 모형 학습
# print(pipeline.predict(X)[:3]) ## 예측
# print(pipeline.score(X, y)) ## 성능 평가

In [16]:
# 중간 결과

## 중간 결과 보기 - 인덱스를 이용한 방법
## 선택된 변수 보기
print('선택된 변수 :', pipeline[0].get_feature_names_out())
print()
## 표준화가 잘되었는지 확인하기
var_selected = pipeline[0].get_feature_names_out()
X_selected = X[:,[int(x.replace('x','')) for x in var_selected]]
X_transformed = pipeline[1].transform(X_selected)
print(X_transformed[:5, :])

선택된 변수 : ['x2' 'x3']

[[-1.34022653 -1.3154443 ]
 [-1.34022653 -1.3154443 ]
 [-1.39706395 -1.3154443 ]
 [-1.2833891  -1.3154443 ]
 [-1.34022653 -1.3154443 ]]


In [17]:
## 중간 결과 보기 - named_steps 이용한 방법
## 선택된 변수 보기
print('선택된 변수 :', pipeline.named_steps['Feature_Selection'].get_feature_names_out())
print()
## 표준화가 잘되었는지 확인하기
var_selected = pipeline.named_steps['Feature_Selection'].get_feature_names_out()
X_selected = X[:,[int(x.replace('x','')) for x in var_selected]]
X_transformed = pipeline.named_steps['Standardization'].transform(X_selected)
print(X_transformed[:5, :])

선택된 변수 : ['x2' 'x3']

[[-1.34022653 -1.3154443 ]
 [-1.34022653 -1.3154443 ]
 [-1.39706395 -1.3154443 ]
 [-1.2833891  -1.3154443 ]
 [-1.34022653 -1.3154443 ]]
