<a href="https://colab.research.google.com/github/ChoiJMS2/Colab_Study/blob/main/pipeline_example.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# 필요한 라이브러리 불러오기
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

## 붓꽃 데이터 준비
iris = load_iris()  # 붓꽃 데이터 불러오기

X = iris.data  # 데이터에서 특징 변수를 X에 할당
y = iris.target  # 데이터에서 목적 변수를 y에 할당

## 변수 선택
feat_sel = SelectKBest(f_classif, k=2)  # f_classif 방법으로 k=2개 변수 선택
X_selected = feat_sel.fit_transform(X, y)  # 선택된 변수를 X_selected에 할당
print('선택된 변수 :', feat_sel.get_feature_names_out())  # 선택된 변수 이름 출력
print()

## 표준화
scaler = StandardScaler()  # StandardScaler() 객체 생성
scaler.fit(X_selected)  # X_selected 데이터에 맞게 표준화를 적합
X_transformed = scaler.transform(X_selected)  # 표준화된 데이터를 X_transformed에 할당
print(X_transformed[:5, :])  # 처음 5개 샘플의 표준화된 데이터 출력
print()

## 모델 학습
clf = DecisionTreeClassifier(max_depth=3)  # 최대 깊이가 3인 의사결정나무 모델 생성
clf.fit(X_transformed, y)  # 모델 적합
print('예측 : ', clf.predict(X_transformed)[:3])  # 처음 3개 샘플에 대한 예측 결과 출력
print('학습 정확도 : ', clf.score(X_transformed, y))  # 모델의 학습 정확도 출력

선택된 변수 : ['x2' 'x3']

[[-1.34022653 -1.3154443 ]
 [-1.34022653 -1.3154443 ]
 [-1.39706395 -1.3154443 ]
 [-1.2833891  -1.3154443 ]
 [-1.34022653 -1.3154443 ]]

예측 :  [0 0 0]
학습 정확도 :  0.9733333333333334


In [2]:
## 작업 등록
pipeline = Pipeline([('Feature_Selection', SelectKBest(f_classif, k=2)), # 변수 선택
 ('Standardization', StandardScaler()),  # 표준화
 ('Decision_Tree', DecisionTreeClassifier(max_depth=3)) # 학습 모델
])
 
pipeline.fit(X, y) # 모형 학습
print(pipeline.predict(X)[:3]) # 예측
print(pipeline.score(X, y)) # 성능 평가

[0 0 0]
0.9733333333333334


In [3]:
pipeline = make_pipeline(SelectKBest(f_classif, k=2), 
              StandardScaler(), 
              DecisionTreeClassifier(max_depth=3))
pipeline

In [4]:
## 중간 결과 보기 - 인덱스를 이용한 방법
## 선택된 변수 보기
var_selected = pipeline[0].fit_transform(X, y)  # 파이프라인의 첫 번째 단계인 FeatureSelection을 적용한 후 선택된 변수들만 추출
print('선택된 변수 :', pipeline[0].get_feature_names_out())  # FeatureSelection으로 선택된 변수들의 이름 출력
print()
## 표준화가 잘되었는지 확인하기
var_selected = pipeline[0].get_feature_names_out()
X_selected = X[:,[int(x.replace('x','')) for x in var_selected]]  # 선택된 변수들의 인덱스를 이용해 X에서 해당 변수들만 추출
X_transformed = pipeline[1].fit_transform(X_selected)  # 파이프라인의 두 번째 단계인 StandardScaler를 이용해 데이터 표준화
print(X_transformed[:5, :])  # 표준화된 데이터의 처음 5개 행 출력

선택된 변수 : ['x2' 'x3']

[[-1.34022653 -1.3154443 ]
 [-1.34022653 -1.3154443 ]
 [-1.39706395 -1.3154443 ]
 [-1.2833891  -1.3154443 ]
 [-1.34022653 -1.3154443 ]]


In [5]:
pipeline.named_steps

{'selectkbest': SelectKBest(k=2),
 'standardscaler': StandardScaler(),
 'decisiontreeclassifier': DecisionTreeClassifier(max_depth=3)}

In [6]:
## 중간 결과 보기 - named_steps 이용한 방법
## 선택된 변수 보기
var_selected = pipeline.named_steps['selectkbest'].fit_transform(X, y)  # 파이프라인의 selectkbest 단계를 적용한 후 선택된 변수들만 추출
print('선택된 변수 :', pipeline.named_steps['selectkbest'].get_feature_names_out())  # selectkbest 단계에서 선택된 변수들의 이름 출력
print()

## 표준화가 잘되었는지 확인하기
var_selected = pipeline.named_steps['selectkbest'].get_feature_names_out()  # selectkbest 단계에서 선택된 변수들의 이름 추출
X_selected = X[:,[int(x.replace('x','')) for x in var_selected]]  # 선택된 변수들의 인덱스를 이용해 X에서 해당 변수들만 추출
X_transformed = pipeline.named_steps['standardscaler'].transform(X_selected)  # 파이프라인의 StandardScaler 단계를 이용해 데이터 표준화
print(X_transformed[:5, :])  # 표준화된 데이터의 처음 5개 행 출력

선택된 변수 : ['x2' 'x3']

[[-1.34022653 -1.3154443 ]
 [-1.34022653 -1.3154443 ]
 [-1.39706395 -1.3154443 ]
 [-1.2833891  -1.3154443 ]
 [-1.34022653 -1.3154443 ]]
