In [2]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report
iris = datasets.load_iris() #iris 데이터를 불러옴

In [3]:
# iris 데이터 셑을 학습용과 검증용 데이터 셑으로 나눔
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2222)

#### 전처리 과정 : 파이프라인을 사용하지 않는 경우

In [5]:
#표준정규분포로 스케일링
sc = StandardScaler()
X_train_sc = sc.fit_transform(X_train)
X_test_sc = sc.transform(X_test)

svc = SVC(kernel='poly', C = 3, degree = 3).fit(X_train_sc, y_train) #SVM모델로 모델링
y_pred = svc.predict(X_test_sc) #예측

print("정확도", accuracy_score(y_test, y_pred))
print("classification report")
print(classification_report(y_test, y_pred))

정확도 0.9555555555555556
classification report
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        13
           1       0.88      1.00      0.94        15
           2       1.00      0.88      0.94        17

    accuracy                           0.96        45
   macro avg       0.96      0.96      0.96        45
weighted avg       0.96      0.96      0.96        45



#### 파이프라인을 사용하는 경우

In [6]:
from sklearn.pipeline import Pipeline

pipe = Pipeline([('scaler', StandardScaler()), ('model', SVC(kernel='poly', C = 3, degree = 3))])
pipe.fit(X_train, y_train)
y_pred = pipe.predict(X_test)

print("정확도", accuracy_score(y_test, y_pred))
print("classification report")
print(classification_report(y_test, y_pred))

정확도 0.9555555555555556
classification report
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        13
           1       0.88      1.00      0.94        15
           2       1.00      0.88      0.94        17

    accuracy                           0.96        45
   macro avg       0.96      0.96      0.96        45
weighted avg       0.96      0.96      0.96        45



In [None]:
# 파이프라인 적용 유무에 따른 결과의 차이는 없음(당연히)
# 파이프라인을 사용하면, 머신러닝하는 여러 단계를 하나로 연결할 수 있어, 편리하게 사용가능
# 더 중요한 이유는? : 대형 데이터베이스를 사용하는 경우가 아닐까? (250408)

In [None]:
# 출처 : https://step-by-step-digital.tistory.com/148

# 데이터셋을 받았을 때, EDA를 한 후 어떤 데이터가 어떤 타입인지 확인을 하고 그에 맞는 변환 처리를 해줍니다. 
# 결측치처리, outlier처리, 스케일링, 원핫인코딩, 라벨인코딩 등의 과정을 거쳐야합니다. 
# 데이터의 특성과 목적에 맞게 변환을 해주어야 올바른 모델 성능이 나옵니다. 
# 그리고 보통의 데이터들은 문자 숫자가 섞여있고 깔끔하게 정제되어 있는 경우가 거의 없습니다. 그렇기 때문에 받을 때마다 전처리를 해야합니다. 
# 또한 모델 구축할 때 알맞은 파라미터를 찾기 위해 그리드 서치 기법을 사용하면서 모델 구축 및 하이퍼파라미터 튜닝까지 파이프라인에 태울 수 있습니다. 
 
# Pipeline은 데이터 전처리 및 모델 구축 과정에서 여러 단계를 순차적으로 처리하는 데 사용되는 유용한 도구입니다. 
# 파이프라인을 사용하면 좋은 점은 코드가 간결해지며, 
# 다른 데이터셋이나 환경에서 재사용성이 가능해지며, 
# 반복적인 작업을 줄일 수 있어 생산성이 향상됩니다.

![alt text](image.png)

In [None]:
# 데이터 타입별로 어떤 전처리 방식을 사용해야하는지 알아야함
# 사용자 정의 함수도 파이프라인에 넣을 수 있음
# 전처리 과정을 한 번에 파이프라인으로 구축할 수 있고
# 모델 생성과 튜닝까지도 파이프라인에 넣을 수 있음

# 원-핫 인코딩할 때, handle_unknown 처리해야함
# -> 그래야 학습 데이터 이후 새로운 데이터가 들어갈 때, 0으로 변환되어 데이터 값이 변하지 않음


# pipeline을 사용하여 전처리를 하면 inverse_transform을 사용할 수 없음
# -> FunctionTransform을 사용한다.

'''
# FunctionTransform: inverse_func 적용

'''