In [2]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

# 데이터 로드
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

# 파이프라인 구성
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # 데이터 스케일링
    ('knn', KNeighborsClassifier(n_neighbors=3))  # KNN 분류기
])

param_grid = {
    'knn__n_neighbors': [3, 5, 7],
    'knn__weights': ['uniform', 'distance']
}

grid_search = GridSearchCV(pipeline, param_grid, cv=5)
grid_search.fit(X_train, y_train)
print(f"최적의 하이퍼파라미터: {grid_search.best_params_}")


최적의 하이퍼파라미터: {'knn__n_neighbors': 3, 'knn__weights': 'uniform'}


In [3]:
# 데이터 로드 및 분할
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

# 파이프라인 구성
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # 공통 전처리 단계
    ('classifier', KNeighborsClassifier())  # 기본 분류기 (추후 교체 가능)
])

# 여러 분류기 및 하이퍼파라미터 설정
param_grid = [
    {
        'classifier': [KNeighborsClassifier()],
        'classifier__n_neighbors': [3, 5, 7]
    },
    {
        'classifier': [SVC()],
        'classifier__C': [0.1, 1, 10],
        'classifier__kernel': ['linear', 'rbf']
    },
    {
        'classifier': [RandomForestClassifier()],
        'classifier__n_estimators': [50, 100],
        'classifier__max_depth': [None, 10, 20]
    }
]

# GridSearchCV로 분류기 비교
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

print(f"최적의 분류기: {grid_search.best_params_}")
print(f"테스트 정확도: {grid_search.score(X_test, y_test):.2f}")


최적의 분류기: {'classifier': SVC(), 'classifier__C': 0.1, 'classifier__kernel': 'linear'}
테스트 정확도: 1.00
