In [4]:
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier, ExtraTreesClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from catboost import CatBoostClassifier
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

In [5]:
# 데이터 로드 및 분할
data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)


In [6]:
# 파이프라인 구성: 스케일링 + 분류기
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # 데이터 표준화 (모든 모델에 적용)
    ('classifier', RandomForestClassifier())  # 기본 분류기 (랜덤 포레스트)
])

# 하이퍼파라미터 그리드 설정 (10개 모델)
param_grid = [
    # RandomForestClassifier에 대한 하이퍼파라미터 그리드
    {
        'classifier': [RandomForestClassifier()],
        'classifier__n_estimators': [50, 100, 200],
        'classifier__max_depth': [10, 20, None],
        'classifier__min_samples_split': [2, 5]
    },
    # CatBoostClassifier에 대한 하이퍼파라미터 그리드
    {
        'classifier': [CatBoostClassifier(verbose=0)],
        'classifier__iterations': [100, 200],
        'classifier__depth': [6, 8, 10],
        'classifier__learning_rate': [0.01, 0.1]
    },
    # LightGBMClassifier에 대한 하이퍼파라미터 그리드
    {
        'classifier': [LGBMClassifier()],
        'classifier__n_estimators': [100, 200],
        'classifier__num_leaves': [31, 50],
        'classifier__learning_rate': [0.01, 0.1]
    },
    # XGBoostClassifier에 대한 하이퍼파라미터 그리드
    {
        'classifier': [XGBClassifier(use_label_encoder=False, eval_metric='logloss')],
        'classifier__n_estimators': [100, 200],
        'classifier__max_depth': [3, 5, 7],
        'classifier__learning_rate': [0.01, 0.1]
    },
    # LogisticRegression에 대한 하이퍼파라미터 그리드
    {
        'classifier': [LogisticRegression()],
        'classifier__penalty': ['l2'],
        'classifier__C': [0.1, 1, 10]
    },
    # KNeighborsClassifier에 대한 하이퍼파라미터 그리드
    {
        'classifier': [KNeighborsClassifier()],
        'classifier__n_neighbors': [3, 5, 7],
        'classifier__weights': ['uniform', 'distance']
    },
    # GradientBoostingClassifier에 대한 하이퍼파라미터 그리드
    {
        'classifier': [GradientBoostingClassifier()],
        'classifier__n_estimators': [100, 200],
        'classifier__max_depth': [3, 5],
        'classifier__learning_rate': [0.01, 0.1]
    },
    # AdaBoostClassifier에 대한 하이퍼파라미터 그리드
    {
        'classifier': [AdaBoostClassifier()],
        'classifier__n_estimators': [50, 100],
        'classifier__learning_rate': [0.01, 0.1]
    },
    # ExtraTreesClassifier에 대한 하이퍼파라미터 그리드
    {
        'classifier': [ExtraTreesClassifier()],
        'classifier__n_estimators': [100, 200],
        'classifier__max_depth': [10, 20, None]
    },
    # DecisionTreeClassifier에 대한 하이퍼파라미터 그리드
    {
        'classifier': [DecisionTreeClassifier()],
        'classifier__max_depth': [10, 20, None],
        'classifier__min_samples_split': [2, 5, 10]
    }
]


In [7]:

# 그리드 서치 실행 (교차 검증 포함)
grid_search = GridSearchCV(pipeline, param_grid, cv=5, n_jobs=-1, verbose=2)
grid_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터 출력
print("Best parameters found: ", grid_search.best_params_)
print("Best cross-validation score: {:.2f}".format(grid_search.best_score_))

# 최적 모델로 테스트 세트에 대한 성능 평가
best_model = grid_search.best_estimator_
accuracy = best_model.score(X_test, y_test)
print(f"Test set accuracy: {accuracy:.2f}")

Fitting 5 folds for each of 86 candidates, totalling 430 fits
Best parameters found:  {'classifier': LogisticRegression(), 'classifier__C': 1, 'classifier__penalty': 'l2'}
Best cross-validation score: 0.98
Test set accuracy: 0.97


  _data = np.array(data, dtype=dtype, copy=copy,
