SVM의 하이퍼파라미터 최적화 - 랜덤 서치 실습

In [1]:
from sklearn.model_selection import RandomizedSearchCV
from sklearn.svm import SVC
from scipy.stats import loguniform

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

데이터 로드

In [2]:
# 데이터 로드
digits = load_digits()

# 독립변수, 종속 변수 데이터 지정
X = digits.data
y = digits.target

# 훈련 데이터, 테스트 데이터 분리 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [4]:
# SVM 모델 생성
svm_model = SVC()


# 탐색할 하이퍼파라미터 공간 
params = {
    'C' : loguniform(1e-4, 100),
    'kernel' : ['linear', 'poly','rbf', 'sigmoid'],
    'gamma' : ['scale', 'auto'] + list(loguniform(1e-4, 10).rvs(10)),
    'degree' : range(1, 6),
    'coef0' : loguniform(1e-4, 10).rvs(10),
}

# 랜덤 서치 객체 생성 
random_search = RandomizedSearchCV(svm_model, params, n_iter=100, cv=5, verbose=2, n_jobs=-1)

# 랜덤 서치 수행 
random_search.fit(X_train, y_train)

# 최적 하이퍼 파라미터 출력
print("Best hyperparameters: ", random_search.best_params_)

Fitting 5 folds for each of 100 candidates, totalling 500 fits
Best hyperparameters:  {'C': 18.45014025130403, 'coef0': 0.0936060650204109, 'degree': 3, 'gamma': 0.0008534597446094079, 'kernel': 'rbf'}


In [5]:
# 최적 모델 저장
best_model = random_search.best_estimator_

# 테스트 데이터에 대한 예측 수행 
y_pred = best_model.predict(X_test)

#정확도 출력
print("Test accuracy: ", accuracy_score(y_test, y_pred))

Test accuracy:  0.9888888888888889
