## SVM의 하이퍼파라미터 최적화 - 그리드 서치
SVM에서 사용하는 하이퍼파라미터들은 모델의 성능과 결과에 큰 영향을 미친다. 하이퍼파라미터를 잘 선택하면 모델의 성능을 높일 수 있지만, 이를 선택하는 것은 어려운 일이다. 이 때문에 SVM 모델에서는 하이퍼파라미터를 선택하는 과정을 자동화하는 방법인 그리드 서치를 사용한다.<br>
그리드 서치는 SVM 모델에서 사용하는 하이퍼파라미터들의 모든 조합을 시도하며, 최적의 조합을 찾아내는 방법이다. 그리드서치를 수행할 때는 모든 하이퍼파라미터 조합을 시도하기 때문에 시간이 많이 소요된다. 따라서 그리드 서치는 하이퍼파라미터 공간을 충분히 탐색하면서도 연산 비용을 최소화하는 것이 중요하다. 이를 위해 scikit-learn 패키지에서는 GridSearcCV 클래스를 제공한다. 이 클래스를 사용하면 하이퍼파라미터 공간을 적절히 설정하고, 교차 검증을 사용하여 모델의 성능을 측정하고, 최적의 하이퍼파라미터 조합을 찾아낼 수 있다.

# Scikit-learn 이용하여 SVM 모델의 최적 하이퍼파라미터 찾기

In [3]:
import numpy as np
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

## GridSearchCV SVM 모델 최적 하이퍼파라미터 찾기

In [4]:
# 데이터 생성
rng = np.random.RandomState(0)
x = rng.randn(100, 10)
y = rng.binomial(1, 0.5, 100)

먼저 100개의 샘플과 10개의 특성을 가지는 랜덤한 데이터셋을 생성한다.

In [5]:
# 파이프라인 생성
svm_pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('svm', SVC())
])

StandardScaler를 사용하여 데이터를 스케일링하고, SVM 모델을 사용하기 위해 파이프라인을 구성한다.

In [8]:
# 탐색할 하이퍼파라미터 그리그 생성
param_grid = {
    'svm__C' : [0.1, 1, 10],
    'svm__kernel' : ['linear', 'rbf'],
    'svm__gamma' : ['scale', 'auto']
}

탐색할 하이퍼파라미터 그리드를 정의한다.<br>
- C : 0.1, 1, 10의 값을 가짐
- kernel : 'linear', 'rbf' 두 가지 사용
- gamma : 'scale', 'auto' 두 가지 사용

### 그리드 서치 수행

In [11]:
grid_search = GridSearchCV(svm_pipeline, param_grid, cv=5)
grid_search.fit(x, y)

그리드 서치 수행. 5-fold 교차검증을 사용하며, 최적의 파라미터와 최고 성능을 출력한다.

###  최적 하이퍼 파라미터와 최고 성능 출력

In [12]:
print("Best parameters : ", grid_search.best_params_)
print("Best cross-validation score : ", grid_search.best_score_)

Best parameters :  {'svm__C': 0.1, 'svm__gamma': 'scale', 'svm__kernel': 'rbf'}
Best cross-validation score :  0.5799999999999998
