## 그리드 서치 (Grid Search) ##

모든 경우의 수에 해당되는 파라미터를 for문을 사용하여 입력이 되는 형태로 구현

In [None]:
from sklearn.datasets import load_iris
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split

# iris 데이터 셋을 사용하여 진행 (데이터 로드 및 데이터셋 분리)
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=0)
best_score = 0 # 가장 스코어가 좋은 경우를 저장하는 변수

# 반복문을 사용하여 구현
# 반복문에 해당되는 Configuration을 SVC에 대입하고, 결과를 비교하여 가장 좋은 경우를 찾음
# gamma와 C는 각각 리스트 형태로 저장: gamma [0.001, 0.01, 0.1, 1, 10, 100], C [0.001, 0.01, 0.1, 1, 10, 100]
for gamma in  
    for C in  
        svm = SVC(gamma=gamma, C=C)
        svm.fit(X_train, y_train)
        score = svm.score(X_test, y_test)
        
        # 계산된 스코어 (score)와 이전의 스코어 (best_score)를 비교하여 최적의 방법을 선택
        if 
            
            best_parameters = {'C': C, 'gamma': gamma}
print("최고 점수: {:.2f}".format(best_score))
print("최적 매개변수: {}".format(best_parameters))


최고 점수: 0.97
최적 매개변수: {'C': 100, 'gamma': 0.001}


GridSearchCV 함수는  그리드 서치를 사용하여 자동으로 복수개의 모형을 생성/실행하여 최적의 파라미터 탐색
* Model estimator, 그리드 파라미터 (param_grid), 교차 검증을 위해 분할되는 폴드 수 (cv), 평가방법 (scoring)
* 모든 경우의 수에 해당되는 파라미터를 dictionary 형태로 구현


In [None]:
from sklearn.datasets import load_iris 
from sklearn.tree import DecisionTreeClassifier 
from sklearn.model_selection import GridSearchCV 
from sklearn.model_selection import train_test_split
import pandas as pd

# 데이터를 로딩하고 학습데이타와 테스트 데이터 분리 
iris_data = load_iris() 
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.2, random_state=121) 
dtree = DecisionTreeClassifier() 

### parameter 들을 dictionary 형태로 설정 
parameters = {'max_depth':[1,2,3], 'min_samples_split':[2,3]} 

# param_grid의 하이퍼 파라미터들을 3개의 train, test set fold 로 나누어서 테스트 수행 설정. 
### refit=True 가 default 임. True이면 가장 좋은 파라미터 설정으로 재 학습 시킴. 
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True, n_jobs=4) 

# 붓꽃 Train 데이터로 param_grid의 하이퍼 파라미터들을 순차적으로 학습/평가 
grid_dtree.fit(X_train, y_train) 

# GridSearchCV 결과 추출하여 DataFrame으로 변환 
scores_df = pd.DataFrame(grid_dtree.cv_results_) 
scores_df
#scores_df[['params', 'mean_test_score', 'rank_test_score', 'split0_test_score', 'split1_test_score', 'split2_test_score']] 


Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_max_depth,param_min_samples_split,params,split0_test_score,split1_test_score,split2_test_score,mean_test_score,std_test_score,rank_test_score
0,0.001092,0.00098,0.000368,0.000187,1,2,"{'max_depth': 1, 'min_samples_split': 2}",0.7,0.7,0.7,0.7,1.110223e-16,5
1,0.001025,0.000936,0.000372,0.0002,1,3,"{'max_depth': 1, 'min_samples_split': 3}",0.7,0.7,0.7,0.7,1.110223e-16,5
2,0.000361,3.1e-05,0.000206,1.1e-05,2,2,"{'max_depth': 2, 'min_samples_split': 2}",0.925,1.0,0.95,0.958333,0.03118048,3
3,0.000322,4e-06,0.000192,4e-06,2,3,"{'max_depth': 2, 'min_samples_split': 3}",0.925,1.0,0.95,0.958333,0.03118048,3
4,0.00107,0.000942,0.000388,0.000257,3,2,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1.0,0.95,0.975,0.02041241,1
5,0.000355,1.2e-05,0.000198,6e-06,3,3,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1.0,0.95,0.975,0.02041241,1


GridSearchCV의 fit을 수행하면, 최고 성능의 하이퍼 파라미터와 그때의 평가 결과 값은 best_params_, best_score_ 속성에 기록
* 최적의 성능을 보여주는 파라미터로 학습된 estimator는 best_estimator_로 저장되어 있음 (refit=True)
* Predict 함수를 수행하여 특정 데이터 셋에 대한 평가를 진행하고, accuracy_score를 통해 정확도 확인 !


In [None]:
from sklearn.metrics import accuracy_score

print('GridSearchCV 최적 파라미터 : ', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도 : {0:.4f}'.format(grid_dtree.best_score_))

# GridSearchCV의 refit으로 이미 학습이 된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 하이퍼 파라미터로 학습이 됨
pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도 :', accuracy_score(y_test, pred))

GridSearchCV 최적 파라미터 :  {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도 : 0.9750
테스트 데이터 세트 정확도 : 0.9666666666666667
