## 그리드 서치 (Grid Search)와 교차검증 (Cross Validation) ##

GridSearchCV(estimator, param_grid, scoring, cv, refit)
* Estimator: classifier, regressor, pipeline등이 사용 될 수 있음
* Param_id (파라미터 딕셔너리), cv (교차 검증을 위해 분할되는 폴드 숫자)

In [None]:
from sklearn.datasets import load_iris 
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV 

iris = load_iris() 

# 매개변수 그리드 만들기
# C는 0.001, 0.01, 0.1, 1, 10, 100
# gamma는 0.001, 0.01, 0.1, 1, 10, 100
param_grid = {'C': [              ],
              'gamma': [            ]}
print("매개변수 그리드:\n", param_grid)

# GridSearchCV를 이용하여 교차검증 그리드 객체 만들기
# GridSearchCV(모델, 검색 대상 매개변수 그리드, cv=몇번 교차검증, return_train_score=True)
# 여기에서는 SVM 모델 (SVC)을 사용
grid_search =           (     , param_grid=param_grid, cv=2, return_train_score=True)

# 데이터 나누기 훈련/테스트
# train_test_split 함수 사용
X_train, X_test, y_train, y_test =            (iris.data, iris.target,random_state=0)

# 최적의 매개변수로 전체 훈련 데이터 세트에 대한 새로운 모델을 자동으로 생성
# fit 함수를 사용하여 어떠한 데이터를 사용하여 학습할 것인지 명시
grid_search.  (X_train, y_train)

# 최적 매개변수 (테스트 사용되지 않음)
print("최적 매개변수:", grid_search.best_params_)

# 최상의 교차 검증 정확도 (테스트 사용되지 않음)
print("최고 교차 검증 점수: {:.2f}".format(grid_search.best_score_))

# 최고 성능의 모델 구성 요소 확인
print("최고 성능 모델:\n", grid_search.best_estimator_)

# GridSearchCV 결과 추출하여 DataFrame으로 변환 
scores_df = pd.DataFrame(grid_search.cv_results_) 
scores_df[['params', 'mean_test_score', 'rank_test_score','split0_test_score', 'split1_test_score', 'split2_test_score']] 



매개변수 그리드:
 {'C': [0.001, 0.01, 0.1, 1, 10, 100], 'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}
최적 매개변수: {'C': 10, 'gamma': 0.1}
최고 교차 검증 점수: 0.97
최고 성능 모델:
 SVC(C=10, gamma=0.1)


랜덤 서치 (Random Search)
* 그리드 서치는 모든 경우를 테이블로 만든 뒤, 격자로 탐색하는 방식
* 랜덤 서치는 하이퍼 파라미터 값을 랜덤하게 넣어보고 그중 우수한 값을 보인 하이퍼 파리미터를 활용하여 모델 생성


랜덤 서치 (Random Search): RandomizedSearchCV 함수
* 그리드 서치와 유사한 사용법, n_iter (몇 번 반복하여 수행할 것인지를 명시)
* 각 반복마다 하이퍼 파리미터에 랜덤으로 대입하여 지정한 횟수만큼 평가
* 하이퍼 파라미터 탐색 공간이 커질 경우 사용하면 좋은 효과를 얻는 것 가능


In [None]:
from sklearn.datasets import load_iris 
from sklearn.tree import DecisionTreeClassifier 
from sklearn.model_selection import GridSearchCV 
from sklearn.model_selection import train_test_split
from sklearn.model_selection import RandomizedSearchCV
import pandas as pd

# 데이터를 로딩하고 학습데이타와 테스트 데이터 분리 
iris_data = load_iris() 
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.2, random_state=121) 
dtree = DecisionTreeClassifier() 

### parameter 들을 dictionary 형태로 설정 
parameters = {'max_depth':[1,2,3], 'min_samples_split':[2,3]} 

# param_grid의 하이퍼 파라미터들을 3개의 train, test set fold 로 나누어서 테스트 수행 설정. 
### refit=True 가 default 임. True이면 가장 좋은 파라미터 설정으로 재 학습 시킴. 
grid_dtree =            (       ,        , n_iter=10, cv=3) #폴드의 수는 3개, refit는 true로 학습

# 붓꽃 Train 데이터로 param_grid의 하이퍼 파라미터들을 순차적으로 학습/평가 
grid_dtree.   (X_train, y_train) 

# GridSearchCV 결과 추출하여 DataFrame으로 변환 
scores_df = pd.DataFrame(grid_dtree.cv_results_) 
scores_df[['params', 'mean_test_score', 'rank_test_score','split0_test_score', 'split1_test_score', 'split2_test_score']] 




Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'min_samples_split': 2, 'max_depth': 1}",0.7,5,0.7,0.7,0.7
1,"{'min_samples_split': 3, 'max_depth': 1}",0.7,5,0.7,0.7,0.7
2,"{'min_samples_split': 2, 'max_depth': 2}",0.958333,3,0.925,1.0,0.95
3,"{'min_samples_split': 3, 'max_depth': 2}",0.958333,3,0.925,1.0,0.95
4,"{'min_samples_split': 2, 'max_depth': 3}",0.975,1,0.975,1.0,0.95
5,"{'min_samples_split': 3, 'max_depth': 3}",0.975,1,0.975,1.0,0.95


GridSearchCV의 fit을 수행하면, 최고 성능의 하이퍼 파라미터와 그때의 평가 결과 값은 best_params_, best_score_ 속성에 기록
* 최적의 성능을 보여주는 파라미터로 학습된 estimator는 best_estimator_로 저장되어 있음 (refit=True)
* Predict 함수를 수행하여 특정 데이터 셋에 대한 평가를 진행하고, accuracy_score를 통해 정확도 확인 !


In [None]:
from sklearn.metrics import accuracy_score

print('GridSearchCV 최적 파라미터:', grid_dtree.?)
print('GridSearchCV 최고 정확도: {0:.4f}'.format(grid_dtree.?))

# GridSearchCV의 refit으로 이미 학습이 된 estimator 반환
estimator = ?

# GridSearchCV의 best_estimator_는 이미 최적 하이퍼 파라미터로 학습이 됨
pred = estimator.?(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(?(y_test,pred)))

