##### 그리드 서치 격자처럼 해놓고 최적화된 것을 찾는 방법
##### sklearn.model_selection.GridSearchCV
##### (estimator, param_grid, *, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', error_score=nan, return_train_score=False)
##### #verbose는 수다쟁이

In [9]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split


#### train_test_splittrain
#### arrays : 분할시킬 데이터를 입력 (Python list, Numpy array, Pandas dataframe 등..)

#### test_size : 테스트 데이터셋의 비율(float)이나 갯수(int) (default = 0.25)

#### train_size : 학습 데이터셋의 비율(float)이나 갯수(int) (default = test_size의 나머지)

#### random_state : 데이터 분할시 셔플이 이루어지는데 이를 위한 시드값 (int나 RandomState로 입력)

#### shuffle : 셔플여부설정 (default = True)

#### 예를 들어, Label Set인 Y가 25%의 0과 75%의 1로 이루어진 Binary Set일 때, stratify=Y로 설정하면 나누어진 데이터셋들도 0과 1을 각각 25%, 75%로 유지한 채 분할된다.


In [3]:
#e데이터를 로딩하고 학습데이터와 테스트 데이터 분리
iris_data =load_iris()

X_train,X_test , y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                    test_size=0.2, random_state=121)  #테스트 비율 2:8, random_state해서 지정

dtree = DecisionTreeClassifier() #

parameters={'max_depth':[1,2,3],'min_samples_split':[2,3]} # 총 여섯번의 학습/평가

In [4]:
import pandas as pd

grid_dtree =GridSearchCV(dtree,param_grid=parameters,cv=3,refit=True)

grid_dtree.fit(X_train,y_train)

scores_df=pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params','mean_test_score','rank_test_score','split0_test_score',
           'split1_test_score','split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


In [5]:
print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_) #best_params는 최적 파라미터 찾는 거
print('GridSearchCV 최고 정확도: {0:4f}'.format(grid_dtree.best_score_)) #최고 정확도 찾는 거

GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도: 0.975000


In [8]:
from sklearn.metrics import accuracy_score



estimator=grid_dtree.best_estimator_    #GridSearchCV의 refit 으로 이미 학습이 된 etimator 반환
                                        #GridSearchCV의 best_estimator_는 이미 최적 하이퍼 파라미터로 학습이 됨.

pred=estimator.predict(X_test)
print('테스트 데이터 세트정확도:{0:.4f}'.format(accuracy_score(y_test,pred)))

테스트 데이터 세트정확도:0.9667
