In [24]:
#2021.06.17. THUR
#Hankyeong

#00. 패키지 호출
from sklearn.datasets import load_iris 
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_validate
from sklearn.model_selection import cross_val_score 
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
import pandas as pd 
import numpy as np 

#PLUS. train, test 데이터셋을 분리하지 않고 머신러닝을 수행할 경우
#(1) 데이터셋 불러오기. 
iris = load_iris()

#(2) 모델 설정하기. 
dt_clf = DecisionTreeClassifier()

#(3) 학습 수행하기. 
dt_clf.fit(iris.data, iris.target)

DecisionTreeClassifier()

In [6]:
#(4) 예측된 값으로 정확도 평가하기. 
pred = dt_clf.predict(iris.data)
score = accuracy_score(iris.target,pred)
score

1.0

In [7]:
#MEMO. 정확도 점수가 1에 가까운 것은 일반화성능이 떨어지고 과적합이 발생했다는 것을 의미함.
#      단, 여기서는 데이터셋을 분리하지 않았으므로 해당 머신러닝 과정은 아무 의미 없음.  

In [15]:
#11. corss_validate() 메서드를 이용해 train 데이터셋에서 k-fold 교차검증(Cross-validation)하기. 
#(1) 모델 지정하기. 
dtc = DecisionTreeClassifier() 

#(2) train, test 데이터셋 분할하기. 
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)

#(3) k값을 5으로 지정해 모형을 교차검증하기. 
cross_validate(dtc, X_train, y_train, cv=5) 

{'fit_time': array([0.00099707, 0.        , 0.        , 0.        , 0.        ]),
 'score_time': array([0., 0., 0., 0., 0.]),
 'test_score': array([0.91666667, 0.91666667, 0.95833333, 0.95833333, 0.91666667])}

In [None]:
#MEMO. 여기서 test_score는 test 데이터셋에 대한 검증이 아니라 검증용 데이터셋에 대한 점수를 의미함.

In [16]:
#PLUS. train_score도 보고싶은 경우, return_train_score 파라미터도 지정하면 됨. 
cross_validate(dtc, X_train, y_train, cv=5, return_train_score=True) 

{'fit_time': array([0.0059917 , 0.00098586, 0.00099707, 0.00100827, 0.00098658]),
 'score_time': array([0., 0., 0., 0., 0.]),
 'test_score': array([0.91666667, 0.91666667, 0.95833333, 0.95833333, 0.91666667]),
 'train_score': array([1., 1., 1., 1., 1.])}

In [17]:
#12. train, test 데이터셋을 stratifiy하게 분할하기. 
#(1) y_test의 빈도 확인하기. 
df= pd.DataFrame(y_test)
df.value_counts()

0    12
1    10
2     8
dtype: int64

In [None]:
#MEMO. y_test에 0(setosa)이 14개 , 1(Versicolor)이 10개, 2(Virginica)가 6개라서 균등하지 않게 분포되어 있음.  

In [20]:
#(2) stratify 파라미터를 이용해 target의 분포대로 분할하기. 
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=2021, stratify=iris.target)

In [22]:
#(3) y_test의 분포 재확인하기. 
df= pd.DataFrame(y_test)
df.value_counts()

0    10
1    10
2    10
dtype: int64

In [None]:
#MEMO. iris 데이터셋의 target 분포는 균등하므로, test 데이터셋에도 균등하게 분포됨. 

In [23]:
#13. gridsearchCV() 함수를 이용해 하이퍼 파라미터 튜닝과 교차검증을 한 번에 수행하기. 
#(1) 모델 설정하기. 
dtc = DecisionTreeClassifier(random_state=2021)

#(2) 하이퍼 파라미터의 범위 설정하기. 
params = {
    'max_depth' : [2,3,4,5],
    'min_samples_split' : [2,3]
}
#MEMO. 하이퍼 파라미터를 지정할 때는 딕셔너리 형태로 지정해야함. 

In [25]:
#(3) GridsearchCV() 함수 이용하기. 
grid_dtc = GridSearchCV(dtc, param_grid=params, cv=5)

In [26]:
#(4) train 데이터셋을 통해 학습하기. 
grid_dtc.fit(X_train, y_train)

GridSearchCV(cv=3, estimator=DecisionTreeClassifier(random_state=2021),
             param_grid={'max_depth': [2, 3, 4, 5],
                         'min_samples_split': [2, 3]})

In [27]:
#(5) 결과 확인하기. 
grid_dtc.cv_results_

{'mean_fit_time': array([0.00266353, 0.00033259, 0.00065811, 0.00099738, 0.00033236,
        0.00099699, 0.        , 0.        ]),
 'std_fit_time': array([3.08871125e-03, 4.70358829e-04, 4.65445435e-04, 8.77806426e-07,
        4.70021655e-04, 6.03889155e-06, 0.00000000e+00, 0.00000000e+00]),
 'mean_score_time': array([0.00033228, 0.00032322, 0.        , 0.        , 0.00033275,
        0.        , 0.00066487, 0.00066495]),
 'std_score_time': array([0.00046991, 0.0004571 , 0.        , 0.        , 0.00047058,
        0.        , 0.00047013, 0.00047019]),
 'param_max_depth': masked_array(data=[2, 2, 3, 3, 4, 4, 5, 5],
              mask=[False, False, False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_min_samples_split': masked_array(data=[2, 3, 2, 3, 2, 3, 2, 3],
              mask=[False, False, False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'max_depth': 2, 'min_samples_split'

In [28]:
#(6) 최적 파라미터 확인하기. 
grid_dtc.best_params_

{'max_depth': 2, 'min_samples_split': 2}

In [29]:
#(7) 최적 파라미터에 의한 Accuracy값 확인하기. 
grid_dtc.best_score_

0.9583333333333334

In [30]:
#(8) 최적 파라미터로 학습한 estimator로 test 데이터셋 예측하기. 
best_estimator = grid_dtc.best_estimator_
best_estimator.score(X_test,y_test)

0.9