### 검증세트
- 전체 dataset중 20%를 test_set, 나머지는 train_set.
- train_set중 20%를 떼어서 검증세트로 만듬

In [12]:
import pandas as pd
wine = pd.read_csv('https://bit.ly/wine_csv_data')

In [13]:
data = wine[['alcohol', 'sugar', 'pH']].to_numpy()
target = wine['class'].to_numpy()

In [14]:
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(data, target, test_size=0.2, random_state=42)

In [15]:
# train_test_split() 함수 2번 사용해서 훈련세트와 검증세트로 나눔
sub_input, val_input, sub_target, val_target = train_test_split(train_input, train_target, test_size=0.2, random_state=42)

In [16]:
# 원래 5197개 였던 훈련세트가 4,157개로 줄고 검증세트는 1040개
print(sub_input.shape, val_input.shape)

(4157, 3) (1040, 3)


In [17]:
# 모델 평가
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(random_state=42)
dt.fit(sub_input, sub_target)
print(dt.score(sub_input, sub_target))
print(dt.score(val_input, val_target))

0.9971133028626413
0.864423076923077


### 교차 검증
- 3폴드 교차 검증 방식

In [18]:
# cross_validate 함수는 기본적으로 5-폴드 교차 검증 수행
# dt는 매개변수  
from sklearn.model_selection import cross_validate

scores = cross_validate(dt, train_input, train_target)
print(scores)

{'fit_time': array([0.0093329 , 0.00799012, 0.00886106, 0.00838399, 0.00656509]), 'score_time': array([0.00124812, 0.00097084, 0.00102687, 0.00064588, 0.00044799]), 'test_score': array([0.87019231, 0.84615385, 0.87680462, 0.84889317, 0.83541867])}


In [19]:
# 검증 폴드의 점수
import numpy as np
print(np.mean(scores['test_score']))

0.8554925223957948


### 분할기를 사용한 교차 검증 - Grid Search

In [23]:
# 기본적으로 5개의 폴드를 적용, 그렇지만 더 적용하거나 줄이고 싶으면 cv=10 이렇게 적용할수도 있다.
# cv = 스플리트 객체를 지정해서 나누는 동작을 상세하게 제어 가능(여기서 스플리트 객체는 KFold())
# StratifiedKFold - 분류
from sklearn.model_selection import StratifiedKFold

scores = cross_validate(dt, train_input, train_target, cv=StratifiedKFold())
print(np.mean(scores['test_score']))

0.8554925223957948


In [24]:
# n_splits: 10개의 Fold, shuffle: random으로 섞음
splitter = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)
scores = cross_validate(dt, train_input, train_target, cv=splitter)
print(np.mean(scores['test_score']))

0.8581873425226026


### Grid Search - HyperParameter 튜닝
- Grid Search는 GridSearchCV 라이블러리로 제공 (교차검증 CrossValidate 기능 제공)

In [25]:
# min_impurity_decrease(제일 좋은 값을 찾음) - maxdepth(3으로 고정)
# 만약 min_impurity_decrease가 0.1 이면, maxdepth의 개수가 봐뀔 수 있음(최적의 값)
from sklearn.model_selection import GridSearchCV

params = {'min_impurity_decrease': [0.0001, 0.0002, 0.0003, 0.0004, 0.0005]}

In [27]:
# random_state: 결정트리 객체, params: GridSearch 클래스 탐색 대상 모델
# 5개의 모델, 교차점증 (GridSearchModel이 5Fold x Test할 매개변수 5개 = 25개의 모델)\
# n_jobs: 병렬로 작업을 하기 위한 매개변수 (2,3..개를 지정하면 입력한 수 만큼의 core 사용, -1이면 가능한 모든 코어 사용)
gs = GridSearchCV(DecisionTreeClassifier(random_state=42), params, n_jobs=-1)
gs.fit(train_input, train_target)

In [28]:
# best_estimator_ : 5Fold의 교차검증후, 최적의 값을 결정트리에 넣어준다 (검증 + 훈련세트)
dt = gs.best_estimator_
print(dt.score(train_input, train_target))

0.9615162593804117


In [29]:
# min_impurity_decrease: 5개 테스트중 제일 좋은 값.
print(gs.best_params_)

{'min_impurity_decrease': 0.0001}


In [30]:
# mean_test_score: 교차검증 점수중 
print(gs.cv_results_['mean_test_score'])

[0.86800067 0.86453617 0.86492226 0.86780891 0.86761605]


In [31]:
# 매개변수 더 많이 탐색 하기 위한 코드
# params = {'min_impurity_decrease': np.arange(0.00001, 0.001, 0.0001), 
# 'max_depth': range(5, 20, 1),
# 'min_samples_split' :range(2, 100, 10) - min_samples_split: 분할하기 위한 최소의 sample 개수: 2의 10승
# }

### 확률 분포 선택

In [32]:
from scipy.stats import uniform, randint

rgen = randint(0,10)
rgen.rvs(10)

array([5, 3, 8, 3, 7, 0, 4, 3, 3, 0])

In [33]:
np.unique(rgen.rvs(1000), return_counts=True)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([ 92, 118, 106,  72, 107, 116, 112, 111,  84,  82]))

In [34]:
ugen = uniform(0, 1)
ugen.rvs(10)

array([0.82079036, 0.5796881 , 0.39118303, 0.42390174, 0.76053868,
       0.42135002, 0.33674035, 0.51057043, 0.97151162, 0.20675553])

### Random Search

In [39]:
params = {'min_impurity_decrease': uniform(0.0001, 0.001),
          'max_depth': randint(20, 50),
          'min_samples_split' : randint(2, 25),
          'min_samples_leaf' : randint(1, 25),
         }

In [40]:
from sklearn.model_selection import RandomizedSearchCV

gs = RandomizedSearchCV(DecisionTreeClassifier(random_state=42), params,
                       n_iter=100, n_jobs=-1, random_state=42)
gs.fit(train_input, train_target)

print(gs.best_params_)

{'max_depth': 39, 'min_impurity_decrease': 0.00034102546602601173, 'min_samples_leaf': 7, 'min_samples_split': 13}


In [42]:
print(np.max(gs.cv_results_['mean_test_score']))

0.8695428296438884


In [43]:
dt = gs.best_estimator_
print(dt.score(test_input, test_target))

0.86
