## Validation
- 테스트 세트 대신 모델을 사전에 평가하기 위한 데이터 세트
- 훈련 세트를 일부 분할해 활용
  - 전체 데이터 세트 중 20 ~ 30% 정도의 양을 테스트 세트와 검증 세트로 분할
  - 훈련 데이터의 양이 많을 경우 %로 전체 데이터를 대표 가능

- `Holdout Validation`
  - 가장 기본적인 검증법
  - 전체 데이터 세트에서 테스트 데이터를 분리
  - 훈련 데이터의 일부를 검증 세트로 분리
  - 단, 검증을 한 번 밖에 진행할 수 없음
- **`K-fold CV(K-fold-Cross Validation)`**
  - Holdout 방식을 개선한 검증법으로 교차검증이라고 말함
  - 최소 2번 이상 또는 K번의 검증을 진행하기 때문에 검증 결과수치의 평균을 검증 결과로 사용
  - 데이터를 k개로 나누고 차례대로 하나씩 k번 검증을 진행
- `LOOCV(Leave-One-Out-Cross Validation)`
  - **극단적인** `K-fold CV` 형태를 띄고 있는 검증법
  -  훈련 세트가 극단적으로 적을 때 사용 가능한 방식
  - 오직 한 개의 인스턴스만 검증 세트로 지정
  - 학습 데이터가 1000개 라면 1000번의 교차 검증을 수행

## Search
- Grid Search
  - 가장 우수한 성능을 가지고 있는 모델의 하이퍼 파라미터를 찾기 위해 사용
- Randomize Search
  - 불순도 감소 범위를 무작위로 시도해 볼 수 있음
  - 특별한 근거 없이 불순도 감소 수치를 지정하여 수행하는 것보다 효율적인 수치를 얻을 수 있음
  - 수치 값을 전달하는 그리드 서치와 달리 확률 분포 객체를 전달

### Practice
- Using **`pandas`** library
- Read URL of CSV file
- Import `sklearn.model_selection`
  - Using **`train_test_split()`**
  - Using **`StratifiedKFold`**
  - Using **`StratifiedKFold`**
  - Using **`GridSearchCV`**
    - Using properties
  - Using **`RandomizeSearchCV`**
    - Using properties
- Create Validation-set
- Import **`numpy`** library
  - Using **`np.mean()`**
- Import `sklearn.tree`
  - Using **`DecisionTreeClassifier()`**
- Check the mean of Cross validation
- Import `scipy.stats`
  - Using **`randit()`**
  - Using **`uniform()`**

### 1. Import `pandas` with csv data
- Using **`.read_csv()`**

In [1]:
import pandas as pd

wine = pd.read_csv("https://bit.ly/wine_csv_data")

### 1-1. Create numpy data-set
- create input from use `.to_numpy()`
- create target from use `.to_numpy()`

In [2]:
data = wine[["alcohol", "sugar", "pH"]].to_numpy()
target = wine["class"].to_numpy()

#Checkout
print("data")
print(data)
print(data.shape)
print("target")
print(target)
print(target.shape)

data
[[ 9.4   1.9   3.51]
 [ 9.8   2.6   3.2 ]
 [ 9.8   2.3   3.26]
 ...
 [ 9.4   1.2   2.99]
 [12.8   1.1   3.34]
 [11.8   0.8   3.26]]
(6497, 3)
target
[0. 0. 0. ... 1. 1. 1.]
(6497,)


### 2. Import **`train_test_split`**
- from `sklearn.model_selection`


In [3]:
from sklearn.model_selection import train_test_split

### 2-1. Create Train-set and Test-set to using **`train_test_split()`**
- 입력과 타겟의 넘파이 데이터 준비
- 훈련 세트와 테스트 세트 생성
- **`test_size=`**
  - Train-set : Test-set 비율을 조정
  - 샘플의 양에 따라 조정이 필요한 경우가 있기 때문

In [4]:
train_input, test_input, train_target, test_target = train_test_split(
    data, target, test_size=0.2, random_state=42
)

#Checkout
print(train_input.shape, test_input.shape)

(5197, 3) (1300, 3)


### 2-2. Create Validation-set
- 생성된 Train-set를 다시 나누어 검증 세트를 생성
- 테스트 세트를 사용해 Overfitting 또는 Underfitting을 판단하지 않고 검증 세트를 통해 사전 판단하는게 효율적
- 일반적인 `Holdout` 방식
- 검증 세트 구조
  - `sub_input`: 검증 세트를 제외한 훈련 세트 입력 데이터
  - `val_input`: 훈련 세트에서 나누어 생성한 검증 세트 입력 데이터
  - `sub_target`: 검증 세트를 제외한 훈련 세트 타겟 데이터
  - `val_target`: 훈련 세트에서 나누어 생성한 검증 타겟 데이터


In [5]:
sub_input, val_input, sub_target, val_target = train_test_split(
    train_input, train_target, test_size=0.2, random_state=42
)

#Checkout
print(sub_input.shape, val_input.shape)

(4157, 3) (1040, 3)


### 2-3. Import DecisionTreeClassifier
- from `sklearn.tree`

In [6]:
from sklearn.tree import DecisionTreeClassifier

### 2-4. Using **`DecisionTreeClassifier()`**
- 결정트리 분류 모델을 생성
  - sub-set와 val-set 평가

In [7]:
dt = DecisionTreeClassifier(random_state=42)
dt.fit(sub_input, sub_target)

#Checkout
print(dt.score(sub_input, sub_target))
print(dt.score(val_input, val_target))

0.9971133028626413
0.864423076923077


### 3. Cross Validation(CV)
- 안정적인 검증 수치를 얻을 수 있고, 훈련 시 더 많은 데이터를 사용할 수 있음
- k-fold cross validation
  - 훈련 세트를 3등분하여 교차적으로 검증을 수행한 뒤 평가 수치를 반환
  - 반환된 평가 수치의 평균을 계산
  - 보통 5-fold ~ 10-fold 범위의 cross validation 사용


### 3-1. Import **`cross_validate`**
- from `sklearn.model_selection`

In [8]:
from sklearn.model_selection import cross_validate

### 3-2. Using **`cross_validate()`**
- return value
  - `fit_time`: 모델을 훈련하는데 소요된 시간
  - `score_time`: 모델을 검증하는데 소요된 시간
  - `test_score`: 기본적으로 5-fold 교차검증을 수행하기 때문에 5개의 key를 반환

In [9]:
scores = cross_validate(dt, train_input, train_target)
#Checkout
print(scores)

{'fit_time': array([0.00919867, 0.00696969, 0.00739408, 0.00712585, 0.00687599]), 'score_time': array([0.00072479, 0.00063324, 0.00068188, 0.00065184, 0.00062799]), 'test_score': array([0.86923077, 0.84615385, 0.87680462, 0.84889317, 0.83541867])}


### 3-3. Check the mean of Cross validation
- Import `numpy`
  - Using **`np.mean()`**

In [10]:
import numpy as np

print(np.mean(scores['test_score']))

0.855300214703487


### 3-4. Import StratifiedKFold
- from `sklearn.model_selection`
- 모델에 따른 splitter 지정
  - 회귀모델(Regression model): KFold
  - 분류모델(Classification model): StratifiedKFold

In [11]:
from sklearn.model_selection import StratifiedKFold

### 3-4. Check the mean of Cross validation
- Using **`StratifiedKFold()`**

In [12]:
scores = cross_validate(dt, train_input, train_target, cv=StratifiedKFold()) 

#Checkout
print(np.mean(scores["test_score"]))

0.855300214703487


### 3-5. 10-Fold cross validation
- **`n_splits= _number`**
  - default: 5
- **`shuffle= _boolean`**
  - True: 무작위로 
  - False


In [13]:
splitter = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)
scores = cross_validate(dt, train_input, train_target, cv=splitter)

#Checkout
print(np.mean(scores["test_score"]))

0.8574181117533719


### 4. Using Grid Search
- from `sklearn.model_selection`
- crete dictionary

In [14]:
from sklearn.model_selection import GridSearchCV

params = {"min_impurity_decrease": [0.0001, 0.0002, 0.0003, 0.0004, 0.0005]}


- **`n_jobs= _number`**
  - 병렬 실행에 필요한 CPU 코어의 수를 지정
  - default: 1
  - `n_jobs= -1`: 시스템에 존재하는 모든 코어를 사용

In [18]:
gs = GridSearchCV(DecisionTreeClassifier(random_state=42), params, n_jobs=-1)
gs.fit(train_input, train_target)

GridSearchCV(estimator=DecisionTreeClassifier(random_state=42), n_jobs=-1,
             param_grid={'min_impurity_decrease': [0.0001, 0.0002, 0.0003,
                                                   0.0004, 0.0005]})

In [20]:
dt = gs.best_estimator_
print(dt) #훈련이 끝난 n개의 모델 중 가장 수치가 높은 모델의 변수 조합을 저장하고 있음
print(dt.score(train_input, train_target))
print(gs.best_params_) #가장 최적의 매개변수를 저장하고 있음
print(gs.cv_results_["mean_test_score"]) #각 매개변수로 수행한 교차검증의 평균 수치를 mean_test_score 키에 저장하고 있음

DecisionTreeClassifier(min_impurity_decrease=0.0001, random_state=42)
0.9615162593804117
{'min_impurity_decrease': 0.0001}
[0.86819297 0.86453617 0.86492226 0.86780891 0.86761605]


In [21]:
#using argmax
best_index = np.argmax(gs.cv_results_["mean_test_score"])
print(gs.cv_results_["params"][best_index]) #교차검증 결과를 저장한 딕셔너리 객체

{'min_impurity_decrease': 0.0001}


In [24]:
params = {
    "min_impurity_decrease": np.arange(0.0001, 0.001, 0.0001), #첫 인덱스 값에서부터 두 번째 인덱스 값에 도달할 때까지 0.0001씩 증가
    "max_depth" : range(5, 20, 1), #첫 인덱스 값에서부터 두 번째 인덱스 값에 도달할 때까지 1씩 증가
    "min_samples_split" : range(2, 100, 10), #첫 인덱스 값에서부터 두 번째 인덱스 값에 도달할 때까지 10씩 증가
}

gs = GridSearchCV(DecisionTreeClassifier(random_state=42), params, n_jobs=-1)
#Checkout
gs.fit(train_input, train_target)
print(gs.best_params_)
print(np.max(gs.cv_results_["mean_test_score"])) #최상의 교차검증 점수 수치값 반환

{'max_depth': 14, 'min_impurity_decrease': 0.0004, 'min_samples_split': 12}
0.8683865773302731


### 5. Using Random Search
- 매개변수의 값이 수치일 때 값의 범위나 간격을 미리 정하기 어려움
  - 범위나 간격을 지정하는 것에 특별한 근거가 존재하지 않음
- 많은 매개변수가 존재하거나 부여된 조건이 많을 경우 그리드 서치 탐색 시간이 오래걸림
- Import `sklearn.model_selection`
  - Using **`RandomizedSearchCV()`**
- from `scipy`
  - Using **`uniform`**
    - 실수값 반환
  - Using **`randit`**
    - 정수값 반환
  - Using **`Unique`**
    - `retrun_counts= _boolean`
      - True
      - False

In [27]:
from scipy.stats import randint, uniform

rgen = randint(0, 10) #randit 범위 지정
rgen.rvs(10) #해당 rgen 범위에 따른 10가지의 무작위 정수값 반환

np.unique(rgen.rvs(1000), return_counts=True)

ugen = uniform(0, 1) #uniform 범위 지정
ugen.rvs(10) #해당 rgen 범위에 따른 10가지의 무작위 실수값 반환

array([0.42862245, 0.4224636 , 0.0841467 , 0.47467888, 0.69190491,
       0.25283646, 0.44896995, 0.93859076, 0.92403452, 0.73526706])

In [39]:
#Using randit, uniform to params

params = {
    "min_impurity_decrese" : uniform(0.0001, 0.001), #Using uniform
    "max_depth" : randint(20, 50),
    "min_samples_split" : randint(2, 25),
    "min_samples_leaf" : randint(1, 25),

}

#Using edited params to RandomizeSearchCV

from sklearn.model_selection import RandomizedSearchCV

gs = RandomizedSearchCV(DecisionTreeClassifier(random_state=42), params, n_iter=100, n_jobs=-1, random_state=42)

In [None]:
#최적의 모델 탐색
 print(np.max(rs.cv_results_["test_score"]))

dt = rs.best_estimator_
print(dt.score(test_input, test_target))