# Chapter 6. Learning Best Practices for Model Evaluation and Hyperparameter Tuning

### 데이터 준비

> - pandas.**read_csv**를 이용한 데이터 불러오기

In [34]:
import pandas as pd
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data'
                 ,header=None)

> - 1번째 컬럼을 $\mathbf{y}$로 사용, 2번째부터 끝까지 컬럼을 $\mathbf{X}$로 사용
> - sklearn.preprocessing.**LabelEncoder**를 이용해 y의 label(M: 악성, B: 양성)을 각각 1과 0으로 변환

In [6]:
from sklearn.preprocessing import LabelEncoder
X = df.loc[:, 2:].values
y = df.loc[:, 1].values
le = LabelEncoder()
y = le.fit_transform(y)


le.transform(['M', 'B'])

array([1, 0], dtype=int64)

> - sklearn.cross_validation.**train_test_split**을 이용해 training set과 test set을 8:2로 나눔

In [8]:
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)

### Pipeline 

> - sklearn.pipeline.**Pipeline**에 두개의 transformer(StandardScaler, PCA)와 estimator(LogisticRegression)을 설정
> - 앞서 train_test_split을 이용해 나눈 training set 데이터를 이용해 모형 학습
> - test set 데이터를 이용해 모형의 정확도를 확인         
※ 정확도(accuracy)는 전체 예측 중 '정'예측의 비율      
$$ACC = \frac{TP + TN}{FP + FN + TP + TN} = 1 - ERR$$

In [14]:
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

pipe_lr = Pipeline([('scl', StandardScaler())
                    , ('pca', PCA(n_components=2))
                    , ('clf', LogisticRegression(random_state=1))])

pipe_lr.fit(X_train, y_train)                    
print('Test Accuracy: %.3f' % pipe_lr.score(X_test, y_test))

Test Accuracy: 0.947


### K겹 교차 검증(K-fold cross validation)과 층화 교차 검증(stratified coss validation)

> sklearn.cross_validation.**StratifiedKFold**를 이용한 층화된 교차 검증(stratified cross-validation)
> - 각 fold의 $\mathbf{y}$ label 비율이 256:153으로 일정하게 유지됨을 알 수 있다.

In [48]:
import numpy as np
from sklearn.cross_validation import StratifiedKFold
kfold = StratifiedKFold(y=y_train
                       , n_folds=10
                       , random_state=0)
scores = []

for k, (train, test) in enumerate(kfold):
    pipe_lr.fit(X_train[train], y_train[train])
    score = pipe_lr.score(X_train[test], y_train[test])
    scores.append(score)
    print('Fold: %s, Class dist.: %s, Acc: %.3f' % (k+1, np.bincount(y_train[train]), score))
print('CV accuracy: %.3f +/- %.3f' % (np.mean(scores), np.std(scores)))
    

Fold: 1, Class dist.: [256 153], Acc: 0.891
Fold: 2, Class dist.: [256 153], Acc: 0.978
Fold: 3, Class dist.: [256 153], Acc: 0.978
Fold: 4, Class dist.: [256 153], Acc: 0.913
Fold: 5, Class dist.: [256 153], Acc: 0.935
Fold: 6, Class dist.: [257 153], Acc: 0.978
Fold: 7, Class dist.: [257 153], Acc: 0.933
Fold: 8, Class dist.: [257 153], Acc: 0.956
Fold: 9, Class dist.: [257 153], Acc: 0.978
Fold: 10, Class dist.: [257 153], Acc: 0.956
CV accuracy: 0.950 +/- 0.029


> - numpy.bincount()는 ndarray에 있는 0의 건수와 1의 건수를 각각 반환

In [42]:
print(np.bincount(np.array([1, 0, 0, 0])))

[3 1]


In [50]:
print(np.bincount(y_train))

[285 170]


In [51]:
285 / (285 + 170)

0.6263736263736264

In [52]:
256 / (256 + 153)

0.6259168704156479

> 10건만으로 테스트 해 보면 아래와 같이 0과 1의 비율이 3:2로 일정하게 유지됨을 확인 할 수 있다.

In [54]:
import numpy as np
from sklearn.cross_validation import StratifiedKFold
print(y_train[0:10])
kfold = StratifiedKFold(y=y_train[0:10]
                       , n_folds=2
                       , random_state=0)
scores = []

for k, (train, test) in enumerate(kfold):
    pipe_lr.fit(X_train[train], y_train[train])
    score = pipe_lr.score(X_train[test], y_train[test])
    scores.append(score)
    print('Fold: %s, Class dist.: %s, Acc: %.3f' % (k+1, np.bincount(y_train[train]), score))
print('CV accuracy: %.3f +/- %.3f' % (np.mean(scores), np.std(scores)))
    

[1 1 0 0 0 0 0 1 1 0]
Fold: 1, Class dist.: [3 2], Acc: 1.000
Fold: 2, Class dist.: [3 2], Acc: 1.000
CV accuracy: 1.000 +/- 0.000


> - 앞서 sklearn.cross_validation.**StratifiedKFold**를 이용해 했던 일을      
sklearn.cross_validation.**cross_val_score**을 이용해서도 할 수 있으며      
이것을 이용할 경우 multi-core를 활용할 수 있다.(n_jobs: 코어 수)

In [32]:
from sklearn.cross_validation import cross_val_score
scores = cross_val_score(estimator=pipe_lr
                         , X=X_train
                         , y=y_train
                         , cv=10
                         , n_jobs=1)
print('CV accuracy scores: %s' % scores)

CV accuracy scores: [ 0.89130435  0.97826087  0.97826087  0.91304348  0.93478261  0.97777778
  0.93333333  0.95555556  0.97777778  0.95555556]


### 학습 곡선(learning curves)과 검정 곡선(validation curves)

In [57]:
import matplotlib.pyplot as plt
from sklearn.learning_curve import learning_curve
pipe_lr = Pipeline([('scl', StandardScaler())
                    , ('clf', LogisticRegression(penalty='l2', random_state=0))])
train_sizes, train_scores, test_scores = learning_curve(estimator=pipe_lr
                                                        , X=X_train
                                                        , y=y_train
                                                        , train_sizes=np.linspace(0.1, 1.0, 10)
                                                        , cv=10
                                                        , n_jobs=1)
print(train_sizes[])

[ 40  81 122 163 204 245 286 327 368 409]
[[ 1.          0.975       0.975       0.975       0.975       0.975       0.975
   0.975       0.975       0.975     ]
 [ 1.          0.98765432  0.98765432  0.98765432  0.98765432  0.98765432
   0.98765432  0.98765432  0.98765432  0.98765432]
 [ 0.99180328  0.98360656  0.99180328  0.99180328  0.99180328  0.99180328
   0.99180328  0.99180328  0.99180328  0.99180328]
 [ 0.99386503  0.98773006  0.98773006  0.99386503  0.98773006  0.98773006
   0.98773006  0.98773006  0.98773006  0.98773006]
 [ 0.99509804  0.99019608  0.99019608  0.99509804  0.99019608  0.99019608
   0.99019608  0.99019608  0.99019608  0.99019608]
 [ 0.99183673  0.9877551   0.99183673  0.99183673  0.99183673  0.99183673
   0.99183673  0.99183673  0.99183673  0.99183673]
 [ 0.99300699  0.99300699  0.99300699  0.99300699  0.99300699  0.99300699
   0.99300699  0.99300699  0.99300699  0.99300699]
 [ 0.99082569  0.98776758  0.99082569  0.99082569  0.99082569  0.99082569
   0.99388379 

In [None]:
import matplotlib.pyplot as plt
from sklearn.learning_curve import learning_curve
pipe_lr = Pipeline([('scl', StandardScaler())
                    , ('clf', LogisticRegression(penalty='l2', random_state=0))])
train_sizes, train_scores, test_scores = learning_curve(estimator=pipe_lr
                                                        , X=X_train
                                                        , y=y_train
                                                        , train_sizes=np.linspace(0.1, 1.0, 10)
                                                        , cv=10
                                                        , n_jobs=1)
train_mean = np.mean(train_scores, axis=1)
train_std = np.std(train_scores, axis=1)
test_mean = np.mean(test_scores, axis=1)
test_std = np.std(test_scores, axis=1)
plt.plot(train_sizes, train_mean,
color='blue', marker='o',
markersize=5,
label='training accuracy')
plt.fill_between(train_sizes,
train_mean + train_std,
train_mean - train_std,
alpha=0.15, color='blue')
plt.plot(train_sizes, test_mean,
color='green', linestyle='--',
marker='s', markersize=5,
label='validation accuracy')
plt.fill_between(train_sizes,
test_mean + test_std,
test_mean - test_std,
alpha=0.15, color='green')
plt.grid()
plt.xlabel('Number of training samples')
plt.ylabel('Accuracy')
plt.legend(loc='lower right')
plt.ylim([0.8, 1.0])
plt.show()

In [33]:
np.linspace(0.1, 1.0, 10)

array([ 0.1,  0.2,  0.3,  0.4,  0.5,  0.6,  0.7,  0.8,  0.9,  1. ])

.

.

.

### 평가 기준(Accuracy, Precision, Recall, F1-score)

환자가 암에 걸렸는지 진단하는 상황이라 해 보자.      
암을 진단하는 것은 쉬운 일이 아니라 할 때              
진단이 맞고 틀리는 경우는 아래 4가지 상황이 가능하다.     
1. 암에 걸린 환자를 암에 걸렸다고 하는 경우
2. 암에 걸린 환자를 암에 안 걸렸다고 하는 경우
3. 암에 안 걸린 환자를 암에 안 걸렸다고 하는 경우
4. 암에 안 걸린 환자를 암에 안 걸렸다고 하는 경우

실제 암에 걸린 상황을 Positive라 하고, 암에 걸리지 않은 상황을 Negative라 하면    
위 상황을 아래와 같이 표현할 수 있다.
1. True Positive(TP)
2. False Positive(FP)
3. True Negative(TN)
4. False Negative(FN)

실제 값(Actual/True Class)과 예측값(Predicted class)를 아래와 같은 **confusion matrix**로 표현할 수 있다.

<img  src="./_images/06_conf.PNG"/>

예를들어 조금만 암의 징후가 보여도 암이라 예측하는 의사 a와       
정말 암이라는 확신이 있을 때에만 암이라 진단하는 의사 b가    
100명의 환자에 대해     
발병율 10%인 암에 대해 아래와 같은 예측을 했다고 하자.   
(실제로 100명중 10명이 암에 걸렸다고 가정)

즉 의사a는 20명(TP+FP)을 암이라 진단 했는데, 그들 중 8명(TP)만 정말 암에 걸린 환자이고     
반변 의사b는 10명(TP+FP)을 암이라 진단 했는데, 그들 중 4명(TP)만 정말 암에 걸린 환자이다.

In [83]:
a_tp = 8; a_fn = 2
a_fp = 12; a_tn = 78

b_tp = 4; b_fn = 6
b_fp = 6; b_tn = 84

두 의사 중 누가 더 좋은 결정을 한 것인가?    
이에 대한 판단은 그 기준에 따라 달라지게 된다.

우선 암이든 아니든 잘 예측한 비율을 따져보면    
의사a는 암에 걸린 10명 중 8명(TP)에 대해, 암에 걸리지 않은 90명 중 78명(TN)에게 맞는(True) 진단을 내렸다. 이는 전체 환자중 86%이다.

반면 의사b는 암에 걸린 10명 중 4명(TP)에 대해, 암에 걸리지 않은 90명 중 84명(TN)에게 맞는(True) 진단을 내렸다. 이는 전체 환자 중 88%이다.

이렇게 전체 예측 중 True 예측의 비율을 정확도(Accuracy)라 하며 아래와 같이 계산한다.
$$ACC = \frac{TP + TN}{FP + FN + TP + TN}$$

In [89]:
def get_acc(tp, fn, fp, tn):
    return (tp + tn) / (fp + fn + tp + tn)

print('의사a의 Accuracy: ', get_acc(a_tp, a_fn, a_fp, a_tn))
print('의사b의 Accuracy: ', get_acc(b_tp, b_fn, b_fp, b_tn))

의사a의 Accuracy:  0.86
의사b의 Accuracy:  0.88


그렇다면 의사b의 진단이 더 나은 것인가?    
이번에는 기준을 바꿔서 '암이라고 진단한 환자 중 정말 암에 걸린 사람의 비율'을 보면   
의사a는 20명을 암이라 진단 했고 이들 중 8명이 진짜 암 환자이므로 40%이고    
의사b는 10명을 암이라 진단 했고 이들 중 4명이 진짜 암 환자이므로 그 비율은 40%이다.

이렇게 Positive로 예측한 것들 중 True Positive의 비율을 정밀도(Precision)이라 하며 아래와 같이 계산한다.
$$PRE = \frac{TP}{TP + FP}$$

In [95]:
def get_pre(tp, fn, fp, tn):
    return tp / (tp + fp)
a_pre = get_pre(a_tp, a_fn, a_fp, a_tn)
b_pre = get_pre(b_tp, b_fn, b_fp, b_tn)
print('의사a의 Precision: ', a_pre)
print('의사b의 Precision: ', b_pre)

의사a의 Precision:  0.4
의사b의 Precision:  0.4


또 다른 기준으로 '정말 암에 걸린 사람 중, 암이라 진단 받은 사람의 비율'을 보면    
의사a는 암에 걸린 10명 중 8명을 암이라 진단해서 그 비율은 80%이고   
의사b는 암에 걸린 10명 중 4명을 암이라 진단해서 그 비율은 40%이다.

이렇게 True Positive 중 Positive라고 잘 예측한 비율을 재현율(Recall)이라 하며 아래와 같이 계산한다.(Recall을 Sensitivity, True-positive rate, Probability of detection이라고도 함) 
$$REC = \frac{TP}{FN + TP}$$

In [100]:
def get_rec(tp, fn, fp, tn):
    return (tp) / (fn + tp)
a_rec = get_rec(a_tp, a_fn, a_fp, a_tn)
b_rec = get_rec(b_tp, b_fn, b_fp, b_tn)
print('의사a의 Recall: ', a_rec)
print('의사b의 Recall: ', b_rec)

의사a의 Recall:  0.8
의사b의 Recall:  0.4


사실 대충 그냥 다 암이라고 진단하면 Recall이 높아지게 되고        
아주 정말 암 같아야 암이라고 진단하면 Precision이 높아지게 된다.

즉 판단의 기준(근거가 몇%이상이어야 Positive라 판단하는가)에 따라 하나의 평가 기준으로는 우열을 가리기 어려운 상황이 생기게 된다.

두 지표(Recall, Precision)을 절충한 지표로 **F1-score**가 있으며 아래와 같이 계산한다.
$$F1 = 2 ~ \frac{PRE \times REC}{PRE + REC}$$

In [99]:
def get_f1(pre, rec):
    return 2 * (pre * rec) / (pre + rec)
print('의사a의 F1-score: ', get_f1(a_pre, a_rec))
print('의사b의 F1-score: ', get_f1(b_pre, b_rec))

의사a의 F1-score:  0.5333333333333333
의사b의 F1-score:  0.4000000000000001


참고로 가설검정에서 False Positive(귀무가설을 잘못 기각)를 **Type 1 error**라고,    
False Negative(귀무가설을 잘못 기각하지 못함)를 **Type 2 error**라 한다.

그럼 의사a가 더 좋은 의사인가?    
모르겠습니다...

.

### ROC Curve

두 의사의 예와 같이 암이라는 증거가 충분한 경우(예를들어 90%이상 확신하는 경우) 암이라 진단할 수도 있고 암 이라는 증거가 조금만 보여도(예를들어 50%이상 확신하는 경우) 암이라 진단할 수도 있다.

즉 판단의 기준(decision threshold)에 따라 암 환자를 암이라고 예측하는 비율이 달라지게 된다. 이렇게 decision threshold에 따른 True Positive의 비율(암 환자를 암이라 진단하는 비율)과 False Positive의 비율(암 환자를 정상이라 진단하는 비율)을 그래프로 표현해 볼 수 있는데, 이를 **ROC Curve**(Receiver Operating Characteristic Curve혹은 Relative Operating Characteristic Curve)라 한다.

.

곡선 아래의 면적을 **AUC**(Area Under the Curve)라 하며 이 값이 클 수록 좋은 모형이라 할 수 있다.(이에 대한 반론도 있으며 DeltaP등의 다른 평가 지표를 사용하기도 한다.)