# 모형 평가
분류 분석 모형의 평가는 예측 및 분류를 위해 구축된 모형이 임의의 모형보다 더 우수한 분류 성과를 보이는지와 고려된 서로 다른 모형들 중 어느것이 가장 우수한 예측 및 분류 성과를 보유하고 있는지 등을 비교 분석하는 과정이다.

## 모형평가 기준

### 일반화의 가능성
같은 모집단 내의 다른 데이터에 적용하는 경우에도 안정적인 결과를 제공하는 것을 의미하며 데이터를 확장하며 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준이다.

### 효율성
분류 분석 모형이 얼마나 효과적으로 구축되었는지 평가하게 되며 적은 입력변수를 필요로 할수록 효율성이 높다고 할 수 있다.

### 예측과 분류의 정확성
구축된 모형의 정확성 측면에서 평가하는 것으로 안정적이고 효율적인 모형을 구축하였다 하더라도 실제 문제에 적용했을 때 정확하지 못한 결과만을 양산한다면 그 모형은 의미를 가질 수 없다.

## 검증용 자료 추출
분류 분석 모형의 평가를 위해서 먼저 전체 자료에서 모형 구축을 위한 훈련용 자료와 모형의 성과를 검증하기 위한 검증용 자료를 추출한다.

### 홀드아웃 방법(Holdout method)
일반적으로 전체 데이터 중 70%의 데이터는 훈련용 자료로 사용하고 나머지는 검증용 자료로 사용한다.

### 교차검증(cross-validation)
주어진 데이터를 가지고 반복적으로 성과를 측정하여 그 결과를 평균한 것으로 분류 분석 모형을 평가하는 방법이다.

### 붓스트랩(bootstrap)
평가를 반복하는 측면에서 교차검증과 유사하나 훈련용 자료를 반복 재선정한다는 점에서 차이가 있다.

# 오분류표(Confusion matrix)
대부분의 분류 분석 모형의 예측 결과는 분류 범주로 나타남에 따라 분류 분석 모형의 평가에는 Confusion matrix가 일반적으로 사용된다.

## 정분류율(accuracy, recognition rate)
전체 관측치중 실제값과 예측치가 일치한 정도를 나타낸다.

accuracy = (TP+TN)/(P+N)

## 민감도(sensitivity) 
실제값이 True인 관측치 중 예측치가 적중한 정도를 나타낸다.

sensitivity = TP/P

## 특이도(specificity)
실제값이 False인 관측치 중 예측치가 적중한 정도를 나타낸다.

specificity = TN/N

## 정확도(precision)
True로 예측한 관측치 중 실제값이 True인 정도를 나타내는 정확성(exactness) 지표이다.

Precision = TP/(TP+FP)

## 재현율(recall)
실제값이 True인 관측치 중 예측치가 적중한 정도를 나타내는 민감도와 동일한 지표로 모형의 완전성(completeness)을 평가하는 지표이다.

Recall = TP/(TP+FN) = TP/P

## F1지표(F1 score)
정확도와 재현율은 모형의 평가에 대표적으로 사용되는 지표이긴 하지만 한 지표의 값이 높아지면 다른 지표의 값이 낮아질 가능성이 높은 관계를 지니고 있다. 예를 들어 암환자의 분류 분석 모형에서 대부분의 사람을 암환자로 예측하였다고 가정하면 높은 정확도를 가지게 되지만 재편율은 현저히 낮은 값을 보이게 된다. 따라서 이러한 효과를 보정하여 하나의 지표로 나타낸 것이 F1지표(F1 score)이다.

F1 = 1*Precision*Recall/(Precision+Recall)

F1지표는 정확도와 재현율의 조화평균을 나타내며 정확도와 재현율에 같은 가중치를 부여하여 평균하게 된다.

## [예제]
iris 자료에 대해 범주가 2개인 분류 모형을 구축하기 위해 iris 자료의 일부분만 이용하기로 한다.  
Species가 setosa와 versicolor인 100개의 자료만을 이용하여 70%의 훈련용 자료를 추출한다.

In [23]:
iris <- subset(iris, Species == "setosa" | Species == "versicolor")
iris$Species <- factor(iris$Species)
set.seed(1234)
iris <- iris[sample(nrow(iris)),] #Randomly shuffle the data
trainData <- iris[1:(nrow(iris)*0.7),]
testData <- iris[((nrow(iris)*0.7)+1):nrow(iris),]
nrow(trainData)

훈련용 자료를 사용하여 각 모형을 학습한다.  
신경망 모형은 R패키지{nnet}의 nnet() 함수를 이용하며 의사결정나무 모형은 {rpart}의 rpart() 함수를 이용하여 모형을 학습한다.

In [24]:
library(nnet)
library(rpart)
nn.iris <- nnet(Species~., data=trainData, size=2, rang=0.1, decay=5e-4, maxit=200) # Neural network

# weights:  13
initial  value 48.595561 
iter  10 value 3.452562
iter  20 value 1.844546
iter  30 value 0.370742
iter  40 value 0.308649
iter  50 value 0.207881
iter  60 value 0.188132
iter  70 value 0.185151
iter  80 value 0.180655
iter  90 value 0.178071
iter 100 value 0.177566
iter 110 value 0.174469
iter 120 value 0.144074
iter 130 value 0.128616
iter 140 value 0.115327
iter 150 value 0.111269
iter 160 value 0.106597
iter 170 value 0.103916
iter 180 value 0.103372
iter 190 value 0.103151
iter 200 value 0.103034
final  value 0.103034 
stopped after 200 iterations


In [25]:
dt.iris <- rpart(Species~., data=trainData) # Decision tree

다음은 학습된 각 분류 분석 모형을 검증용 자료에 적용시켜 예측값을 도출한다.  
이를 위하여 predict() 함수를 사용한다.

In [26]:
nn_pred <- predict(nn.iris, testData, type="class")
dt_pred <- predict(dt.iris, testData, type="class")

각 모형의 오분류표를 도출하기 위하여 R 패키지 {caret}의 confusionMatrix() 함수를 이용한다.   
R 패키지 {e1071} 설치 필요

In [27]:
library(caret)
library(lattice)
library(ggplot2)

In [37]:
str(testData$Species)

 Factor w/ 2 levels "setosa","versicolor": 1 1 2 1 2 2 1 1 2 1 ...


In [39]:
nn_pred = as.factor(nn_pred)

In [43]:
nn_con=confusionMatrix(nn_pred, testData$Species)
dt_con=confusionMatrix(dt_pred, testData$Species)
nn_con$table

            Reference
Prediction   setosa versicolor
  setosa         13          0
  versicolor      0         17

오분류표를 이용하여 대표적인 지표인 정분류율(accuracy), 정확도(precision), 재현율(recall), F1지표를 계산하고 비교한 결과 신경망 모형이 모든 지표에서 의사결정 모형보다 더 높은 예측 정확도를 보인다.

In [44]:
accuracy <- c(nn_con$overall['Accuracy'], dt_con$overall['Accuracy'])
precision <- c(nn_con$byClass['Pos Pred Value'], dt_con$byClass['Pos Pred Value'])
recall <- c(nn_con$byClass['Sensitivity'], dt_con$byClass['Sensitivity'])
f1 <- 2 * ((precision * recall) / (precision + recall))
result <- data.frame(rbind(accuracy, precision, recall, f1))
names(result) <- c("Nural Network", "Decision Tree")
result

Unnamed: 0_level_0,Nural Network,Decision Tree
Unnamed: 0_level_1,<dbl>,<dbl>
accuracy,1,1
precision,1,1
recall,1,1
f1,1,1


## ROC 그래프
레이더 이미지 분석의 성과를 측정하기 위해 개발된 ROC(Receiver Operating Characteristic) 그래프는 두 분류 분석 모형을 비교 분석 결과를 가시화할 수 있다는 점에서 유용한 평가 도구이다.  
ROC 그래프의 x축에는 FP Ratio(1-특이도)를 나타내며 y축에는 민감도를 나타내 이 두 평가 값의 관계로 모형을 평가한다.  
모형의 성과를 평가하는 기준은 ROC 그래프의 밑부분 면적(Area Under the ROC Curve, AUC)이 넓을수록 좋은 모형으로 평가한다.

![ROC그래프](http://postfiles3.naver.net/20160115_50/biostat_yu_14528174890937ska9_PNG/3.PNG?type=w580)

## [예제] - ROC
infert 자료에 대한 분류 분석 모형 평가 비교를 위하여 의사결정나무 모형의 R패키지 [C50]의 C5.0() 함수를 사용하고 신경망 모형은 {neuralnet}의 neuralnet()함수를 사용한다. 모형 학습 및 검증을 위하여 70%의 훈련용 자료와 30%의 검증용 자료로 구분한다.

In [14]:
set.seed(1234)
infert <- infert[sample(nrow(infert)),] #Randomly shuffle the data
infert <- infert[,c("age","parity","induced","spontaneous","case")]
trainData <- infert[1:(nrow(infert)*0.7), ]
testData <- infert[((nrow(infert)*0.7)+1):nrow(infert), ]

각 모형을 학습하고 학습된 모형을 검증용 자료에 적용시켜 예측값을 도출시킨 뒤 ROC 그래프 작성을 위해 각 예측 결과를 검증용 자료에 함께 저장한다.

In [16]:
library(neuralnet) #neural network
net.infert <- neuralnet(case~age+parity+induced+spontaneous, data=trainData, hidden=3, 
                        err.fct="ce", linear.output=FALSE, likelihood=TRUE)
n_test <- subset(testData, select=-case)
nn_pred <- compute(net.infert, n_test)
testData$net_pred <- nn_pred$net.result
head(testData)

Unnamed: 0_level_0,age,parity,induced,spontaneous,case,net_pred
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,"<dbl[,1]>"
86,39,6,2,0,0,0.1175629
26,40,2,0,2,1,0.9164605
79,31,1,0,1,1,0.6781952
235,25,1,1,0,0,0.1579072
129,37,1,0,0,0,0.118938
153,25,1,0,0,0,0.1139197


In [19]:
library(C50) #decision tree
trainData$case <- factor(trainData$case)
dt.infert <- C5.0(case~age+parity+induced+spontaneous, data=trainData)
testData$dt_pred <- predict(dt.infert, testData, type="prob")[,2]
head(testData)

Unnamed: 0_level_0,age,parity,induced,spontaneous,case,net_pred,dt_pred
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,"<dbl[,1]>",<dbl>
86,39,6,2,0,0,0.1175629,0.1971806
26,40,2,0,2,1,0.9164605,0.6801542
79,31,1,0,1,1,0.6781952,0.6056227
235,25,1,1,0,0,0.1579072,0.1971806
129,37,1,0,0,0,0.118938,0.1971806
153,25,1,0,0,0,0.1139197,0.1971806
