# 모델 성능 평가
## 범주형의 성능 평가
### 머신러닝 알고리즘
* 어떠한 데이터를 이용해서, 어떠한 문제를 풀 것인가?
* 알고리즘에 의해 데이터를 분류와 예측 수행
* 머신러닝 알고리즘에 의한 결과는 정확할까?

### 범주형?
* 머신러닝의 결과가 명확히 분류되는 것
* 이항 회귀분석, 검색 엔진, 의학 정보학 등의 분야에서 많이 다루어짐

### 오차행렬
* 머신런닝을 통해 나온 결과를 아래의 용어로 정리함
    * TP(True Positive) : 참양성
    * FP(False Positive) : 거짓양성
    * FN(False Negative) : 거짓음성
    * TN(True Negative) : 참음성

### 범주형 자료의 측정
* 측정하기 위한 요소 값
    * 정밀도 = TP / TP + FP
    * 재현율 = TP / TP + FN
    * 오차비율 = FP + FN / TP + TN + FP + FN
    * 특이도 = TN / TN + FN
    * 정확도 = TP + TN / TP + TN + FP + FN 

* F-1 Score
    * F1 = 2 X 정밀도 X 재형율 / 정밀도 + 재현율

* ROC 곡선
    * 민감도와 특이도를 각각x,y축으로 놓은 그래프
    * 민감도와 특이도는 서로 반비례 적인 관계
        * 암환자의 진단 시, 조금만 징후가 있어도 암으로 무조건 판단
        * 모든 환자에 대해 암이 아니라고 판단하여 암 환자로 잘못 진단하는 경우는 없음
    * 민감도와 특이도의 여러 상황을 고려해서 성능을 판단할 수 있도록 한눈에 보여주는 그래프

* AUC(the Area Under a ROC Curve)
    * ROC 곡선의 밑면적을 구한 값
    * 1에 가까울수록 성능이 좋음
    * AUC의 해석
        * 1로 예측하는 기준을 쉽게 잡으면 민감도는 높아짐
        * 모든 경우를 1이라고 하므로 특이도가 낮아짐
        * 두 값이 모두 1에 가까워야 의미가 있음
        * ROC 곡선을 그릴 때 특이도를 X축,민감도의 증가를 Y축에 놓음
        * x = 0, y =1이면 가장 최고의 성능
        * 우측 아래로 갈수록 특이도의 감소 속도와 민감도의 증가를 확인
        * AUC가 0.5일때 두 값의 합이 항상 1
        * AUC 값은 전체적인 민감도와 특이도의 상관 관계를 보여줌
        
### 연속형 성능평가와 오분류 확인
* 연속형 성능평가 측정
    * 평균 제곱근 오차(RMSE,Root Mean Squared Error)
        * 표준편차와 같이 예측이 얼마나 벗어났는지 확인
        * RMSE
    * 연속형 성능평가 모니터링
        * 평균 제곱 오차(Mean Squared Error)사용
        * 머신러닝 알고리즘이 새로운 데이터를 통해 발생하는 평균 제곱 오차를 공식에 맞추어 추적 모니터링함

# R을 활용한 모델 성능 평가
## R에서 성능 평가 준비
### 성능 평가를 위한 계획
* 성능 평가 무엇으로 할 것인가?
    * 독일 신용평가 데이터 사례를 활용하여 머신러닝 성능 평가
* 성능 평가 절차
    * 데이터 준비 단계 -> 이항 회귀모형 적함 -> 신용불량확률 예측 -> 성능 평가
* 데이터 구하기
    * 데이터를 직접 준비해야 할까?
        * R에 있는 샘플 데이터 활용
        * Caret 패키지에 포함된 GermanCredit 신용평가 데이터를 활용
        * R에서 Caret 패키지를 추가설치

### R에서 활용할 명령어
* 패키지 및 데이터 준비
    * suppressMessages(libray(caret))
    * caret 라이브러리 불러오기
    * data('GermanCredit")
    * 독일 신용평가 데이터 불러오기

* 이항 회귀모형 적합 및 예측
    * 이항 회귀모형 적합
        * credit.m <- glm(credit.formula, family=binomia(link='logit'),data=train.df)
    * 예측
        * test.df$pred <- predict(credit.m, newdata=test.df, type='responsd')

* 도식화 및 오차 행렬
    * 확률밀도분포 도표로 보기
        * ggplot(data=test.df) + geom_density(aes(x=pred, color=Class, linetype=Class))
    * 오차 행렬
        * confusionMatrix(data=test.df$results75, reference = test.df$Class, positive='Good)