# 머신러닝 평가
## 분류(Classification) 성능 평가 지표 종류
1. 정확도(accuracy)
2. 오차행렬(confusion maerix)
3. 정밀도(precision)
4. 재현율(recall)
5. F1 스코어
6. ROC AUC

## 정확도
### 의미
* 직관적 모델 성능 평가 지표
* 정확도 = (예측=실제 결과인 데이터 건수)/(전체 예측 데이터)

### 단점
* 데이터 구성에 따라 모델 성능의 왜곡 발생 가능
* 레이블 값의 분포가 특정 데이터에 집중이 되어 있는 경우 테스트 데이터의 실제 레이블 값이 해당 데이터로 이뤄져 실제로 좋지 못한 모델임에도 정확도가 높게 나올 수 있다.
    

## 오차행렬(confusion matrix)
### 의미
* 이진 분류의 예측 오류의 정도와 어느 유형의 예측 오류가 발생하는지 나타내는 지표
|실제/예측|Negative|Positive|
|------|---|---|
|Negative|TN|FP|
|Positive|FN|TP|

### 오차행렬의 해석
1. TN(True Negative)
    * 실제: Negative 결과
    * 예측: Negative 예측
    * 실제 = 예측 : True
    * 따라서 Negative 예측 결과가 True인 TN(실제 negative)
<br></br>
2. FP(False Positive)
    * 실제: Negative
    * 예측: Positive
    * 실제 = 예측: False
    * Positive 예측 결과가 False인 FP(실제 negative)
<br></br>
3. FN(False Negative)
    * 실제: Positive
    * 예측: Negative
    * 실제 = 예측: False
    * Negative 예측 결과가 False인 FN(실제 positive)
<br></br>
4. TP(True Positive)
    * 실제: Positive
    * 예측: Positive
    * 실제 = 예측 : Positive
    * Positive 예측 결과가 True인 TP(실제 positive)
    
### 오차행렬의 정확도 
* 정확도 = (예측=실제인 데이터 건수)/(전체 데이터 수)
<br>     = (TN+TP)/(TN+TP+FN+FP)

### 오차행렬의 정밀도와 재현율
#### 의미
* 정밀도(precision)
<br>-> 예측이 positive인 데이터 중에서 실제 positive 예측 비율
* 재현율(recall)
<br>-> 실제가 positive인 데이터 중에서 실제와 예측이 일치하는 비율

#### 계산
* 정밀도(precision) = TP/(TP+FP)
* 재현율(recall) = TP/(TP+FN)

### 정밀도와 재현율의 상관관계
* 상호보완적인 수치로 trade off 작용을 한다.
* 정밀도와 재현율 둘다 강조되는 경우 임계값(Threshold)의 조정으로 수치 조정 가능

#### 분류결정 임계값에 따른 positive 예측 확률의 변화
* 분류결정의 임계값이 낮아질수록 positive 예측 확률이 높아진다
<br>-> 재현율 증가
* precision_recall_curve() 함수를 통해 특정 임계값에 따른 정밀도와 재현율의 변화값을 제공한다

* 임계값의 의미
<br>우리가 실제 결과값은 0과 1로 제시되어 있지만 예측 모델에서는 주어진 독립변수를 기반으로 실제 결과값을 예상하기 때문에 예측된 결과값이 실제로는 0과 1 사이의 임의의 수가 될 수 밖에 없다. 이때, 해당 결과값에 대해서 임계값을 넘으면 positive로 취급한다. 기본적으로 모델에서는 디폴트값으로 임계값을 0.5로 두기 때문에 별도 임계값을 설정하지 않아도 결과값이 0과 1로 표현되어 출력된다.

#### 임계값에 따른 positivie 예측 변화 예시

### 정밀도와 재현율의 맹점
#### 정밀도 100%의 맹점
* 정밀도는 전체 positive예측(맞든 틀리든 모든 positive 예측) 중에서 맞는 예측의 확률을 의미한다.
<br>그렇다면 전체 예측 대상 중 확실한 1명을 제외하고 나머지를 일괄적으로 negative로 예측을 해 버리면 전체 positive 예측은 확실한 1명 밖에 남지 않기에 1/1= 100%의 정밀도를 갖는다

#### 재현율 100%의 맹점
* 재현율은 전체 positive 결과(맞든 틀리든 모든 postive 결과)에 대해서 맞는 예측의 확률을 의미한다.
<br> 그렇다면 전체 예측 대상에 대해서 무조건 positive 예측을 해 버리면 재현율 계산에 negative 결과에 대한 positive 예측으로 False 예측이 나오는 FP는 계산에 포함되지 않고 나머지 TP만 계산에 들어가기 때문에 
<br>TP/(0+TP) = 1 =100%가 된다

## F1 Score
### 의미
* 정밀도와 재현율을 결합한 지표
* 정밀도와 재현율 중 어느 한쪽으로 치우치지 않는 수치를 나타내는 경우 상대적으로 높은 값이 나온다.
<br> = 정밀도와 재현율이 비슷하면 상대적으로 수치가 높다.

### 계산
* F1 = 정밀도와 재현율의 역수에 대한 평균의 역수
<br>= 2/{(1/recall)+(1/precision)}
<br>= (2'prcision''recall')/(precision+recall)

* sklearn에서 f1_score 함수를 제공한다. 

## ROC 곡선과 AUC
### 의미
* ROC 곡선(Receiver Operation Characteristic Curve)과 이에 기반한 AUC스코어는 이진분류 예측 성능 측정의 지표이다.
### 해석
* ROC 곡선
    - FPR(False Positive Rate) 변화에 따른 TPR(True Positive Rate)의 변화를 나타낸 곡선
<br></br>
* X축: False Posivie Rate
* Y축: True Positive Rate
<br></br>
* AUC(Area Under Cover)
    - 분류 성능의 지표
    - ROC 곡선 아래 면적
    - 1에 가까울수록 이진분류 예측이 좋은 성능을 가졌다고 평가한다.
### FPR과 TPR
#### TPR(True Positive Rate)
* 실제 positive인 데이터에 대해서 예측이 positive인 비율
* TPR = TP/(TP+FN) = 재현율
#### FPR(False Positive Rate)
* 실제 negative인 데이터에 대해서 예측이 positive인 비율
* FPR = FP/(FP+TN)