# (참조) 성능평가지표(Evaluation Metric)

> Date: 2022.08.24

> Reference:     https://sumniya.tistory.com/26    https://mizykk.tistory.com/102

---

### 회귀분석
- MAE 
- MSE
- RMSE
- MSLE
- MAPE


### 분류분석
- Accuracy(정확도)
- Confusion Matrix (혼동행렬)
- Precision(정밀도) & Recall(재현율)
- F1 Score
- ROC Curve & AUC Score

---


### 1. 분류분석

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F99DC064C5BE056CE10">

#### (1) 정확도

$$
(Accuracy) = {TP+TN} / {TP+FN+FP+TN}
$$

- 가장 직관적으로 모델의 성능을 나타낼 수 있는 평가지표

- But domain의 편중 고려 필요 (데이터 구성에 따라 모델의 성능 왜곡 가능성 존재)

In [None]:
# 사이킷런 API 호출
from sklearn.metrics import accuracy_score
acc = accuracy_score(y_test, y_pred)

#### (2) Confusion Matrix

- True Positive (TP) : 실제 True인 정답을 True라고 예측 (정답)
- False Positive (FP) : 실제 False인 정답을 True라고 예측 (오답)
- False Negative (FN) : 실제 True인 정답을 False라고 예측 (오답)
- True Negative (TN) : 실제 False인 정답을 False라고 예측 (정답)

In [None]:
 # 사이킷런 API 호출
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

#### (3) 정밀도와 재현율

정밀도

모델이 True라고 분류한 것들 중에서 실제 True인 것들의 비율

$$
(Precision) = TP~/~TP + FP
$$

> 날씨 예측 모델이 맑다 로 예측했는데, 실제로 날씨가 맑았는지를 살펴보는 지표

In [None]:
### 정밀도
# 사이킷런 API 호출
from sklearn.metrics import precision_score
precision = precision_score(y_test, y_pred)

재현율

실제 True인 것들 중에서 모델이 True라고 예측한 것의 비율

$$
(Recall) = TP~/~TP + FN
$$

> 실제 날씨가 맑은 날들중, 모델이 날씨가 맑다고 맞춘 비율을 살펴보는 지표

In [None]:
### 재현율
# 사이킷런 API 호출
from sklearn.metrics import recall_score
recall = recall_score(y_test, y_pred)

#### (4) F1 스코어

Precision(정밀도) 와 Recall(재현율) 의 조화평균

$$
(F1~Score) = 2~*~(Precision~*~Recall)~/~(Precision+Recall)
$$

> 데이터 label이 불균형 구조일 때 모델의 성능을 정확하게 평가할 수 있음

> 단순 산술 평균으로 사용하지 않는 이유 : 산술평균을 이용하는 것보다 큰 비중이 끼치는 영향이 줄어들게 됨.

In [None]:
# 사이킷런 API 호출
from sklearn.metrics import f1_score
f1 = f1_score(y_test, y_pred)

#### (5) ROC 곡선과 AUC 스코어

ROC 곡선 

FPR의 변화에 따른 TPR의 변화를 나타내는 곡선

AUC Score

ROC curve 아래의 면적을 분류 성능지표로 활용한 것

In [None]:
### ROC 곡선
# 사이킷런 API 호출
from sklearn.metrics import roc_curve
# FPR, TPR, 임곗값 할당하기
fpr, tpr, thres = roc_curve(y_test, y_pred, pos_label = 1)
# ROC 곡선 그리기
import matplotlib.pyplot as plt
plt.plot(fpr, tpr)

In [None]:
### AUC 스코어
# 사이킷런 API
from sklearn.metrics import roc_curve, auc
# FPR, TPR, 임곗값 할당하기
fpr, tpr, thres = roc_curve(y_test, y_pred, pos_label = 1)
# AUC 값
auc = auc(fpr, tpr)

---

## 2. 회귀분석

#### (1) MAE



<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbGEngr%2FbtqPWZxFSQR%2FkMkdAx0exHjw2HA8Eezbkk%2Fimg.jpg">

- 실제 값과 예측 값의 차이(Error)를 절대값으로 변환해 평균화

- 에러에 절대값을 취하므로 에러의 크기가 그대로 반영됨. 따라서 예측 결과물의 에러가 10이 나온 것이 5로 나온 것보다 2배가 나쁜 도메인에서 쓰기 적합한 산식

- 1) 에러에 따른 손실이 선형적으로 올라갈 때, 2)이상치가 많을 때 적합

In [None]:
from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_test, y_pred)

#### (2) MSE

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F7iz5k%2FbtqPQt7tjwK%2FwW4Xugkr8jYlAJ33o9WxhK%2Fimg.jpg">

- 실제 값과 예측 값의 차이를 제곱해 평균화

- 예측값과 실제값 차이의 면적의 합

- 특이값이 존재하면 수치가 많이 늘어남

In [None]:
# 사이킷런 API 호출
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)

#### (3) RMSE

- MSE 값은 오류의 제곱을 구하므로 실제 오류 평균보다 더 커지는 특성이 있어 MSE에 루트를 씌운 RMSE 값을 사용함

- 에러에 제곱을 하기 때문에 에러가 크면 클수록 그에 따른 가중치가 높이 반영됨. 따라서 예측 결과물의 에러가 10이 나온 것이 5로 나온 것보다, 정확히 2**2 배가 나쁜 도메인에서 쓰기 적합한 산식

- 에러에 따른 손실이 기하 급수적으로 올라가는 상황에서 적합

In [None]:
# 사이킷런 API 호출
from sklearn.metrics import mean_squared_error
import numpy as np
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)

#### (4) MSLE

- MSE에 로그를 적용해준 지표

In [None]:
# 사이킷런 API 호출
from sklearn.metrics import mean_squared_log_error
msle = mean_squared_log_error(y_test, y_pred)

#### (5) MAPE

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbT9d4i%2FbtqPTDBKfSs%2FNJYQp4VNSiPKqmzBz2Bds0%2Fimg.jpg">

- MAE를 퍼센트로 변환. 즉, 오차가 예측값에서 차지하는 비율(%)

- MAE와 같은 단점

- 모델에 대한 편향이 존재

In [None]:
# 수식 (함수 구현)
import numpy as np
def MAPE(y_test, y_pred):
    mape = np.mean(np.abs((y_test - y_pred)/y_test)) * 100
    return mape
mape = MAPE(y_test, y_pred)

#### (6) MPE (Mean Percentage Error)

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FCmKgn%2FbtqPYSLBLub%2F6oSuG6bvsuxnkwGuCrFMm0%2Fimg.jpg">

- MAPE에서 절대값을 제외한 지표

- 모델이 underperformance(+) 인지 overperformance(-) 인지 판단