# 머신러닝 평가 지표

## 1 이진분류 평가지표

In [1]:
# 이진분류 데이터
import pandas as pd
y_true = pd.DataFrame([1, 1, 1, 0, 0, 1, 1, 1, 1, 0]) #실제값
y_pred = pd.DataFrame([1, 0, 1, 1, 0, 0, 0, 1, 1, 0]) #예측값

y_true_str = pd.DataFrame(['A', 'A', 'A', 'B', 'B', 'A', 'A', 'A', 'A', 'B']) #실제값
y_pred_str = pd.DataFrame(['A', 'B', 'A', 'A', 'B', 'B', 'B', 'A', 'A', 'B']) #예측값

### 정확도(Accuracy)
- 전체 데이터 중에서 올바르게 예측된 데이터의 비율
- 데이터가 불균형할 경우 정확도만으로는 충분한 평가가 어렵다.
- 데이터가 균형을 이루는 경우에만 정확도가 적절한 평가지표가 된다.
- 결괏값은 1에 가까울수록 좋다.

In [2]:
# 정확도(Accuracy)
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_true,y_pred)
print(f'정확도 : {accuracy}')

accuracy = accuracy_score(y_true_str,y_pred_str)
print(f'정확도 : {accuracy}')

정확도 : 0.6
정확도 : 0.6


### 정밀도(Precision)
- 양성으로 예측된 데이터 중 실제로 양성인 비율을 나타낸다.
- 모델이 양성이라고 예측한 경우 중 얼마나 정확하게 예측했는지를 평가하는 지표다.
- 결과는 1에 가까울수록 좋다.

In [4]:
# 정밀도(Precision)
from sklearn.metrics import precision_score

precision = precision_score(y_true,y_pred)
print(f'정밀도 : {precision}')

precision = precision_score(y_true_str,y_pred_str,pos_label='A')
print(f'정밀도 : {precision}')

정밀도 : 0.8
정밀도 : 0.8


### 재현율(Recall)
- 실제 양성인 데이터 중 모델이 양성으로 올바르게 예측한 비율을 나타낸다.
- 모델이 실제 양성인 데이터를 얼마나 잘 감지하는지를 측정한다.
- 문자 형태의 경우 양성 클래스 지정이 필요하다.
- 결과는 1에 가까울수록 좋다.

In [5]:
# 재현율(Recall)
from sklearn.metrics import recall_score

recall = recall_score(y_true, y_pred)
print(f'재현율 : {recall}')

recall = recall_score(y_true_str,y_pred_str,pos_label='A')
print(f'재현율 : {recall}')

재현율 : 0.5714285714285714
재현율 : 0.5714285714285714


### F1 스코어(F1 Score)
- 정밀도와 재현율의 조화 평균을 나타낸다.
- 불균형 데이터를 평가하는데 유용하다
- 문자 형태의 경우 양성(1) 클래스 지정이 필요하다.
- 결과는 1에 가까울수록 좋다.

In [6]:
# F1 스코어(F1 Score)
from sklearn.metrics import f1_score

f1 = f1_score(y_true,y_pred)
print(f'F1 스코어 : {f1}')
f1 = f1_score(y_true_str,y_pred_str,pos_label='A')
print(f'F1 스코어 : {f1}')

F1 스코어 : 0.6666666666666666
F1 스코어 : 0.6666666666666666


### ROC-AUC
- ROC 곡선 아래 영역, 즉 AUC는 모델의 분류 성능을 평가하는 지표다.
- 양성 클래스에 속할 확률을 예측하기 위해 모델에 predict_proba()를 사용
- ROC-AUC 값이 1에 가까울수록 모델의 성능이 우수함을 의미한다.

In [7]:
# ROC-AUC
from sklearn.metrics import roc_auc_score

# 실제값 (0:음성, 1:양성)
y_true = pd.DataFrame([0,1,0,1,1,0,0,0,1,1])
# 예측값 중 양성(1) 확률
y_pred_proba = pd.DataFrame([0.4,0.9,0.1,0.3,0.8,0.6,0.4,0.2,0.7,0.6])

roc_auc = roc_auc_score(y_true,y_pred_proba)
print(f'ROC-AUC : {roc_auc}')

ROC-AUC : 0.86


In [9]:
# 실제값
y_true_str = pd.DataFrame(['A','B','A','B','B','A','A','A','B','B'])
# 예측갑 중 B 확율
y_pred_proba_str = pd.DataFrame([0.4,0.9,0.1,0.3,0.8,0.6,0.4,0.2,0.7,0.6])

roc_auc = roc_auc_score(y_true_str,y_pred_proba_str)
print(f'ROC_AUC : {roc_auc}')

ROC_AUC : 0.86


## 2 다중분류 평가지표
- 이진 분류 평가지표와 비슷하지만 평균을 계산하는 방식(파라미터)이 필요하다.

    - Macro 평균 : 각 클래스에 대한 정밀도/재현률/F1 점수의 평균을 계산
    - Micro 평균 : 모든 클래스에 대한 전체적인 정밀도/재현률/F1 점수를 계산
    - Weighted 평균 : 각 클래스에 대한 정밀도/재현률/F1 점수의 가중 평균을 계산

In [12]:
# 다중분류 데이터
y_true = pd.DataFrame([1, 2, 3, 3, 2, 1, 3, 3, 2, 1]) # 실제값
y_pred = pd.DataFrame([1, 2, 1, 3, 2, 1, 1, 2, 2, 1]) # 예측값

y_true_str = pd.DataFrame(['A', 'B', 'C', 'C', 'B', 'A', 'C', 'C', 'B', 'A']) # 실제값
y_pred_str = pd.DataFrame(['A', 'B', 'A', 'C', 'B', 'A', 'A', 'B', 'B', 'A']) # 예측값

### 정확도(Accuracy)

In [15]:
# 정확도(Accuracy)
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_true,y_pred)
print(f'정확도 : {accuracy}')

accuracy = accuracy_score(y_true_str,y_pred_str)
print(f'정확도 : {accuracy}')

정확도 : 0.7
정확도 : 0.7


### 정밀도(Precision)

In [16]:
# 정밀도(Precision)
from sklearn.metrics import precision_score

precision = precision_score(y_true,y_pred,average='macro')
print(f'정밀도 : {precision}')

precision = precision_score(y_true_str,y_pred_str,average='macro')
print(f'정밀도 : {precision}')

정밀도 : 0.7833333333333333
정밀도 : 0.7833333333333333


### 재현율(Recall)

In [17]:
# 재현율(Recall)
from sklearn.metrics import recall_score

recall = recall_score(y_true,y_pred,average='macro')
print(f'재현율 : {recall}')

recall = recall_score(y_true_str,y_pred_str,average='macro')
print(f'재현율 : {recall}')

재현율 : 0.75
재현율 : 0.75


### F1 스코어(F1 Score)

In [18]:
# F1 스코어(F1 Score)
from sklearn.metrics import f1_score

f1 = f1_score(y_true,y_pred,average='macro')
print(f'f1 스코어 : {f1}')

f1 = f1_score(y_true_str,y_pred_str,average='macro')
print(f'f1 스코어 : {f1}')

f1 스코어 : 0.669047619047619
f1 스코어 : 0.669047619047619


## 3 회귀 평가지표
- 대부분 오차를 측정한다.
- 오차는 작을수록 좋으니 0에 가까울수록 성능이 좋은 모델이다.
- 결정 계수(R-squared)만 유일하게 높을수록(1에 가까울수록) 좋다.

In [19]:
# 회귀 데이터
import pandas as pd
y_true = pd.DataFrame([1, 2, 5, 2, 4, 4, 7, 9]) # 실제값
y_pred = pd.DataFrame([1.14, 2.53, 4.87, 3.08, 4.21, 5.53, 7.51, 10.32]) # 예측값

### MSE(Mean Squared Error)
- 실제 값과 예측값의 차이를 제곱해 평균한 값이다.
- 큰 오차에 대해 가중치를 부여한다.

In [20]:
# MSE(Mean Squared Error)
from sklearn.metrics import mean_squared_error

mse = mean_squared_error(y_true,y_pred)
print(f'MSE : {mse}')

MSE : 0.7339125000000001


### MAE(Mean Absolute Error)
- 실제 값과 예측값의 차이를 절댓값으로 계산하고 평균한 값이다.

In [21]:
# MAE(Mean Absolute Error)
from sklearn.metrics import mean_absolute_error

mae = mean_absolute_error(y_true,y_pred)
print(f'MAE : {mae}')

MAE : 0.68125


### 결정 계수(R-squared)
- 회귀식이 얼마나 잘 예측(설명)하는지를 나타내는 지표다.
- R^2이라고도 불린다.

In [22]:
# 결정 계수(R-squared)
from sklearn.metrics import r2_score

r2 = r2_score(y_true,y_pred)
print(f'결정 계수 : {r2}')

결정 계수 : 0.8859941747572815


### RMSE(Root Mean Squared Error)
- 실제 값과 예측값의 차이를 제곱해 평균을 낸 MSE에 제곱근을 적용한 값이다.
- 큰 오차에 대해 가중치를 부여한다.

In [23]:
# RMSE(Root Mean Squared Error)
from sklearn.metrics import mean_squared_error

mse = mean_squared_error(y_true,y_pred)
rmse = mse ** 0.5
print(f'RMSE : {rmse}')

RMSE : 0.8566869323154171


### MSLE(Mean Squared Log Error)
- 실제 값과 예측값의 로그를 취한 후 차이를 제곱해 평균한 값이다.
- 작은 오차에 더 큰 가중치를 부여한다.

In [24]:
# MSLE(Mean Squared Log Error)
from sklearn.metrics import mean_squared_log_error

msle = mean_squared_log_error(y_true,y_pred)
print(f'MSLE : {msle}')

MSLE : 0.027278486182156947


### RMSLE(Root Mean Squared Log Error)
- 실제 값과 예측값의 로그를 취한 후 차이를 제곱해 평균한 값의 제곱근으로 계산한 값이다. 
- 작은 오차에 대해 더 큰 가중치를 부여한다.

In [26]:
# RMSLE(Root Mean Squared Log Error)
from sklearn.metrics import mean_squared_log_error

rmsle = mean_squared_log_error(y_true,y_pred)**0.5
print(f'RMSLE : {rmsle}')

RMSLE : 0.16516199981278062


### MAPE(Mean Absolute Percentage Error)
- 예측값과 실제 값 사이의 오차를 백분율로 나타낸 지표다.

In [27]:
# MAPE(Mean Absolute Percentage Error)
mape = (abs(y_true - y_pred)/y_true).mean()*100

print(f'MAPE : {mape}')

MAPE : 0    20.319048
dtype: float64


#### MAPE를 사용할 때 분모에 0이 있으면??

In [28]:
epsilon = 1e-10
mape = (abs(y_true-y_pred)/(y_true+epsilon)).mean()*100
print(f'MAPE : {mape}')

MAPE : 0    20.319048
dtype: float64


## 평가 지표를 보고 분류 또는 회귀인지 알 수 있다.
- 회귀 평가지표에는 R^2(결정계수)를 제외하고 Error(오차)를 계산하는 단어가 포함되어있다.