## 제5장. 머신러닝 프로세스
## 제3절. 성능평가기법

### 1. 회귀분석

#### (1) MAE

In [None]:
# 사이킷런 API 호출
from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_test, y_pred)

#### (2) MSE

In [None]:
# 사이킷런 API 호출
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)

#### (3) RMSE

In [None]:
# 사이킷런 API 호출
from sklearn.metrics import mean_squared_error
import numpy as np
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)

#### (4) MSLE

In [None]:
# 사이킷런 API 호출
from sklearn.metrics import mean_squared_log_error
msle = mean_squared_log_error(y_test, y_pred)

#### (5) MAPE

In [None]:
# 수식을 함수로 만들기
import numpy as np
def MAPE(y_test, y_pred):
    mape = np.mean(np.abs((y_test - y_pred)/y_test)) * 100
    return mape
mape = MAPE(y_test, y_pred)

### 2. 분류분석

#### (1) 정확도

In [None]:
# 정확도는 (TN + TP) / (TN + FP + FN + TP)
# 사이킷런 API 호출
from sklearn.metrics import accuracy_score
acc = accuracy_score(y_test, y_pred)

In [None]:
# (2) 혼동행렬
# TN : 예측값을 Negative(0)로 예측했고 실제값도 Negative(0)
# FP : 예측값을 Positive(1)로 예측했지만 실제값은 Negative(0)
# FN : 예측값을 Negative(0)로 예측했지만 실제 값은 Positive(1)
# TP : 예측값을 Positive(1)로 예측했고 실제 값도 Positive(1)

In [None]:
# 사이킷런 API 호출
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

#### (3) 정밀도와 재현율

In [None]:
### 정밀도
# 정의 : Positive로 예측한 것들 중 실제로도 Positive인 것들의 비율
# 특징 
# a. Positive 예측성능을 더욱 정밀하게 측정하기 위한 평가지표
# b. 양성 예측도라 불림
# c. 정밀도가 상대적인 중요성을 가지는 경우 : 실제 Negative인 데이터를 Positive로 잘못 예측 했을때 업무상 큰 영향이 발생할 때
# 수식 : TP / (FP + TP)

# 사이킷런 API 호출
from sklearn.metrics import precision_score
precision = precision_score(y_test, y_pred)

In [None]:
### 재현율
# 정의 : 실제 Positive인 것들 중 Positive로 예측한 것들의 비율
# 특징 
# a. 민감도 또는 TPR이라고 불림
# b. 재현율이 상대적인 중요성을 가지는 경우 : 실제 Positive인 데이터를 Negative로 잘못 예측
# 수식 : TP / (FN + TP)

# 사이킷런 API 호출
from sklearn.metrics import recall_score
recall = recall_score(y_test, y_pred)

In [None]:
## (4) F1 스코어
# 정의 : 실제 Positive인 것들 중 Positive로 예측한 것들의 비율
# 특징 : 정밀도와 재현율이 어느 한쪽으로 치우치치 않고 적절한 조화를 이룰 때 상대적으로 높은 수치를 나타냄
# 수식 : F1 = 2*(percision * recall) / (percision + recall)

In [None]:
# 사이킷런 API 호출
from sklearn.metrics import f1_score
f1 = f1_score(y_test, y_pred)

#### (5) ROC 곡선과 AUC 스코어

In [None]:
### ROC 곡선
# 정의 : FPR이 변할 때 TPR이 변하는 것을 나타내는 곡선 (ROC)
# TPR을 Y축으로 FPR을 X축으로 하는 그래프
# 분류 결정 임계값을 조절하면서 FPR이 0부터 1까지 별할 때 TPR의 변화값을 그래프로 나타냄
# 우상향 그래프로 그려짐

# 사이킷런 API 호출
from sklearn.metrics import roc_curve
# FPR, TPR, 임곗값 할당하기
fpr, tpr, thres = roc_curve(y_test, y_pred, pos_label = 1)
# ROC 곡선 그리기
import matplotlib.pyplot as plt
plt.plot(fpr, tpr)

In [None]:
### AUC 스코어
## 정의
# a. Area Under the ROC roc_curve
# b. Roc 곡선 아래의 면적
# c. 1에 가까울수록 예측성능이 우수하다고 판단

## 특징
# AUC 값이 커디려면 FPR이 작을때 TPR 값이 커야함
# 우상향 직선에서 멀어지도 왼쪽 상단의 모서리 쪽으로 가파르게 곡선이 이동할수록 AUC가 1에 가까워짐
# 랜덤 수준의 auc값은 0.5


# 사이킷런 API
from sklearn.metrics import roc_curve, auc
# FPR, TPR, 임곗값 할당하기
fpr, tpr, thres = roc_curve(y_test, y_pred, pos_label = 1)
# AUC 값
auc = auc(fpr, tpr)