# 8장 모델평가

## 01. 분류 성능 평가 지표
- 오차행렬(confusion matrix)
- 정확도(accuracy)
    - 예측결과와 실제값이 동일한 건수 / 전체데이터 수
- 정밀도와 재현율(트레이드 오프 관계)
    - 정밀도(precision)
        - 예측을 Positive로 한 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율
    - 재현율 = 민감도
        - 실제 값이 Positive인 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율
    - 재현율이 중요지표인 경우는 실제 Positive 양성 데이터를 Negative로 잘못 판단하게 되면 업무상 큰 영향이 발생하는 경우 (암판단, 금융사기)
    - 정밀도가 중요지표인 경우는 실제 Negative 음성인 데이터 예측을 Positive 양성으로 잘못 판단하게 되면 큰 영향이 발생하는 경우 (스팸)        
- F1 score
    - 정밀도와 재현율을 겹합한 지표
- ROC 곡선과 AUC

In [1]:
# confusion_matrix로 모델평가지표 구하기
from sklearn.metrics import confusion_matrix

def model_evaluation(label, predict):
    cf_matrix = confusion_matrix(label, predict)
    Accuracy = (cf_matrix[0][0] + cf_matrix[1][1]) / sum(sum(cf_matrix))
    Precision = cf_matrix[1][1] / (cf_matrix[1][1] + cf_matrix[0][1])
    Recall = cf_matrix[1][1] / (cf_matrix[1][1] + cf_matrix[1][0])
    F1_Score = (2 * Recall * Precision) / (Recall + Precision)
    print("Model_Evaluation with Label:1")
    print("Accuracy: ", Accuracy)
    print("Precision: ", Precision)
    print("Recall: ", Recall)
    print("F1-Score: ", F1_Score)

In [2]:
# 각각 따로 구할 수 있음
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

In [None]:
# ROC 커브와 AUC 구하기
from sklearn import metrics
fpr, tpr, thresholds = metrics.roc_curve(y_test, pred_y, pos_label=1)

plt.plot(fpr,tpr)

auc = np.trapz(tpr,fpr)
print('AUC:', auc)

---
---

## 02. 회귀 성능 평가 지표
- MAE(mean absolute error)
    - 실제 값과 예측값의 차이를 절대값으로 변환해 평균한 것
- MSE(mean squared error)
    - 실제 값과 예측값의 차이를 제곱해 평균한 것
- RMSE(root mean squared error)
    - mse는 오류의 제곱을 구하므로 실제 오류 평균보다 더 커지는 특성이 있음으로 mse에 루트를 씌운 것
- R^2(r-squared)
    - 분산 기반으로 예측 성능을 평가한다. 실제 값의 분산 대비 예측값의 분산 비율을 지표로 하며, 1에 가까울수록 예측 정확도가 높다.

In [3]:
# MAE
from sklearn.metrics import mean_absolute_error

# MSE
from sklearn.metrics import mean_squared_error

# R^2
from sklearn.metrics import r2_score


### @ scroing 함수 적용 값
- MAE
    - 'neg_mean_abolute_error'
- MSE
    - 'neg_mean_squared_error'
- r^2
    - 'r2'
- **'neg'라는 접두어는 음수 값을 가진다는 의미이다. 따라서 주의해야 한다. -1 을 곱한 값들이기 때문에 다시 -1곱해줘야 원래 값인 것!**


- 릿지,라쏘 쪽 참고 예시
```python
for alpha in alphas :
    elasticnet = ElasticNet(alpha = alpha)
    
    neg_mse_scores = cross_val_score(elasticnet, X_data, y_target, scoring='neg_mean_squared_error', cv=5)
    rmse_scores = np.sqrt(-1 * neg_mse_scores)
    avg_rmse = np.mean(rmse_scores)
    print('alpha={0}일때, 5 foldas의 평균 RMSE={1:4f}'.format(alpha,avg_rmse))
```