# chapter 3. Evaluation¶

## Confusion Matrix

이진 분류에서 성능 지표로 잘 활용되는 **오차 행렬(Confusion Matrix, 혼동 행렬)** 은 이진 분류의 예측 오류가 얼마인지와 더불어 어떤 유형의 예측 오류가 발생하고 있는지를 함께 나타내는 지표이다. <br>
오차 행렬은 다음과 같은 4분면 행렬에서 실제 레이블 클래스 값과 예측 레이블 클래스 값이 어떠한 유형을 가지고 매핑되는지 나타낸다. <br>

<img src = 'image/Predicted Class.jpg' alt = 'Predicted Class' width='500' height='500'>

**TN, FP, FN, TP**는 **예측 클래스**와 **실제 클래스의 Positive 결정 값(값 1)** 과 **Negative 결정 값(값 1)** 의 결합에 따라 결정된다. <br>
TN은 예측 값을 Negative 값 0으로 예측했고, 실제 값 역시 Negative 값 0 <br>
FP는 예측 값을 Positive 값 1로 예측했는데, 실제 값은 Negative 값 0 <br>
FN는 예측 값을 Negative 값 0으로 예측했는데, 실제 값은 Positive 값 1 <br>
TP는 예측 값을 Positive 값 1로 예측했고, 실제 값은 Positive 값 1

사이킷런은 **오차 행렬을 구하기 위해 confusion_matrix() API를 제공**한다. 

In [3]:
# 이전 Accuracy Data

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.base import BaseEstimator
from sklearn.metrics import accuracy_score
import numpy as np
import pandas as pd

class MyFakeClassifier(BaseEstimator):
    def fit(self, X, Y):
        pass
    
    # 입력값으로 들어오는 X 데이터 세트의 크기만큼 모두 0 값으로 만들어서 반환
    def predict(self, X):
        return np.zeros((len(X), 1), dtype = bool)
    
# 사이킷런의 내장 데이터 세트인 load_digits()를 이용해 MNIST 데이터 로딩
digits = load_digits()
    
# digits 번호가 7번이면 True이고, 이를 astype(int)로 1 변환, 7번이 아니면 False이고 0으로 변환
Y = (digits.target == 7).astype(int)
X_train, X_test, Y_train, Y_test = train_test_split(digits.data, Y, random_state = 11)

# 불균형한 레이블 데이터 분포도 확인 
print('레이블 테스트 세트 크기 : ', Y_test.shape)
print('테스트 세트 레이블 0과 1의 분포도')
print(pd.Series(Y_test).value_counts())

# Dummy Classifier로 학습 / 예측 / 정확도 평가
fakeclf = MyFakeClassifier()
fakeclf.fit(X_train, Y_train)
fakepred = fakeclf.predict(X_test)
print('모든 예측을 0으로 하여도 정확도는 : {:.3f}'.format(accuracy_score(Y_test, fakepred)))

레이블 테스트 세트 크기 :  (450,)
테스트 세트 레이블 0과 1의 분포도
0    405
1     45
dtype: int64
모든 예측을 0으로 하여도 정확도는 : 0.900


In [4]:
# MyFakeClassifier의 예측 결과인 fakepred와 실제 결과인 Y_test를 confusion_matrix()의 인자로 입력해 오차 행렬을 배열 형태로 출력
from sklearn.metrics import confusion_matrix

confusion_matrix(Y_test, fakepred)

array([[405,   0],
       [ 45,   0]])

출력된 오차 행렬은 ndarray 형태이다. <br> 
이진 분류의 TN, FP, FN, TP는 상단 도표와 동일한 위치를 가지고 array에서 가져올 수 있다. <br> 
TN, FP, FN, TP 값은 Classifier 성능의 여러 면모를 판단할 수 있는 기반 정보를 제공한다. <br> 

**정확도 = 예측 결과와 실제 값이 동일한 건수 / 전체 데이터 수 = (TN + FP) / (TN + FP + FN + TP)**