## 2. 오차행렬

이진 분류에서 성능 지표로 잘 활용되는 **오차행렬(confusion matrix, 혼동행렬)**은 학습된 분류 모델이 예측을 수행하면서 얼마나 헷갈리고 있는지도 함께 보여주는 지표이다.  
즉 , **이진 분류의 예측 오류가 얼마인지와 더불어 어떠한 유형의 예측 오류가 발생하고 있는지를 함께 나타내는 지표**

![image-2.png](attachment:image-2.png)  
TN, FN, FP, TP 값을 다양하게 결합해 분류 모델 예측 성능의 오류가 어떠한 모습으로 발생하는지 알 수 있다.  
- TN : 예측값 =  Negative(0), 실제값 = Negative(0)
- FN : 예측값 = Negative(0), 실제값 = Positive(1)  
- TP : 예측값 = Positive(1), 실제값 = Positive(1)
- FP : 예측값 = Positive(1), 실제값 = Negative(0)

In [1]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.base import BaseEstimator
from sklearn.metrics import accuracy_score
import numpy as np
import pandas as pd

class MyFakeClassifier(BaseEstimator):
    def fit(self, X, y):
        pass
    
    # 입력값으로 들어오는 X 데이터 셋의 크기만큼 모두 0 값으로 만들어서 반환
    def predict(sel, X):
        return np.zeros((len(X),1), dtype = bool)
    
# 사이킷런의 내장 데이터 셋인 load_digits()를 이용하여 MNIST 데이터 로딩
digits = load_digits()

print(digits.data)
print("### digits.data.shape:", digits.data.shape)
print(digits.target)
print("### digits.target.shape:", digits.target.shape)

[[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]]
### digits.data.shape: (1797, 64)
[0 1 2 ... 8 9 8]
### digits.target.shape: (1797,)


In [2]:
# digits 번호가 7번이면 True이고 이를 astype(int)로 1로 변환, else False, 0으로 변환
y = (digits.target == 7).astype(int)
X_train, X_test, y_train, y_test = train_test_split(digits.data, y, random_state = 11)

In [3]:
# 불균현항 레이블 데이터 분포도 확인
print('레이블 데이터 세트 크기 :', y_test.shape)
print('테스트 세트 레이블 0과 1의 분포도')
print(pd.Series(y_test).value_counts())

# Dummy Classifier로 학습/예측/정확도 평가
fake_clf = MyFakeClassifier()
fake_clf.fit(X_train, y_train)
fake_pred = fake_clf.predict(X_test)
print('모든 예측을 0으로 하여도 정확도는:{:.3f}'.format(accuracy_score(y_test, fake_pred)))

레이블 데이터 세트 크기 : (450,)
테스트 세트 레이블 0과 1의 분포도
0    405
1     45
dtype: int64
모든 예측을 0으로 하여도 정확도는:0.900


In [7]:
# 오차 행렬 출력
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, fake_pred)

array([[405,   0],
       [ 45,   0]], dtype=int64)

출력된 오차 행렬은 ndarray 형태이다.  
앞선 도표와 동일한 위치를 가리고 array에서 가져올 수 있다.

![image-2.png](attachment:image-2.png)  
TP, TN, FP, FN 값은 Classifier 성능의 여러 면모를 판단할 수 있는 기반 정보를 제공  
이 값을 조합해 Classifier의 성능을 측정할 수 있는 주요 지표인 **정확도(Accuracy), 정밀도(Precision), 재현율(Recall)** 값을 알 수 있다

**정확도**는 예측값과 실제값이 얼마나 동일한가에 대한 비율만을 결정된다.  
따라서 오차 행렬에서 True 값에 해당하는 TN과 TP에 의해 좌우된다.  
오차 행렬 상에서 정확도는 다음과 같이 정의된다.
  
$$ 정확도(Accracy) =  \frac{예측 결과와 실제 값이 동일한 건수}{전체 데이터 수}  = \frac{TN + TP}{TN + TP + FN + FP}$$ 

일반적으로 불균형한 레이블 클래스를 가지는 이진 분류 모델에서는 많은 데이터 중 **중점적으로 찾아야 하는 매우 적은 수의 결괏값에 Positive를 설정해 1 값을 부여**하고, 그렇지 않은 경우 Negative는 0 값을 부여하는 경우가 많다

***  
불균형한 이진 분류 데이터 세트에서는 Positive 데이터 건수가 매우 작기 때문에 데이터에 기반한 ML 알고리즘은 Positive 보다는 Negative로 예측을 진행하여 예측 정확도가 높아지는 경향이 발생한다  
  
10,000건의 데이터 세트에서 9,900건이 Negative이고 100건이 Positive라면 Negative로 예측하는 경향이 더 강해져서 TN은 매우 커지고 TP는 매우 작아지게 된다.  
  
  
또한 Negative로 예측할 때 정확도가 높기 때문에 FN이 매우 작고, Positive로 예측하는 경우가 작기 때문에 FP 역시 매우 작아진다.  
  
  
결과적으로 정확도 지표는 비대칭한 데이터 세트에서 Positive에 대한 예측 정확도 판단하지 못한 채 Negative에 대한 예측 정확도만으로 분류의 정확도가 매우 높게 나타나는 수치적인 판단 오류를 일으키게 된다.

**<font color = blue> 따라서 정확도(Accracy)는 분류(Classifier) 모델의 성능을 측정할 수 있는 한 가지 요소일 뿐이다.**