<a href="https://colab.research.google.com/github/PyBlin/Study/blob/main/PyML/Chapter3_Evaluation/Chap3_2_ConfusionMatrix.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 2.Confusion Matrix

* 오차행렬(혼동행렬)은 학습된 분류 모델이 예측하면서 얼마나 헷갈리는지도 함께 보여줍니다.
>* TN( True Negative ) | FP( False Positive )
>* FN( False Negative) | TP( True Positive)

* 정확도 예제에서 다룬 MyFakeClassifier의 예측 성능 지표를 오차 행렬로 표현해봅시다.

In [1]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.base import BaseEstimator
from sklearn.metrics import accuracy_score
import numpy as np
import pandas as pd

class MyFakeClassifier(BaseEstimator):
    def fit(self, X, y):
        pass

    # 입력으로 들어오는 X 데이터셋의 크기만큼 모두 0값으로 변환
    def predict(self, X):
        return np.zeros((len(X), 1), dtype=bool)

# 사이킷런 내장 데이터셋을 이용해 MNIST 데이터 로딩
digits = load_digits()

# digits '7'이면 True, astype(int) --> 1, 나머지 0
y = (digits.target==7).astype(int)
X_train, X_test, y_train, y_test = train_test_split(digits.data, y, 
                                                    random_state=11)

# Dummy Classifier로 학습/예측/정확도 평가
fakeclf = MyFakeClassifier()
fakeclf.fit(X_train, y_train)
fakepred = fakeclf.predict(X_test)

In [2]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, fakepred)

array([[405,   0],
       [ 45,   0]])

* TN = array[0, 0] = 405
>* 전체 405건 데이터 중 무조건 Negative 0으로 예측해서 True가 된 결과 405건

* FP = array[0, 1] = 0
>* Positive 1로 예측한 건수는 없으므로 0건

* FN = array[1, 0] = 45
>* Positive 1인 건수 45건을 Negative로 예측해서 False가 된 결과 45건

* TP = array[1, 1] = 0
>* Positive 1로 예측한 건수는 없으므로 0건

* 위 값을 조합해 정확도(Accuracy), 정밀도(Precision), 재현율(Recall) 값을 알 수 있습니다.
* 오차(혼동)행렬에서 정확도는 다음과 같습니다.
>* acc = (TN + TP) / (TN + FP + FN + TP)

* 불균형한 이진 분류 데이터셋에서는 Positive 데이터 건수가 매우 적기 때문에 데이터에 기반한 ML 알고리즘은 Negative로 예측 정확도가 높아지는 경향이 발생합니다.
* 그래서 TN은 매우 커지고 TP는 매우 작아지게 됩니다.
* 또한, FN이 매우 작아지고 FP 역시 매우 작아집니다.
* 결과적으로, Negative에 대한 예측 정확도만으로도 분류의 정확도가 높게 나타나는 수치적 판단 오류가 발생합니다.