# 02. 오차 행렬

<br>

# 1. 오차 행렬(confusion matrix)

- 이진 분류에서 성능 지표로 잘 활용됨
- 학습된 분류 모델이 예측을 수행하면서 얼마나 헷갈리고(confused) 있는 지도 함께 보여주는 지표  
$\rightarrow$ 이진 분류의 예측 오류가 얼마인지 + 어떠한 유형의 예측 오류가 발생하고 있는 지를 함께 나타내는 지표

<br>

## 1.1 오차 행렬의 4분면

- 오차 행렬은 4분면 행렬에서 실제 레이블 클래스 값과 예측 레이블 클래스 값이 어떠한 유형을 가지고 매핑되는 지를 나타냄

<div style='text-align: left; margin-left: 20px;'>
    <img src='./images/Ch03/02/img001.jpg' width='500px'/>
</div>

- TN, FP, FN, TP는 예측 클래스와 실제 클래스의 Positive 결정 값(값 1)과 Negative 결정 값(값 0)의 결합에 따라 결정

<br>

**TN(True Negative)**

- 예측 값을 Negative 값 0으로 예측
- 실제 값 역시 Negative 값 0

**FP(False Positive)**

- 예측 값을 Positive 값 1로 예측
- 실제 값은 Negative 값 0

**FN(False Negative)**

- 예측 값을 Negative 값 0으로 예측
- 실제 값은 Positive 값 1

**TP(True Positive)**

- 예측 값을 Positive 값 1로 예측
- 실제 값 역시 Positive 값 1

<br>

## 1.2 `confusion_matrix()`

- 사이킷런은 오차 행렬을 구하기 위해 `confusion_matrix()` API를 제공  
  
  
- `MyClassifier`의 예측 성능 지표를 오차 행렬로 표현

In [4]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.base import BaseEstimator
import numpy as np
import pandas as pd

class MyFakeClassifier(BaseEstimator) :
    
    def fit(self, X, y) :
        pass
    
    # 입력값으로 들어오는 X 데이터 세트의 크기만큼 모두 0값으로 만들어서 반환
    def predict(self, X) :
        return np.zeros((len(X), 1), dtype=bool)
    
# 사이킷런 내장 데이터 세트인 load_digits()를 이용해 MNIST 데이터 로딩
digits = load_digits()

# digits 번호가 7번이면 True이고 이를 astype(int)로 1로 변환, 7번이 아니면 False이고 0으로 변환
y = (digits.target == 7).astype(int)
X_train, X_test, y_train, y_test = train_test_split(digits.data, y, random_state=11)

fakeclf = MyFakeClassifier()
fakeclf.fit(X_train, y_train)

fakepred = fakeclf.predict(X_test)

In [5]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, fakepred)

array([[405,   0],
       [ 45,   0]], dtype=int64)

$\rightarrow$ 출력된 오차 행렬은 `ndarray` 형태  
  
  
- `array[0,0]` : TN
- `array[0,1]` : FP
- `array[1,0]` : FN
- `array[1,1]` : TP

<br>

## 1.3 변형된 MNIST 데이터 세트에 대한 오차 행렬의 의미

- 무조건 Negative로 예측하는 Classifier 사용
- 테스트 데이터 세트의 클래스 값 분포
  - 0 : 405건
  - 1 : 45건
  
  
$\rightarrow$ TN : 전체 450건 중 무조건 Negative 0으로 예측해서 True가 된 결과 (405건)  
$\rightarrow$ FP : Positive 1로 예측한 건수 (0건)  
$\rightarrow$ FN : 실제 Positive 1인 건수 (45건)  
$\rightarrow$ TP : Positive 1로 예측한 건수 (0건)

<div style='text-align: left; margin-left: 20px;'>
    <img src='./images/Ch03/02/img002.jpg' width='600px'/>
</div>

<br>

## 1.4 Classifier 성능 측정 지표 생성

- TP, TN, FP, TN 값은 Classifier 성능의 여러 면모를 판단할 수 있는 기반 정보를 제공
- 이 값을 조합해 Classifier의 성능을 측정할 수 있는 주요 지표은 **정확도(Accuracy)**, **정밀도(Precision)**, **재현율(Recall)** 값을 알 수 있다.

<br>

### 1.4.1 정확도(Accuracy)

- 정확도 : 예측값과 실제 값이 얼마나 동일한 가에 대한 비율
- 즉, 오차 행렬에서 True에 해당하는(예측과 실제가 일치하는) TN과 TP에 좌우됨

$
\quad
정확도 = {예측\,결과와\,실제\,값이\,동일한\,건수 \over 전체\,데이터\,건수} = {\left(TN + TP\right) \over \left(TN + FP + FN + TP\right)}
$

<br>

**불균형한 레이블 클래스를 가지는 이진 분류 모델**

- 많은 데이터 중에서 중점적으로 찾아야 하는 매우 적은 수의 결괏값에 Positive를 설정에 1 값을 부여
- 그렇지 않은 경우 Negative로 0 값을 부여하는 경우가 많다.
  - ex) 사기 행위 예측 모델 : 사기 행위 - Positive 양성 (1), 정상 행위 - Negative 음성 (0)
  - ex) 암 검진 예측 모델 : 암이 양성 - Positive 양성 (1), 암이 음성 - Negative 음성 (0)  
  
  
- 불균형한 이진 분류 데이터 세트에서는 Positive 데이터 건수가 매우 작음  
$\rightarrow$ 데이터에 기반한 ML 알고리즘은 Positive보다는 Negative로 예측 정확도가 높아지는 경향이 발생  
$\Rightarrow$ TN은 매우 커지고 TP는 매우 작아짐  
  
  
- Negative로 예측할 때 정확도가 높음  
$\Rightarrow$ FN(Negative로 예측할 때 틀린 데이터 수)이 매우 작고, FP(Positive로 예측할 때 틀린 데이터 수) 역시 매우 작아짐  

<br>

## 1.4.2 정밀도(Precision), 재현율(Recall)

- 불균형한 데이터 세트에서 정확도보다 더 선호되는 평가 지표