[성능지표-분류]
- 정확도(Accuracy): 전체 정답에서 맞춘 정답 수
- 정밀도(Precision): 예측(모델) 기준으로 예측이 True라고 한 것이 실제 True인 경우
- 재현율(Recall): 실제(정답) 기준으로 실제가 True라고 한 것이 예측도 True인 경우
- F1-score: 정밀도와 재현율 2가지를 조합한 점수
- 오차행렬(Confusion Matrix): 실제와 예측값의 관계를 나타내는 표

1) 모듈 로딩 및 데이터 준비

In [1]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

import pandas as pd
import numpy as np

In [2]:
digit_bunch=load_digits(as_frame=True)

2) feature/target 추출

In [5]:
#0~9까지 이미지 데이터 값
img_df=digit_bunch['data']

label_sr=digit_bunch['target']
label_sr.unique()

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
#이진분류를 위해 <7 vs 나머지> 로 라벨 변경
mask=(label_sr==7)
label_sr[~mask]=0  #7이 아니면 다 0이 되도록
label_sr[mask]=1   #7이면 1이 되도록
label_sr

0       0
1       0
2       0
3       0
4       0
       ..
1792    0
1793    0
1794    0
1795    0
1796    0
Name: target, Length: 1797, dtype: int32

In [13]:
label_sr.value_counts()

target
0    1618
1     179
Name: count, dtype: int64

3) 학습용 데이터 셋 준비

In [14]:
x_train,x_test,y_train,y_test=train_test_split(img_df,label_sr,stratify=label_sr, random_state=1)

In [17]:
y_train.value_counts()/img_df.shape[0]

target
0    0.675014
1    0.074569
Name: count, dtype: float64

In [19]:
y_train.value_counts()/y_train.shape[0]

target
0    0.90052
1    0.09948
Name: count, dtype: float64

In [21]:
y_test.value_counts()/y_test.shape[0]

target
0    0.9
1    0.1
Name: count, dtype: float64

4) 클래스 정의

In [23]:
#사용자 정의 클래스: DummyClass(단순 테스트용, 아무것도 하지 않음)
from sklearn.base import BaseEstimator

class fake(BaseEstimator):

    def fit(self,x,y):
        pass

    def predict(self,x):
        return np.zeros((len(x),1),dtype=bool)   #(len(x),1): shape(len(x)만큼 컬럼 1ㄱㅐ로 0 채우고 t/f로 변환)

5) 학습

In [24]:
#인스턴스 생성
model=fake()

#학습
model.fit(x_train,y_train)

6) 예측 및 성능 평가

In [25]:
pre=model.predict(x_train)
pre

array([[False],
       [False],
       [False],
       ...,
       [False],
       [False],
       [False]])

정확도
- 맞춘 개수/전체 개수
- 불균형 데이터일 경우, 신뢰할 수 없음

In [28]:
accuracy_score(y_train,pre)

0.9005196733481812

오차 행렬

In [29]:
from sklearn.metrics import confusion_matrix,classification_report

In [54]:
#정답, 예측값 전달
confusion_matrix(y_train,pre)

array([[1213,    0],
       [ 134,    0]], dtype=int64)

In [52]:
tn,fp,fn,tp=confusion_matrix(y_train,pre).reshape(-1)

In [53]:
print('[tn]',tn)
print('[fp]',fp)
print('[fn]',fn)
print('[tp]',tp)

[tn] 1213
[fp] 0
[fn] 134
[tp] 0


정밀도
- 예측(모델) 중심

In [37]:
from sklearn.metrics import precision_score

precision_score(y_train,pre,zero_division=0)

0.0

재현율
- 실제(정답) 중심

In [39]:
from sklearn.metrics import recall_score

recall_score(y_train,pre)

0.0

[오차행렬]

In [46]:
y_test=[0,0,0,1,1,  1,0,0,0,1,  1,1,1,0,0,  0,0,0,0,0]
y_pre=[1,1,1,1,1,  1,0,1,0,1,  1,1,1,0,0,  0,0,0,0,0]

In [47]:
confusion_matrix(y_test,y_pre)

array([[9, 4],
       [0, 7]], dtype=int64)

In [48]:
tn,fp,fn,tp=confusion_matrix(y_test,y_pre).reshape(-1)

In [50]:
print('[tn]',tn)
print('[fp]',fp)
print('[fn]',fn)
print('[tp]',tp)

[tn] 9
[fp] 4
[fn] 0
[tp] 7


In [56]:
#정밀도

precision_score(y_test,y_pre,zero_division=0)

0.6363636363636364

In [59]:
#재현율

recall_score(y_test,y_pre)

1.0