#### 성능지표 - 분류
- 정확도 (Accuracy) : 전체 정답에서 맞춘 정답의 수
- 정밀도 (Precision) : 모델(예측) 기준으로 모델이 True라고 한 것이 정답(실제) True 인것
- 재현율 (Recall) : 정답(실제) 기준으로 정답(실제)이 True라고 한 것이 모델(예측)도 True 인것
- F1-Score : 재현율과 정밀도 2가지를 조합한 점수
- 오차행렬(Confusion Matrix) : 정답과 예측값의 관계 나타내는 표

In [2]:
# 모듈 로딩
from sklearn.datasets import load_digits
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score # skelarn에서 제공하는 모델 성능평가 관련 모듈
import numpy as np

In [3]:
# 데이터 로딩
digitbunch = load_digits(as_frame=True)
print(digitbunch.keys())

# 피쳐와 레이블 추출
# 0 ~ 9 이미지 데이터 값
imgdf = digitbunch['data']
print(imgdf)
print('-'*100)

# 0 ~ 9 라벨
labelsr = digitbunch['target']
labelsr.unique()


# 2진 분류를 위해서 7과 나머지 라벨 변경
mask=(labelsr == 7)
labelsr[~mask]=0
labelsr[mask]=1



dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])
      pixel_0_0  pixel_0_1  pixel_0_2  pixel_0_3  pixel_0_4  pixel_0_5  \
0           0.0        0.0        5.0       13.0        9.0        1.0   
1           0.0        0.0        0.0       12.0       13.0        5.0   
2           0.0        0.0        0.0        4.0       15.0       12.0   
3           0.0        0.0        7.0       15.0       13.0        1.0   
4           0.0        0.0        0.0        1.0       11.0        0.0   
...         ...        ...        ...        ...        ...        ...   
1792        0.0        0.0        4.0       10.0       13.0        6.0   
1793        0.0        0.0        6.0       16.0       13.0       11.0   
1794        0.0        0.0        1.0       11.0       15.0        1.0   
1795        0.0        0.0        2.0       10.0        7.0        0.0   
1796        0.0        0.0       10.0       14.0        8.0        1.0   

      pixel_0_6  pix

In [4]:
# 학습용 데이터셋 준비
X_train, X_test, y_train, y_test = train_test_split(imgdf, labelsr, random_state=1, stratify=labelsr )

print(y_train.value_counts()/imgdf.shape[0])
print(y_test.value_counts()/y_test.shape[0])

target
0    0.675014
1    0.074569
Name: count, dtype: float64
target
0    0.9
1    0.1
Name: count, dtype: float64


클래스 정의

In [5]:
# 사용자 정의 클래스 DummyClass : 아무것도 하지 않는 클래스 단순 테스트용
from sklearn.base import BaseEstimator
class MyClassifier(BaseEstimator):

    def fit(self, X, y): pass

    def predict(self,X): return np.zeros((len(X), 1), dtype=bool)

#학습
# 인스턴스 생성
model = MyClassifier()

# 학습
model.fit(X_train, y_train)

#예측 및 성능 평가
pre_ = model.predict(X_train)
print(pre_)

# 정확도 : 맞춘 개수 / 전체 개수 -> 불균형 데이터일 경우 신뢰 할 수 없음.
accuracy_score(y_train, pre_)

# 오차 행렬
from sklearn.metrics import confusion_matrix
# 정답과 예측값 전달
tn, fp, fn, tp = confusion_matrix(y_train, pre_, labels=[0, 1]).reshape(-1)

print(tn, fp, fn, tp)

[[False]
 [False]
 [False]
 ...
 [False]
 [False]
 [False]]
1213 0 134 0


정밀도(precision) : 모델(예측) 중심!

In [6]:
from sklearn.metrics import precision_score

precision_score(y_train, pre_)

  _warn_prf(average, modifier, msg_start, len(result))


0.0

In [7]:
from sklearn.metrics import recall_score
recall_score(y_train, pre_)

0.0

In [8]:
# 오차행렬
from sklearn.metrics import confusion_matrix, classification_report
y_test= [0,0,0,1,1, 1,0,0,0,1,  1,1,1,0,0,  0,0,0,0,0]
y_pre = [1,1,1,1,1, 1,0,1,0,1,  1,1,1,0,0,  0,0,0,0,0]


In [9]:
# 정답과 예측값 전달
(tn, fp, fn, tp) = confusion_matrix(y_test, y_pre).reshape(-1)
print(tn, fp, fn, tp)

9 4 0 7


In [10]:
print(confusion_matrix(y_test, y_pre))
print(recall_score(y_test, y_pre))

[[9 4]
 [0 7]]
1.0


In [12]:
from sklearn.metrics import classification_report
classification_report(y_test, y_pre)

'              precision    recall  f1-score   support\n\n           0       1.00      0.69      0.82        13\n           1       0.64      1.00      0.78         7\n\n    accuracy                           0.80        20\n   macro avg       0.82      0.85      0.80        20\nweighted avg       0.87      0.80      0.80        20\n'