In [1]:
#2021.06.21. MON
#Hankyeong

##CH03. 모델 평가 방법  

#00. 패키지 호출 
from sklearn.base import BaseEstimator
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score, recall_score
import numpy as np 
import pandas as pd 
import warnings

#00-1. warning message ignore
warnings.filterwarnings(action='ignore')

#01. Digit 데이터셋을 이용해 숫자 7과 나머지들을 구분하기. (Is it Seven?)
#(1) 데이터셋 호출하기. 
digits = load_digits()

#(2) 데이터셋 탐색하기. 
#①Feature dataset
digits.data

array([[ 0.,  0.,  5., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ..., 10.,  0.,  0.],
       [ 0.,  0.,  0., ..., 16.,  9.,  0.],
       ...,
       [ 0.,  0.,  1., ...,  6.,  0.,  0.],
       [ 0.,  0.,  2., ..., 12.,  0.,  0.],
       [ 0.,  0., 10., ..., 12.,  1.,  0.]])

In [2]:
#②Target dataset
digits.target

array([0, 1, 2, ..., 8, 9, 8])

In [3]:
#(3) train, test 데이터셋 분할하기. 
y = (digits.target == 7).astype(int)
X_train,X_test,y_train,y_test = train_test_split(
    digits.data, y, test_size=0.2, stratify=digits.target, random_state=2021
)
X_train.shape, y_train.shape, X_test.shape, y_test.shape

((1437, 64), (1437,), (360, 64), (360,))

In [4]:
#(4) Decision Tree 모형 설정하기. 
dtc = DecisionTreeClassifier(random_state=2021)

#(5) train 데이터셋으로 모델 학습하기. 
dtc.fit(X_train,y_train)

DecisionTreeClassifier(random_state=2021)

In [5]:
#(6) test 데이터셋으로 모델의 예측값 확인하기.
dtc_pred = dtc.predict(X_test)

#(7) 오차 행렬(Confusion Matrix)을 이용해 Negative, Positive 값들 확인하기.
confusion_matrix(y_test,dtc_pred)

array([[317,   7],
       [  4,  32]], dtype=int64)

In [6]:
#(8) 정확도(Accuracy) 파악하기. 
accuracy_score(y_test,dtc_pred)

0.9694444444444444

In [7]:
#(9) 정밀도(Precision) 파악하기. 
precision_score(y_test,dtc_pred)

0.8205128205128205

In [8]:
#(10) 재현율(Recall) 파악하기. 
recall_score(y_test,dtc_pred)

0.8888888888888888

In [9]:
#02. 가짜분류기를 생성해 모형 평가하기. 
#(1) 가짜분류기 정의하기. 
class MyFakeClassifier(baseEstimator) :
     def fit(self, X_train, y_train)  : 
         pass                         
     def predict(self, X_test)        :
         return np.zeros((X_test.shape[0], 1), dtype=int)
my_clf = MyFakeClassifier()           

In [10]:
#(2) 가짜 분류기 학습하기. 
my_clf.fit(X_train,y_train)

#(3) 가짜 분류기로 예측하기.
my_pred = my_clf.predict(X_test)

#(4) 오차 행렬(Confusion Matrix)을 이용해 Negative, Positive 값들 확인하기.
confusion_matrix(y_test,my_pred)

array([[324,   0],
       [ 36,   0]], dtype=int64)

In [11]:
#(5) 정확도(Accuracy) 파악하기. 
accuracy_score(y_test, my_pred)

0.9

In [12]:
#(6) 정밀도(Precision) 파악하기. 
precision_score(y_test,my_pred)

0.0

In [13]:
#(7) 재현율(Recall) 파악하기. 
recall_score(y_test,my_pred)

0.0

In [14]:
#MEMO. 가짜분류기를 통해서도 정확도가 90% 가까이 나옴. 즉 평가지표로써 정확도만을 맹신하는 것은 아주 위험함. Precision, Recall 등등 