### 이진 분류 digit

In [1]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
digits = load_digits()
y = digits.target == 9

X_train, X_test, y_train, y_test = train_test_split(digits.data, y, random_state=0)

### DummyClassifier
baseline 생성

In [2]:
from sklearn.dummy import DummyClassifier
import numpy as np

dummy_majority = DummyClassifier(strategy='most_frequent').fit(X_train,y_train)
pred_most_frequent = dummy_majority.predict(X_test)
print("예측된 유니크의 레이블:", np.unique(pred_most_frequent))
print("테스트 점수: {:.2f}".format(dummy_majority.score(X_test, y_test)))

예측된 유니크의 레이블: [False]
테스트 점수: 0.90


### Tree 모델

In [4]:
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier(max_depth=2).fit(X_train, y_train)
pred_tree = tree.predict(X_test)
print("테스트 점수: {:.2f}".format(tree.score(X_test, y_test)))


테스트 점수: 0.92


### DummyClassifier(stratified), LogisticRegression 모델

In [5]:
from sklearn.linear_model import LogisticRegression

dummy = DummyClassifier(strategy='stratified').fit(X_train, y_train)
pred_dummy = dummy.predict(X_test)
print("dummy 점수: {:.2f}".format(dummy.score(X_test, y_test)))

lr = LogisticRegression(C=0.1, max_iter=1000).fit(X_train, y_train)
pred_lr = lr.predict(X_test)
print("logreg 점수: {:.2f}".format(lr.score(X_test, y_test)))

dummy 점수: 0.80
logreg 점수: 0.98


### F1 score로 모델 판단하기

In [7]:
# f1_score(y_true, y_pred) y_test, predict 한 뒤 반환 값
from sklearn.metrics import f1_score
print("빈도 기반 더미 모델의 f1 score: {:.2f}".format(f1_score(y_test, pred_most_frequent)))
print("무작위 더미 모델의 f1 score {:.2f}".format(f1_score(y_test, pred_tree)))
print("트리 모델의 f1 score {:.2f}".format(f1_score(y_test, pred_tree)))
print("로지스틱 회귀 모델의 f1 score {:.2f}".format(f1_score(y_test, pred_lr)))

빈도 기반 더미 모델의 f1 score: 0.00
무작위 더미 모델의 f1 score 0.55
트리 모델의 f1 score 0.55
로지스틱 회귀 모델의 f1 score 0.92


### classification_report로 한번에 보기

In [8]:
from sklearn.metrics import classification_report
print(classification_report(y_test, pred_most_frequent, target_names=["9 아님", "9"], zero_division=0))
# support: 단순히 이 클래스에 있는 진짜 샘플 수
# macro ave: 클래스별 점수의 평균
# weighted avg: 클래스의 샘플 수로 가중 평균한 것

              precision    recall  f1-score   support

        9 아님       0.90      1.00      0.94       403
           9       0.00      0.00      0.00        47

    accuracy                           0.90       450
   macro avg       0.45      0.50      0.47       450
weighted avg       0.80      0.90      0.85       450



In [9]:
# dummy classifier (stratified)
print(classification_report(y_test, pred_dummy, target_names=["9 아님", "9"]))

# logistic regression 
print(classification_report(y_test, pred_lr, target_names=["9 아님", "9"]))

              precision    recall  f1-score   support

        9 아님       0.89      0.93      0.91       403
           9       0.09      0.06      0.07        47

    accuracy                           0.84       450
   macro avg       0.49      0.49      0.49       450
weighted avg       0.81      0.84      0.82       450

              precision    recall  f1-score   support

        9 아님       0.99      1.00      0.99       403
           9       0.98      0.87      0.92        47

    accuracy                           0.98       450
   macro avg       0.98      0.93      0.96       450
weighted avg       0.98      0.98      0.98       450

