In [7]:
# 파이썬 ≥3.5 필수
import sys
assert sys.version_info >= (3, 5)

# 사이킷런 ≥0.20 필수
import sklearn
assert sklearn.__version__ >= "0.20"

# 공통 모듈 임포트
import numpy as np
import os

# 노트북 실행 결과를 동일하게 유지하기 위해
np.random.seed(42)

# 깔끔한 그래프 출력을 위해
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# 그림을 저장할 위치
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "classification"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("그림 저장:", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

# 1. Mnist data 가져오기

* X(data) : 숫자 손글씨 그림(28 * 28)
* y : 손글씨 그림에 대한 정답값(숫자)

In [1]:
from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784', as_frame = False)
mnist.keys()

dict_keys(['data', 'target', 'frame', 'categories', 'feature_names', 'target_names', 'DESCR', 'details', 'url'])

# 2. 받은 Data를 저장하기

In [2]:
X, y = mnist['data'], mnist['target'] # 위에서 받은 mnist data(dictionary 형태)에서 data와 target(정답값)을 X, y에 저장한다

## 받은 데이터의 shape 확인하기

In [3]:
X.shape # 7만개의 데이터, 각 데이터가 28*28 이므로 784

(70000, 784)

In [4]:
y.shape # 데이터(X)에 대한 정답값 : 7만개의 정답값

(70000,)

## y의 타입 변경하기(str to int)

In [8]:
y = y.astype(np.uint8) # 처음 y를 받을 때 y는 string타입. 만약 숫자 5이면 '5' 이렇게 저장되어 있다

In [41]:
y[:5] # 타입 바꼈는지 확인. dtype=unit8(정수)로 바뀐 것을 확인할 수 있다

array([ True, False, False, False, False])

## 전체 데이터를 train(6만), test(1만) set으로 나누기

In [13]:
X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

In [14]:
X_train.shape

(60000, 784)

In [15]:
X_test.shape

(10000, 784)

In [16]:
y_train.shape

(60000,)

In [17]:
y_test.shape

(10000,)

# 3. Binary Classifier 만들기(Classify 5)

## y를 True, False array로 바꾸기

In [21]:
y_train_5 = np.array(y_train == 5) # y_train(정답값)중 정답이 5이면 True, 아니면 False인 np array를 만든다(분류의 결과)
y_test_5 = np.array(y_test == 5) # test에 쓰이는 정답값도 마찬가지로 분류의 결과를 가진 array로 변환
y_train_5[:5], y_test_5[:5]

(array([ True, False, False, False, False]),
 array([False, False, False, False, False]))

## Binary Classifier 만들기. SDGClassifier 사용

In [24]:
from sklearn.linear_model import SGDClassifier

sgd_clf = SGDClassifier(max_iter=1000, tol=1e-3, random_state=42) # 학습시킨 모델 이름이 sgd_clf
sgd_clf.fit(X_train, y_train_5) # fit이 모델 학습시키는것. train data(X_train), 정답값(y_train_5)를 넣어준다

SGDClassifier(random_state=42)

In [28]:
x_predict = sgd_clf.predict(X_test) # 모델에 test data set(X_test)를 넣어서 예측값 확인
x_predict

array([False, False, False, ..., False,  True, False])

In [29]:
x_predict == y_test_5 # 예측값과 정답값이 맞는지 확인해본 것(그냥 내가 해본거)

array([ True,  True,  True, ...,  True,  True,  True])

# 4. Cross Validation

In [31]:
# 예측값의 정확도를 출력
from sklearn.model_selection import cross_val_score
cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring="accuracy")

array([0.95035, 0.96035, 0.9604 ])

In [34]:
# 예측값을 출력
from sklearn.model_selection import cross_val_predict
y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)

# 5. Confusion_matrix

In [36]:
# 정답값(y_train_5)과 X_train을 예측한 값(y_train_pred)을 가지고 오차행렬 구하기
from sklearn.metrics import confusion_matrix
confusion_matrix(y_train_5, y_train_pred) 

array([[53892,   687],
       [ 1891,  3530]])

In [38]:
cm = confusion_matrix(y_train_5, y_train_pred)

In [39]:
cm[0, 0] # TN(True Negative - 아닌데 진짜 아니라고 예측)

53892

In [40]:
cm[0, 1] # FP(False Positive - 아닌데 맞다고 예측)

687

In [42]:
cm[1, 0] # FN(False Negative - 맞는데 아니라고 예측)

1891

In [43]:
cm[1, 1] # TP(True Positive - 맞는데 맞다고 예측)

3530

In [45]:
# precision 값 구하기
from sklearn.metrics import precision_score
precision_score(y_train_5, y_train_pred) 

0.8370879772350012

In [47]:
# 직접 계산해서 precision 값 구하기(위와 동일한 결과)
precision = cm[1, 1] / (cm[1, 1] + cm[0, 1]) # precision = TP / (TP + FP)
precision

0.8370879772350012

In [50]:
# recall 값 구하기
from sklearn.metrics import recall_score
recall_score(y_train_5, y_train_pred)

0.6511713705958311

In [51]:
# 직접 계산해서 recall 값 구하기
recall = cm[1, 1] / (cm[1, 1] + cm[1, 0]) # precision = TP / (TP + FN)
recall

0.6511713705958311

In [52]:
# f1 값 구하기
from sklearn.metrics import f1_score
f1_score(y_train_5, y_train_pred)

0.7325171197343846

In [54]:
# 직접 계산해서 f1값 구하기
f1 = 2 / (1 / precision + 1 / recall)
f1

0.7325171197343847

In [56]:
# 직접 계산해서 specificity 값 구하기
specificity = cm[0, 0] / (cm[0, 0] + cm[0, 1]) # specificity = TN / (TN + FP)
specificity

0.987412741164184