In [10]:
# 파이썬 ≥3.5 필수
import sys
assert sys.version_info >= (3, 5)

# 사이킷런 ≥0.20 필수
import sklearn
assert sklearn.__version__ >= "0.20"

# 공통 모듈 임포트
import numpy as np
import os

# 노트북 실행 결과를 동일하게 유지하기 위해
np.random.seed(42)

# 깔끔한 그래프 출력을 위해
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# 그림을 저장할 위치
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "classification"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("그림 저장:", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

# 1. Get mnist data

In [3]:
from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784', as_frame = False)
mnist.keys()

dict_keys(['data', 'target', 'frame', 'categories', 'feature_names', 'target_names', 'DESCR', 'details', 'url'])

In [5]:
mnist['target'][0] # 정답값

'5'

# 2. 받은 Data를 저장하기

In [6]:
X, y = mnist['data'], mnist['target']

## 받은 데이터의 shape 확인하기

In [7]:
X.shape # 7만개의 데이터, 각 데이터별로 784개 요소

(70000, 784)

In [8]:
y.shape

(70000,)

## y의 타입 변경하기(str to int)

In [12]:
y = y.astype(np.uint8)
y

array([5, 0, 4, ..., 4, 5, 6], dtype=uint8)

## 전체 데이터를 train(6만), test(1만) set으로 나누기

In [13]:
X_train, X_test = X[:60000], X[60000:]
y_train, y_test = y[:60000], y[60000:]

# 3. Binary Classifier 만들기(Classify 5)

## y를 True, False array로 바꾸기

In [14]:
y_train_5 = (y_train == 5)
y_test_5 = (y_test == 5)

In [15]:
y_train_5[:10]

array([ True, False, False, False, False, False, False, False, False,
       False])

In [18]:
from sklearn.linear_model import SGDClassifier

sdg_clf = SGDClassifier(max_iter=1000, tol=1e-3, random_state=42)
sdg_clf.fit(X_train, y_train_5) # X input 에 대한 정답값 y(True, False)

SGDClassifier(random_state=42)

In [22]:
some_digit = X_test[0]
sdg_clf.predict([some_digit])

array([False])

In [23]:
y_test[0]

7