# 3.2 이진 분류기 훈련

## 3.2.0 복습

In [1]:
# 파이썬 ≥3.5 필수
import sys
assert sys.version_info >= (3, 5)

# 사이킷런 ≥0.20 필수
import sklearn
assert sklearn.__version__ >= "0.20"

# 공통 모듈 임포트
import numpy as np
import os

# 노트북 실행 결과를 동일하게 유지하기 위해
np.random.seed(42)

# MNIST 데이터셋 불러오기
from sklearn.datasets import fetch_openml

mnist = fetch_openml('mnist_784', version=1, as_frame=False)

# 데이터셋 분리
X, y = mnist['data'], mnist['target']

# 레이블 데이터 타입 변환(문자열 -> 숫자)
y = y.astype(np.uint8)

# 테스트 세트 분리
X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

print('done')

<br>

## 3.2.1 이진 분류기

- 문제를 단순화해서 하나의 숫자, 예를 들면 5만 식별해보자.
- 이 '5-감지기'는 '5'와 '5 아님' 두 개의 클래스를 구분할 수 있는 **이진 분류기(binary classifier)**의 한 예이다.

<br>

## 3.2.2 타깃 벡터 생성

In [2]:
y_train_5 = (y_train == 5) # 5는 True, 다른 숫자는 모두 False
y_test_5 = (y_test == 5)

<br>

## 3.2.3 분류 모델 훈련 (`SGDClassifier`)

- 분류 모델 하나를 선택해서 훈련 실시
- 사이킷런의 `SGDClassifier` 클래스를 사용해 **확률적 경사 하강법(Stochastic Gradient Descent, SGD)** 분류기로 시작해보자.
- 이 분류기는 매우 큰 데이터셋을 효율적으로 처리하는 장점이 있다.
  - SGD가 한 번에 하나씩 훈련 샘플을 독립적으로 처리하기 때문
  - 그래서 SGD가 온라인 학습에 잘 들어 맞음
- `SGDClassifier`는 훈련하는 데 무작위성을 사용한다. (그래서 이름에 '확률적'이 붙음)
- 결과를 재현하고 싶다면 `random_state` 매개변수를 지정해야 한다.

- `SGDClassifier` 모델을 만들고 전체 훈련 세트를 사용해 훈련해보자.

In [3]:
from sklearn.linear_model import SGDClassifier

sgd_clf = SGDClassifier(random_state=42)
sgd_clf.fit(X_train, y_train_5)

SGDClassifier(random_state=42)

<br>

## 3.2.4 이미지 감지

- 이제 이 모델을 사용해 숫자 5의 이미지를 감지

In [5]:
sgd_clf.predict([X[0]])

array([ True])

- 분류기는 이 이미지가 5를 나타낸다고 추측했다.

<br>

## 3.2.5 분류기 평가

In [6]:
from sklearn.model_selection import cross_val_score

cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring='accuracy')

array([0.95035, 0.96035, 0.9604 ])