# 3.8 연습 문제

## 문제 1

MNIST 데이터셋으로 분류기를 만들어 테스트 세트에서 97% 정확도를 달성해보자.

**힌트**

- `KNeighborsClassifier`가 이 작업에 아주 잘 맞는다.
- 좋은 하이퍼파라미터 값만 찾으면 된다.
  - `weights`와 `n_neighbors` 하이퍼파라미터로 그리드 탐색 시도

<br>

## 라이브러리 설정

In [1]:
# 파이썬 ≥3.5 필수
import sys
assert sys.version_info >= (3, 5)

# 사이킷런 ≥0.20 필수
import sklearn
assert sklearn.__version__ >= "0.20"

# 공통 모듈 임포트
import numpy as np
import os

# 노트북 실행 결과를 동일하게 유지하기 위해
np.random.seed(42)

<br>

## 데이터셋 불러오기

In [2]:
# MNIST 데이터셋 불러오기
from sklearn.datasets import fetch_openml

mnist = fetch_openml('mnist_784', version=1, as_frame=False)

<br>

## 데이터 분리

In [3]:
# 데이터셋 분리
X, y = mnist['data'], mnist['target']

# 레이블 데이터 타입 변환(문자열 -> 숫자)
y = y.astype(np.uint8)

# 테스트 세트 분리
X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

<br>

## 그리드 탐색

- 사용하는 하드웨어에 따라 다음 셀을 실행하는 데 16시간 또는 그 이상 걸릴 수 있다.

In [4]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

param_grid = [{'weights': ['uniform', 'distance'], 'n_neighbors': [3, 4, 5]}]

knn_clf = KNeighborsClassifier()
grid_search = GridSearchCV(knn_clf, param_grid, cv=5, verbose=3)
grid_search.fit(X_train, y_train)

Fitting 5 folds for each of 6 candidates, totalling 30 fits
[CV 1/5] END ....n_neighbors=3, weights=uniform;, score=0.972 total time=  17.1s
[CV 2/5] END ....n_neighbors=3, weights=uniform;, score=0.971 total time=  15.8s
[CV 3/5] END ....n_neighbors=3, weights=uniform;, score=0.969 total time=  14.5s
[CV 4/5] END ....n_neighbors=3, weights=uniform;, score=0.969 total time=  14.6s
[CV 5/5] END ....n_neighbors=3, weights=uniform;, score=0.970 total time=  14.7s
[CV 1/5] END ...n_neighbors=3, weights=distance;, score=0.972 total time=  14.6s
[CV 2/5] END ...n_neighbors=3, weights=distance;, score=0.972 total time=  15.1s
[CV 3/5] END ...n_neighbors=3, weights=distance;, score=0.970 total time=  14.4s
[CV 4/5] END ...n_neighbors=3, weights=distance;, score=0.970 total time=  15.2s
[CV 5/5] END ...n_neighbors=3, weights=distance;, score=0.971 total time=  14.7s
[CV 1/5] END ....n_neighbors=4, weights=uniform;, score=0.969 total time=  17.8s
[CV 2/5] END ....n_neighbors=4, weights=uniform;,

GridSearchCV(cv=5, estimator=KNeighborsClassifier(),
             param_grid=[{'n_neighbors': [3, 4, 5],
                          'weights': ['uniform', 'distance']}],
             verbose=3)

<br>

### 그리드 탐색 객체 저장

In [6]:
import joblib

#models_path = "./drive/MyDrive/Colab Notebooks/models/"
models_path = "../../models/"

joblib.dump(grid_search, models_path + 'mnist_knn_clf_grid_search.pkl')

['../../models/mnist_knn_clf_grid_search.pkl']

<br>

### 최적 파라미터 확인

In [7]:
grid_search.best_params_

{'n_neighbors': 4, 'weights': 'distance'}

<br>

### 검증 최고 점수 확인

In [8]:
grid_search.best_score_

0.9716166666666666

<br>

## 평가

In [9]:
from sklearn.metrics import accuracy_score

y_pred = grid_search.predict(X_test)
accuracy_score(y_test, y_pred)

0.9714