### MNIST 데이터셋 로드

먼저 `sklearn.datasets`에서 MNIST 데이터셋을 로드합니다. 데이터셋은 이미지 픽셀 값과 해당 숫자로 구성됩니다.

In [1]:
from sklearn.datasets import fetch_openml
import numpy as np

# MNIST 데이터셋 로드
# 데이터를 캐시하기 위해 data_home을 지정할 수 있습니다.
mnist = fetch_openml('mnist_784', version=1, as_frame=False)
X, y = mnist.data, mnist.target

print(f"Data shape: {X.shape}")
print(f"Target shape: {y.shape}")
print(f"First 5 target values: {y[:5]}")

Data shape: (70000, 784)
Target shape: (70000,)
First 5 target values: ['5' '0' '4' '1' '9']


### 데이터 전처리 및 분할

데이터를 훈련 세트와 테스트 세트로 분할하고, SVM 모델의 학습 속도를 높이기 위해 데이터를 스케일링합니다. MNIST 데이터셋은 매우 크기 때문에, 예시를 위해 데이터의 일부만 사용하겠습니다.

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 데이터 스케일링
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X.astype(np.float32))

# 데이터셋을 훈련 세트와 테스트 세트로 분할
# 전체 데이터셋이 크므로, 빠른 예시를 위해 작은 샘플을 사용합니다.
# 실제 사용 시에는 더 많은 데이터를 사용할 수 있습니다.
n_samples = 10000 # 예시를 위해 10,000개의 샘플만 사용
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled[:n_samples], y[:n_samples],
    test_size=0.2, random_state=42
)

print(f"Train data shape: {X_train.shape}")
print(f"Test data shape: {X_test.shape}")

Train data shape: (8000, 784)
Test data shape: (2000, 784)


### SVM 모델 학습

`sklearn.svm.SVC`를 사용하여 SVM 분류기를 학습합니다. MNIST와 같은 복잡한 데이터셋에서는 `kernel='rbf'`와 같은 비선형 커널이 좋은 성능을 보일 수 있습니다. 학습에는 시간이 다소 소요될 수 있습니다.

In [3]:
from sklearn.svm import SVC
import time

# SVM 분류기 초기화 및 학습
# C 값을 낮추거나 kernel을 'linear'로 변경하여 학습 시간을 단축할 수 있습니다.
svm_model = SVC(kernel='rbf', C=1, random_state=42)

print("SVM 모델 학습 시작...")
start_time = time.time()
svm_model.fit(X_train, y_train)
end_time = time.time()
print(f"SVM 모델 학습 완료! (소요 시간: {end_time - start_time:.2f} 초)")

SVM 모델 학습 시작...
SVM 모델 학습 완료! (소요 시간: 17.98 초)


### 모델 평가

학습된 모델의 성능을 테스트 세트에서 평가합니다. 정확도와 분류 보고서를 통해 모델의 성능을 확인할 수 있습니다.

In [4]:
from sklearn.metrics import accuracy_score, classification_report

# 테스트 세트로 예측 수행
y_pred = svm_model.predict(X_test)

# 정확도 계산
accuracy = accuracy_score(y_test, y_pred)
print(f"Test Accuracy: {accuracy:.4f}")

# 분류 보고서 출력
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

Test Accuracy: 0.9370

Classification Report:
              precision    recall  f1-score   support

           0       0.95      0.99      0.97       207
           1       0.96      0.97      0.97       216
           2       0.91      0.94      0.92       204
           3       0.90      0.92      0.91       192
           4       0.98      0.94      0.96       211
           5       0.92      0.88      0.90       176
           6       0.97      0.94      0.96       220
           7       0.88      0.95      0.92       216
           8       0.96      0.92      0.94       166
           9       0.94      0.90      0.92       192

    accuracy                           0.94      2000
   macro avg       0.94      0.94      0.94      2000
weighted avg       0.94      0.94      0.94      2000

