In [1]:
from keras.datasets import mnist
# 학습용과 검증용 분리
(X_train, y_train), (X_test, y_test) = mnist.load_data()
# 데이터 전처리
# 28x28 => 784로 변환
X_train = X_train.reshape(60000, 784).astype('float32') / 255.0
X_test = X_test.reshape(10000, 784).astype('float32') / 255.0
print(y_train[:5])

[5 0 4 1 9]


In [2]:
#시간이 오래 걸리므로 이미지 100장만 학습
from sklearn.svm import SVC
model = SVC()
model.fit(X_train, y_train)
print("학습용:",model.score(X_train, y_train))
print("검증용:",model.score(X_test, y_test))

학습용: 0.9899166666666667
검증용: 0.9792


In [3]:
#최적의 C value와 gamma value를 찾는 과정
import matplotlib.pyplot as plt
import numpy as np
train_rate = []
test_rate = []
c_values = [0.001, 0.01, 0.1, 1, 10, 100, 1000]
g_values = [0.0001, 0.001, 0.01, 0.1]
for n in c_values:
    for g in g_values:
        # 모델 생성
        model = SVC(C=n,gamma=g,random_state=10)
        model.fit(X_train, y_train)
        # 학습용 데이터셋의 정확도
        train_rate.append([n,g,model.score(X_train, y_train)])
        # 검증용 데이터셋의 정확도
        test_rate.append([n,g,model.score(X_test, y_test)])
train_arr=np.array(train_rate) #검증용 데이터셋의 정확도
test_arr=np.array(test_rate) #검증용 데이터셋의 정확도
max_rate=np.max(test_arr[:,2]) #가장 좋은 정확도
idx=np.where(test_arr[:,2] == max_rate)[0][0] #가장 성능이 좋은 인덱스
print("최적의 c:",test_rate[idx][0])
print("최적의 gamma:",test_rate[idx][1])
print("최적의 정확도:",test_rate[idx][2])

In [None]:
plt.rcParams["font.size"]=15
plt.plot(range(len(train_rate)), train_arr[:,2], label="Train")
plt.plot(range(len(test_rate)), test_arr[:,2], label="Test")
plt.ylabel("Accuracy")
plt.legend()

In [None]:
model = SVC(C=10, gamma=0.01)
model.fit(X_train, y_train)
print("학습용:",model.score(X_train, y_train))
print("검증용:",model.score(X_test, y_test))

In [None]:
#모형 저장
import pickle
pickle.dump(model, open('c:/data/mnist/mnist_svm.model', 'wb'))

In [None]:
# 모형 불러오기
model = pickle.load(open('c:/data/mnist/mnist_svm.model', 'rb'))
# 모형 사용
pred = model.predict(X_test[:10])
print('예측값:',pred[:10])
print('실제값:',y_test[:10])

In [None]:
#confusion matrix(혼동행렬, 오분류표) 출력
from sklearn.metrics import confusion_matrix
import pandas as pd
pred=model.predict(X_test)
cm=confusion_matrix(y_test, pred)
df_cm=pd.DataFrame(cm, index=range(10), columns=range(10))
df_cm

In [None]:
from sklearn.metrics import classification_report
print(classification_report(y_test, pred))