## digit_svm.pyをインタラクティブに実装するとこんな感じ

In [1]:
#必要なライブラリを読み込む

#描画は学習に必要ないので、今回はコメントアウトしている
#from matplotlib import pyplot as plt
#from matplotlib import cm #カラーマップを使うため
#%matplotlib inline

import numpy as np
from sklearn import datasets

from sklearn import model_selection
from sklearn import svm
from sklearn import metrics

In [13]:
#NMISTデータを使って学習/評価データを生成
digits = datasets.load_digits() #NMISTデータ読み込み
#説明変数と目的変数を作成
X = digits.data
y = digits.target

#データの特徴を確認している
print('データセットの点数: {N}'.format(N=X.shape[0]))
print('各データの次元数: {dimension}'.format(dimension=X.shape[1]))

データセットの点数: 1797
各データの次元数: 64


In [14]:
#Xの中身表示
print(type(X)) #Xはnumpy.arraryなのでhead()は使えない。head()はpandasのDataframe or Seriesのみ
X
'''
２次元のイメージ
[[1,2,,3,4,5,....,60,61,62,63,64] <-1つのデータに64個の数字(0-244)が入っている

 [1,2,,3,4,5,....,60,61,62,63,64]] <-1797レコード持っている
'''

<class 'numpy.ndarray'>


array([[ 0.,  0.,  5., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ..., 10.,  0.,  0.],
       [ 0.,  0.,  0., ..., 16.,  9.,  0.],
       ...,
       [ 0.,  0.,  1., ...,  6.,  0.,  0.],
       [ 0.,  0.,  2., ..., 12.,  0.,  0.],
       [ 0.,  0., 10., ..., 12.,  1.,  0.]])

In [18]:
#Xの中身表示
print(type(y))
y
#yは単純に64個の１次元配列

<class 'numpy.ndarray'>


array([0, 1, 2, ..., 8, 9, 8])

In [19]:
# K-fold 交差検証でアルゴリズムの汎化性能を調べる
scores = [] #５回分の評価ストアを保存するためのリスト

kfold = model_selection.KFold(n_splits=5) #5個の学習用/評価用のデータに分割

In [21]:
kfold

KFold(n_splits=5, random_state=None, shuffle=False)

In [22]:
#1回ずつモデルを作り評価している（５回繰り替えす）
for train, test in kfold.split(X):
    # デフォルトのカーネルは rbf になっている
    model = svm.SVC(C=2**2, gamma=2**-11) #引数の意味を知りたい場合、公式ドキュメント参照
    # 訓練データで学習する
    model.fit(X[train], y[train])
    # テストデータの正答率を調べる
    score = metrics.accuracy_score(model.predict(X[test]), y[test])
    scores.append(score)

In [34]:
#for train, test in kfold.split(X):が何をしているのか確認したいな場合
i=1
for train, test in kfold.split(X):
    print('{} 回目の学習データ数:{} , 評価データ数:{}'.format(i, len(train), len(test)))
    i+=1

1 回目の学習データ数:1437 , 評価データ数:360
2 回目の学習データ数:1437 , 評価データ数:360
3 回目の学習データ数:1438 , 評価データ数:359
4 回目の学習データ数:1438 , 評価データ数:359
5 回目の学習データ数:1438 , 評価データ数:359


In [20]:
#５回分のスコアを表示
print(np.round(scores, 3))
print('--------------------------------')

# 最終的な正答率を出す。５回のスコアの平均を求めている
accuracy = (sum(scores) / len(scores)) * 100
msg = '正答率: {accuracy:.2f}%'.format(accuracy=accuracy)
print(msg)

[0.983 0.956 0.983 0.992 0.958]
--------------------------------
正答率: 97.44%


### （参考）公式ドキュメント
- KFoldの使い方<br>
  https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html
- svmの使い方<br>
  https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html