# k 近傍法による手書き文字の認識

k 近傍法は、データを分類する方法の一つで、機械学習の方法としては最もシンプルなものです。<br>
k 近傍法では、分類先のグループごとに k 個ずつの代表を用意しておきます。<br>
未知のデータを分類するときには、各グループの代表との類似度を計算し、類似度が最も高い代表のグループに分類を行います。

In [None]:
# k近傍分類器による手書き数字の認識

# 必要なモジュールをインポートする。
import numpy as np
import sklearn
import sklearn.datasets as ds
import sklearn.model_selection as ms
import sklearn.neighbors as nb
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# scikit-learnモジュールにあるdigitsデータセットを読み込む。
# digitsデータセットには、人手でラベルが付けられた手書き数字のデータがある。
digits = ds.load_digits()

# 手書き数字画像のデータ
X = digits.data
# 人手で付けられたラベル
y = digits.target

# 1件目のデータ
print("image:")
print(X[0].reshape(8, 8))
# 1件目のラベル
print("label: {0}".format(y[0]))

# 手書き数字画像の画素値の範囲(最小: 0, 最大: 16)
print(X.min(), X.max())
# データセットのサイズ
# 行数(データの件数): 1797
# 列数(各データの手書き数字画像の画素数): 64
# ... 各行に 8 * 8ピクセル分の画素値が格納されている。
print(X.shape)

In [None]:
# いくつかのデータを表示する。
nrows, ncols = 2, 5
plt.gray()
for i in range(ncols * nrows):
    ax = plt.subplot(nrows, ncols, i + 1)
    ax.matshow(digits.images[i,...])
    plt.xticks([])
    plt.yticks([])
    plt.title(digits.target[i])

In [None]:
# データを学習用と評価用に分ける。
# 下の例では、評価用データの件数が、データ全体の25%となるように分割する。
X_train, X_test, y_train, y_test = ms.train_test_split(X, y, test_size=.25)

# k近傍分類器を作成する。
knc = nb.KNeighborsClassifier()
# 学習用のデータにk近傍分類器を適用し、分類モデルを学習する。
knc.fit(X_train, y_train)

In [None]:
# 学習結果のモデルを評価用データに適用し、分類の精度を評価する。
knc.score(X_test, y_test)

In [None]:
# 検証用のデータを作り、学習したモデルで正しく認識できるかどうかを調べる。
# 「1」のデータを作る。
one = np.zeros((8, 8))
one[1:-1,4] = 16
one[2,3] = 16

In [None]:
# 作ったデータを表示する。
plt.imshow(one, interpolation='none')
plt.grid(False)
plt.xticks()
plt.yticks()
plt.title("One")

In [None]:
# 学習済みのモデルを上記で作ったデータに適用し、認識結果を確認する。
knc.predict(one.ravel().reshape(1, -1))