## MNISTデータセット

MNISTデータセットの内容を確認
- 1画像1文字に整形済み
- 28x28 のグレースケール画像
- 合計で 70,000 枚
- 正解ラベル付き

In [None]:
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml

X, Y_str = fetch_openml('mnist_784', version=1, return_X_y=True, as_frame=False)
# 正解ラベルは文字列で渡されるため数値に変換
Y = Y_str.astype('int')

In [None]:
len(X[0])

In [None]:
# 画像データは1次元配列で格納
print(28*28)

In [None]:
len(X)

In [None]:
# 最初の10個の画像を表示
for i in range(0, 10):
    print('[{}] = {}'.format(i, Y[i]))
    plt.figure(figsize=(2, 2))
    # reshape(28, 28) により 28x28 の2次元配列に変換
    plt.imshow(X[i].reshape(28, 28), cmap='gray_r')
    plt.show()

### インデックス

- 0 の画像：1
- 1 の画像：3, 6, 8
- 2 の画像：5
- 3 の画像：7
- 4 の画像：2, 9
- 5 の画像：0
- 9 の画像：4

### 画像の類似度

In [None]:
from scipy.spatial.distance import euclidean
from scipy.spatial.distance import cosine

# ユークリッド類似度（1を足して値の逆数）
def similarity_euclide(d1, d2):
    return 1 / (1 + euclidean(d1, d2))

# コサイン類似度（= 1 - コサイン距離）
def similarity_cosine(d1, d2):
    return 1 - cosine(d1, d2)

def similarity(d1, d2):
    print('euclide: {:.5f}'.format(similarity_euclide(d1, d2)))
    print('cosine : {:.5f}'.format(similarity_cosine(d1, d2)))

In [None]:
# 1 と 1
similarity(X[3], X[6])

In [None]:
# 1 と 1
similarity(X[6], X[8])

In [None]:
# 4 と 4
similarity(X[2], X[9])