# MNISTデータの読み込み
- MNISTのデータを使ってNumPy配列の読み書きをやってみる

In [1]:
from keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()

Using TensorFlow backend.


- NumPyデータの読み書きの方法は以下４通り。

|保存|読み込み|ファイル形式| 拡張子 | 圧縮の有無|
|:---|:---|:---|:---|
| save | load | バイナリ | npy | 非圧縮|
| savetxt | loadtxt | テキスト | | 非圧縮|
| savez | load | バイナリ | npz | 非圧縮|
| savez_compressed | load | バイナリ | npz | 圧縮・複数|

## save & load
- `f_save.npy`に`x_train`を保存する。
- `f_save.npy`から読み込んだデータを`x_train_npy`に格納する。
- 行の先頭に`%time`を付けることで実行時間を測定できる。Jupyter Notebookのみ。

In [2]:
import numpy as np

%time np.save(file='f_save', arr=x_train) # fileに拡張子は必要ない（勝手にnpyが付く）

%time x_train_npy = np.load(file='f_save.npy') # loadするときは拡張子npyをちゃんと付ける

CPU times: user 2.25 ms, sys: 65.6 ms, total: 67.9 ms
Wall time: 85.7 ms
CPU times: user 750 µs, sys: 28.6 ms, total: 29.3 ms
Wall time: 30.3 ms


## savetxt & loadtxt
- `f_save.txt`に`x_train`を保存する。  
＊savetxtでは2次元配列までしか保存できない。
- `f_save.txt`から読み込んだデータを`x_train_txt`に格納する。
- __基本的にNumPy配列はテキストで保存しない方が良い。書き込み・読み込み共に遅い。__

In [3]:
%time np.savetxt(fname='f_save.txt', X=np.reshape(x_train,(60000,784))) # fileに拡張子は必要

%time x_train_txt = np.loadtxt(fname='f_save.txt') # loadするときも拡張子txtをちゃんと付ける

CPU times: user 19.7 s, sys: 987 ms, total: 20.7 s
Wall time: 29.4 s
CPU times: user 53.5 s, sys: 1.38 s, total: 54.9 s
Wall time: 1min 16s


# savez & load
- savezでは複数のデータを1つのファイルに保存できる。
    - 変数名とキーを区別するため、あえてキーは大文字にしている。
- その他の仕様はsaveと同じ。

In [4]:
%time np.savez(file='f_savez', X_TRAIN=x_train, X_TEST=x_test, Y_TRAIN=y_train, Y_TEST=y_test)

%time f = np.load('f_savez.npz')
print(f.keys())

CPU times: user 80.5 ms, sys: 156 ms, total: 237 ms
Wall time: 340 ms
CPU times: user 480 µs, sys: 396 µs, total: 876 µs
Wall time: 765 µs
['X_TRAIN', 'X_TEST', 'Y_TRAIN', 'Y_TEST']


- npz形式のファイルからデータを取り出す場合は、keys()でキーを確認して、そのキーで呼び出す。

In [5]:
x = f['X_TRAIN']
print(x)

[[[0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  ..., 
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]]

 [[0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  ..., 
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]]

 [[0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  ..., 
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]]

 ..., 
 [[0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  ..., 
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]]

 [[0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  ..., 
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]]

 [[0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  ..., 
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]
  [0 0 0 ..., 0 0 0]]]


# savez_compressed
- savezと同じ。ただしファイルが圧縮される。省略