# HDF5とPyTablesによる巨大配列の操作
　NumPy配列等の配列データを永続化する方法を考える。配列の要素数が小さい場合、np.savetxt,np.save,np.savezなどNumPy組み込みの関数で処理できる。しかし要素数が10億を超える配列は、メモリに読み込むには巨大すぎる。
 
　その代替策がメモリマップだ。配列はファイルに格納され、CPUが必要となった部分が選択的にメモリに読み込まれる(オーバーレイ?)。
  
　ここでは、巨大なデータセットを扱うためのデザインされたPyTablesを使う。これは、[HDF5(Hierarchical Data Format)](https://support.hdfgroup.org/HDF5/)と呼ばれる広く使われているオープンなファイルフォーマットを通して高速なメモリマップを実装している。HDF5ファイルは、POSIX風の階層構造の中に複数のデータセットを格納できる。不必要なシステムメモリの消費を避けながら、データセットのどの部分でも効率的で簡単なアクセスが可能。
 
## 準備
　PyTables3.0以降が必要。Anacondaを使用している場合、
```
conda install tables
```
でPyTablesをインストールできる。

## 手順

### NumPyとPyTablesのインポート

In [2]:
import numpy as np
import tables as tb

### 空のHDF5ファイルを作成

In [4]:
f = tb.open_file('myfile.h5', 'w')

ValueError: The file 'myfile.h5' is already opened.  Please close it before reopening in write mode.

### 階層のトップレベルグループexperiment1を作成

In [6]:
f.create_group('/', 'experiment1')

NodeError: group ``/`` already has a child node named ``experiment1``

### experiment1にメタデータを追加

In [7]:
f.set_node_attr('/experiment1', 'data', '2014-09-01')

### グループ内に、1000＊1000の配列array1を格納

In [8]:
x = np.random.rand(1000, 1000)
f.create_array('/experiment1', 'array1', x)

/experiment1/array1 (Array(1000, 1000)) ''
  atom := Float64Atom(shape=(), dflt=0.0)
  maindim := 0
  flavor := 'numpy'
  byteorder := 'little'
  chunkshape := None