<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="figures/PDSH-cover-small.png">

*このノートブックには、Jake VanderPlas による [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) からの抜粋が含まれています。コンテンツは利用可能です [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do).*

※テキストは[CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode)で、コードは[CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode)で公開しています。このコンテンツが役立つと思われる場合は、[CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode) による作業のサポートを検討してください!*

<!--ナビゲーション-->
< [Sorting Arrays](02.08-Sorting.ipynb) | [Sorting Arrays](02.08-Sorting.ipynb) | [Sorting Arrays](02.08-Sorting.ipynb) >

<a href="https://colab.research.google.com/github/vitroid/PythonDataScienceHandbook/blob/ja/notebooks/02.09-Structured-Data-NumPy.ipynb"><img align="left" src=" https://colab.research.google.com/assets/colab-badge.svg" alt="Colab で開く" title="Google Colaboratory で開いて実行する"></a>


# 構造化データ: NumPy の構造化配列

多くの場合、データは同種の値の配列で適切に表現できますが、そうでない場合もあります。このセクションでは、NumPy の *構造化配列* と *レコード配列* の使用法を示します。これらは、複合的な異種データの効率的なストレージを提供します。ここで示したパターンは単純な操作に役立ちますが、このようなシナリオは多くの場合、[Chapter 3](03.00-Introduction-to-Pandas.ipynb) で説明する Pandas の ``Dataframe`` の使用に役立ちます。

In [1]:
import numpy as np

多くの人に関するいくつかのカテゴリのデータ (名前、年齢、体重など) があり、Python プログラムで使用するためにこれらの値を保存したいとします。
これらを 3 つの別々の配列に格納することが可能です。

In [2]:
name = ['Alice', 'Bob', 'Cathy', 'Doug']
age = [25, 45, 37, 19]
weight = [55.0, 85.5, 68.0, 61.5]

しかし、これは少し不器用です。ここには、3 つの配列が関連していることを示すものは何もありません。単一の構造体を使用してこのすべてのデータを格納できれば、より自然になります。
NumPy は、複合データ型の配列である構造化配列を介してこれを処理できます。

前に、次のような式を使用して単純な配列を作成したことを思い出してください。

In [3]:
x = np.zeros(4, dtype=int)

同様に、複合データ型指定を使用して構造化配列を作成できます。

In [4]:
# Use a compound data type for structured arrays
data = np.zeros(4, dtype={'names':('name', 'age', 'weight'),
                          'formats':('U10', 'i4', 'f8')})
print(data.dtype)

[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')]


ここで、``'U10'`` は「最大長 10 の Unicode 文字列」に変換され、``'i4'`` は「4 バイト (つまり、32 ビット) の整数」に変換され、``'f8'`` は「8バイト（つまり、64ビット）浮動小数点」に。
次のセクションでは、これらの型コードのその他のオプションについて説明します。

空のコンテナ配列を作成したので、配列に値のリストを入力できます。

In [5]:
data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

[('Alice', 25, 55.0) ('Bob', 45, 85.5) ('Cathy', 37, 68.0)
 ('Doug', 19, 61.5)]


期待どおり、データは 1 つの便利なメモリ ブロックにまとめられています。

構造化配列の便利な点は、インデックスまたは名前で値を参照できるようになったことです。

In [6]:
# Get all names
data['name']

array(['Alice', 'Bob', 'Cathy', 'Doug'], 
      dtype='<U10')

In [7]:
# Get first row of data
data[0]

('Alice', 25, 55.0)

In [8]:
# Get the name from the last row
data[-1]['name']

'Doug'

ブール値のマスキングを使用すると、年齢によるフィルタリングなど、より高度な操作を行うこともできます。

In [9]:
# Get names where age is under 30
data[data['age'] < 30]['name']

array(['Alice', 'Doug'], 
      dtype='<U10')

これらよりも複雑な操作を実行したい場合は、次の章で説明する Pandas パッケージを検討する必要があることに注意してください。
後で見るように、Pandas は ``Dataframe`` オブジェクトを提供します。これは NumPy 配列上に構築された構造であり、ここで示したものと同様のさまざまな便利なデータ操作機能を提供します。

## 構造化配列の作成

構造化配列のデータ型は、さまざまな方法で指定できます。
前に、ディクショナリ メソッドを見ました。

In [10]:
np.dtype({'names':('name', 'age', 'weight'),
          'formats':('U10', 'i4', 'f8')})

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

わかりやすくするために、代わりに Python の型または NumPy ``dtype``s を使用して数値型を指定できます。

In [11]:
np.dtype({'names':('name', 'age', 'weight'),
          'formats':((np.str_, 10), int, np.float32)})

dtype([('name', '<U10'), ('age', '<i8'), ('weight', '<f4')])

複合型はタプルのリストとして指定することもできます:

In [12]:
np.dtype([('name', 'S10'), ('age', 'i4'), ('weight', 'f8')])

dtype([('name', 'S10'), ('age', '<i4'), ('weight', '<f8')])

型の名前が重要でない場合は、カンマ区切りの文字列で型のみを指定できます。

In [13]:
np.dtype('S10,i4,f8')

dtype([('f0', 'S10'), ('f1', '<i4'), ('f2', '<f8')])

短縮された文字列形式のコードはわかりにくいかもしれませんが、単純な原則に基づいて構築されています。
最初の (オプションの) 文字は ``<`` または ``>`` で、それぞれ「リトル エンディアン」または「ビッグ エンディアン」を意味し、有効ビットの順序付け規則を指定します。
次の文字は、データのタイプ (文字、バイト、int、浮動小数点など) を指定します (下の表を参照)。
最後の文字は、オブジェクトのサイズをバイト単位で表します。

| |キャラクター |説明 |例 |
| ---------        | -----------           | -------                             |
| | ``'b'`` |バイト | ``np.dtype('b')`` |
| | ``'i'`` |符号付き整数 | np.dtype('i4') == np.int32 |
| | ``'u'`` |符号なし整数 | np.dtype('u1') == np.uint8 |
| | ``'f'`` |浮動小数点 | np.dtype('f8') == np.int64 |
| | ``'c'`` |複素浮動小数点| np.dtype('c16') == np.complex128|
| | ``'S'``, ``'a'`` |文字列 | ``np.dtype('S5')`` |
| | ``'U'`` |ユニコード文字列 | ``np.dtype('U') == np.str_`` |
| | ``'V'`` |生データ (void) | ``np.dtype('V') == np.void`` |

## より高度な複合型

さらに高度な複合型を定義することができます。
たとえば、各要素に値の配列または行列が含まれる型を作成できます。
ここでは、$3\times 3$ 浮動小数点行列で構成される ``mat`` コンポーネントを持つデータ型を作成します:

In [14]:
tp = np.dtype([('id', 'i8'), ('mat', 'f8', (3, 3))])
X = np.zeros(1, dtype=tp)
print(X[0])
print(X['mat'][0])

(0, [[0.0, 0.0, 0.0], [0.0, 0.0, 0.0], [0.0, 0.0, 0.0]])
[[ 0.  0.  0.]
 [ 0.  0.  0.]
 [ 0.  0.  0.]]


``X`` 配列の各要素は ``id`` と $3\times 3$ 行列で構成されます。
単純な多次元配列や Python 辞書ではなく、なぜこれを使用するのでしょうか?
その理由は、この NumPy ``dtype`` が C 構造体定義に直接マップされるため、適切に作成された C プログラム内で配列の内容を含むバッファに直接アクセスできるからです。
構造化データを操作する従来の C または Fortran ライブラリへの Python インターフェイスを作成している場合は、構造化配列が非常に便利であることがわかるでしょう。

## RecordArrays: ひねりを加えた構造化配列

NumPy は ``np.recarray`` クラスも提供します。これは、今説明した構造化配列とほとんど同じですが、追加の機能が 1 つあります。フィールドは、辞書のキーとしてではなく、属性としてアクセスできます。
以前に次のように記述して年齢にアクセスしたことを思い出してください。

In [15]:
data['age']

array([25, 45, 37, 19], dtype=int32)

代わりにデータをレコード配列として表示すると、わずかに少ないキーストロークでこれにアクセスできます。

In [16]:
data_rec = data.view(np.recarray)
data_rec.age

array([25, 45, 37, 19], dtype=int32)

欠点は、レコード配列の場合、同じ構文を使用する場合でも、フィールドへのアクセスに関連する余分なオーバーヘッドが発生することです。ここでこれを見ることができます：

In [17]:
%timeit data['age']
%timeit data_rec['age']
%timeit data_rec.age

1000000 loops, best of 3: 241 ns per loop
100000 loops, best of 3: 4.61 µs per loop
100000 loops, best of 3: 7.27 µs per loop


より便利な表記法が追加のオーバーヘッドに値するかどうかは、独自のアプリケーションによって異なります。

## パンダへ

構造化配列とレコード配列に関するこのセクションは、意図的にこの章の最後にあります。これは、次に取り上げるパッケージである Pandas にうまくつながるためです。
ここで説明したような構造化配列は、特定の状況、特に NumPy 配列を使用して C、Fortran、または別の言語のバイナリ データ形式にマップする場合に知っておくとよいでしょう。
構造化データを日常的に使用する場合は、Pandas パッケージの方がはるかに適しています。これについては、次の章で詳しく説明します。

<!--ナビゲーション-->
< [Sorting Arrays](02.08-Sorting.ipynb) | [Sorting Arrays](02.08-Sorting.ipynb) | [Sorting Arrays](02.08-Sorting.ipynb) >

<a href="https://colab.research.google.com/github/vitroid/PythonDataScienceHandbook/blob/ja/notebooks/02.09-Structured-Data-NumPy.ipynb"><img align="left" src=" https://colab.research.google.com/assets/colab-badge.svg" alt="Colab で開く" title="Google Colaboratory で開いて実行する"></a>
