In [1]:
import numpy as np

假定现在有关于一些人的分类数据（如姓名、年龄和体重），我们需要存储这些数据用于 Python 项目，那么一种可行的方法是将它们存在三个单独的数组中

In [2]:
name = ['Alice', 'Bob', 'Cathy', 'Doug']
age = [25,45,37,19]
weight = [55.0,85.5,68.0,61.5]

如果可以用一种单一结构来存储所有的数据，那么看起来会更自然。

NumPy 可以用结构化数组实现这种存储，这些结构化数组是复合数据类型的。

In [3]:
# 以下表达式可以生成一个简单的数组
x = np.zeros(4, dtype=int)

In [4]:
# 与之类似，通过指定复合数据类型，可以构造一个结构化数组
# 使用复合数据结构的结构化数组
data = np.zeros(4, dtype={'names':('name', 'age', 'weight'),'formats':('U10', 'i4', 'f8')})
data.dtype

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

U10 表示“长度不超过 10 的 Unicode 字符串”，i4 表示“4 字节（即32 比特）整型”，f8 表示“8 字节（即 64 比特）浮点型”

In [5]:
# 生成了一个空的数组容器，可以将列表数据放入数组中：
data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

[('Alice', 25, 55. ) ('Bob', 45, 85.5) ('Cathy', 37, 68. )
 ('Doug', 19, 61.5)]


结构化数组的方便之处在于，你可以通过索引或名称查看相应的值

In [6]:
# 获取所有名字
data['name']

array(['Alice', 'Bob', 'Cathy', 'Doug'], dtype='<U10')

In [7]:
# 获取数据第一行
data[0]

('Alice', 25, 55.)

In [8]:
# 获取最后一行的名字
data[-1]['name']

'Doug'

利用布尔掩码，还可以做一些更复杂的操作，如按照年龄进行筛选

In [9]:
# 获取年龄小于30岁的人的名字
data[data['age'] < 30]['name']

array(['Alice', 'Doug'], dtype='<U10')

# 1-生成结构化数组

结构化数组的数据类型有多种制定方式。此前我们看过了采用字典的方法：

In [10]:
np.dtype({'names':('name', 'age', 'weight'), 'formats':('U10', 'i4', 'f8')})

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [11]:
# 为了简明起见，数值数据类型可以用 Python 类型或 NumPy 的 dtype 类型指定
np.dtype({'names':('name', 'age', 'weight'), 'formats':((np.str_, 10), int, np.float32)})

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f4')])

In [12]:
# 复合类型也可以是元组列表：
np.dtype([('name', 'S10'),('age', 'i4'), ('weight', 'f8')])

dtype([('name', 'S10'), ('age', '<i4'), ('weight', '<f8')])

In [13]:
# 类型的名称不重要，可以仅仅用一个字符串来指定它。
# 在该字符串中数据类型用逗号分隔：
np.dtype('S10, i4, f8')

dtype([('f0', 'S10'), ('f1', '<i4'), ('f2', '<f8')])

简写的字符串格式的代码可能看起来令人困惑，但是它们其实基于非常简单的规则。

第一个（可选）字符是 < 或者 >，分别表示“低字节序”和“高字节序”，表示字节类型的数据在内存中存放顺序的习惯用法。

后一个字符指定的是数据的类型：字符、字节、整型、浮点型，等等（如表 2-4 所示）。

最后一个字符表示该对象的字节大小。

# NumPy 的数据类型
    NumPy数据类型符号    描述                     示例
    'b'             字节型                    np.dtype('b')
    'i'             有符号整型                 np.dtype('i4') == np.int32
    'u'             无符号整型                 np.dtype('u1') == np.uint8
    'f'             浮点型                    np.dtype('f8') == np.int64
    'c'             复数浮点型                 np.dtype('c16') == np.complex128
    'S'、'a'          字符串                    np.dtype('S5')
    'U'             Unicode 编码字符串            np.dtype('U') == np.str_
    'V'             原生数据，raw data（空，void）    np.dtype('V') == np.void

# 2-更高级的复合类型

可以创建一种类型，其中每个元素都包含一个数组或矩阵。

创建一个数据类型，该数据类型用 mat 组件包含一个 3×3 的浮点矩阵

In [14]:
tp = np.dtype([('id', 'i8'),('mat', 'f8', (3, 3))])
X = np.zeros(1, dtype=tp)
print(X[0])
print(X['mat'][0])

(0, [[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


NumPy 的 dtype 直接映射到 C 结构的定义，因此包含数组内容的缓存可以直接在 C 程序中使用.

# 3-记录数组：结构化数组的扭转

NumPy 还提供了 np.recarray 类，和前面介绍的结构化数组几乎相同

但是它有一个独特的特征：域可以像属性一样获取，而不是像字典的键那样获取。

In [15]:
# 前面的例子通过以下代码获取年龄：
data['age']

array([25, 45, 37, 19])

In [16]:
# 如果将这些数据当作一个记录数组，可以用很少的按键来获取这个结果
data_rec = data.view(np.recarray)
data_rec.age

array([25, 45, 37, 19])

In [17]:
# 记录数组的不好的地方在于，即使使用同样的语法，在获取域时也会有一些额外的开销，
# 如以下示例所示：
%timeit data['age']
%timeit data_rec['age']
%timeit data_rec.age

349 ns ± 10.2 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
6.09 µs ± 40.8 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
7.9 µs ± 128 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


是否值得为更简便的标记方式花费额外的开销，这将取决于你的实际应用。