In [1]:
import numpy as np

In [2]:
"""目前有一些人的数据需要进行存储，一种可行的办法是将其独立存储于三个数组"""
name = ['Alice', 'Bob', 'Cathy', 'Doug']
age = [25, 45, 37, 19]
weight = [55.0, 87.5, 68.0, 61.5]

In [3]:
"""构造一个结构化数组存储复合数据类型"""
data = np.zeros(4, dtype={'names': ('name', 'age', 'weight'),
                          'formats': ('U10', 'i4', 'f8')})
print(data.dtype)

[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')]


这里的U10表示"长度不超过10的Unicode字符串", i4表示"4字节（即32比特）整型",
f8表示"8字节（即64比特）浮点型"

In [4]:
"""将列表数据放入生成的空容器中"""
data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

[('Alice', 25, 55. ) ('Bob', 45, 87.5) ('Cathy', 37, 68. )
 ('Doug', 19, 61.5)]


In [5]:
"""可以提供索引或名称查看结构化数组对应的值"""
data['name']  # 获取所有名字

array(['Alice', 'Bob', 'Cathy', 'Doug'], dtype='<U10')

In [6]:
data[0]  # 获取数据第一行

('Alice', 25, 55.)

In [7]:
data[-1]['name']  # 获取最后一行的名字

'Doug'

In [8]:
data[data['age']< 30]['name']  # 获取年龄小于30岁的人的名字

array(['Alice', 'Doug'], dtype='<U10')

# 1. 生成结构化数组

In [9]:
"""采用字典制定结构化数组的数据类型"""
np.dtype({'names':('name', 'age', 'weight'),
          'formats': ('U10', 'i4', 'f8')})

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [10]:
"""结构化数组的数据类型也可使用Python类型或NumPy的dtype类型指定"""
np.dtype({'names': ('name', 'age', 'weight'),
          'formats': ((np.str_, 10), int, np.float32)})

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f4')])

In [11]:
"""复合类型也可以是元组类型"""
np.dtype([('name', 'S10'), ('age', 'i4'), ('weight', 'f8')])

dtype([('name', 'S10'), ('age', '<i4'), ('weight', '<f8')])

In [12]:
"""如果类型的名称不重要，可以使用一个字符串来指定结构化数组的类型，在该字符串中数据类型用逗号分隔"""
np.dtype('S10, i4, f8')

dtype([('f0', 'S10'), ('f1', '<i4'), ('f2', '<f8')])

NumPy简写的字符串格式解释如下:
* 第一个(可选)字符是 < 或者 >, 分别表示"低字节序"和"高字节序号"，表示字节类型的数据在内存中存放顺序的习惯用法
* 第二个字符指定的是数据类型
* 第三个字符表示该对象的字节大小

|NumPy数据类型符号| 描述| 示例                               |
|---------|-------------|----------------------------------|
| 'b' | 字节型| np.dtype('b')                    |
|'i' | 有符号整型 | np.dtype('i4') == np.int32       |
|'u'| 无符号整型| np.dtype('u1') == np.uint8       |
|'f'| 浮点型| np.dtype('f8') == np.float64     |
|'c'|复数浮点型| np.dtype('c16') == np.complex128 |
|'S'、'a'|字符串| np.dtype('S5')
|'U'|Unicode编码字符串| np.dtype('U') == np.str_         |
|'V'|原生数据，raw data(空，void)| np.dtype('V') == np.void         |

# 2.更高级的复合类型

NumPy中可以定义更高级的复合数据类型
例如：可以创建一种类型，其中每个元素都包含一个数值或矩阵。
我们可以创建一个数据类型，该数据类型使用mat组件包含一个3 * 3的浮点矩阵

In [22]:
tp = np.dtype([('id', 'i8'), ('mat', 'f8', (3, 3))])
X = np.zeros(1, dtype=tp)
print(X[0])
print(X['mat'][0])

(0, [[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


# 3.记录数值：结构化数值的扭转

NumPy还提供了np.recarray类,使用该类创建的结构化数值，域可以像属性一样获取

In [23]:
data['age']

array([25, 45, 37, 19])

In [25]:
"""如果将这些数据当作一个记录数组，我们可以用很少的按键来获取这个结果"""
data_rec = data.view(np.recarray)
data_rec.age

array([25, 45, 37, 19])

In [26]:
# 使用这样的方法会有一些额外的开销
%timeit data['age']
%timeit data_rec['age']
%timeit data_rec.age

82.8 ns ± 0.786 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
1.51 µs ± 16.2 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
2.56 µs ± 41 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
