<!--NAVIGATION-->
< [Sorting Arrays](02.08-Sorting.ipynb) | [Contents](Index.ipynb) | [Data Manipulation with Pandas](03.00-Introduction-to-Pandas.ipynb) >

# 结构化数据： NumPy的结构化数组（Structured Data）

本节介绍NumPy的**结构化数组**和**记录数组**，它们为复合的、异构的数据提供了非常有效的存储。

尽管这里列举的模式对于简单的操作非常有用，但是这些场景通常也可以用Pandas的DataFrame 来实现（将在第三章详细介绍）。

In [1]:
import numpy as np

假定现在有关于一些人的分类数据（如姓名、年龄和体重），我们需要存储这些数据用于Python项目，那么一种可行的方法是将它们存在三个单独的数组中：

In [2]:
name = ['Alice', 'Bob', 'Cathy', 'Doug']
age = [25, 45, 37, 19]
weight = [55.0, 85.5, 68.0, 61.5]

这种方法有点笨，因为没有任何信息告诉我们这三个数组是相关联的。

如果可以用一种单一结构来存储所有的数据，那么看起来会更自然。

NumPy可以用**结构化数组**实现这种存储，这些结构化数组是**复合数据类型**的。

前面介绍过，利用以下表达式可以生成一个简单的数组：

In [3]:
x = np.zeros(4, dtype=int)

与之类似，通过指定复合数据类型，可以构造一个结构化数组：

In [4]:
# 使用复合数据结构的结构化数组 
data = np.zeros(4, dtype={'names':('name', 'age', 'weight'),
                          'formats':('U10', 'i4', 'f8')})
print(data.dtype)

[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')]


这里``'U10'``表示“长度不超过10的Unicode字符串”，``'i4'``表示“4字节（即32比特）整型”，
``'f8'``表示“8字节（即64比特）浮点型”。后续的小节中将介绍更多的数据类型代码。

现在生成了一个空的数组容器，可以将列表数据放入数组中：

In [5]:
data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

[('Alice', 25, 55. ) ('Bob', 45, 85.5) ('Cathy', 37, 68. )
 ('Doug', 19, 61.5)]


如我们希望的，所有的数据被安排在一个内存块中。

结构化数组的方便之处在于，你可以通过**索引**或**名称**查看相应的值：

In [6]:
# 获取所有名字
data['name']

array(['Alice', 'Bob', 'Cathy', 'Doug'], dtype='<U10')

In [7]:
#  获取数据第一行 
data[0]

('Alice', 25, 55.)

In [8]:
# 获取最后一行的名字 
data[-1]['name']

'Doug'

利用布尔掩码，还可以做一些更复杂的操作，如按照年龄进行筛选：

In [9]:
#  获取年龄小于30岁的人的名字
data[data['age'] < 30]['name']

array(['Alice', 'Doug'], dtype='<U10')

注意：如果你希望实现比上面更复杂的操作，那么你应该考虑**使用Pandas包**，我们将在下一章中详细介绍。

Pandas 提供了一个``Dataframe``对象，该结构是构建于NumPy数组之上的，提供了很多有用的数据操作功能，包括但不限于上述介绍的功能。

<!--NAVIGATION-->
< [Sorting Arrays](02.08-Sorting.ipynb) | [Contents](Index.ipynb) | [Data Manipulation with Pandas](03.00-Introduction-to-Pandas.ipynb) >