## Numpy的结构化数组

一般情况下，Numpy中的数组都是同样的数据类型，比如int、float；  
这也是Numpy性能高效的原因，在内存中紧凑存储，读取非常快；  

但是Numpy也可以记录异构数组，比如下面的数据：  
<table style="margin-left:0px">
    <tr>
        <th>姓名</th>
        <th>年龄</th>
        <th>体重</th>
    </tr>
    <tr>
        <td>小王</td>
        <td>30</td>
        <td>80.5</td>
    </tr>
    <tr>
        <td>小李</td>
        <td>28</td>
        <td>70.3</td>
    </tr>
    <tr>
        <td>小天</td>
        <td>29</td>
        <td>78.6</td>
    </tr>
</table>

这就是本节要介绍的“Numpy结构化数组”特性；  

In [1]:
import numpy as np

### 1. 正常的Numpy数组的dtype值只有一个类型

In [2]:
arr = np.arange(10)
arr, arr.dtype

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), dtype('int32'))

In [3]:
arr = np.random.rand(3, 4)
arr, arr.dtype

(array([[0.13813273, 0.69213455, 0.2869116 , 0.64065806],
        [0.5972653 , 0.42803843, 0.84914465, 0.0502318 ],
        [0.31351949, 0.87095862, 0.52867948, 0.83884873]]),
 dtype('float64'))

### 2. 怎样使用Numpy表达异构数据

In [4]:
# dtype是可以单独定义成复合结构的
my_dtype = np.dtype([('name', 'U10'), ('age', 'i4'), ('weight', 'f8')])
my_dtype

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [5]:
# 构造异构数组
my_arr = np.array(
    [
        ('xiaowang', 30, 80.5),
        ('xiaoli', 28, 70.3),
        ('xiaotian', 29, 78.6)
    ], 
    dtype=my_dtype
)
my_arr

array([('xiaowang', 30, 80.5), ('xiaoli', 28, 70.3),
       ('xiaotian', 29, 78.6)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

### 3. 针对异构数组的查询和操作

#### 使用列表的方式查询一行

In [6]:
my_arr[0]

('xiaowang', 30, 80.5)

In [7]:
my_arr[-1]

('xiaotian', 29, 78.6)

In [9]:
my_arr[0:2]

array([('xiaowang', 30, 80.5), ('xiaoli', 28, 70.3)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

#### 使用字典的方式查询一列

In [10]:
my_arr['name']

array(['xiaowang', 'xiaoli', 'xiaotian'], dtype='<U10')

In [11]:
my_arr['age']

array([30, 28, 29])

#### 按条件查询

In [12]:
# 按条件查询
my_arr[my_arr["age"] >= 29]

array([('xiaowang', 30, 80.5), ('xiaotian', 29, 78.6)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [13]:
# 按多个条件查询
my_arr[(my_arr["age"] >= 29) & (my_arr["weight"] > 80)]

array([('xiaowang', 30, 80.5)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

#### 对单列做逐元素计算

In [14]:
my_arr["age"]

array([30, 28, 29])

In [15]:
my_arr["age"] += 1

In [16]:
my_arr["age"]

array([31, 29, 30])

最后的一言：  
* 对于这种每列类型不同的“异构数据”，Pandas更擅长处理；
* 但我们还要学习一下Numpy结构化数组，不一定会使用它，但要能读懂别人的代码