多维数组及其子数组
====

In [7]:
import numpy as np

多维数组是由子数组组成的，准确解析数组的结构就数组运算、变换的基础。

任意 ndarray 的三个重要的属性对解析数组的结构非常有帮助：

- numpy.shape
- numpy.ndim
- numpy.size

创建一个shape是 `(4, 4, 2, 2, 5)`的 ndarray，命名为grid：

grid.ndim = 5

grid.size = 320

In [8]:
grid = np.arange(320).reshape(4,4,2,2,5)
grid

array([[[[[  0,   1,   2,   3,   4],
          [  5,   6,   7,   8,   9]],

         [[ 10,  11,  12,  13,  14],
          [ 15,  16,  17,  18,  19]]],


        [[[ 20,  21,  22,  23,  24],
          [ 25,  26,  27,  28,  29]],

         [[ 30,  31,  32,  33,  34],
          [ 35,  36,  37,  38,  39]]],


        [[[ 40,  41,  42,  43,  44],
          [ 45,  46,  47,  48,  49]],

         [[ 50,  51,  52,  53,  54],
          [ 55,  56,  57,  58,  59]]],


        [[[ 60,  61,  62,  63,  64],
          [ 65,  66,  67,  68,  69]],

         [[ 70,  71,  72,  73,  74],
          [ 75,  76,  77,  78,  79]]]],



       [[[[ 80,  81,  82,  83,  84],
          [ 85,  86,  87,  88,  89]],

         [[ 90,  91,  92,  93,  94],
          [ 95,  96,  97,  98,  99]]],


        [[[100, 101, 102, 103, 104],
          [105, 106, 107, 108, 109]],

         [[110, 111, 112, 113, 114],
          [115, 116, 117, 118, 119]]],


        [[[120, 121, 122, 123, 124],
          [125, 126, 127, 128, 129]],

# 数组的网格思想

在numpy.indices()函数中有这样一段说明：

**返回表示网格索引的数组。**

**计算一个数组，其中子数组包含索引值0,1，...仅沿相应的轴变化。**

**用嵌套网格的思想，结合shape元组解析多维数组是最佳方法。**

- 将数组对象看成一个平面空间；
- 将这个平面分割成行、列交叉的网格；
- 多维就是每个单元格又被分割成行列交叉的子网格；
- 维度（轴）就是平面分割网格的方向；
- 每个层上都有两个方向，行、列 向；

# 用shape解析数组结构

In [9]:
grid.shape

(4, 4, 2, 2, 5)

shape是一个元组，可以用如下形式表示其中的每个元素：

`shape(s0, s1, s2, ...si...sD-1)`

D是该数组的维度，也是shape元组的长度。i 是shape中各元素的索引。

In [12]:
grid.ndim

5

In [13]:
len(grid.shape)

5

## 对于上述shape = (4, 4, 2, 2, 5)的元组，解析如下：

1. 将数组平面划分为4行（s0 = 4）; 0轴，可以理解为数组平面被划分为4个单元格（4行）。
2. 每行都划分为4列（s1 = 4）； 1轴；到这里，数组平面被划分为“4行 * 4列”的网格，有16个格子。
>前面得到的`4行*4列`的格子是第一层，有两个轴方面，行向、列向。
3. 得到的16个格子，每个格子都被划分为2行（s2 = 2)，2轴，行向；
4. 16个格子中，每个格子的有2行，每行再被划分为2列（s3 = 2)，3轴，列向；
> 3，4步对1，2步分割的网格，进行了二次划分，创建了2行*2列的子网格，第二层，也有两个轴向，行、列向。
> 现在数组的平面空间被划分成 `16 * 4 =64`个格子。
5. 64个格子，每个再次被划分为 5 个格子，因为这是最后一个，只有一个轴方向，默认是再一行上分为5个列。

**总结：**
- shape()元组中的元素，从s0开始，两两一组，构成一个表示行、列数的元组，在一个层次上分割数组平面。
> (s0,s1), (s2,s3)，(s4, )，如果D为奇数，最后一次分割就只有一个方向（默认为列向）。
- 每个层次上有两个轴（维度）向，行、列向，最后一层例外。
- 直到shape的最后一个元素，如果元素个数是奇数，最后一次是一个一维的子数组，默认在列向上分割。
- 最后得到的网格共有 `s0*s1*s2*..sD-1` 个数组元素（值）个数。共有：`（s0*s2*...）`行，共有`(s1*s3*s5...)`列。本例就是：`4*2 = 8行，4*2*5 = 40列，共 8 * 40 =320 个值元素`。

# 多维数组的检索

理解了上述概念后，使用索引号检索多维数组的数据就变得很容易了。检索语法为：`grid[k0,k1,...kD-1]`

shape = (4, 4, 2, 2, 5)，shape的索引：（s0,s1,...sD-1)

对照`grid[k0，k1..ki]`和shape，就很容易知道对象的位置了。

**注意：`0<= ki <= si-1`**

本例中，k0<=3, k1<=3, k2<=1，k3<=1, k4<=4，否则就会触发索引超出范围的错误。 

检索出的是一个子数组，子数组的形状由shape中剩余元素组成，即（si+1, ..sD-1)。

子数组行、列会被重新定义，对比不同层次子数的转置数组就能明白这点。

In [33]:
grid[1,2,0]

array([[120, 121, 122, 123, 124],
       [125, 126, 127, 128, 129]])

In [34]:
grid[1,2]

array([[[120, 121, 122, 123, 124],
        [125, 126, 127, 128, 129]],

       [[130, 131, 132, 133, 134],
        [135, 136, 137, 138, 139]]])

In [35]:
grid[1,2,0].T

array([[120, 125],
       [121, 126],
       [122, 127],
       [123, 128],
       [124, 129]])

In [41]:
grid[1,2].T

array([[[120, 130],
        [125, 135]],

       [[121, 131],
        [126, 136]],

       [[122, 132],
        [127, 137]],

       [[123, 133],
        [128, 138]],

       [[124, 134],
        [129, 139]]])

In [38]:
itemindex =np.argwhere(grid[0,1] == 27)
itemindex

array([[0, 1, 2]], dtype=int64)

In [39]:
grid[0,1]

array([[[20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29]],

       [[30, 31, 32, 33, 34],
        [35, 36, 37, 38, 39]]])