这节我们主要学习 array 的分解和组合，本节是所有章节中最重要的一节，通过本节内容，您可以充分了解 numpy（以及 Python 语言）的强大，这种操作上的优雅不能说后无来者，但至少前无古人了。

内容大致包括以下小节：

+ 切片和索引
+ 拼接
+ 重复
+ 分拆

其中，重中之重是「切片和索引」，它基础、它高频、它无处不在。我们强烈建议您熟练掌握，其他三个相对简单，只需要各记住一个 API 即可。

# 切片和索引 ⭐⭐⭐⭐⭐

划重点！切片和索引是通过对已有 array 进行操作而得到想要的「部分」元素的行为过程。其核心动作可以概括为：按维度根据 start:stop:step 操作 array。

这部分内容的核心是把处理按维度分开，不处理的维度统一用 : 或 ... 代替；在看操作时，也要首先关注「,」在哪里。要处理的维度和之前 arange linspace 等接口使用方法是一样的。

⚠️ 需要注意的是：引支持负数，即从后往前索引。

In [2]:
import numpy as np
rng = np.random.default_rng(12345)
arr = rng.integers(0, 20, (5, 4))
arr

array([[13,  4, 15,  6],
       [ 4, 15, 12, 13],
       [19,  7, 16,  6],
       [11, 11,  4,  3],
       [ 4, 13, 12, 18]])

***
index/slice
***

In [3]:
# 取第 0 行
arr[0]

array([13,  4, 15,  6])

In [5]:
# 取第 0 行第 1 个元素
arr[0, 1]

4

In [6]:
# 然后带点范围 第 1-2 行
arr[0:3]

array([[13,  4, 15,  6],
       [ 4, 15, 12, 13],
       [19,  7, 16,  6]])

In [7]:
# 离散也可以：第 1，3 行
arr[[0, 3]]

array([[13,  4, 15,  6],
       [11, 11,  4,  3]])

In [8]:
arr

array([[13,  4, 15,  6],
       [ 4, 15, 12, 13],
       [19,  7, 16,  6],
       [11, 11,  4,  3],
       [ 4, 13, 12, 18]])

In [9]:
# 再来加上维度：第 1-2 行，第 1 列
arr[1:3, 1]

array([15,  7])

In [10]:
# 离散也是一样：第 1，3 行，第 0 列
arr[[1,3], [0]]

array([ 4, 11])

In [11]:
# 还可以有简写：到最后或到开始。如第 3 行到最后一行
arr[3:]

array([[11, 11,  4,  3],
       [ 4, 13, 12, 18]])

In [12]:
# 开始到第 3 行，第 1-3 列
arr[:3, 1:3]

array([[ 4, 15],
       [15, 12],
       [ 7, 16]])

In [13]:
# 还可以来点跳跃，步长：start:stop:step，第 1 行到第 4 行，间隔为 2，即第 1、3 行
arr[1: 4: 2]

array([[ 4, 15, 12, 13],
       [11, 11,  4,  3]])

In [14]:
# 加上列也可以哦，第 1、3 行，第 0、2 列
arr[1:4:2, 0:3:2]

array([[ 4, 12],
       [11,  4]])

In [15]:
arr

array([[13,  4, 15,  6],
       [ 4, 15, 12, 13],
       [19,  7, 16,  6],
       [11, 11,  4,  3],
       [ 4, 13, 12, 18]])

In [16]:
# 第一列的值，其实是所有其他维度第 1 维的值
arr[...,1]

array([ 4, 15,  7, 11, 13])

In [17]:
# 与上面类似，但用的更多
arr[:,1]

array([ 4, 15,  7, 11, 13])

# 拼接 ⭐⭐⭐⭐

有时候我们需要对已有的几个 array 进行拼接以形成一个大的 array（常见的例子比如不同类型特征的拼接）。本小节严格来说只有两个 API：np.concatenate 和 np.stack，前者是拼接，后者是堆叠（会增加一个维度），都可以指定维度。记住，有它俩就够了。

⚠️ 需要注意的是：hstack 和 vstack 和 stack 没关系，反而是 concatenate。

In [20]:
rng = np.random.default_rng(12345)

arr1 = rng.standard_normal((2, 3))
arr2 = rng.standard_normal((2, 3))
arr1, arr2

(array([[-1.42382504,  1.26372846, -0.87066174],
        [-0.25917323, -0.07534331, -0.74088465]]),
 array([[-1.3677927 ,  0.6488928 ,  0.36105811],
        [-1.95286306,  2.34740965,  0.96849691]]))

***
np.concatenate
***

In [21]:
# 默认沿axis=0（列）连接
np.concatenate((arr1, arr2))

array([[-1.42382504,  1.26372846, -0.87066174],
       [-0.25917323, -0.07534331, -0.74088465],
       [-1.3677927 ,  0.6488928 ,  0.36105811],
       [-1.95286306,  2.34740965,  0.96849691]])

In [22]:
# 沿 axis=1（行）连接
np.concatenate((arr1, arr2), axis=1)

array([[-1.42382504,  1.26372846, -0.87066174, -1.3677927 ,  0.6488928 ,
         0.36105811],
       [-0.25917323, -0.07534331, -0.74088465, -1.95286306,  2.34740965,
         0.96849691]])

***

In [24]:
# 竖直按行顺序拼接
# 注意：vstack 虽然看起来是 stack，但其实它是 concatenate，建议您只使用 `np.concatenate`
np.vstack((arr1, arr2))

array([[-1.42382504,  1.26372846, -0.87066174],
       [-0.25917323, -0.07534331, -0.74088465],
       [-1.3677927 ,  0.6488928 ,  0.36105811],
       [-1.95286306,  2.34740965,  0.96849691]])

In [25]:
# 水平按列顺序拼接
# 道理和 vstack 一样，建议使用 `np.concatenate` axis=1
np.hstack((arr1, arr2))

array([[-1.42382504,  1.26372846, -0.87066174, -1.3677927 ,  0.6488928 ,
         0.36105811],
       [-0.25917323, -0.07534331, -0.74088465, -1.95286306,  2.34740965,
         0.96849691]])

***
np.stack
***

In [26]:
# 堆叠，默认根据 axis=0 进行
np.stack((arr1, arr2))

array([[[-1.42382504,  1.26372846, -0.87066174],
        [-0.25917323, -0.07534331, -0.74088465]],

       [[-1.3677927 ,  0.6488928 ,  0.36105811],
        [-1.95286306,  2.34740965,  0.96849691]]])

In [27]:
_.shape

(2, 2, 3)

In [28]:
# 堆叠，根据 axis=2
np.stack((arr1, arr2), axis=2)

array([[[-1.42382504, -1.3677927 ],
        [ 1.26372846,  0.6488928 ],
        [-0.87066174,  0.36105811]],

       [[-0.25917323, -1.95286306],
        [-0.07534331,  2.34740965],
        [-0.74088465,  0.96849691]]])

In [29]:
# _ 表示上一个 Cell 的输出结果
_.shape

(2, 3, 2)

***

In [30]:
# 纵深按 axis=2 堆叠，不管它就行，我们认准 `stack`
np.dstack((arr1, arr2))

array([[[-1.42382504, -1.3677927 ],
        [ 1.26372846,  0.6488928 ],
        [-0.87066174,  0.36105811]],

       [[-0.25917323, -1.95286306],
        [-0.07534331,  2.34740965],
        [-0.74088465,  0.96849691]]])

In [31]:
_.shape

(2, 3, 2)

# 重复 ⭐⭐⭐

重复其实是另一种拼接方式，它也可以指定要重复的维度。在有些深度学习模型数据构建中非常有用（方便）。

⚠️ 需要注意的是：是一个维度一个维度依次重复，而不是整个 array 重复。

In [32]:
rng = np.random.default_rng(12345)
arr = rng.integers(0, 10, (3, 4))
arr

array([[6, 2, 7, 3],
       [2, 7, 6, 6],
       [9, 3, 8, 3]])

In [33]:
# 在 axis=0（沿着列）上重复 2 次
np.repeat(arr, 2, axis=0)

array([[6, 2, 7, 3],
       [6, 2, 7, 3],
       [2, 7, 6, 6],
       [2, 7, 6, 6],
       [9, 3, 8, 3],
       [9, 3, 8, 3]])

In [34]:
# 在 axis=1（沿着行）上重复 3 次
np.repeat(arr, 3, axis=1)

array([[6, 6, 6, 2, 2, 2, 7, 7, 7, 3, 3, 3],
       [2, 2, 2, 7, 7, 7, 6, 6, 6, 6, 6, 6],
       [9, 9, 9, 3, 3, 3, 8, 8, 8, 3, 3, 3]])

# 分拆 ⭐⭐⭐

有拼接堆叠自然就有拆分，注意这不是切片和索引，就是将 array 拆成想要的几份。用的不是特别多，API 只要记住 np.split 就行了，其他的都是快捷方式。

⚠️ 需要注意的是：分拆的 axis 是对该维度进行拆分。

In [35]:
rng = np.random.default_rng(12345)
arr = rng.integers(1, 100, (6, 4))
arr

array([[70, 23, 79, 32],
       [21, 79, 64, 67],
       [98, 39, 84, 33],
       [57, 60, 22, 19],
       [23, 67, 61, 94],
       [70, 25, 91, 94]])

***
np.split
***

In [38]:
# 默认切分列（axis=0），切成 3 份
np.split(arr, 3)

[array([[70, 23, 79, 32],
        [21, 79, 64, 67]]), array([[98, 39, 84, 33],
        [57, 60, 22, 19]]), array([[23, 67, 61, 94],
        [70, 25, 91, 94]])]

In [39]:
# （axis=1）切分行
np.split(arr, 2, axis=1)

[array([[70, 23],
        [21, 79],
        [98, 39],
        [57, 60],
        [23, 67],
        [70, 25]]), array([[79, 32],
        [64, 67],
        [84, 33],
        [22, 19],
        [61, 94],
        [91, 94]])]

In [40]:
# 和上面的一个效果
np.vsplit(arr, 3)

[array([[70, 23, 79, 32],
        [21, 79, 64, 67]]), array([[98, 39, 84, 33],
        [57, 60, 22, 19]]), array([[23, 67, 61, 94],
        [70, 25, 91, 94]])]

In [41]:
# 等价的用法
np.hsplit(arr, 2)

[array([[70, 23],
        [21, 79],
        [98, 39],
        [57, 60],
        [23, 67],
        [70, 25]]), array([[79, 32],
        [64, 67],
        [84, 33],
        [22, 19],
        [61, 94],
        [91, 94]])]