这小节与索引和切片有点类似，但倾向于从「整体」中统一筛选出「符合条件」的内容，而索引和切片更多的是依照「某种方法」切出一块内容。本小节内容同样非常重要，可以算第二个最重要的小节。主要包括以下内容：

+ 条件筛选
+ 提取（按条件）
+ 抽样（按分布）
+ 最大最小 index（特殊值）

这几个内容都很重要，使用的也非常高频。条件筛选经常用于 Mask 或异常值处理，提取则常用于结果过滤，抽样常用在数据生成（比如负样本抽样），最大最小 index 则常见于机器学习模型预测结果判定中（根据最大概率所在的 index 决定结果属于哪一类）。

In [2]:
import numpy as np
rng = np.random.default_rng(12345)
arr = rng.integers(1, 100, (3, 4))
arr

array([[70, 23, 79, 32],
       [21, 79, 64, 67],
       [98, 39, 84, 33]])

# 条件筛选 ⭐⭐⭐

顾名思义，根据一定的条件对 array 进行筛选（标记）并后续处理。核心 API 是 np.where。

⚠️ 需要注意的是：where 分别返回各维度的 index，赋值的是「不满足」条件的。

In [4]:
# 条件筛选，可以直接在整个 array 上使用条件
arr > 50

array([[ True, False,  True, False],
       [False,  True,  True,  True],
       [ True, False,  True, False]])

In [5]:
# 返回满足条件的索引，因为是两个维度，所以会返回两组结果
np.where(arr > 50)

(array([0, 0, 1, 1, 1, 2, 2]), array([0, 2, 1, 2, 3, 0, 2]))

In [6]:
# 不满足条件的赋值，将 <=50 的替换为 -1
np.where(arr > 50, arr, -1)

array([[70, -1, 79, -1],
       [-1, 79, 64, 67],
       [98, -1, 84, -1]])

# 提取 ⭐

在 array 中提取指定条件的值。

⚠️ 需要注意的是：提取和唯一值返回的都是一维向量。

In [7]:
# 提取指定条件的值
np.extract(arr > 50, arr)

array([70, 79, 79, 64, 67, 98, 84])

In [18]:
# 唯一值，是另一种形式的提取
np.unique(arr)

array([21, 23, 32, 33, 39, 64, 67, 70, 79, 84, 98])

# 抽样 ⭐⭐⭐⭐⭐

我们在跑模型时常常需要使用部分数据对整个过程快速验证，您当然可以使用 np.random 生成模拟数据。但有真实数据时，从真实数据中随机抽样会比较好。

⚠️ 需要注意的是：抽样的集合要求为一维向量（一般是数据的 index）。

In [24]:
rng = np.random.default_rng(42)
# 第一个参数是要抽样的集合，如果是一个整数，则表示从 0 到该值
# 第二个参数是样本大小
# 第三个参数表示结果是否可以重复
# 第四个参数表示出现的概率，长度和第一个参数一样

# 由于（0 1 2 3）中 2 和 3 的概率比较高，自然就选择了 2 和 3
rng.choice(4, 2, replace=False, p=[0.1, 0.2, 0.3, 0.4])

array([3, 2])

In [25]:
# 旧的 API
# 如果是抽样语料的 index，更多的方法是这样：
data_size = 10000
np.random.choice(data_size, 50, replace=False)

array([7577,  274, 3310, 4715, 4216, 8338, 2174, 7943, 3463, 4116, 3287,
       2596, 4911, 6302, 3518, 3346, 2300, 2293,  991, 7838, 3778, 2751,
        574, 1376, 8148, 6917, 7047, 4517, 8564, 1629, 8924, 5678,  772,
       2719, 7252, 7895, 1956, 5752, 2280, 9996, 7779, 4431, 4467, 1138,
       6954, 3900, 2119, 2490, 4515, 8940])

# 最值 Index ⭐⭐⭐⭐⭐

这小节主要是两个 API：np.argmax(min) 和 np.argsort，当然最常用的还是第一个，不用说，自然是可以（需要）指定 axis 的。

In [26]:
rng = np.random.default_rng(12345)
arr = rng.uniform(1, 100, (3, 4))
arr

array([[23.50626622, 32.35907563, 79.93918028, 67.9492124 ],
       [39.71984551, 33.94857886, 60.23256661, 19.48668437],
       [67.60284836, 94.23848366, 25.57632575, 94.93923403]])

***
np.argmax/argmin
***

In [27]:
# 所有值中最大值的 Index，基本不这么用
np.argmax(arr)

11

In [38]:
# 按列（axis=1）最大值的 Index
np.argmax(arr, axis=1)

array([2, 2, 3])

In [29]:
# 按行（axis=1）最小值的 Index
np.argmin(arr, axis=1)

array([0, 3, 2])

***
np.argsort
***

In [30]:
arr

array([[23.50626622, 32.35907563, 79.93918028, 67.9492124 ],
       [39.71984551, 33.94857886, 60.23256661, 19.48668437],
       [67.60284836, 94.23848366, 25.57632575, 94.93923403]])

In [31]:
# 默认按行（axis=1）排序的索引
np.argsort(arr)

array([[0, 1, 3, 2],
       [3, 1, 0, 2],
       [2, 0, 1, 3]])

In [32]:
# 数据按行（axis=1）排序的索引，同上
np.argsort(arr, axis=1)

array([[0, 1, 3, 2],
       [3, 1, 0, 2],
       [2, 0, 1, 3]])

In [33]:
# 数据按列（axis=0）排序索引
np.argsort(arr, axis=0)

array([[0, 0, 2, 1],
       [1, 1, 1, 0],
       [2, 2, 0, 2]])