In [3]:
import numpy as np

## 切片与索引

在这一节中，我们将深入了解 NumPy 数组的切片和索引功能。这是整个教程中最关键的部分，因为它揭示了 NumPy（以及 Python 语言）的强大功能。这种优雅的操作方式可能不是独一无二的，但在历史上绝对是开创性的。

本节内容将涵盖以下几个主题：

- 切片
- 索引
- 拼接、重复、分拆

切片和索引是这些主题中的核心，因为它们是基础且频繁使用的。我们强烈建议您熟练掌握这些技能。其他主题相对简单，只需记住一个 API 即可。

### 切片和索引

🌟 重点提示：切片和索引是在现有数组上操作以获取所需「部分」元素的方法。其核心是根据 `start:stop:step` 模式按维度操作数组。

理解这部分内容的关键在于将处理过程按维度分解，并且对于不需要处理的维度统一使用 `:` 或 `...` 来表示。分析操作时，首先需要注意逗号「`,`」的位置。处理的维度与 `arange`、`linspace` 等函数的使用方法相同。

⚠️ 注意：索引支持负数，即可以从数组的末尾开始计数。

以下是一些基本的索引和切片操作示例：

In [4]:
rng = np.random.default_rng(42)  # 创建一个随机数生成器实例
arr = rng.integers(0, 20, (5, 4))  # 创建一个 5x4 的数组，元素是 0 到 20 的整数
print(arr)

[[ 1 15 13  8]
 [ 8 17  1 13]
 [ 4  1 10 19]
 [14 15 14 15]
 [10  2 16  9]]


接下来，让我们看看如何使用切片和索引来访问和操作数组中的数据。

In [4]:
# 获取第 0 行的所有元素
print(arr[0])

[ 1 15 13  8]


In [5]:
# 获取第 0 行第 1 个元素
print(arr[0, 1])

15


In [6]:
# 获取第 1 到第 2 行的所有元素（不包括第 3 行）
print(arr[1:3])

[[ 8 17  1 13]
 [ 4  1 10 19]]


In [7]:
# 获取第 1 行和第 3 行的所有元素（离散索引）
print(arr[[1, 3]])

[[ 8 17  1 13]
 [14 15 14 15]]


In [8]:
# 获取第 1 到第 2 行的第 1 列元素
print(arr[1:3, 1])

[17  1]


In [9]:
# 获取第 1 行和第 3 行的第 0 列元素（离散索引）
print(arr[[1, 3], [0]])

[ 8 14]


In [10]:
# 获取第 3 行到最后一行的所有元素
print(arr[3:])

[[14 15 14 15]
 [10  2 16  9]]


In [11]:
# 获取从开始到第 3 行的第 1 到第 2 列的元素
print(arr[:3, 1:3])

[[15 13]
 [17  1]
 [ 1 10]]


In [12]:
# 使用步长来获取元素，这里我们从第 1 行到第 4 行，每隔 2 行取一次，即第 1 行和第 3 行
print(arr[1:4:2])

[[ 8 17  1 13]
 [14 15 14 15]]


In [8]:
arr

array([[ 1, 15, 13,  8],
       [ 8, 17,  1, 13],
       [ 4,  1, 10, 19],
       [14, 15, 14, 15],
       [10,  2, 16,  9]], dtype=int64)

In [13]:
# 我们也可以在列上使用步长，这里我们取第 1 行和第 3 行的第 0 列和第 2 列
print(arr[1:4:2, 0:3:2])

[[ 8  1]
 [14 14]]


In [14]:
# 使用 ... 来代表多个冒号，这里我们获取第一列的所有元素
print(arr[..., 1])

[15 17  1 15  2]


In [15]:
# 直接使用冒号来获取第一列的所有元素，这是常见的用法
print(arr[:, 1])

[15 17  1 15  2]


### 拼接

在数据处理中，我们经常需要将多个数组合并成一个更大的数组。这可以通过拼接或堆叠完成。NumPy 提供了多种方法来实现这一点，我们将重点介绍 `np.concatenate` 和 `np.stack`，这两个函数提供了合并数组的基本功能。

#### `np.concatenate`

`np.concatenate` 是 NumPy 中最常用的数组拼接函数之一。它可以沿着指定的轴连接数组序列。

In [16]:
# 创建两个形状相同的数组
arr1 = rng.random((2, 3))
arr2 = rng.random((2, 3))

# 默认情况下，`np.concatenate` 沿着第一个轴（axis=0，即行）进行连接
concatenated_arr = np.concatenate((arr1, arr2))
print(concatenated_arr.shape)

(4, 3)


In [17]:
# 可以指定 `axis` 参数来沿着不同的轴拼接数组，这里是沿着列（axis=1）
concatenated_arr_axis1 = np.concatenate((arr1, arr2), axis=1)
print(concatenated_arr_axis1.shape)

(2, 6)


这将输出一个新数组，其中第二个数组的列被添加到第一个数组的右侧。

#### `np.stack`

`np.stack` 是另一个用于堆叠数组的函数，不同于 `np.concatenate`，`np.stack` 会创建一个新的轴。

In [18]:
# 使用 `np.stack` 来堆叠两个数组，它会在结果中添加一个新的轴
stacked_arr = np.stack((arr1, arr2))
print(stacked_arr)
print("Shape of stacked array:", stacked_arr.shape)

[[[0.37079802 0.92676499 0.64386512]
  [0.82276161 0.4434142  0.22723872]]

 [[0.55458479 0.06381726 0.82763117]
  [0.6316644  0.75808774 0.35452597]]]
Shape of stacked array: (2, 2, 3)


In [19]:
# 可以指定 `axis` 参数来沿着不同的轴堆叠数组，这里我们沿着最内侧的轴（axis=2）进行堆叠
stacked_arr_axis2 = np.stack((arr1, arr2), axis=2)
print(stacked_arr_axis2)
print("Shape of stacked array along axis 2:", stacked_arr_axis2.shape)

[[[0.37079802 0.55458479]
  [0.92676499 0.06381726]
  [0.64386512 0.82763117]]

 [[0.82276161 0.6316644 ]
  [0.4434142  0.75808774]
  [0.22723872 0.35452597]]]
Shape of stacked array along axis 2: (2, 3, 2)


### 重复

有时我们需要将数组中的元素沿着指定的轴重复某些次数，`np.repeat` 函数正是为此设计的。

In [9]:
# 创建一个 3x4 的随机整数数组
arr = rng.integers(0, 10, (3, 4))
print(arr)

[[5 3 1 9]
 [7 6 4 8]
 [5 4 4 2]]


In [10]:
# 沿着 axis=0 重复每一行两次
repeated_arr_axis0 = np.repeat(arr, 2, axis=0)
print(repeated_arr_axis0)

[[5 3 1 9]
 [5 3 1 9]
 [7 6 4 8]
 [7 6 4 8]
 [5 4 4 2]
 [5 4 4 2]]


In [23]:
# 沿着 axis=1 重复每一列三次
repeated_arr_axis1 = np.repeat(arr, 3, axis=1)
print(repeated_arr_axis1)

[[5 5 5 1 1 1 7 7 7 6 6 6]
 [9 9 9 7 7 7 3 3 3 9 9 9]
 [4 4 4 3 3 3 9 9 9 3 3 3]]


### 分拆

与拼接相反，分拆是将一个大数组分割成多个小数组的过程。`np.split` 提供了一个通用的分割方法。

In [11]:
# 创建一个 6x4 的随机整数数组
arr = rng.integers(1, 100, (6, 4))
print(arr)

[[10 55 88  7]
 [85 82 28 63]
 [17 76 70 36]
 [ 7 97 45 89]
 [68 78 76 20]
 [37 47 50  5]]


In [12]:
# 默认情况下，`np.split` 沿着第一个轴（axis=0）分割数组，这里我们将其分割成 3 个相同大小的小数组
split_arr = np.split(arr, 3)
print(split_arr)

[array([[10, 55, 88,  7],
       [85, 82, 28, 63]], dtype=int64), array([[17, 76, 70, 36],
       [ 7, 97, 45, 89]], dtype=int64), array([[68, 78, 76, 20],
       [37, 47, 50,  5]], dtype=int64)]


In [26]:
# 我们也可以沿着列（axis=1）分割数组，这里我们将其分割成 2 个相同大小的小数组
split_arr_axis1 = np.split(arr, 2, axis=1)
print(split_arr_axis1)

[array([[ 8, 47],
       [46, 13],
       [33, 23],
       [94, 44],
       [63, 70],
       [77, 83]], dtype=int64), array([[79, 19],
       [68, 48],
       [56, 67],
       [16, 83],
       [10, 31],
       [44, 80]], dtype=int64)]


### 条件筛选

在处理数组时，我们经常根据条件选择或修改元素。`np.where` 是一个非常有用的函数，它返回满足条件的元素的索引。

In [13]:
# 创建一个 6x4 的随机整数数组
arr = rng.integers(1, 100, (6, 4))
print(arr)

[[55 16 74 68]
 [92 74 37 96]
 [41 33 90 37]
 [ 8 47 79 19]
 [46 13 68 48]
 [33 23 56 67]]


In [14]:
# 使用条件筛选来创建一个布尔数组
condition = arr > 50
print(condition)

[[ True False  True  True]
 [ True  True False  True]
 [False False  True False]
 [False False  True False]
 [False False  True False]
 [False False  True  True]]


In [16]:
# 使用 `np.where` 来找到满足条件的元素的索引
indices = np.where(arr > 50)
print(indices)

(array([0, 0, 0, 1, 1, 1, 2, 3, 4, 5, 5], dtype=int64), array([0, 2, 3, 0, 1, 3, 2, 2, 2, 2, 3], dtype=int64))


In [17]:
# 使用 `np.where` 进行条件赋值，将所有小于等于 50 的元素替换为 -1
new_arr = np.where(arr > 50, arr, -1)
print(new_arr)

[[55 -1 74 68]
 [92 74 -1 96]
 [-1 -1 90 -1]
 [-1 -1 79 -1]
 [-1 -1 68 -1]
 [-1 -1 56 67]]


### 提取

有时我们需要从数组中提取满足特定条件的元素。

In [18]:
# 使用 `np.extract` 来提取大于 50 的元素
extracted_elements = np.extract(arr > 50, arr)
print(extracted_elements)

[55 74 68 92 74 96 90 79 68 56 67]


In [19]:
# 使用 `np.unique` 来获取数组中所有唯一的元素
unique_elements = np.unique(arr)
print(unique_elements)

[ 8 13 16 19 23 33 37 41 46 47 48 55 56 67 68 74 79 90 92 96]


### 最值 Index

在数据分析中，我们经常需要找到最大或最小元素的位置。`np.argmax` 和 `np.argmin` 可以帮助我们找到这些元素的索引。

In [20]:
# 显示数组
print(arr)

[[55 16 74 68]
 [92 74 37 96]
 [41 33 90 37]
 [ 8 47 79 19]
 [46 13 68 48]
 [33 23 56 67]]


In [21]:
# 找到整个数组中最大元素的索引
index_of_max = np.argmax(arr)
print(index_of_max)

7


In [24]:
# 沿着列找到每列最大元素的索引
indices_of_max_in_columns = np.argmax(arr, axis=0)
print(indices_of_max_in_columns)

[1 1 2 1]


In [25]:
# 沿着行找到每行最小元素的索引
indices_of_min_in_rows = np.argmin(arr, axis=1)
print(indices_of_min_in_rows)

[1 2 1 0 1 1]
