NumPy（Numerical Python的简称）是Python中用于数值计算的最重要的基础包之一。许多提供科学功能的计算包都使用NumPy的数组对象作为数据交换的标准接口语言。你学到的关于NumPy的知识在很大程度上也可以转移到pandas上。

以下是NumPy中的一些重要功能：

- **ndarray**：一个高效的多维数组，提供快速的数组导向的算术操作和灵活的广播功能。
- **数学函数**：可以在整个数据数组上进行快速操作，无需编写循环。
- **读/写工具**：用于读取/写入数组数据到磁盘，以及处理内存映射文件。
- **线性代数、随机数生成和傅里叶变换能力**。
- **C API**：用于连接NumPy与用C、C++或FORTRAN编写的库。

让我们通过一些例子来更详细地探索这些功能。

### 1. ndarray

NumPy的核心特性是`ndarray`对象，这是一个多维数组结构，非常适合进行大规模数值计算。与Python原生的列表相比，`ndarray`在存储和处理大型数组时更加高效和方便。

#### 示例代码：创建和操作ndarray

```python
import numpy as np

# 创建一个一维数组
arr1d = np.array([1, 2, 3, 4])
print("一维数组:", arr1d)

# 创建一个二维数组
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print("二维数组:\n", arr2d)

# 数组的算术运算
print("数组乘法:", arr1d * 2)

# 数组的形状
print("数组形状:", arr2d.shape)

# 数组的数据类型
print("数据类型:", arr2d.dtype)
```

### 2. 数学函数

NumPy提供了一系列的数学函数，可以直接在ndarray上进行操作，从而避免了使用循环，大大提高了计算效率。

#### 示例代码：使用数学函数

```python
# 创建一个数组
arr = np.array([1, 2, 3, 4])

# 计算数组的平方根
print("平方根:", np.sqrt(arr))

# 计算数组的平均值
print("平均值:", np.mean(arr))
```

### 3. 文件I/O

NumPy可以方便地将数组读取和写入磁盘文件。

#### 示例代码：数组的文件I/O

```python
# 创建一个数组
arr = np.arange(10)
# 将数组保存到文件
np.save('arr.npy', arr)

# 从文件加载数组
loaded_arr = np.load('arr.npy')
print("加载的数组:", loaded_arr)
```

### 4. 线性代数、随机数和傅里叶变换

NumPy还提供了线性代数、随机数生成和傅里叶变换的强大功能。

#### 示例代码：使用线性代数功能

```python
# 创建两个二维数组
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])

# 矩阵乘法
product = np.dot(a, b)
print("矩阵乘法结果:\n", product)
```

以上例子仅仅是NumPy强大功能的冰山一角。掌握了这些基础之后，你可以进一步探索NumPy提供的高级功能，以及如何将这些功能应用于数据分析、机器学习等领域。NumPy的高效和灵活性使其成为Python科学计算的基石之一。

因为NumPy提供了一个全面且文档齐全的C语言API，它能够简单地将数据传递给用低级语言编写的外部库，并且使外部库能够以NumPy数组的形式将数据返回给Python。这一特性使Python成为包装传统C、C++或FORTRAN代码库并为它们提供动态且易于访问的接口的首选语言。

虽然NumPy本身不提供建模或科学功能，但是了解NumPy数组和面向数组的计算将帮助您更有效地使用像pandas这样具有数组计算语义的工具。由于NumPy是一个大话题，我将在稍后更深入地介绍许多高级NumPy特性，比如广播（请参阅附录A：高级NumPy）。这些高级特性并非理解本书其余部分所必需，但在您深入Python科学计算时可能会有所帮助。

对于大多数数据分析应用而言，我将关注的主要功能领域包括：

- 快速基于数组的操作，用于数据清洗和整理、子集和过滤、转换以及任何其他类型的计算。
- 常见的数组算法，如排序、查找唯一值和集合操作。
- 高效的描述性统计和聚合/汇总数据。
- 数据对齐和关系数据操作，用于合并和连接异构数据集。
- 将条件逻辑表达为数组表达式，而不是使用if-elif-else分支的循环。
- 分组数据操作（聚合、转换和函数应用）。

尽管NumPy为通用数值数据处理提供了计算基础，但许多读者可能希望使用pandas作为大多数统计或分析工作的基础，尤其是在处理表格数据时。此外，pandas还提供了一些更具领域特定功能，如时间序列操作，这在NumPy中并不存在。

### 示例代码：快速数组操作和条件逻辑

让我们通过一些代码示例来具体看看这些功能：

```python
import numpy as np
import pandas as pd

# 快速数组操作：数据过滤
arr = np.array([1, 2, 3, 4, 5])
filtered_arr = arr[arr > 3]  # 获取大于3的元素
print("过滤后的数组:", filtered_arr)

# 使用np.where实现条件逻辑
result = np.where(arr > 3, "大于3", "小于等于3")
print("条件逻辑:", result)

# 分组数据操作：使用pandas进行简单的聚合
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar'],
                   'B': ['one', 'one', 'two', 'three'],
                   'C': np.random.randn(4),
                   'D': np.random.randn(4)})
grouped = df.groupby('A').sum()  # 按A列分组并求和
print("分组后的数据:\n", grouped)
```

这些示例展示了NumPy和pandas在数据处理中的强大功能，从简单的数组操作到复杂的分组和聚合操作。理解这些基础知识将为您在数据科学和机器学习等领域的进一步学习和应用打下坚实的基础。

NumPy之所以成为Python数值计算中如此重要的库，一个关键原因是它针对大型数据数组的效率设计。这背后有几个原因：

- **内存存储**：NumPy在连续的内存块中存储数据，与其他内建的Python对象独立。NumPy的算法库用C语言编写，可以直接操作这些内存，无需类型检查或其他开销。与Python内建的序列相比，NumPy数组也使用更少的内存。
  
- **操作效率**：NumPy能够在整个数组上执行复杂计算，而无需Python的for循环，这对于大型序列而言可能非常缓慢。由于其基于C的算法避免了常规解释型Python代码存在的开销，NumPy比常规Python代码快得多。

为了让你直观感受到性能上的差异，考虑一个包含一百万整数的NumPy数组，以及等价的Python列表：

```python
import numpy as np

my_arr = np.arange(1_000_000)
my_list = list(range(1_000_000))
```

现在，让我们将每个序列乘以2：

```python
%timeit my_arr2 = my_arr * 2
# 309 us +- 7.48 us per loop (mean +- std. dev. of 7 runs, 1000 loops each)

%timeit my_list2 = [x * 2 for x in my_list]
# 46.4 ms +- 526 us per loop (mean +- std. dev. of 7 runs, 10 loops each)
```

基于NumPy的算法通常比其纯Python对应部分快10到100倍（甚至更多），并且使用的内存显著更少。这个比较清楚地展示了NumPy在处理大型数据集时的优势：通过使用紧凑的数据结构和高效的算法，NumPy能够提供出色的性能提升。

这种性能差异意味着，对于数据密集型任务，特别是那些涉及大量数值数据计算的任务，使用NumPy不仅可以提升代码的执行速度，还可以在内存使用上更加高效。因此，无论是在科学计算、数据分析还是机器学习领域，NumPy都是不可或缺的工具。

# 4.1 NumPy ndarray：多维数组对象

NumPy的N维数组对象（ndarray）是其关键特性之一，它是Python中用于大型数据集的快速、灵活的容器。数组允许您使用与标量元素之间的等效操作相似的语法，对整个数据块执行数学运算。

为了展示NumPy是如何利用与内置Python对象上的标量值相似的语法来实现批量计算的，我们首先导入NumPy并创建一个小数组：

```python
import numpy as np

data = np.array([[1.5, -0.1, 3], [0, -3, 6.5]])
```

然后，我们可以对这个数据执行数学运算：

```python
# 将数组中的每个元素乘以10
data * 10
```

输出：

```
array([[ 15.,  -1.,  30.],
       [  0., -30.,  65.]])
```

```python
# 将数组与自身相加
data + data
```

输出：

```
array([[ 3. , -0.2,  6. ],
       [ 0. , -6. , 13. ]])
```

在第一个示例中，所有元素都乘以了10。在第二个示例中，数组中每个“单元”的对应值相加。

注意，在本书中，我始终采用标准的NumPy约定，使用`import numpy as np`。虽然你可以在代码中使用`from numpy import *`来避免写`np.`，但我不建议养成这种习惯。NumPy的命名空间很大，包含许多与内置Python函数（如`min`和`max`）冲突的函数名。遵循这类标准约定几乎总是一个好主意。

ndarray是同质数据的通用多维容器；也就是说，所有元素必须是相同类型的。每个数组都有一个形状（shape），一个元组，指示每个维度的大小，以及一个dtype，一个描述数组数据类型的对象：

```python
# 查看数组的形状
data.shape
```

输出：

```
(2, 3)
```

```python
# 查看数组的数据类型
data.dtype
```

输出：

```
dtype('float64')
```

本章将向您介绍使用NumPy数组的基础知识，这应该足以让您跟随本书的其余部分。虽然对于许多数据分析应用来说，不需要深入理解NumPy，但成为熟练的面向数组编程和思考是成为科学Python高手的关键步骤之一。

注意，每当书中提到“数组”、“NumPy数组”或“ndarray”时，在大多数情况下它们都是指ndarray对象。通过掌握ndarray的使用，您将能够高效地处理数据，进行复杂的数学计算，以及执行大规模数据分析，这对于数据科学和机器学习领域至关重要。

## 01. Creating ndarrays

创建ndarray是NumPy库中的基础操作之一。最简单的创建数组的方法是使用`np.array`函数。这个函数接受任何序列类型的对象（包括其他数组）并生成一个包含传入数据的新NumPy数组。比如，一个列表就是一个很好的候选对象：

```python
import numpy as np

data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
```

`arr1`将是：

```
array([6. , 7.5, 8. , 0. , 1. ])
```

嵌套序列，比如等长列表的列表，将被转换成多维数组：

```python
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
```

`arr2`将是：

```
array([[1, 2, 3, 4],
       [5, 6, 7, 8]])
```

由于`data2`是列表的列表，NumPy数组`arr2`有两个维度，其形状是从数据推断出来的。我们可以通过检查`ndim`和`shape`属性来确认这一点：

- `arr2.ndim`输出2，表示数组是二维的。
- `arr2.shape`输出`(2, 4)`，表示数组有2行4列。

除非明确指定（在讨论ndarrays的数据类型时会讨论），`numpy.array`会尝试推断创建的数组的合适数据类型。数据类型存储在一个特殊的`dtype`元数据对象中；例如，在前面两个例子中，我们有：

- `arr1.dtype`输出`dtype('float64')`，表示数组的数据类型是64位浮点数。
- `arr2.dtype`输出`dtype('int64')`，表示数组的数据类型是64位整数。

除了`numpy.array`，还有许多其他函数用于创建新数组。例如，`numpy.zeros`和`numpy.ones`分别创建元素全为0或全为1的数组，长度或形状由给定的参数决定。`numpy.empty`创建一个数组，但不初始化其值为任何特定值。要使用这些方法创建更高维度的数组，传递一个形状的元组即可：

```python
np.zeros(10)  # 创建长度为10的全0数组

np.zeros((3, 6))  # 创建3行6列的全0二维数组

np.empty((2, 3, 2))  # 创建一个2x3x2的三维数组，其值未初始化
```

通过这些函数，您可以灵活地创建各种形状和大小的数组来满足您的数据处理需求。

注意到`numpy.empty`并不保证返回一个全部为零的数组是很重要的。这个函数返回未初始化的内存，因此可能包含非零的“垃圾”值。只有当您打算用数据填充新数组时，才应使用此函数。

`numpy.arange`是内置Python函数`range`的数组版本：

```python
np.arange(15)
```

输出：

```
array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])
```

这是创建数组的一些重要NumPy函数的简短列表（表4.1）：

| 函数          | 描述                                                         |
| :------------- | :------------------------------------------------------------ |
| `array`       | 将输入数据（列表、元组、数组或其他序列类型）转换为ndarray，通过推断数据类型或显式指定数据类型；默认情况下复制输入数据 |
| `asarray`     | 将输入转换为ndarray，如果输入已经是ndarray，则不进行复制     |
| `arange`      | 类似于内置的range，但返回的是ndarray而不是列表               |
| `ones`        | 生成给定形状和数据类型的全1数组；`ones_like`接受另一个数组，并生成相同形状和数据类型的全1数组 |
| `zeros`       | 类似于`ones`和`ones_like`，但生成的是全0数组                 |
| `empty`       | 通过分配新内存来创建新数组，但不像`ones`和`zeros`那样填充任何值 |
| `full`        | 生成给定形状和数据类型的数组，所有值都设置为指定的“填充值”；`full_like`接受另一个数组，并生成相同形状和数据类型的填充数组 |
| `eye`, `identity` | 创建一个N × N的单位矩阵（对角线上是1，其他地方是0）          |

由于NumPy专注于数值计算，如果不指定数据类型，很多情况下默认的数据类型将是`float64`（浮点数）。

这些数组创建函数为您处理数据提供了极大的灵活性和便利。例如，您可以使用`zeros`或`ones`快速创建初始值已知的数组，或者使用`arange`生成一个序列数组。`empty`可用于当您计划立即填充所有元素且不关心初始值时的高效数组分配。这些工具在数据分析、科学计算等多个领域都非常有用。

## 02. ndarray 的数据类型

深入理解NumPy数据类型及其对应的类型代码，这对于在使用NumPy进行数值计算和数据处理时至关重要。以下是NumPy支持的一些主要数据类型及其描述：

| 类型                | 类型代码 | 描述                                                         |
| :------------------- | :--------: | :------------------------------------------------------------ |
| `int8`, `uint8`     | `i1`, `u1` | 有符号和无符号的8位（1字节）整型                              |
| `int16`, `uint16`   | `i2`, `u2` | 有符号和无符号的16位整型                                      |
| `int32`, `uint32`   | `i4`, `u4` | 有符号和无符号的32位整型                                      |
| `int64`, `uint64`   | `i8`, `u8` | 有符号和无符号的64位整型                                      |
| `float16`           | `f2`      | 半精度浮点数                                                  |
| `float32`           | `f4` 或 `f` | 标准单精度浮点数；与C语言的float兼容                          |
| `float64`           | `f8` 或 `d` | 标准双精度浮点数；与C语言的double和Python float对象兼容        |
| `float128`          | `f16` 或 `g` | 扩展精度浮点数                                                |
| `complex64`, `complex128`, `complex256` | `c8`, `c16`, `c32` | 分别由两个32位、64位或128位浮点数表示的复数                    |
| `bool`              | `?`       | 布尔类型，存储True和False值                                   |
| `object`            | `O`       | Python对象类型；值可以是任何Python对象                        |
| `string_`           | `S`       | 定长ASCII字符串类型（每个字符1字节）；例如，创建长度为10的字符串数据类型使用`'S10'` |
| `unicode_`          | `U`       | 定长Unicode类型（字节数平台特定）；与`string_`的规范相同，例如`'U10'` |

这些数据类型允许NumPy精确地控制数据在内存和磁盘上的表示方式，这对于大型数据集和与低级编程语言之间的数据交互尤其重要。例如，你可能需要与一个老旧的C语言科学计算库交互，知道如何精确地匹配数据类型可以确保数据正确无误地传递。

有符号与无符号整型的区别在于，有符号整型可以表示负数，而无符号整型则只能表示非负数。例如，`int8`可以表示-128到127（含）之间的整数，而`uint8`可以表示0到255之间的整数。

使用适当的NumPy数据类型不仅可以帮助确保数据的准确表示，还可以优化内存使用和计算性能。在实际应用中，选择正确的数据类型对于执行高效的数值计算至关重要。

深入探讨NumPy数组的数据类型（dtype），它是包含数组需要解释内存块作为特定类型数据的信息（或元数据）的特殊对象。这里提供一些更详细的示例代码来帮助理解这一概念。

### 创建具有不同数据类型的数组

```python
import numpy as np

# 创建具有float64类型的数组
arr1 = np.array([1, 2, 3], dtype=np.float64)
print(arr1.dtype)  # 输出: float64

# 创建具有int32类型的数组
arr2 = np.array([1, 2, 3], dtype=np.int32)
print(arr2.dtype)  # 输出: int32
```

### 类型转换

您可以使用`astype`方法将数组从一种数据类型显式转换为另一种数据类型：

```python
# 将整型数组转换为浮点型
arr = np.array([1, 2, 3, 4, 5])
float_arr = arr.astype(np.float64)
print(float_arr)  # 输出: [1. 2. 3. 4. 5.]
print(float_arr.dtype)  # 输出: float64

# 将浮点型数组转换为整型（小数部分将被截断）
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
int_arr = arr.astype(np.int32)
print(int_arr)  # 输出: [ 3 -1 -2  0 12 10]
```

### 字符串转换为数字

如果您有表示数字的字符串数组，您可以使用`astype`将它们转换为数值形式：

```python
numeric_strings = np.array(["1.25", "-9.6", "42"], dtype=np.string_)
numeric_floats = numeric_strings.astype(float)
print(numeric_floats)  # 输出: [ 1.25 -9.6  42.  ]
```

### 使用另一个数组的dtype

您还可以利用另一个数组的`dtype`属性来进行类型转换：

```python
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array_as_float = int_array.astype(calibers.dtype)
print(int_array_as_float)  # 输出: [0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]
```

### 使用类型代码字符串

您还可以使用简写的类型代码字符串来引用dtype：

```python
zeros_uint32 = np.zeros(8, dtype="u4")
print(zeros_uint32)  # 输出: [0 0 0 0 0 0 0 0]
print(zeros_uint32.dtype)  # 输出: uint32
```

注意，调用`astype`总是创建一个新数组（数据的一个副本），即使新数据类型与旧数据类型相同。这种灵活性允许NumPy处理来自其他系统的数据，并与低级语言如C或FORTRAN编写的代码进行交互，为大型数据集的存储和操作提供了广泛的控制。

## 03. 使用 NumPy 数组进行算术

NumPy数组的算术操作展示了数组编程的强大功能，特别是在进行批量数据处理时的效率。这里，我们将提供一些比之前提供的英文材料中的示例更详细的代码示例，以进一步阐明这些概念。

### 基础算术操作

NumPy允许你在数组上执行元素级的算术操作，而无需编写显式循环。以下是一些基础的算术操作示例：

```python
import numpy as np

# 创建两个2x3的数组
arr1 = np.array([[1., 2., 3.], [4., 5., 6.]])
arr2 = np.array([[6., 5., 4.], [3., 2., 1.]])

# 数组加法
print("数组加法:\n", arr1 + arr2)

# 数组减法
print("数组减法:\n", arr1 - arr2)

# 数组乘法（元素级乘法，非矩阵乘法）
print("数组乘法:\n", arr1 * arr2)

# 数组除法
print("数组除法:\n", arr1 / arr2)

# 数组的幂运算
print("数组的幂运算:\n", arr1 ** 2)
```

### 标量与数组的运算

与标量的算术运算会将标量值广播到数组的每个元素：

```python
# 标量乘法
print("标量乘法:\n", 10 * arr1)

# 标量加法
print("标量加法:\n", 1 + arr1)

# 标量除法
print("标量除法:\n", 1 / arr1)

# 标量的幂运算
print("标量的幂运算:\n", arr1 ** 0.5)
```

### 数组间的比较操作

数组间的比较会产生布尔类型数组：

```python
# 创建第二个数组用于比较
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])

# 执行元素级的比较
print("大于比较:\n", arr1 > arr2)
print("小于等于比较:\n", arr1 <= arr2)
```

这些示例展示了如何利用NumPy进行高效的数值计算，通过简洁的语法实现复杂的数学操作，无需编写冗长的循环代码。NumPy的这种“向量化”操作方式，不仅代码更简洁易读，而且计算效率更高，特别适合处理大型数据集。

## 04. 基本索引和切片

NumPy数组的基本索引和切片功能提供了访问数组的某个子集或单个元素的强大手段。这里，我们将提供更详细的示例代码，以帮助理解如何在实践中使用这些功能。

### 一维数组的索引和切片

一维数组的操作非常直观，类似于Python列表：

```python
import numpy as np

# 创建一个一维数组
arr = np.arange(10)
print("原始数组:", arr)

# 索引：获取第六个元素
print("arr[5]:", arr[5])

# 切片：获取第六到第八个元素
print("arr[5:8]:", arr[5:8])

# 切片赋值：将第六到第八个元素设置为12
arr[5:8] = 12
print("修改后的数组:", arr)
```

### 高维数组的索引

在多维数组中，你可以使用逗号分隔的索引列表来访问元素：

```python
# 创建一个二维数组
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("原始二维数组:\n", arr2d)

# 访问第三行
print("第三行:", arr2d[2])

# 使用逗号分隔的索引访问单个元素（第一行第三列）
print("arr2d[0, 2]:", arr2d[0, 2])

# 等同于分步索引
print("分步索引:", arr2d[0][2])
```

### 多维数组的切片

多维数组的切片更加灵活，允许你沿着多个维度进行切片：

```python
# 对二维数组进行切片，选择前两行
print("前两行:\n", arr2d[:2])

# 切片可以同时应用于多个维度，选择前两行的后两列
print("前两行的后两列:\n", arr2d[:2, 1:])

# 使用整数索引与切片混合，可以降低返回的数组维度
# 选择第二行的前两列
print("第二行的前两列:", arr2d[1, :2])

# 选择第三列的前两行
print("第三列的前两行:", arr2d[:2, 2])
```

### 切片视图与数据复制

NumPy数组切片返回的是原数组数据的视图，而不是副本。这意味着，如果你修改了切片的数据，原数组也会相应改变：

```python
# 创建切片视图
arr_slice = arr2d[:2, 1:]
print("切片视图:\n", arr_slice)

# 修改切片视图的数据
arr_slice[:] = 0
print("修改后的原数组:\n", arr2d)
```

要注意的是，这种行为与Python列表的切片操作不同，后者会返回数据的副本。如果你需要一个NumPy数组切片的副本而非视图，应该显式地进行复制操作，如`arr[5:8].copy()`。

这些示例展示了NumPy在数组索引和切片方面的灵活性和强大功能，使得数据操作既简单又高效。

## 05. 布尔索引

布尔索引是NumPy数组操作中非常强大的功能之一，它允许你根据条件选择数组中的数据。下面是一些基于提供的英文材料的详细示例代码，展示了如何使用布尔索引进行数据选择和修改。

### 使用布尔数组进行索引

首先，创建一些示例数据和对应的名字数组：

```python
import numpy as np

names = np.array(["Bob", "Joe", "Will", "Bob", "Will", "Joe", "Joe"])
data = np.array([[4, 7], [0, 2], [-5, 6], [0, 0], [1, 2], [-12, -4], [3, 4]])
```

现在，我们可以使用布尔数组来选择与特定名字对应的数据行。比如，选择名字为"Bob"的所有行：

```python
# 创建布尔数组
bob_names = names == "Bob"
print("布尔数组（'Bob'）:", bob_names)

# 使用布尔数组索引数据
print("选择'Bob'的行:\n", data[bob_names])
```

### 使用布尔数组修改数据

你还可以使用布尔索引来修改数组中满足特定条件的元素：

```python
# 将所有负数设置为0
data[data < 0] = 0
print("将负数设置为0:\n", data)
```

### 组合多个布尔条件

你可以使用逻辑操作符`&`（和）和`|`（或）来组合多个布尔条件：

```python
# 选择名字为"Bob"或"Will"的行
mask = (names == "Bob") | (names == "Will")
print("布尔数组（'Bob'或'Will'）:", mask)

# 应用布尔数组
print("选择'Bob'或'Will'的行:\n", data[mask])
```

### 使用布尔数组设置整行或整列的值

你还可以使用布尔数组来设置整个数组的特定行或列：

```python
# 将名字不是"Joe"的行设置为7
data[names != "Joe"] = 7
print("将名字不是'Joe'的行设置为7:\n", data)
```

布尔索引在数据处理中非常有用，特别是当你需要基于条件从大型数据集中选择或修改数据时。这种方法的一个关键优点是代码的简洁性和执行效率，因为它利用了NumPy的底层优化。

注意，使用布尔数组进行索引时创建的是原始数据的视图，而不是副本。这意味着在某些操作中，比如直接通过布尔索引修改数组时，原数组也会相应地被修改。如果你需要保留原始数据不变，可以先复制数组或使用`.copy()`方法。

## Fancy Indexing

花式索引是NumPy中使用整数数组进行索引的一种术语。它提供了一种非常灵活的方式来访问或修改数组中的数据。下面是一些基于提供的英文材料的详细示例代码，展示了如何使用花式索引进行操作。

### 创建示例数组

首先，创建一个8×4的数组，每行的元素都设置为行号：

```python
import numpy as np

arr = np.zeros((8, 4))
for i in range(8):
    arr[i] = i
print("原始数组:\n", arr)
```

### 使用花式索引选择行

你可以通过传递一个指定顺序的整数列表或ndarray来选择子集：

```python
# 选择特定顺序的行
print("选择第5、4、1、7行:\n", arr[[4, 3, 0, 6]])
```

使用负数索引可以从数组末尾选择行：

```python
# 使用负数索引选择行
print("选择倒数第三、第五、第七行:\n", arr[[-3, -5, -7]])
```

### 使用多个索引数组

传递多个索引数组会选择对应于每个索引元组的元素：

```python
arr = np.arange(32).reshape((8, 4))
print("重新构造的数组:\n", arr)

# 使用多个索引数组
print("选择元素(1,0), (5,3), (7,1), (2,2):\n", arr[[1, 5, 7, 2], [0, 3, 1, 2]])
```

### 选择子矩阵

如果你想选择由特定行和列索引形成的矩形区域，可以这样做：

```python
# 选择子矩阵
print("选择子矩阵:\n", arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]])
```

### 赋值与花式索引

使用花式索引进行赋值时，可以直接修改数组的值：

```python
# 使用花式索引进行赋值
arr[[1, 5, 7, 2], [0, 3, 1, 2]] = 0
print("修改后的数组:\n", arr)
```

花式索引与切片不同，总是将数据复制到新数组中。这意味着，使用花式索引选择数据并将结果赋值给新变量时，将创建数据的一个新副本。如果使用花式索引赋值，则会直接修改原数组中被索引的值。

这些示例展示了如何利用花式索引来灵活地访问和修改NumPy数组，使得处理复杂的数据选择任务变得简单。

## 06. 转置数组和交换轴 Transposing Arrays and Swapping Axes

数组的转置和轴交换是NumPy中处理数组形状的重要操作。它们允许你重新排列多维数组的维度，而且通常不需要复制任何数据。这些操作在进行矩阵计算或调整数据布局时非常有用。下面是一些基于提供的英文材料的详细示例代码，展示了如何使用这些功能。

### 数组的转置

转置是通过反转维度来重新排列数组的一种方式。你可以使用数组的`.T`属性或`transpose`方法来实现：

```python
import numpy as np

arr = np.arange(15).reshape((3, 5))
print("原始数组:\n", arr)

# 使用.T属性进行转置
print("转置后的数组:\n", arr.T)
```

### 矩阵乘法

转置在矩阵乘法中非常常见。例如，你可以使用`np.dot`函数或`@`运算符来计算两个矩阵的内积：

```python
arr = np.array([[0, 1, 0], [1, 2, -2], [6, 3, 2], [-1, 0, -1], [1, 0, 1]])

# 使用np.dot进行矩阵乘法
print("使用np.dot的矩阵乘法结果:\n", np.dot(arr.T, arr))

# 使用@运算符进行矩阵乘法
print("使用@运算符的矩阵乘法结果:\n", arr.T @ arr)
```

### 交换轴

除了简单的转置，NumPy还允许你交换数组中任意两个轴。这可以通过`swapaxes`方法实现：

```python
# 使用swapaxes交换轴
print("原始数组:\n", arr)
print("交换轴后的数组:\n", arr.swapaxes(0, 1))
```

`swapaxes`方法同样返回数据的视图而不复制数据，这意味着这个操作非常高效。

这些例子展示了NumPy在数组形状操作方面的灵活性和效率。通过转置和轴交换，你可以轻松地调整数据的布局，为进一步的数据分析和处理提供方便。在实际的数据处理和科学计算任务中，这些操作是非常有用的基础工具。