# 4.2 伪随机数生成 Pseudorandom Number Generation



NumPy的`numpy.random`模块提供了一个高效生成来自多种概率分布的样本值数组的方法，这是Python内置的`random`模块的一个有力补充。例如，你可以非常快速地从标准正态分布中生成一个4×4的样本数组。

### 生成标准正态分布的样本

```python
import numpy as np

# 生成一个4x4的标准正态分布样本数组
samples = np.random.standard_normal(size=(4, 4))
print("4x4标准正态分布样本:\n", samples)
```

相比之下，Python内置的`random`模块一次只能生成一个样本值。当你需要生成大量样本时，`numpy.random`可以提供显著更高的效率。

### 性能比较

下面是生成一百万个样本的性能比较，展示了`numpy.random`与Python内置`random`模块的性能差异：

```python
from random import normalvariate
import numpy as np

N = 1_000_000

# 使用Python内置random模块
%timeit [normalvariate(0, 1) for _ in range(N)]

# 使用numpy.random模块
%timeit np.random.standard_normal(N)
```

这个比较表明，`numpy.random`在生成大规模样本时的速度要远超Python的内置`random`模块。

### 使用显式的随机数生成器

`numpy.random`中的函数，如`standard_normal`，默认使用模块的默认随机数生成器。但是，你也可以配置代码以使用显式的生成器，这为随机数生成提供了更多的控制：

```python
# 创建一个随机数生成器对象
rng = np.random.default_rng(seed=12345)

# 使用生成器对象生成数据
data = rng.standard_normal((2, 3))
print("使用显式生成器的样本:\n", data)
```

在这里，`seed`参数决定了生成器的初始状态，而每次使用`rng`对象生成数据时，其状态都会发生变化。通过使用显式的随机数生成器，你的代码可以与可能使用`numpy.random`模块的其他代码隔离开来，提供了更好的可重复性和隔离性。

这些示例展示了`numpy.random`模块在生成随机样本方面的强大功能和灵活性，无论是在科学计算还是数据分析中，这都是一个非常有用的工具。

让我们通过一些详细的示例来探索`numpy.random`模块中随机数生成器对象（如`rng`）上可用的一些方法。这些示例将帮助你理解每个方法的用途和如何使用它们来生成随机数据。

### 1. permutation

`permutation`方法返回一个序列的随机排列，或返回一个排列的范围。

```python
rng = np.random.default_rng(seed=42)
arr = np.arange(10)
permuted_arr = rng.permutation(arr)
print("原始序列:", arr)
print("随机排列的序列:", permuted_arr)
```

### 2. shuffle

`shuffle`方法就地随机排列序列。

```python
arr = np.arange(10)
rng.shuffle(arr)
print("就地随机排列后的序列:", arr)
```

### 3. uniform

`uniform`方法从均匀分布中抽取样本。

```python
uniform_samples = rng.uniform(low=0, high=10, size=5)
print("均匀分布样本:", uniform_samples)
```

### 4. integers

`integers`方法从给定的低到高范围内抽取随机整数。

```python
integer_samples = rng.integers(low=10, high=50, size=5)
print("随机整数样本:", integer_samples)
```

### 5. standard_normal

`standard_normal`方法从具有均值0和标准偏差1的正态分布中抽取样本。

```python
std_normal_samples = rng.standard_normal(size=5)
print("标准正态分布样本:", std_normal_samples)
```

### 6. binomial

`binomial`方法从二项分布中抽取样本。

```python
binomial_samples = rng.binomial(n=10, p=0.5, size=5)
print("二项分布样本:", binomial_samples)
```

### 7. normal

`normal`方法从正态（高斯）分布中抽取样本。

```python
normal_samples = rng.normal(loc=0, scale=1, size=5)
print("正态分布样本:", normal_samples)
```

### 8. beta

`beta`方法从贝塔分布中抽取样本。

```python
beta_samples = rng.beta(a=0.5, b=0.5, size=5)
print("贝塔分布样本:", beta_samples)
```

### 9. chisquare

`chisquare`方法从卡方分布中抽取样本。

```python
chisquare_samples = rng.chisquare(df=2, size=5)
print("卡方分布样本:", chisquare_samples)
```

### 10. gamma

`gamma`方法从伽马分布中抽取样本。

```python
gamma_samples = rng.gamma(shape=2, scale=2, size=5)
print("伽马分布样本:", gamma_samples)
```

以上示例展示了如何使用`numpy.random`模块中的不同方法来生成各种概率分布的随机数据。通过使用这些方法，你可以在科学计算和数据分析中灵活地模拟和探索各种随机过程。

# 4.3 通用函数：快速逐元素数组函数

NumPy 的通用函数（ufuncs）提供了一种在ndarrays上执行元素级操作的快速方式。下面是一些示例代码，展示了如何使用不同的ufuncs来执行数组运算。

### 一元通用函数示例

#### 开平方和指数函数

```python
import numpy as np

arr = np.arange(10)
print("原始数组:", arr)

# 开平方
sqrt_arr = np.sqrt(arr)
print("数组元素的平方根:\n", sqrt_arr)

# 指数函数
exp_arr = np.exp(arr)
print("数组元素的指数:\n", exp_arr)
```

### 二元通用函数示例

#### 求两个数组元素的最大值

```python
rng = np.random.default_rng(seed=42)  # 创建随机数生成器
x = rng.standard_normal(8)
y = rng.standard_normal(8)

print("数组x:", x)
print("数组y:", y)

# 求元素级的最大值
max_arr = np.maximum(x, y)
print("x和y元素级的最大值:\n", max_arr)
```

### 返回多个数组的通用函数

#### 分解数组元素为小数部分和整数部分

```python
arr = rng.standard_normal(7) * 5
print("原始数组:", arr)

# 分解为小数部分和整数部分
remainder, whole_part = np.modf(arr)

print("小数部分:", remainder)
print("整数部分:", whole_part)
```

### 使用out参数将计算结果分配到现有数组

```python
out = np.zeros_like(arr)  # 创建一个与arr形状相同的数组

# 使用out参数进行计算并存储结果
np.add(arr, 1, out=out)
print("将arr的每个元素加1后的结果:", out)
```

通过使用ufuncs，你可以对NumPy数组进行高效的元素级计算。这些函数是向量化的，意味着它们可以直接在数组上操作而不需要显式的循环，从而提供了极好的性能。此外，许多ufuncs还支持通过`out`参数直接在现有数组上进行操作，进一步提高了内存效率。

### 更多示例

让我们通过一些代码示例探索表格中列出的部分NumPy一元和二元通用函数（ufuncs）。

### 一元通用函数示例

#### 计算绝对值

```python
arr = np.array([-1, -2, -3, 2, 3, 4])
print("原始数组:", arr)
print("绝对值:", np.abs(arr))
```

#### 计算平方根

```python
print("平方根:", np.sqrt(arr[arr > 0]))
```

#### 计算平方

```python
print("平方:", np.square(arr))
```

#### 计算指数

```python
print("指数:", np.exp(arr))
```

#### 计算自然对数

```python
positive_arr = arr[arr > 0]  # 只对正数计算对数
print("自然对数:", np.log(positive_arr))
```

### 二元通用函数示例

#### 数组元素相加

```python
x = np.array([1, 2, 3, 4])
y = np.array([5, 6, 7, 8])
print("x + y:", np.add(x, y))
```

#### 数组元素相减

```python
print("x - y:", np.subtract(x, y))
```

#### 数组元素相乘

```python
print("x * y:", np.multiply(x, y))
```

#### 数组元素相除

```python
print("x / y:", np.divide(x, y))
```

#### 数组元素的最大值

```python
print("元素级最大值:", np.maximum(x, y))
```

#### 数组元素的最小值

```python
print("元素级最小值:", np.minimum(x, y))
```

#### 计算幂次方

```python
print("x的y次方:", np.power(x, y))
```

这些示例展示了如何使用NumPy中的一些基本的一元和二元通用函数来执行数组上的元素级运算。通过使用这些ufuncs，你可以对数据执行各种数学和逻辑操作，从而利用NumPy的快速向量化计算能力。

下面是一些一元通用函数的中文解释和代码示例：

| 函数         | 描述                                                         | 代码示例                                                   |
| :------------ | :------------------------------------------------------------ | :---------------------------------------------------------- |
| abs, fabs    | 对整数、浮点数或复数的元素计算绝对值                         | `np.abs(np.array([-1, -2, 3, -4]))`                        |
| sqrt         | 计算每个元素的平方根                                         | `np.sqrt(np.array([1, 4, 9, 16]))`                         |
| square       | 计算每个元素的平方                                           | `np.square(np.array([1, 2, 3, 4]))`                        |
| exp          | 计算每个元素的指数e^x                                        | `np.exp(np.array([1, 2, 3]))`                              |
| log, log10, log2, log1p | 分别计算自然对数、底数为10的对数、底数为2的对数、log(1+x) | `np.log(np.array([1, np.e, np.e**2]))`                     |
| sign         | 计算每个元素的符号：1（正数）、0（零）或-1（负数）           | `np.sign(np.array([-1, 0, 2]))`                            |
| ceil         | 计算每个元素的天花板值（即大于等于该数的最小整数）           | `np.ceil(np.array([1.2, 1.5, 1.8]))`                       |
| floor        | 计算每个元素的地板值（即小于等于该数的最大整数）             | `np.floor(np.array([1.2, 1.5, 1.8]))`                      |
| rint         | 将元素四舍五入到最接近的整数，保留dtype                      | `np.rint(np.array([1.2, 1.5, 1.8]))`                       |
| modf         | 将数组的小数部分和整数部分分离为两个独立数组                 | `np.modf(np.array([1.2, 1.5, 1.8]))`                       |
| isnan        | 返回一个布尔数组，指示每个元素是否为NaN（非数字）            | `np.isnan(np.array([1, np.nan, 3]))`                       |
| isfinite, isinf | 分别返回一个布尔数组，指示每个元素是否为有限的（非inf，非NaN）或无限的 | `np.isfinite(np.array([1, np.nan, np.inf]))`, `np.isinf(np.array([1, np.nan, np.inf]))` |
| cos, cosh, sin, sinh, tan, tanh | 常规和双曲三角函数                                         | `np.sin(np.array([np.pi, np.pi/2, np.pi/4]))`              |
| arccos, arccosh, arcsin, arcsinh, arctan, arctanh | 反三角函数                                                   | `np.arcsin(np.array([1, 0, -1]))`                          |
| logical_not  | 对x元素逐个计算逻辑非（等同于~arr）                          | `np.logical_not(np.array([True, False, True]))`            |

每个代码示例展示了如何在NumPy数组上应用对应的一元通用函数进行元素级操作。这些函数可以非常高效地处理大型数组，使得数据分析和科学计算变得更加简便。

下面是表格中列出的一些二元通用函数的中文解释和代码示例：

| 函数               | 描述                                                         | 代码示例                                                     |
| :------------------ | :------------------------------------------------------------ | :------------------------------------------------------------ |
| add                | 数组元素相加                                                 | `np.add(np.array([1, 2]), np.array([3, 4]))`                 |
| subtract           | 从第一个数组中减去第二个数组的元素                           | `np.subtract(np.array([3, 4]), np.array([1, 2]))`            |
| multiply           | 数组元素相乘                                                 | `np.multiply(np.array([1, 2]), np.array([3, 4]))`            |
| divide, floor_divide | 数组元素相除，`floor_divide`为向下取整除法                   | `np.divide(np.array([1, 2, 3]), np.array([2, 2, 2]))`, `np.floor_divide(np.array([1, 2, 3]), np.array([2, 2, 2]))` |
| power              | 将第一个数组的元素提升为第二个数组对应元素的幂               | `np.power(np.array([2, 3]), np.array([2, 3]))`               |
| maximum, fmax      | 元素级的最大值；`fmax`忽略NaN                                | `np.maximum(np.array([2, np.nan]), np.array([1, 3]))`, `np.fmax(np.array([2, np.nan]), np.array([1, 3]))` |
| minimum, fmin      | 元素级的最小值；`fmin`忽略NaN                                | `np.minimum(np.array([2, np.nan]), np.array([1, 3]))`, `np.fmin(np.array([2, np.nan]), np.array([1, 3]))` |
| mod                | 元素级的模运算（除法的余数）                                 | `np.mod(np.array([5, 8]), np.array([2, 3]))`                 |
| copysign           | 将第二个参数的符号复制到第一个参数的值上                     | `np.copysign(np.array([1, -1]), np.array([-1, 1]))`          |
| greater, greater_equal, less, less_equal, equal, not_equal | 元素级的比较操作，返回布尔数组                               | `np.greater(np.array([4, 2]), np.array([2, 2]))`              |
| logical_and        | 计算元素级的逻辑与操作                                       | `np.logical_and(np.array([True, False]), np.array([True, True]))` |
| logical_or         | 计算元素级的逻辑或操作                                       | `np.logical_or(np.array([True, False]), np.array([False, False]))` |
| logical_xor        | 计算元素级的逻辑异或操作                                     | `np.logical_xor(np.array([True, False]), np.array([True, True]))` |

这些示例展示了如何在NumPy数组上使用二元通用函数进行元素级运算。通过这些函数，你可以执行复杂的数学和逻辑操作，而无需编写显式的循环，从而利用NumPy的快速向量化计算能力。

# 4.4 使用数组进行面向数组编程

使用NumPy数组可以让你以简洁的数组表达式形式表达许多数据处理任务，这些任务可能否则需要编写循环来实现。这种用数组表达式替代显式循环的做法被称为向量化。通常，向量化的数组操作会比其纯Python等价物快得多，尤其是在任何类型的数值计算中。下面是一个简单示例，展示了如何使用向量化技术来评估函数`sqrt(x^2 + y^2)`在一个规则的值网格上。

### 创建值的网格

首先，我们使用`numpy.meshgrid`函数创建一个x值和y值的网格。这个函数接受两个一维数组，并生成两个二维矩阵，对应于两个数组中的所有(x, y)对：

```python
import numpy as np
import matplotlib.pyplot as plt

points = np.arange(-5, 5, 0.01)  # 创建一个等间隔的点集
xs, ys = np.meshgrid(points, points)
```

### 计算函数值

接下来，我们计算在这个网格上每个点的函数值。这里的函数是`sqrt(x^2 + y^2)`：

```python
z = np.sqrt(xs ** 2 + ys ** 2)
```

### 可视化结果

最后，我们可以使用`matplotlib`来可视化这个二维数组，从而直观地展示函数在整个网格上的值：

```python
plt.imshow(z, cmap=plt.cm.gray, extent=[-5, 5, -5, 5])
plt.colorbar()
plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a grid of values")
plt.show()
```

这个示例展示了如何使用NumPy进行数组导向的编程，并通过向量化来避免显式循环，从而实现更高效的数据处理。通过将函数应用于整个数组，我们可以利用NumPy的性能优势，同时代码也更加简洁。此外，通过`matplotlib`的可视化，我们可以直观地理解函数在不同参数下的行为。这种方法在数据分析和科学计算中非常有用，能够帮助我们更好地理解数据和模型。

## 01. 将条件逻辑表示为数组运算

`numpy.where`函数是一种向量化的条件表达式，非常适合在数据分析中基于条件选择数据。以下是如何使用`numpy.where`进行条件逻辑操作的详细示例。

### 基础使用

假设我们有两个数组`xarr`和`yarr`，以及一个布尔数组`cond`，我们想要从`xarr`中选择`cond`为True的元素，否则从`yarr`中选择元素。

```python
import numpy as np

xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

result = np.where(cond, xarr, yarr)
print("基于条件选择的结果:", result)
```

### 替换正负值

假设你有一个随机生成的数据矩阵，你希望将所有正值替换为2，所有负值替换为-2。

```python
rng = np.random.default_rng(seed=42)  # 创建随机数生成器
arr = rng.standard_normal((4, 4))
print("原始数组:\n", arr)

result = np.where(arr > 0, 2, -2)
print("替换正负值的结果:\n", result)
```

### 使用标量和数组结合

`numpy.where`还可以结合标量和数组使用。例如，将所有正值替换为常数2，而保留其他值不变。

```python
result = np.where(arr > 0, 2, arr)
print("将正值替换为2的结果:\n", result)
```

通过这些示例，我们可以看到`numpy.where`提供了一种非常灵活和高效的方式来基于条件对数组中的数据进行选择或替换。这种向量化的条件逻辑操作比纯Python的等价操作（如使用列表推导式）更快，尤其是在处理大型数组时。此外，`numpy.where`可以很容易地应用于多维数组，使其成为数据处理和分析中的强大工具。

## 02. 数学和统计方法

NumPy数组提供了一系列的数学和统计方法，可以对整个数组或沿某个轴的数据进行聚合计算。以下是一些基本的数学和统计操作的示例：

### 聚合函数

生成一些正态分布的随机数据，并计算一些聚合统计量：

```python
import numpy as np

rng = np.random.default_rng(seed=42)  # 创建随机数生成器
arr = rng.standard_normal((5, 4))
print("随机数组:\n", arr)

# 计算均值
print("均值:", arr.mean())
print("均值（使用NumPy函数）:", np.mean(arr))

# 计算总和
print("总和:", arr.sum())
```

### 沿轴方向的聚合

`mean`和`sum`等函数可以接受一个可选的`axis`参数，用于沿指定轴计算统计量，结果是一个维度减少的数组：

```python
# 沿轴1计算均值（即计算每行的均值）
print("每行的均值:", arr.mean(axis=1))

# 沿轴0计算总和（即计算每列的总和）
print("每列的总和:", arr.sum(axis=0))
```

### 累积函数

`cumsum`和`cumprod`等方法不是聚合操作，而是产生中间结果的数组：

```python
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])

# 计算累积和
print("累积和:", arr.cumsum())

# 对多维数组进行累积和计算
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
print("原数组:\n", arr)

# 沿轴0计算累积和（即沿着行累加）
print("沿轴0的累积和:\n", arr.cumsum(axis=0))

# 沿轴1计算累积和（即沿着列累加）
print("沿轴1的累积和:\n", arr.cumsum(axis=1))
```

通过这些示例，我们可以看到NumPy提供的聚合和累积方法能够非常方便地对数组进行数学和统计分析。使用这些方法可以避免编写显式的循环，从而使代码更简洁，执行更快。

下面是列出的一些基本数组统计方法的中文解释和示例代码：

| 方法       | 描述                                                         |
| :---------- | :------------------------------------------------------------ |
| sum        | 数组中所有元素的总和，或沿指定轴的总和；长度为零的数组总和为0 |
| mean       | 算术平均值；长度为零的数组上无效（返回NaN）                   |
| std, var   | 标准差和方差，分别表示                                         |
| min, max   | 最小值和最大值，分别表示                                       |
| argmin, argmax | 最小和最大元素的索引，分别表示                                 |
| cumsum     | 元素的累计和，从0开始累加                                     |
| cumprod    | 元素的累计乘积，从1开始累乘                                   |

### 示例代码

假设我们有一个随机数组，然后使用上述方法进行一些基本的统计操作：

```python
import numpy as np

rng = np.random.default_rng(seed=42)  # 创建随机数生成器
arr = rng.standard_normal((5, 4))
print("随机数组:\n", arr)

# 计算总和
print("总和:", arr.sum())

# 计算均值
print("均值:", arr.mean())

# 计算标准差和方差
print("标准差:", arr.std(), "方差:", arr.var())

# 找到最小值和最大值
print("最小值:", arr.min(), "最大值:", arr.max())

# 找到最小值和最大值的索引
print("最小值的索引:", arr.argmin(), "最大值的索引:", arr.argmax())

# 计算累积和和累积乘积
print("累积和:", arr.cumsum())
print("累积乘积:", arr.cumprod())
```

这些统计方法提供了快速分析数据的便捷途径，无需编写冗长的代码，可以直接在NumPy数组上进行高效的计算。这些操作在数据分析、科学计算以及任何需要对数据集进行基本统计分析的场合中都非常有用。

## 03. 布尔数组的方法

布尔数组的方法提供了处理布尔值数据的便利途径。这些方法可以用来计数、检查数组中是否存在或所有元素是否满足某个条件。下面是一些基于布尔数组的常用方法的示例代码：

### 计数True值

使用`sum`方法可以快速计算布尔数组中True值的数量，这在实际应用中经常用作计数手段：

```python
import numpy as np

rng = np.random.default_rng(seed=42)  # 创建随机数生成器
arr = rng.standard_normal(100)

# 计算正值的数量
num_positive = (arr > 0).sum()
print("正值的数量:", num_positive)

# 计算非正值的数量
num_non_positive = (arr <= 0).sum()
print("非正值的数量:", num_non_positive)
```

### 使用any和all方法

`any`和`all`方法对于布尔数组尤其有用。`any`用于测试数组中是否至少有一个True值，而`all`检查是否每个值都为True：

```python
bools = np.array([False, False, True, False])

# 检查数组中是否至少有一个True值
has_true = bools.any()
print("数组中至少有一个True值:", has_true)

# 检查数组中是否所有值都为True
all_true = bools.all()
print("数组中所有值都为True:", all_true)
```

这些方法在处理非布尔数组时也非常有用，非零元素会被视为True。这使得`any`和`all`方法可以用来检查数组中是否存在非零元素或数组是否全为非零元素，进而用于各种条件判断和数据筛选场景。

## 04. 排序方法

NumPy数组提供了强大的排序功能，可以对数组进行就地排序或返回一个已排序的数组副本。下面是如何使用NumPy进行排序的一些示例：

### 就地排序

对数组进行就地排序，这会修改原数组：

```python
import numpy as np

rng = np.random.default_rng(seed=42)  # 创建随机数生成器
arr = rng.standard_normal(6)
print("原始数组:", arr)

arr.sort()
print("排序后的数组:", arr)
```

### 沿指定轴排序

对多维数组沿指定轴进行就地排序：

```python
arr = rng.standard_normal((5, 3))
print("多维原始数组:\n", arr)

# 沿轴0排序（即每列内排序）
arr.sort(axis=0)
print("沿轴0排序后的数组:\n", arr)

# 沿轴1排序（即每行内排序）
arr.sort(axis=1)
print("沿轴1排序后的数组:\n", arr)
```

### 使用`np.sort`返回排序副本

`np.sort`方法返回数组的一个已排序副本，不会修改原数组：

```python
arr2 = np.array([5, -10, 7, 1, 0, -3])
sorted_arr2 = np.sort(arr2)
print("原数组:", arr2)
print("排序后的副本:", sorted_arr2)
```

### 高级排序和间接排序

NumPy还提供了更高级的排序方法，如间接排序（通过索引排序）、分区（`np.partition`）等。这些高级功能允许用户对数据进行更复杂的操作和组织。

NumPy的排序功能是非常强大和灵活的，它可以处理从简单的一维数组到高维数组的排序任务，并支持各种排序算法。对于需要根据一个或多个列排序的数据表格等更复杂的数据操作，可以使用pandas库，它在NumPy的基础上提供了更高级的数据处理功能。

## 05. 唯一和其他集合逻辑

NumPy为一维数组提供了一些基本的集合操作。这里介绍两个常用的集合逻辑函数：`numpy.unique`和`numpy.in1d`。

### numpy.unique

`numpy.unique`函数用于找出数组中的唯一值并返回已排序的结果：

```python
import numpy as np

names = np.array(["Bob", "Will", "Joe", "Bob", "Will", "Joe", "Joe"])
print("唯一值:", np.unique(names))

ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
print("唯一值:", np.unique(ints))
```

与纯Python解决方案（如使用`sorted(set(names))`）相比，`numpy.unique`通常更快，并且返回的是NumPy数组而不是Python列表。

### numpy.in1d

`numpy.in1d`函数测试一个数组中的值是否在另一个数组中，返回一个布尔数组：

```python
values = np.array([6, 0, 0, 3, 2, 5, 6])
print("值是否存在:", np.in1d(values, [2, 3, 6]))
```

这个函数对于过滤数据或者检查数据集中元素的存在性非常有用。

这些集合逻辑函数提供了处理一维数组的有效方式，使得数据分析和数据处理任务更加简便。通过利用NumPy的这些函数，我们可以轻松地进行元素的唯一化处理和成员资格检查，从而提高数据处理任务的效率和性能。

## 下面是一些NumPy数组集合操作的中文解释和代码示例：

### unique(x)

计算数组`x`中的唯一元素，并返回已排序结果。

```python
import numpy as np

x = np.array([1, 2, 3, 4, 5, 5, 6, 6])
print("唯一元素:", np.unique(x))
```

### intersect1d(x, y)

计算数组`x`和`y`中的公共元素，并返回已排序结果。

```python
y = np.array([3, 4, 5, 6, 7, 8])
print("公共元素:", np.intersect1d(x, y))
```

### union1d(x, y)

计算数组`x`和`y`的并集，并返回已排序结果。

```python
print("并集:", np.union1d(x, y))
```

### in1d(x, y)

计算数组`x`中的元素是否包含在数组`y`中，返回布尔数组。

```python
print("x中的元素是否包含在y中:", np.in1d(x, y))
```

### setdiff1d(x, y)

计算数组`x`和`y`的差集，即在`x`中但不在`y`中的元素。

```python
print("差集（x - y）:", np.setdiff1d(x, y))
```

### setxor1d(x, y)

计算数组`x`和`y`的对称差集，即只在`x`或`y`中的元素，但不在两者共有的元素中。

```python
print("对称差集:", np.setxor1d(x, y))
```

这些集合操作提供了处理数组数据时进行元素去重、求并集、交集、差集和对称差集的有效方法。通过这些操作，可以非常方便地处理和分析数据集，从而使得数据处理任务更加简洁和高效。

# 4.5 使用数组进行文件输入和输出

NumPy提供了便利的函数来将数组数据保存到磁盘上，并从磁盘加载数据。以下是如何使用这些函数的示例：

### 保存和加载单个数组

使用`numpy.save`来保存数组到磁盘上，使用`numpy.load`来从磁盘加载数组：

```python
import numpy as np

arr = np.arange(10)

# 保存数组
np.save("some_array", arr)

# 加载数组
loaded_arr = np.load("some_array.npy")
print("加载的数组:", loaded_arr)
```

### 保存和加载多个数组

使用`numpy.savez`来保存多个数组到一个未压缩的归档文件中，使用`numpy.load`来加载这些数组：

```python
# 保存多个数组
np.savez("array_archive.npz", a=arr, b=arr)

# 加载归档文件
arch = np.load("array_archive.npz")
print("加载的数组a:", arch["a"])
print("加载的数组b:", arch["b"])
```

### 保存和加载压缩多个数组

如果你的数据具有很好的可压缩性，使用`numpy.savez_compressed`来保存多个数组到一个压缩的归档文件中，可以节省磁盘空间：

```python
# 保存多个数组到压缩归档文件
np.savez_compressed("arrays_compressed.npz", a=arr, b=arr)

# 加载压缩归档文件
compressed_arch = np.load("arrays_compressed.npz")
print("加载的压缩数组a:", compressed_arch["a"])
print("加载的压缩数组b:", compressed_arch["b"])
```

通过这些函数，NumPy提供了一种方便的方式来永久保存数组数据，并在需要时重新加载这些数据。对于需要存储大量数组数据的应用，这些功能非常有用。对于文本或表格数据，大多数用户会更倾向于使用pandas等工具，它们提供了更多关于数据加载、存储和文件格式的功能。

# 4.6 线性代数

线性代数运算，如矩阵乘法、分解、行列式计算及其他方阵数学运算，在许多数组库中都是重要的一部分。下面是一些基本的线性代数运算示例，使用NumPy进行矩阵运算和线性代数处理：

### 矩阵乘法

使用`dot`函数或`@`运算符进行矩阵乘法：

```python
import numpy as np

x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])

# 使用dot函数
print("x.dot(y):\n", x.dot(y))

# 使用@运算符
print("x @ y:\n", x @ y)
```

### 与一维数组的矩阵乘积

矩阵与适当大小的一维数组进行矩阵乘积运算，结果是一维数组：

```python
print("x @ np.ones(3):\n", x @ np.ones(3))
```

### 线性代数函数

`numpy.linalg`模块提供了一组标准的矩阵分解方法和其他线性代数函数，如矩阵求逆和计算行列式：

```python
from numpy.linalg import inv, qr

# 创建一个随机数组并计算它的转置与自身的点积
X = np.random.standard_normal((5, 5))
mat = X.T @ X

# 计算矩阵的逆
mat_inv = inv(mat)
print("矩阵的逆:\n", mat_inv)

# 验证逆矩阵
print("验证逆矩阵（应接近单位矩阵）:\n", mat @ mat_inv)
```

这些示例展示了如何使用NumPy进行基本的线性代数运算。`numpy.linalg`模块提供了丰富的线性代数工具，使得在Python中进行科学计算变得更加直接和高效。

## 下面是一些常用`numpy.linalg`函数的中文解释和完整示例代码：

### diag

- 描述：返回方阵的对角线元素作为1D数组，或将1D数组转换为方阵，非对角线上的元素为零。
- 示例代码：

```python
import numpy as np

mat = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("方阵对角线元素:", np.diag(mat))
```

### dot

- 描述：矩阵乘法。
- 示例代码：

```python
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])
print("矩阵乘积:\n", np.dot(x, y))
```

### trace

- 描述：计算方阵对角线元素的和。
- 示例代码：

```python
print("方阵对角线元素的和:", np.trace(mat))
```

### det

- 描述：计算矩阵的行列式。
- 示例代码：

```python
print("矩阵的行列式:", np.linalg.det(mat))
```

### eig

- 描述：计算方阵的特征值和特征向量。
- 示例代码：

```python
eigenvalues, eigenvectors = np.linalg.eig(mat)
print("特征值:", eigenvalues)
print("特征向量:\n", eigenvectors)
```

### inv

- 描述：计算方阵的逆。
- 示例代码：

```python
inv_mat = np.linalg.inv(mat)
print("矩阵的逆:\n", inv_mat)
```

### pinv

- 描述：计算矩阵的Moore-Penrose伪逆。
- 示例代码：

```python
pinv_mat = np.linalg.pinv(mat)
print("矩阵的Moore-Penrose伪逆:\n", pinv_mat)
```

### qr

- 描述：计算QR分解。
- 示例代码：

```python
q, r = np.linalg.qr(mat)
print("QR分解Q:\n", q)
print("R:\n", r)
```

### svd

- 描述：计算奇异值分解（SVD）。
- 示例代码：

```python
u, s, vh = np.linalg.svd(mat)
print("奇异值分解U:\n", u)
print("奇异值:", s)
print("V^H:\n", vh)
```

### solve

- 描述：解线性方程组Ax = b，其中A为方阵。
- 示例代码：

```python
A = np.array([[3, 1], [1, 2]])
b = np.array([9, 8])
x = np.linalg.solve(A, b)
print("解线性方程组的解x:", x)
```

### lstsq

- 描述：计算Ax = b的最小二乘解。
- 示例代码：

```python
A = np.array([[1, 2], [3, 4], [5, 6]])
b = np.array([1, 2, 3])
x, residuals, rank, s = np.linalg.lstsq(A, b, rcond=None)
print("最小二乘解x:", x)
```

这些线性代数函数为处理科学计算中的矩阵和向量运算提供了强大的工具。

# 4.7 应用示例：随机游走

随机游走是一个使用数组操作进行模拟的典型应用。首先，我们考虑一个简单的随机游走，起点为0，每一步以相等的概率向前走1或向后走1。

### 纯Python实现

以下是使用Python内置的`random`模块实现的1000步随机游走的代码：

```python
import random
position = 0
walk = [position]
nsteps = 1000
for _ in range(nsteps):
    step = 1 if random.randint(0, 1) else -1
    position += step
    walk.append(position)
```

这段代码通过循环，每次随机选择前进或后退一步，并更新位置，最后记录整个行走过程。

### NumPy实现

观察到`walk`其实是随机步骤的累积和，我们可以利用NumPy数组来简化实现。我们可以一次性随机生成1000个步骤，然后计算累积和：

```python
import numpy as np

nsteps = 1000
rng = np.random.default_rng(seed=12345)  # 创建随机数生成器
draws = rng.integers(0, 2, size=nsteps)  # 生成1000个随机步骤
steps = np.where(draws == 0, 1, -1)  # 将随机步骤转换为1或-1
walk = steps.cumsum()  # 计算累积和，即行走的位置
```

这种方法利用了NumPy的向量化操作，使得代码更简洁且执行效率更高。

### 提取统计数据

通过这种方法，我们可以很容易地提取诸如行走路径的最小值和最大值等统计数据：

```python
print("路径的最小值:", walk.min())
print("路径的最大值:", walk.max())
```

### 计算首次穿越时间

首次穿越时间是指随机游走首次达到特定值的步数。例如，我们想知道随机游走首次距离起点至少10步远（无论正向还是反向）需要多少步：

```python
first_cross_time = (np.abs(walk) >= 10).argmax()
print("首次达到10步远的步数:", first_cross_time)
```

这里使用`argmax`是因为它返回布尔数组（True表示达到或超过10步，False表示未达到）中第一个最大值（True）的索引，即首次达到或超过10步的位置。

注意，使用`argmax`可能不是最高效的方法，因为它总是会扫描整个数组。在这个特殊情况下，一旦观察到True，我们就知道这是最大值。但在处理大型数组时，可能需要考虑更高效的方法来寻找首次穿越时间。

## 一次模拟许多随机游走

如果你的目标是同时模拟多个随机游走，比如说5000个，你可以通过对前面代码的小幅修改来生成所有的随机游走。如果传递一个二元组给`numpy.random`函数，它会生成一个二维数组的随机数，并且我们可以计算每行的累积和，以一次性计算所有5000个随机游走：

### 生成多个随机游走

```python
import numpy as np

nwalks = 5000
nsteps = 1000
rng = np.random.default_rng(seed=12345)  # 创建随机数生成器
draws = rng.integers(0, 2, size=(nwalks, nsteps)) # 生成0或1
steps = np.where(draws > 0, 1, -1)
walks = steps.cumsum(axis=1)
```

### 计算最大值和最小值

现在，我们可以计算所有游走过程中获得的最大值和最小值：

```python
print("所有游走的最大值:", walks.max())
print("所有游走的最小值:", walks.min())
```

### 计算到达30或-30的最小穿越时间

接下来，我们计算第一次到达30或-30的时间。这有些复杂，因为并不是所有5000次游走都达到了30。我们可以使用`any`方法来检查：

```python
hits30 = (np.abs(walks) >= 30).any(axis=1)
print("达到30或-30的游走数量:", hits30.sum())
```

我们可以使用这个布尔数组来选择实际穿越绝对值30水平的游走行，并在轴1上调用`argmax`来获取穿越时间：

```python
crossing_times = (np.abs(walks[hits30]) >= 30).argmax(axis=1)
print("平均最小穿越时间:", crossing_times.mean())
```

### 尝试其他分布

你可以尝试除了等概率硬币翻转之外的其他步骤分布。你只需使用不同的随机生成器方法，比如使用`standard_normal`来生成具有某种均值和标准差的正态分布步骤：

```python
draws = 0.25 * rng.standard_normal((nwalks, nsteps))
```

### 注意

请注意，这种向量化的方法需要创建一个包含nwalks * nsteps元素的数组，对于大型模拟，这可能会使用大量内存。如果内存更受限制，则需要采用不同的方法。