## NumPy

### 什么是 NumPy

**NumPy (Numerical Python)** 是 Python 科学计算的核心库。它提供了一个强大的 N 维数组对象（称为 `ndarray`）和一系列用于处理这些数组的函数。

NumPy 让你能用 Python 快速处理大型数组和矩阵，执行数学和逻辑运算，而不需要写复杂的循环。

### ndarray 属性

`ndarray` 是 NumPy 的核心，它是一个多维数组对象。可以通过几个关键属性来了解数组的基本信息。

  * `ndim`：数组的维度（轴）数量。比如，一维数组的 `ndim` 是 1，二维数组是 2。
  * `shape`：数组的形状。它是一个元组 (tuple)，显示了每个维度上的元素数量。
  * `size`：数组中元素的总个数。
  * `dtype`：数组中元素的数据类型（如 `int64`, `float64`）。

In [1]:
import numpy as np  # 导入 numpy，通常简写为 np

# 创建一个二维数组（2行3列）
a = np.array([[1, 2, 3],
              [4, 5, 6]])

print("数组内容:")
print(a)

print(f"维度 (ndim): {a.ndim}")
print(f"形状 (shape): {a.shape}")
print(f"元素总数 (size): {a.size}")
print(f"数据类型 (dtype): {a.dtype}")
print(f"每个元素字节大小 (itemsize): {a.itemsize}")

数组内容:
[[1 2 3]
 [4 5 6]]
维度 (ndim): 2
形状 (shape): (2, 3)
元素总数 (size): 6
数据类型 (dtype): int64
每个元素字节大小 (itemsize): 8


  * 这是一个 2 维数组。
  * 形状是 `(2, 3)`，表示它有 2 行和 3 列。
  * 总共有 $2 \times 3 = 6$ 个元素。
  * 元素类型是 64 位整数。

在进行任何数组操作之前，先检查 `shape` 和 `dtype` 是一个好习惯，可以确保数组符合后续计算的要求。

### ndarray 的创建方式

#### 从列表创建

  * `np.array()`：将输入数据（如 Python 列表）转换为 `ndarray`。**它总是会创建一个新数组**（即复制数据）。
  * `np.asarray()`：同样是将输入转换为 `ndarray`，但如果输入本身已经是 `ndarray`，**它默认不会复制**，而是返回原始数组的引用。

In [2]:
import numpy as np

data_list = [1, 2, 3]
print(f"原始列表的内存地址: {id(data_list)}")

# 1. 使用 np.array()
arr1 = np.array(data_list)
print(f"arr1 (np.array) 的内存地址: {id(arr1)}")
print(arr1)

print("-" * 20)

# 2. 对一个已存在的 ndarray 使用 np.array()
arr2 = np.array(arr1)
print(f"arr1 的内存地址: {id(arr1)}")
print(f"arr2 (基于 arr1) 的内存地址: {id(arr2)}")
print("arr2 和 arr1 的地址不同 (发生了复制)")

print("-" * 20)

# 3. 对一个已存在的 ndarray 使用 np.asarray()
arr3 = np.asarray(arr1)
print(f"arr1 的内存地址: {id(arr1)}")
print(f"arr3 (基于 arr1) 的内存地址: {id(arr3)}")
print("arr3 和 arr1 的地址相同 (未发生复制)")

原始列表的内存地址: 4433280448
arr1 (np.array) 的内存地址: 4435442736
[1 2 3]
--------------------
arr1 的内存地址: 4435442736
arr2 (基于 arr1) 的内存地址: 4435442928
arr2 和 arr1 的地址不同 (发生了复制)
--------------------
arr1 的内存地址: 4435442736
arr3 (基于 arr1) 的内存地址: 4435442736
arr3 和 arr1 的地址相同 (未发生复制)


*注：内存地址在每次运行时都会变化*

  * 当你需要确保得到一个全新的数组副本时，使用 `np.array()`。
  * 当你希望避免不必要的内存复制（特别是处理大数组时），且不确定输入是否已经是 `ndarray` 时，使用 `np.asarray()`。

#### 创建特定内容的数组

  * `np.zeros(shape)`：创建指定形状的数组，所有元素填充为 0。
  * `np.ones(shape)`：创建指定形状的数组，所有元素填充为 1。
  * `np.full(shape, fill_value)`：创建指定形状的数组，所有元素填充为指定值 `fill_value`。
  * `np.empty(shape)`：创建指定形状的数组，但不初始化元素。数组中的值是内存中的"垃圾值"，速度最快。
  * **`_like` 版本**：`zeros_like()`, `ones_like()`, `full_like()`, `empty_like()`。这些函数会根据传入的 *另一个数组* 的形状和数据类型来创建新数组。

In [3]:
import numpy as np

# 创建 2x5 的全 0 数组
arr_zeros = np.zeros((2, 5))
print("Zeros (2x5):\n", arr_zeros)

# 创建 2x3 的全 1 数组，类型指定为整数
arr_ones = np.ones((2, 3), dtype=np.int64)
print("\nOnes (2x3, int64):\n", arr_ones)

# 创建 2x3 的全 6 数组
arr_full = np.full((2, 3), 6)
print("\nFull (2x3, fill 6):\n", arr_full)

# 创建一个 2x3 的未初始化数组
arr_empty = np.empty((2, 3))
print("\nEmpty (2x3) (值不确定):\n", arr_empty)

# --- _like 版本 ---
# 创建一个和 arr_full 形状类型相同的全 1 数组
arr_like = np.ones_like(arr_full)
print("\nOnes_like (arr_full):\n", arr_like)

Zeros (2x5):
 [[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]

Ones (2x3, int64):
 [[1 1 1]
 [1 1 1]]

Full (2x3, fill 6):
 [[6 6 6]
 [6 6 6]]

Empty (2x3) (值不确定):
 [[0. 0. 0.]
 [0. 0. 0.]]

Ones_like (arr_full):
 [[1 1 1]
 [1 1 1]]


  * `zeros` 和 `ones` 默认创建 `float64` 类型。
  * `empty` 的输出值是随机的，因为它只是分配了内存，没有清空。

  * `zeros` 和 `ones` 用于初始化权重或累加器。
  * `empty` 在你确定会立即填充所有元素时使用，可以节省初始化为 0 的时间。
  * `_like` 函数在你想保持形状和类型一致性时非常有用。

#### 创建序列数组

  * `np.arange(start, stop, step)`：类似 Python 的 `range()`，创建一维数组。包含 `start`，不包含 `stop`。
  * `np.linspace(start, stop, num)`：创建一维数组。在 `start` 和 `stop` 之间（默认都包含）生成 `num` 个等间距的点。


In [4]:
import numpy as np

# 1. arange: 从 0 到 10 (不含)，步长为 2
arr_range = np.arange(0, 10, 2)
print("arange(0, 10, 2):\n", arr_range)

# 2. linspace: 从 0 到 10 (包含)，共 5 个点
arr_lin = np.linspace(start=0, stop=10, num=5)
print("\nlinspace(0, 10, 5):\n", arr_lin)

# 3. linspace: 从 0 到 10 (不包含 stop)，共 5 个点
arr_lin_no_end = np.linspace(start=0, stop=10, num=5, endpoint=False)
print("\nlinspace(endpoint=False):\n", arr_lin_no_end)

arange(0, 10, 2):
 [0 2 4 6 8]

linspace(0, 10, 5):
 [ 0.   2.5  5.   7.5 10. ]

linspace(endpoint=False):
 [0. 2. 4. 6. 8.]


  * `linspace` 计算的是等差数列，非常适合用于绘图或数学计算。

  * `arange` 适用于你知道步长的情况。
  * `linspace` 适用于你知道需要多少个点的情况。

#### 创建随机数数组

  * `np.random.rand(d0, d1, ...)`：创建指定形状的数组，元素为 [0, 1) 之间的均匀分布随机数。
  * `np.random.randn(d0, d1, ...)`：创建指定形状的数组，元素为标准正态分布（均值为 0，标准差为 1）的随机数。
  * `np.random.randint(low, high, size)`：创建指定 `size`（形状）的数组，元素为 `[low, high)` 之间的随机整数。


In [5]:
import numpy as np

# 创建 2x3 数组，[0, 1) 均匀分布
arr_rand = np.random.rand(2, 3)
print("rand(2, 3):\n", arr_rand)

# 创建 2x3 数组，标准正态分布
arr_randn = np.random.randn(2, 3)
print("\nrandn(2, 3):\n", arr_randn)

# 创建 2x3 数组，[0, 10) 随机整数
arr_randint = np.random.randint(0, 10, (2, 3))
print("\nrandint(0, 10, (2, 3)):\n", arr_randint)

rand(2, 3):
 [[0.66814897 0.2726616  0.78338138]
 [0.53773217 0.0342278  0.18759355]]

randn(2, 3):
 [[0.52515674 1.74296074 0.30573306]
 [1.31161033 0.76864476 0.42036665]]

randint(0, 10, (2, 3)):
 [[1 6 8]
 [5 2 0]]


  * `rand` 和 `randn` 用于模拟、测试算法或初始化权重。
  * `randint` 用于生成随机索引或模拟离散事件。

### ndarray 的数据类型

NumPy 数组要求所有元素必须是**相同的数据类型** (`dtype`)。你可以在创建时指定，也可以在之后转换。

  * **指定类型**：在创建数组时使用 `dtype` 参数（例如 `dtype=np.float64` 或 `dtype='i8'`）。
  * **转换类型**：使用 `.astype()` 方法。这**总是会返回一个新数组**（数据的副本），即使新旧类型相同。


In [6]:
import numpy as np

# 1. 创建时指定 dtype
arr1 = np.array([1, 2, 3], dtype=np.float64)
print(f"arr1: {arr1}")
print(f"arr1 dtype: {arr1.dtype}")

# 2. astype 转换类型 (浮点转整数)
arr_float = np.array([0.2, 2.5, 4.8])
arr_int = arr_float.astype(np.int64) # 或 arr_float.astype('i8')
print(f"\narr_float: {arr_float}")
print(f"arr_int (astype): {arr_int}")
print(f"arr_int dtype: {arr_int.dtype}")

arr1: [1. 2. 3.]
arr1 dtype: float64

arr_float: [0.2 2.5 4.8]
arr_int (astype): [0 2 4]
arr_int dtype: int64


  * 注意：浮点数转换为整数时，小数部分会被直接截断（不是四舍五入）。

  * `dtype` 用于在创建时精确控制内存使用（如用 `float32` 代替 `float64`）。
  * `astype` 用于在计算过程中转换数据，例如将布尔值数组转换为整数（`True`=1, `False`=0）进行求和。

### ndarray 切片和索引

和 Python 列表类似，NumPy 数组可以通过索引（`[]`）和切片（`:`）来访问和修改数据。语法是 `arr[start:stop:step]`。


In [7]:
import numpy as np

# 创建一个一维数组
arr = np.arange(10)
print(f"原始数组: {arr}")

# 1. 获取单个元素 (索引 2)
print(f"arr[2]: {arr[2]}")

# 2. 切片 (索引 2 到 9，不含 9，步长 2)
# 方式一：切片语法
print(f"arr[2:9:2]: {arr[2:9:2]}")

# 方式二：slice 对象 (不常用)
print(f"arr[slice(2,9,2)]: {arr[slice(2, 9, 2)]}")

# 3. 省略参数
# 从索引 2 到末尾
print(f"arr[2:]: {arr[2:]}")

# 从开头到索引 9 (不含 9)
print(f"arr[:9]: {arr[:9]}")

原始数组: [0 1 2 3 4 5 6 7 8 9]
arr[2]: 2
arr[2:9:2]: [2 4 6 8]
arr[slice(2,9,2)]: [2 4 6 8]
arr[2:]: [2 3 4 5 6 7 8 9]
arr[:9]: [0 1 2 3 4 5 6 7 8]


切片是 NumPy 数据处理的基础，用于从大数据集中选取子集进行分析或修改。

### NumPy 常用函数

#### 统计函数

NumPy 提供了许多快速的统计函数。对于多维数组，可以使用 `axis` 参数指定沿哪个轴计算。

  * `axis=0`：沿着行（垂直）操作，计算**每列**的统计值。
  * `axis=1`：沿着列（水平）操作，计算**每行**的统计值。
  * 不指定 `axis`：计算整个数组所有元素的统计值。

常用函数：

  * `np.mean()`：平均值
  * `np.sum()`：求和
  * `np.max()` / `np.min()`：最大值 / 最小值
  * `np.std()` / `np.var()`：标准差 / 方差
  * `np.argmax()` / `np.argmin()`：最大值 / 最小值的**索引**
  * `np.cumsum()`：累积和
  * `np.cumprod()`：累积积


In [8]:
import numpy as np

arr = np.random.randint(1, 10, (2, 3))
print(f"原始数组:\n{arr}")

# 1. 计算所有元素的和
print(f"Sum (all): {np.sum(arr)}")

# 2. 计算每列的平均值 (axis=0)
print(f"Mean (axis=0, 按列): {np.mean(arr, axis=0)}")

# 3. 计算每行的最大值 (axis=1)
print(f"Max (axis=1, 按行): {np.max(arr, axis=1)}")

# 4. 计算所有元素的累积和 (返回一维数组)
print(f"CumSum (all): {np.cumsum(arr)}")

# 5. 计算每行的累积积 (axis=1)
print(f"CumProd (axis=1, 按行):\n{np.cumprod(arr, axis=1)}")

原始数组:
[[6 6 7]
 [6 5 4]]
Sum (all): 34
Mean (axis=0, 按列): [6.  5.5 5.5]
Max (axis=1, 按行): [7 6]
CumSum (all): [ 6 12 19 25 30 34]
CumProd (axis=1, 按行):
[[  6  36 252]
 [  6  30 120]]


*注：原始数组随机生成，结果会变化*

`axis` 是 NumPy 中最重要的概念之一，用于在数据分析中按行或按列汇总数据。

#### 条件、排序和去重

  * `np.where(condition, x, y)`：三元运算符。根据条件 `condition`，从 `x`（如果 True）或 `y`（如果 False）中选择元素。
  * `np.any(condition)` / `np.all(condition)`：检查数组中是否**至少有一个**或**全部**元素满足条件。
  * `ndarray.sort()`：**就地排序**，直接修改原数组。
  * `np.sort(array)`：**返回副本**，原数组不变。
  * `np.unique(array)`：返回数组中唯一元素组成的**有序**数组。


In [9]:
import numpy as np

# 1. np.where
arr1 = np.random.randn(2, 3)
print(f"arr1:\n{arr1}")
arr_where = np.where(arr1 > 0, 1, 0)
print(f"np.where(arr1 > 0, 1, 0):\n{arr_where}")

# 2. np.any / np.all
arr2 = np.array([1, 2, 3, 4, 5])
print(f"\nnp.any(arr2 > 3): {np.any(arr2 > 3)}")
print(f"np.all(arr2 > 3): {np.all(arr2 > 3)}")

# 3. 排序 (就地 vs 副本)
arr3 = np.random.randint(0, 10, (3, 3))
print(f"\narr3 (原始):\n{arr3}")
# np.sort (副本)
print(f"np.sort(arr3) (按行排序副本):\n{np.sort(arr3, axis=1)}")
print(f"arr3 (排序后依然不变):\n{arr3}")
# ndarray.sort (就地)
arr3.sort(axis=0) # 按列就地排序
print(f"arr3.sort(axis=0) (按列就地排序后):\n{arr3}")

# 4. 去重
arr4 = np.random.randint(0, 5, (3, 3))
print(f"\narr4 (原始):\n{arr4}")
print(f"np.unique(arr4): {np.unique(arr4)}")

arr1:
[[-2.00803016 -0.91854717  0.17012606]
 [ 1.68265425 -0.93256667 -1.67849973]]
np.where(arr1 > 0, 1, 0):
[[0 0 1]
 [1 0 0]]

np.any(arr2 > 3): True
np.all(arr2 > 3): False

arr3 (原始):
[[2 9 3]
 [5 1 3]
 [7 2 4]]
np.sort(arr3) (按行排序副本):
[[2 3 9]
 [1 3 5]
 [2 4 7]]
arr3 (排序后依然不变):
[[2 9 3]
 [5 1 3]
 [7 2 4]]
arr3.sort(axis=0) (按列就地排序后):
[[2 1 3]
 [5 2 3]
 [7 9 4]]

arr4 (原始):
[[2 4 4]
 [3 2 2]
 [0 0 0]]
np.unique(arr4): [0 2 3 4]


*注：随机数结果每次都不同*

  * `np.where` 是数据清洗和特征工程（如将负数替换为 0）的利器。
  * 排序和去重是数据预处理的常规步骤。

### 基本运算（矢量化与广播）

#### 矢量化运算

NumPy 允许在整个数组上执行批量运算，而无需编写 `for` 循环，这称为**矢量化 (Vectorization)**。


In [10]:
import numpy as np

arr1 = np.array([[1, 2, 3], [4, 5, 6]])
arr2 = np.array([[7, 8, 9], [10, 11, 12]])

# 1. 数组与数组运算 (元素级)
print("arr1 + arr2:\n", arr1 + arr2)
print("\narr1 * arr2:\n", arr1 * arr2)

arr1 + arr2:
 [[ 8 10 12]
 [14 16 18]]

arr1 * arr2:
 [[ 7 16 27]
 [40 55 72]]


运算自动应用到 `arr1` 和 `arr2` 中**对应位置**的元素。

矢量化是 NumPy 高性能的核心。应尽量避免在 Python 层面写循环，而是使用 NumPy 的矢量化操作。

#### 广播 (Broadcasting)

**广播**是 NumPy 处理不同形状数组之间运算的机制。它会自动“扩展”（或“广播”）较小数组的维度，使其形状与较大数组匹配。


In [11]:
import numpy as np

arr1 = np.array([[1, 2, 3], [4, 5, 6]])

# 1. 数组与标量 (一个数字) 运算
print("arr1 * 100:\n", arr1 * 100)

# 2. 数组与一维数组运算
# arr1 (2, 3) 与 arr_row (3,)
arr_row = np.array([10, 20, 30])
print("\narr1 (2,3) + arr_row (3,):\n", arr1 + arr_row)

arr1 * 100:
 [[100 200 300]
 [400 500 600]]

arr1 (2,3) + arr_row (3,):
 [[11 22 33]
 [14 25 36]]


  * 在示例 1 中，标量 `100` 被广播到 `arr1` 的每个元素。
  * 在示例 2 中，`arr_row` (形状 `(3,)`) 被广播到 `arr1` 的**每一行**。

广播机制极大提高了编码的灵活性，例如在数据标准化（将数据减去均值）或向矩阵的每一行添加一个向量时。

### 矩阵乘法

在 NumPy 中，`*` 运算符执行的是**元素级乘法 (Element-wise multiplication)**，而不是数学上的矩阵乘法。

要执行真正的矩阵乘法（点积），应使用 `np.dot()` 函数或 `@` 运算符。

> **矩阵乘法规则**：两个矩阵 `A` (形状 $m \times n$) 和 `B` (形状 $n \times p$) 相乘，要求 `A` 的列数 ($n$) 必须等于 `B` 的行数 ($n$)。结果矩阵 `C` 的形状为 ($m \times p$)。


In [12]:
import numpy as np

arr1 = np.array([[1, 2, 3],
                 [4, 5, 6]]) # 形状 (2, 3)

arr2 = np.array([[6, 5],
                 [4, 3],
                 [2, 1]]) # 形状 (3, 2)

# 1. 元素级乘法 (会失败，因为形状不匹配)
try:
    print(arr1 * arr2)
except ValueError as e:
    print(f"* 运算失败: {e}")

# 2. 矩阵乘法 (np.dot)
# arr1 (2, 3) dot arr2 (3, 2) -> 结果 (2, 2)
dot_result = np.dot(arr1, arr2)
print(f"\nnp.dot(arr1, arr2) (2x2 矩阵):\n{dot_result}")

# 3. 矩阵乘法 (@ 运算符)
# (Python 3.5+ 推荐)
at_result = arr1 @ arr2
print(f"\narr1 @ arr2 (2x2 矩阵):\n{at_result}")

# 4. 矩阵与向量
arr_vec = np.array([10, 20, 30]) # 形状 (3,)
# arr1 (2, 3) @ arr_vec (3,) -> 结果 (2,)
vec_result = arr1 @ arr_vec
print(f"\narr1 @ arr_vec (一维向量):\n{vec_result}")

* 运算失败: operands could not be broadcast together with shapes (2,3) (3,2) 

np.dot(arr1, arr2) (2x2 矩阵):
[[20 14]
 [56 41]]

arr1 @ arr2 (2x2 矩阵):
[[20 14]
 [56 41]]

arr1 @ arr_vec (一维向量):
[140 320]


  * `[1*10 + 2*20 + 3*30 = 140]`
  * `[4*10 + 5*20 + 6*30 = 320]`

`@` (或 `np.dot` ) 是线性代数、机器学习（如神经网络的层计算）和科学计算中的核心运算。