In [1]:
# 定义用于打印 `numpy.ndarray` 的函数；跳过不看即可

def nprint(str, *args, **kwargs):
    """Print the array (expression) specified by 'str'."""
    return print((str+' =\n{}').format(eval(str)), *args, **kwargs)

# NumPy 简介

[**NumPy**](https://www.numpy.org/) 是 Python 中的一个科学计算库，是其他许多库（如 PyTorch、TensorFlow 等）的基础。

NumPy 的核心部分即为其提供的一个 n 维数组类 `numpy.ndarray` 以及围绕此类的一系列操作。这些操作不仅可以减少代码量，也可以同时提升代码运行的速度（因为 NumPy 在底层使用 C 实现了许多高效的算法，可以提高运算效率）。

`numpy.ndarray` 可以看作是 Python 中列表（list）的扩展。

NumPy 官方也提供了[速成教程](https://numpy.org/devdocs/user/quickstart.html)。

本文主要基于 [Brief Introduction to NumPy - YangHanlin/ml-eval Wiki](https://github.com/YangHanlin/ml-eval/wiki/Brief-Introduction-to-NumPy)（私有仓库，可能无法访问）

> **PS：**在机器学习中，一般这种 n 维数组被称为**张量（tensor）**。例如一维张量即为向量、二维张量为矩阵等。

一般导入 NumPy 库时使用以下语句:

In [2]:
import numpy as np

## 创建数组

创建 `numpy.ndarray` 时一般不会使用其构造函数；一般使用 NumPy 提供的一些其他的函数（所谓的“工厂方法”？）创建 `numpy.ndarray` 实例。

In [3]:
# 最常见：numpy.array(<array-like>)，将给定的序列转换为 numpy.ndarray

x = np.array([1, 2, 3, 4, 5])

nprint('x')

x =
[1 2 3 4 5]


In [4]:
# 给定步长/个数：numpy.arange 与 numpy.linspace

y = np.arange(0, 10, 2)   # np.arange(start, end, step)     语法与 Python 提供的 range 类似
z = np.linspace(0, 1, 11) # np.linspace(start, end, number) 数据类型为浮点数

nprint('y')
print()
nprint('z')

y =
[0 2 4 6 8]

z =
[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [5]:
# 创建特殊的数组

a = np.eye(5)        # 5 阶单位矩阵（eye = I，而 I 代表 Identity Matrix），等价于 np.diag(np.ones(5))
b = np.diag(x)       # 对角线上为数组 x 的对角矩阵

c = np.empty((3, 5)) # 3x5 的空矩阵（可能包含垃圾值）
d = np.zeros((3, 5)) # 3x5 的全零矩阵
e = np.ones((3, 5))  # 3x5 的全一矩阵

nprint('a')
print()
nprint('b')
print()
nprint('c')
print()
nprint('d')
print()
nprint('e')

a =
[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]

b =
[[1 0 0 0 0]
 [0 2 0 0 0]
 [0 0 3 0 0]
 [0 0 0 4 0]
 [0 0 0 0 5]]

c =
[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]

d =
[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]

e =
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


## 对数组进行操作

### 访问数组元素

由于 `numpy.ndarray` 是 Python 中列表的扩展，因此支持列表的一些操作，如使用下标访问，分段（所谓的“Slicing”）等。

In [6]:
arr = np.arange(24).reshape(4, 6)

nprint('arr')

print()

# numpy.ndarray 可以迭代
cpy = []
for row in arr:
    for element in row:
        cpy.append(str(element))
print('All elements in arr:\n{}'.format(', '.join(cpy)))

print()

# numpy.ndarray 可以使用下标访问
for i in range(len(arr)):
    for j in range(len(arr[i])):
        print('arr[{}][{}] = {} = {}'.format(i, j, arr[i][j], arr[i, j])) # 注意第二种访问方式：使用元组（tuple）作为下标

print()

# numpy.ndarray 支持“分段”操作
sliced_arrs = [
    'arr[:]',
    'arr[:, :]',
    'arr[:][:]',
    'arr[::-1, ::-1]',
    # 'arr[::-1][::-1]', # 会出现非预期的结果，因此使用 arr[x, y] 优于 arr[x][y]
    'arr[1:3, 2:4]',
    # 'arr[1:3][2:4]' # 出现非预期结果
]
for expr in sliced_arrs:
    nprint(expr)

arr =
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]

All elements in arr:
0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23

arr[0][0] = 0 = 0
arr[0][1] = 1 = 1
arr[0][2] = 2 = 2
arr[0][3] = 3 = 3
arr[0][4] = 4 = 4
arr[0][5] = 5 = 5
arr[1][0] = 6 = 6
arr[1][1] = 7 = 7
arr[1][2] = 8 = 8
arr[1][3] = 9 = 9
arr[1][4] = 10 = 10
arr[1][5] = 11 = 11
arr[2][0] = 12 = 12
arr[2][1] = 13 = 13
arr[2][2] = 14 = 14
arr[2][3] = 15 = 15
arr[2][4] = 16 = 16
arr[2][5] = 17 = 17
arr[3][0] = 18 = 18
arr[3][1] = 19 = 19
arr[3][2] = 20 = 20
arr[3][3] = 21 = 21
arr[3][4] = 22 = 22
arr[3][5] = 23 = 23

arr[:] =
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
arr[:, :] =
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
arr[:][:] =
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
arr[::-1, ::-1] =
[[23 22 21 20 19 18]
 [17 16 15 14

除了与 Python 列表类似的元素访问方法之外，`numpy.ndarray` 也提供了另外两种方法（统称为 `Fancy Indexing`）：**使用下标数组访问元素**与**使用 `bool` 数组访问元素**。

In [7]:
upper_boundary = 101
brr = np.arange(upper_boundary)

# 使用下标数组访问元素
i = 0
indices = []
while i**2 < upper_boundary:
    indices.append(i**2)
    i += 1
# brr[indices] 为 [0, upper_boundary) 范围内的完全平方数
nprint('brr[indices]') # brr[np.array(indices)] 应更佳

print()

# 使用 bool 数组访问元素
masks = np.repeat(True, upper_boundary)
masks[0] = masks[1] = False
i = 2
while i < upper_boundary:
    if not masks[i]:
        i += 1
        continue
    times = 2
    while i*times < upper_boundary:
        masks[i*times] = False
        times += 1
    i += 1
# brr[masks] 为 [0, upper_boundary) 范围内的质数
nprint('brr[masks]')

brr[indices] =
[  0   1   4   9  16  25  36  49  64  81 100]

brr[masks] =
[ 2  3  5  7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89
 97]


### 操作数组

`numpy.ndarray` 为每种算术运算符都提供了简便操作：默认情况下，可以直接将算术运算符施于 `numpy.ndarray`，其将自动转化为**针对每个元素（elementwise）的运算**。

In [8]:
crr = np.arange(0, 50, 2).reshape(5, 5)
drr = np.arange(1, 51, 2).reshape(5, 5)

nprint('crr')
nprint('drr')

print()

nprint('crr+drr')
nprint('crr-drr')
nprint('crr*drr') # 注意：这样写是针对每个元素的乘法运算；矩阵乘积见下
nprint('crr/drr')
nprint('crr**2')
nprint('crr<25')

nprint('crr@drr') # 需要 Python >= 3.5，相当于 crr.dot(drr)
nprint('crr.dot(drr)') # 矩阵乘积的正确写法

crr =
[[ 0  2  4  6  8]
 [10 12 14 16 18]
 [20 22 24 26 28]
 [30 32 34 36 38]
 [40 42 44 46 48]]
drr =
[[ 1  3  5  7  9]
 [11 13 15 17 19]
 [21 23 25 27 29]
 [31 33 35 37 39]
 [41 43 45 47 49]]

crr+drr =
[[ 1  5  9 13 17]
 [21 25 29 33 37]
 [41 45 49 53 57]
 [61 65 69 73 77]
 [81 85 89 93 97]]
crr-drr =
[[-1 -1 -1 -1 -1]
 [-1 -1 -1 -1 -1]
 [-1 -1 -1 -1 -1]
 [-1 -1 -1 -1 -1]
 [-1 -1 -1 -1 -1]]
crr*drr =
[[   0    6   20   42   72]
 [ 110  156  210  272  342]
 [ 420  506  600  702  812]
 [ 930 1056 1190 1332 1482]
 [1640 1806 1980 2162 2352]]
crr/drr =
[[0.         0.66666667 0.8        0.85714286 0.88888889]
 [0.90909091 0.92307692 0.93333333 0.94117647 0.94736842]
 [0.95238095 0.95652174 0.96       0.96296296 0.96551724]
 [0.96774194 0.96969697 0.97142857 0.97297297 0.97435897]
 [0.97560976 0.97674419 0.97777778 0.9787234  0.97959184]]
crr**2 =
[[   0    4   16   36   64]
 [ 100  144  196  256  324]
 [ 400  484  576  676  784]
 [ 900 1024 1156 1296 1444]
 [1600 1764 1936 2116 2304]]
c

`numpy.ndarray` 也以函数形式提供了一些简便操作。

In [9]:
print('crr.max() = {}'.format(crr.max()))
print('crr.min() = {}'.format(crr.min()))
print('crr.sum() = {}'.format(crr.sum()))

print()

nprint('np.sin(crr)')
nprint('np.cos(crr)')
nprint('np.tan(crr)')
nprint('np.sqrt(crr)')

crr.max() = 48
crr.min() = 0
crr.sum() = 600

np.sin(crr) =
[[ 0.          0.90929743 -0.7568025  -0.2794155   0.98935825]
 [-0.54402111 -0.53657292  0.99060736 -0.28790332 -0.75098725]
 [ 0.91294525 -0.00885131 -0.90557836  0.76255845  0.27090579]
 [-0.98803162  0.55142668  0.52908269 -0.99177885  0.29636858]
 [ 0.74511316 -0.91652155  0.01770193  0.90178835 -0.76825466]]
np.cos(crr) =
[[ 1.         -0.41614684 -0.65364362  0.96017029 -0.14550003]
 [-0.83907153  0.84385396  0.13673722 -0.95765948  0.66031671]
 [ 0.40808206 -0.99996083  0.42417901  0.64691932 -0.96260587]
 [ 0.15425145  0.83422336 -0.84857027 -0.12796369  0.95507364]
 [-0.66693806 -0.39998531  0.99984331 -0.43217794 -0.64014434]]
np.tan(crr) =
[[ 0.         -2.18503986  1.15782128 -0.29100619 -6.79971146]
 [ 0.64836083 -0.63585993  7.24460662  0.30063224 -1.13731371]
 [ 2.23716094  0.00885166 -2.1348967   1.17875355 -0.2814296 ]
 [-6.4053312   0.66100604 -0.62349896  7.75047091  0.31030966]
 [-1.11721493  2.29138799  0

由于机器学习最终应不需要直接操作 `numpy.ndarray`，因此应不需要非常透彻。但 PyTorch 的 `Tensor` 类与 `numpy.ndarray` 联系比较密切，因此需要有一定了解。

进一步了解 NumPy，可以参阅其[文档](https://numpy.org/devdocs/index.html)或[官方教程](https://numpy.org/devdocs/user/quickstart.html)。