# NumPy 简介

[**NumPy**](https://www.numpy.org/) 是 Python 中的一个科学计算库，是其他许多库（如 PyTorch、TensorFlow 等）的基础。

NumPy 的核心部分即为其提供的一个 n 维数组类 `numpy.ndarray` 以及围绕此类的一系列操作。这些操作不仅可以减少代码量，也可以同时提升代码运行的速度（因为 NumPy 在底层使用 C 实现了许多高效的算法，可以提高运算效率）。

`numpy.ndarray` 可以看作是 Python 中列表（list）的扩展。

NumPy 官方也提供了[速成教程](https://numpy.org/devdocs/user/quickstart.html)。

另可参考 [Brief Introduction to NumPy - YangHanlin/ml-eval Wiki](https://github.com/YangHanlin/ml-eval/wiki/Brief-Introduction-to-NumPy)（私有仓库，可能无法访问）

> **PS：**在机器学习中，一般这种 n 维数组被称为**张量（tensor）**。例如一维张量即为向量、二维张量为矩阵等。

一般导入 NumPy 库时使用以下语句:

In [1]:
import numpy as np

## 创建数组

创建 `numpy.ndarray` 时一般不会使用其构造函数；一般使用 NumPy 提供的一些其他的函数（所谓的“工厂方法”？）创建 `numpy.ndarray` 实例。

In [2]:
# 最常见：numpy.array(<array-like>)，将给定的序列转换为 numpy.ndarray

x = np.array([1, 2, 3, 4, 5])

print('x =\n{}'.format(x))

x =
[1 2 3 4 5]


In [3]:
# 给定步长/个数：numpy.arange 与 numpy.linspace

y = np.arange(0, 10, 2)   # np.arange(start, end, step)     语法与 Python 提供的 range 类似
z = np.linspace(0, 1, 11) # np.linspace(start, end, number) 数据类型为浮点数

print('y =\n{}'.format(y))
print()
print('z =\n{}'.format(z))

y =
[0 2 4 6 8]

z =
[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [4]:
# 创建特殊的数组

a = np.eye(5)        # 5 阶单位矩阵（eye = I，而 I 代表 Identity Matrix），等价于 np.diag(np.ones(5))
b = np.diag(x)       # 对角线上为数组 x 的对角矩阵

c = np.empty((3, 5)) # 3x5 的空矩阵（可能包含垃圾值）
d = np.zeros((3, 5)) # 3x5 的全零矩阵
e = np.ones((3, 5))  # 3x5 的全一矩阵

print('a =\n{}'.format(a))
print()
print('b =\n{}'.format(b))
print()
print('c =\n{}'.format(c))
print()
print('d =\n{}'.format(d))
print()
print('e =\n{}'.format(e))

a =
[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]

b =
[[1 0 0 0 0]
 [0 2 0 0 0]
 [0 0 3 0 0]
 [0 0 0 4 0]
 [0 0 0 0 5]]

c =
[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]

d =
[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]

e =
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


## 对数组进行操作

### 访问数组元素

由于 `numpy.ndarray` 是 Python 中列表的扩展，因此支持列表的一些操作，如使用下标访问，分段（所谓的“Slicing”）等。

In [5]:
arr = np.arange(24).reshape(4, 6)

print('arr =\n{}'.format(arr))

print()

# numpy.ndarray 可以迭代
cpy = []
for row in arr:
    for element in row:
        cpy.append(str(element))
print('All elements in arr:\n{}'.format(', '.join(cpy)))

print()

# numpy.ndarray 可以使用下标访问
for i in range(len(arr)):
    for j in range(len(arr[i])):
        print('arr[{}][{}] = {} = {}'.format(i, j, arr[i][j], arr[i, j])) # 注意第二种访问方式：使用元组（tuple）作为下标

print()

# numpy.ndarray 支持“分段”操作
sliced_arrs = [
    'arr[:]',
    'arr[:, :]',
    'arr[:][:]',
    'arr[::-1, ::-1]',
    # 'arr[::-1][::-1]', # 会出现非预期的结果，因此使用 arr[x, y] 优于 arr[x][y]
    'arr[1:3, 2:4]',
    # 'arr[1:3][2:4]' # 出现非预期结果
]
for expr in sliced_arrs:
    print('{} =\n{}'.format(expr, eval(expr)))

arr =
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]

All elements in arr:
0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23

arr[0][0] = 0 = 0
arr[0][1] = 1 = 1
arr[0][2] = 2 = 2
arr[0][3] = 3 = 3
arr[0][4] = 4 = 4
arr[0][5] = 5 = 5
arr[1][0] = 6 = 6
arr[1][1] = 7 = 7
arr[1][2] = 8 = 8
arr[1][3] = 9 = 9
arr[1][4] = 10 = 10
arr[1][5] = 11 = 11
arr[2][0] = 12 = 12
arr[2][1] = 13 = 13
arr[2][2] = 14 = 14
arr[2][3] = 15 = 15
arr[2][4] = 16 = 16
arr[2][5] = 17 = 17
arr[3][0] = 18 = 18
arr[3][1] = 19 = 19
arr[3][2] = 20 = 20
arr[3][3] = 21 = 21
arr[3][4] = 22 = 22
arr[3][5] = 23 = 23

arr[:] =
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
arr[:, :] =
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
arr[:][:] =
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
arr[::-1, ::-1] =
[[23 22 21 20 19 18]
 [17 16 15 14

除了与 Python 列表类似的元素访问方法之外，`numpy.ndarray` 也提供了另外两种方法（统称为 `Fancy Indexing`）：**使用下标数组访问元素**与**使用 `bool` 数组访问元素**。

In [11]:
upper_boundary = 101
brr = np.arange(101)

# 使用下标数组访问元素
i = 0
indices = []
while i**2 < upper_boundary:
    indices.append(i**2)
    i += 1
print('brr[indices] =\n{}'.format(brr[indices])) # brr[np.array(indices)] 应更佳

print()

# 使用 bool 数组访问元素
masks = np.repeat(True, upper_boundary)
masks[0] = masks[1] = False
i = 2
while i < upper_boundary:
    if not masks[i]:
        i += 1
        continue
    times = 2
    while i*times < upper_boundary:
        masks[i*times] = False
        times += 1
    i += 1
print('brr[masks] =\n{}'.format(brr[masks]))

brr[indices] =
[  0   1   4   9  16  25  36  49  64  81 100]

brr[masks] =
[ 2  3  5  7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89
 97]
