# NumPy
---
<img src="https://numpy.org/images/logo.svg" style="width: 20%;"/>

NumPy库（Numerical Python）是Python科学计算环境中最常用的库。它提供了用于处理数组的高效数据结构。Numpy库的核心是使用C语言实现的。

## 参考资料
[NumPy官方网站](https://numpy.org/) 

[在线练习环境](https://jupyterlite.github.io/demo/repl/?toolbar=1&kernel=python&code=import%20numpy%20as%20np)

[Numpy菜鸟教程](https://www.runoob.com/numpy/numpy-tutorial.html)

<img src="Images/NumPy.png" style="width: 80%;"/>

In [2]:
# 为了使用NumPy库，需要先导入它。按照惯例，我们以别名np导入numpy模块。
import numpy as np

Numpy库的核心是表示同质数据的多维数组。数组内所有元素的数据类型是相同的。NumPy中多维数组的主要数据结构是ndarray类（class）。除了保存数组中的数据，这种数据结构还可以包含关于数据的重要描述性的元数据（metaData）。


In [8]:
data = np.array(([1,2],[3,4],[5,6]))
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [9]:
# 变量类型
print(type(data))

<class 'numpy.ndarray'>


In [3]:
# 数组维度
data.ndim

2

In [4]:
# 数组形状
data.shape

(3, 2)

In [5]:
# 数组元素数目
data.size

6

In [6]:
# 数组元素类型
data.dtype

dtype('int64')

## 数据类型
---

| dtype | 变体 | 说明 |
|---|---|---|
| int | int8, int16, int32, int64 | 整数 |
| unit | unit8, unit16, unit32, unit64 | 无符号整数 |
| bool| bool | 布尔类型 |
| float | float16, float32, float64, float128 | 浮点类型 |
| complex | complex64, complex128, complex256 | 复数浮点类型 |

In [7]:
# 默认数据类型
data = np.array([1,2,3])
print(data.dtype)

# 指定数据类型
data = np.array([1,2,3], dtype=float)
print(data.dtype)

int64
float64


转换数据类型

In [8]:
# 使用 np.array 函数
data = np.array([1,2,3])
print(data.dtype)
data = np.array(data, dtype=float)

print(data.dtype)
# 使用ndarray类内置的astype方法
data = data.astype(np.int64)
print(data.dtype)

int64
float64
int64


根据应用场景，应用合理的数组数据类型。

In [4]:
data = np.array([-1,0,1])
np.sqrt(data)

  np.sqrt(data)


array([nan,  0.,  1.])

In [10]:
np.sqrt(data, dtype=complex)

array([0.+1.j, 0.+0.j, 1.+0.j])

In [11]:
# 复数的实部和虚部
print(np.sqrt(data, dtype=complex).real)
print(np.sqrt(data, dtype=complex).imag)

[0. 0. 1.]
[1. 0. 0.]


## 内存中数组数据的顺序
---

对于包含行列的二维数据：一种可能的方式是按顺序逐行存储数据；一种可能的方式是按列存储数据。前者为行主序（row-major），后者为列主序（column-major）。C语言使用行主序，Fortran和MATLAB使用列主序。
NumPy数组默认使用行主序，创建数组时可以使用关键词参数`order='C'`或者`order='F'`设置。当使用借助C或者Fortran编写的接口时，需要特别注意NumPy数组的排序方式。

## 创建数组
---
| 函数名 | 说明 |
|---|---|
| np.zeros | 指定维度和类型，以0填充 |
| np.ones | 指定维度和类型，以1填充 |
| np.empty | 未初始化数组 |
| np.arange | 创建均匀间隔数组，指定开始值、结束值和增量值 |
| np.linpace | 创建均匀间隔数组，指定开始值、结束值和元素数量 |
| np.random.rand | 创建一个数组，元素为0-1之间均匀分布的随机数 |
| np.zeros_like | 复制一个数组的维度和类型，以0填充 |

In [12]:
np.zeros((2,3)) # 默认浮点型

array([[0., 0., 0.],
       [0., 0., 0.]])

In [13]:
np.ones((2,3)) # 默认浮点型

array([[1., 1., 1.],
       [1., 1., 1.]])

In [5]:
np.empty((2,3)) # 未赋值使用将导致未知错误

array([[4.9e-324, 9.9e-324, 1.5e-323],
       [2.0e-323, 2.5e-323, 3.0e-323]])

In [15]:
# np.arange 不包括结束值
np.arange(0,5,1)

array([0, 1, 2, 3, 4])

In [16]:
# np.linspace 包括结束值
np.linspace(0,5,5)

array([0.  , 1.25, 2.5 , 3.75, 5.  ])

### Meshgrid数组

可以使用函数np.meshgrid生成多维坐标网络。

In [17]:
x = np.array([-1, 0, 1])
y = np.array([-2, 0, 2])
X, Y = np.meshgrid(x, y)

In [18]:
X

array([[-1,  0,  1],
       [-1,  0,  1],
       [-1,  0,  1]])

In [19]:
Y

array([[-2, -2, -2],
       [ 0,  0,  0],
       [ 2,  2,  2]])

二维坐标数组的常见应用场景是计算包含两个变量x和y的函数，可以用于绘制包含这两个变量的函数图形，如等高线图。

In [20]:
Z = (X + Y) ** 2
print(Z)

[[9 4 1]
 [1 0 1]
 [1 4 9]]


### 函数式创建数组

`np.fromfunction`函数读入多维坐标数组，返回运算结果。

In [21]:
def func(i, j):
    return (i+1)*(j+1)

np.fromfunction(func, (9, 9)) # 99乘法表

array([[ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.],
       [ 2.,  4.,  6.,  8., 10., 12., 14., 16., 18.],
       [ 3.,  6.,  9., 12., 15., 18., 21., 24., 27.],
       [ 4.,  8., 12., 16., 20., 24., 28., 32., 36.],
       [ 5., 10., 15., 20., 25., 30., 35., 40., 45.],
       [ 6., 12., 18., 24., 30., 36., 42., 48., 54.],
       [ 7., 14., 21., 28., 35., 42., 49., 56., 63.],
       [ 8., 16., 24., 32., 40., 48., 56., 64., 72.],
       [ 9., 18., 27., 36., 45., 54., 63., 72., 81.]])

## 数组索引和切片
---
正整数用于从数组开头进行索引（索引开始于0），负整数用于从数组结尾进行索引（索引开始于-1）。

| 函数名 | 说明 |
|---|---|
| a[m] | 选择索引m处的元素，m为整数（从0开始计数） |
| a[-m] | 从数组末尾选择第m个元素，m为负整数（索引开始于-1） |
| a[m:n] | 选择索引为m到n-1的元素 |
| a[:] | 指定维的所有元素，等价为a[0:-1] |
| a[m:n:p] | 选择索引为m到n（不含）的间隔为p的元素 |
| a[::-1] | 逆序选择所有元素 |

In [13]:
a = np.arange(0, 11)
print(a)
print(a[5:])
print(a[::-2])

[ 0  1  2  3  4  5  6  7  8  9 10]
[ 5  6  7  8  9 10]
[10  8  6  4  2  0]


### 多维数组

In [14]:
f = lambda m, n: n + 5 * m
a = np.fromfunction(f, (5,5))
print(a)
print(a[1, 1])

[[ 0.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24.]]
6.0


In [24]:
print(a[1, :]) # 第二行
print(a[:, 1]) # 第二列

[5. 6. 7. 8. 9.]
[ 1.  6. 11. 16. 21.]


### 数组视图
为了提高性能，使用切片操作提取的子数组是内存中同一组数据的不同视图。如果更改视图中的数据，原始数组中的数据也会被修改。如果需要数据的副本，可以使用`np.copy()`函数。

In [25]:
b = a[::2, ::2]
print(b)
b[:, :] = 0
print(a)

[[ 0.  2.  4.]
 [10. 12. 14.]
 [20. 22. 24.]]
[[ 0.  1.  0.  3.  0.]
 [ 5.  6.  7.  8.  9.]
 [ 0. 11.  0. 13.  0.]
 [15. 16. 17. 18. 19.]
 [ 0. 21.  0. 23.  0.]]


### 布尔索引


In [26]:
A = np.arange(10)
B = A > 5
print(B)

A[B]= -1
print(A)

[False False False False False False  True  True  True  True]
[ 0  1  2  3  4  5 -1 -1 -1 -1]


## 调整形状和大小
---

| 函数名 | 说明 |
|---|---|
| np.reshape 和 np.ndarray.reshape | 调整N维数组的维度。元素的总数保持不变。 |
| np.resize 和 np.ndarray.resize | 调整N维数组的大小，创建新副本。元素增加则使用原数据填充。 |
| np.ndarray.flatten | 创建N维数组的副本，并折叠成一维数组 |
| np.ndarray.ravel | 创建N维数组的视图，并折叠成一维数组 |
| np.squeeze | 删除长度为1的维度 |
| np.expand_dims 和 np.newaxis | 在数组中增加长度为1的新维度 |
| np.transpose 和 np.ndarray.transpose | 对数组进行转置 |
| np.hstack 和 np.hstack | 对数组进行转水平叠加（沿着轴1）和垂直叠加（沿着轴0） |
| np.append | 在数组中添加元素。该操作会创建一个副本 |
| np.insert 和 np.delete | 在数组中插入和删除元素。该操作会创建一个副本 |

In [27]:
A = np.arange(6)
B = A.reshape(3,2)
print(B)

[[0 1]
 [2 3]
 [4 5]]


In [28]:
B.flatten()

array([0, 1, 2, 3, 4, 5])

In [29]:
A[np.newaxis,:]  # 等价于 np.expand_dims(A, axis=0)

array([[0, 1, 2, 3, 4, 5]])

In [30]:
np.resize(A,(2,2))

array([[0, 1],
       [2, 3]])

## 向量化表达式
---

对标量和数组进行操作，广播会对标量与数组中的每个元素分别进行运算。当两个数组大小不同时，较小的数组通过广播匹配较大的数组。

In [31]:
x = np.arange(9).reshape(3,3)
x

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [32]:
y = np.arange(3)
x + y

array([[ 0,  2,  4],
       [ 3,  5,  7],
       [ 6,  8, 10]])

In [33]:
x + y.reshape(3,1)

array([[ 0,  1,  2],
       [ 4,  5,  6],
       [ 8,  9, 10]])

对不兼容大小或形状的数组进行算数运算，则会引发ValueError错误。

In [18]:
x = np.arange(4).reshape(2,2)
y = np.array([1,2,3])
print(x)
print(y)
try:
    print(x / y)
except ValueError:
    print("非法输入")

[[0 1]
 [2 3]]
[1 2 3]
非法输入


### 聚合函数

对数组进行聚合计算，返回一个标量。

| 函数名 | 说明 |
|---|---|
| np.where  | 计算数组中所有元素均值 |
| np.choose| 计算标准差 |
| np.select | 计算方差 |
| np.nonzero | 计算所有元素和 |

### 布尔数组和条件表达式

布尔数组和数值数组一起出现时，布尔数组会被转换为数值数组,False和True分别被转换为0和1。

In [35]:
x = np.linspace(-3,3,7)
x * (x > 0)

array([-0., -0., -0.,  0.,  1.,  2.,  3.])

| 函数名 | 说明 |
|---|---|
| np.where  | 根据条件数组的值从连个数组中选择值 |
| np.choose | 根据给定的索引数组选择 |
| np.select | 根据条件列表从数组中选择   |
| np.nonzero | 返回非0值的索引 |

In [36]:
np.where(x < 0)  # 当where内只有一个参数时，返回一个元组

(array([0, 1, 2]),)

In [37]:
np.where(x < 0, x**2, x**3)  # 当where内有三个参数时，第一个参数表示条件，选择性返回后两个数组

array([ 9.,  4.,  1.,  0.,  1.,  8., 27.])

In [38]:
np.select([x < -1, x > 1], [x**2, x**3])  # 根据条件列表从数组列表中选择值

array([ 9.,  4.,  0.,  0.,  0.,  8., 27.])

In [39]:
np.choose([0, 0, 1, 1, 0, 0, 1], [x**2, x**3]) # choose 第一个参数中的索引决定了从数组列表中哪一个选择值

array([ 9.,  4., -1.,  0.,  1.,  4., 27.])

In [40]:
x[np.nonzero(x)]  # x[x != 0] 

array([-3., -2., -1.,  1.,  2.,  3.])

### 数组操作

| 函数名 | 说明 |
|---|---|
| np.transpose 和 dp.ndarray.T  | 转置 |
| np.fliplr 和 npflipud | 反转每行和每列的元素 |
| np.rot90 | 沿着前两个轴把元素旋转90度  |
| np.sort 和 np.ndarray.sort | 沿着指定轴对元素进行排序 |

In [41]:
x = np.random.random((3,3))
print(x)

[[0.63960843 0.01253835 0.70611023]
 [0.45748739 0.14150506 0.3563332 ]
 [0.74804788 0.59385922 0.43917196]]


In [42]:
np.sort(x)

array([[0.01253835, 0.63960843, 0.70611023],
       [0.14150506, 0.3563332 , 0.45748739],
       [0.43917196, 0.59385922, 0.74804788]])

In [43]:
x.sort()  # np.ndarray.sort 可以原位（in plance）对输入数组进行修改
print(x)

[[0.01253835 0.63960843 0.70611023]
 [0.14150506 0.3563332  0.45748739]
 [0.43917196 0.59385922 0.74804788]]


## 矩阵和向量运算
---

| 函数名 | 说明 |
|---|---|
| np.dot  | 点积 |
| np.inner | 内积 |
| np.cross | 叉积 |
| np.tensordot | 沿着多维数组指定轴进行点积 |
| np.outer | 外积（向量张量积） |
| np.kron | 两个高维数组进行Kronecker积（矩阵张量积） |
| np.einsum | 对多维数组执行爱因斯坦求和约定操作 |

In [21]:
A = np.arange(1, 7).reshape(2, 3)
B = np.arange(1, 7).reshape(3, 2)
print(A)
print(B)

np.dot(A, B) # @符号也可以用来表示矩阵乘法，A@B

[[1 2 3]
 [4 5 6]]
[[1 2]
 [3 4]
 [5 6]]


array([[22, 28],
       [49, 64]])

NumPy为ndarray提供另一种数据结构matrix，诸如`A * B`之类的表达式可以使用matrix乘法表示。逆矩阵表示为 matrix.I，复共轭转置表示为 matrix.H。与np.matrix创建数据副本不同，np.asmatrix函数以np.matrix实例的形式创建原始数组的视图，不增加计算成本。

In [45]:
A = np.matrix(A)
B = np.matrix(B)
A * B

matrix([[22, 28],
        [49, 64]])

In [46]:
np.array(A * B)  # 类似的，np.array将创建数据副本，np.asarray将创建数据视图

array([[22, 28],
       [49, 64]])