# 数值运算的lib：NumPy

In [2]:
import numpy as np
np.version.full_version

'2.1.3'

## 数组对象

In [4]:
a = np.arange(20)
print(a)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


In [6]:
a = a.reshape(4, 5)
print(a)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


In [7]:
# 构造更高维
a = a.reshape(2, 2, 5)
print(a)

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]]

 [[10 11 12 13 14]
  [15 16 17 18 19]]]


In [18]:
# 数组对象的相关属性
print(f"维度：{a.ndim}")
print(f"各维度的大小：{a.shape}")
print(f"全部元素个数：{a.size}")
print(f"元素类型：{a.dtype}")
print(f"元素占位字节数：{a.nbytes}") # 8位一个字节

维度：3
各维度的大小：(2, 2, 5)
全部元素个数：20
元素类型：int64
元素占位字节数：160


## 生成数组

在 `Python` 中，`np.arange()` 和 `np.linspace()` 都是用来生成数组的函数，但是它们有不同的功能和使用方式。

- `np.arange(start, stop, step)`
    - `start`：起始值，生成的数组从这个值开始。
    - `stop`：结束值，生成的数组会一直到达（但不包括）该值。
    - `step`：步长，数组中每两个数之间的差值。
- `np.linspace(start, stop, num)`
    - start：起始值。
    - stop：结束值（包括该值）。
    - num：生成的元素的个数。

In [35]:
np.linspace(0, 2, 9)

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

## 创建数组

In [19]:
raw = [0,1,2,3,4]
a = np.array(raw)
a

array([0, 1, 2, 3, 4])

In [20]:
raw = [[0,1,2,3,4], [5,6,7,8,9]]
b = np.array(raw)
b

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### 全零矩阵

In [21]:
d = (4, 5)
np.zeros(d)

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

### 全1矩阵
默认生成的类型是浮点型，可以通过指定类型改为整型

In [23]:
d = (4, 5)
np.ones(d, dtype=int)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

### 随机数数组

In [24]:
np.random.rand(5)

array([0.5873317 , 0.69730631, 0.22548451, 0.09484597, 0.40646396])

## 数组操作

### 四则运算

简单的四则运算已经重载过了，全部的`+`，`-`，`*`，`/`运算都是基于全部的数组元素的

In [25]:
a = np.array([[1.0, 2], [2, 4]])
print("a:")
print(a)
b = np.array([[3.2, 1.5], [2.5, 4]])
print("b:")
print(b)
print("a+b:")
print(a+b)

a:
[[1. 2.]
 [2. 4.]]
b:
[[3.2 1.5]
 [2.5 4. ]]
a+b:
[[4.2 3.5]
 [4.5 8. ]]


In [27]:
print("3 * a:")
print(3 * a)
print("b + 1.8:")
print(b + 1.8)

3 * a:
[[ 3.  6.]
 [ 6. 12.]]
b + 1.8:
[[5.  3.3]
 [4.3 5.8]]


In [28]:
a /= 2
print(a)

[[0.5 1. ]
 [1.  2. ]]


### 开根号求指数

In [29]:
print("a:")
print(a)
print("np.exp(a):")
print(np.exp(a))
print("np.sqrt(a):")
print(np.sqrt(a))
print("np.square(a):")
print(np.square(a))
print("np.power(a, 3):")
print(np.power(a, 3))

a:
[[0.5 1. ]
 [1.  2. ]]
np.exp(a):
[[1.64872127 2.71828183]
 [2.71828183 7.3890561 ]]
np.sqrt(a):
[[0.70710678 1.        ]
 [1.         1.41421356]]
np.square(a):
[[0.25 1.  ]
 [1.   4.  ]]
np.power(a, 3):
[[0.125 1.   ]
 [1.    8.   ]]


### 最值

In [31]:
a = np.arange(20).reshape(4,5)
print("a:")
print(a)
print("sum of all elements in a: " + str(a.sum()))
print("maximum element in a: " + str(a.max()))
print("minimum element in a: " + str(a.min()))
print("maximum element in each row of a: " + str(a.max(axis=1)))
print("minimum element in each column of a: " + str(a.min(axis=0)))

a:
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
sum of all elements in a: 190
maximum element in a: 19
minimum element in a: 0
maximum element in each row of a: [ 4  9 14 19]
minimum element in each column of a: [0 1 2 3 4]


### 矩阵运算

数组可以通过asmatrix~~或者mat~~转换为矩阵，或者直接生成也可以。

> `np.mat` was removed in the NumPy 2.0 release. Use `np.asmatrix` instead.

In [32]:
a = np.arange(20).reshape(4, 5)
a = np.asmatrix(a)
print(type(a))

b = np.matrix('1.0 2.0; 3.0 4.0')
print(type(b))

<class 'numpy.matrix'>
<class 'numpy.matrix'>


In [34]:
# 使用 mat 转换矩阵。此方法已废弃
# b = np.arange(2, 45, 3).reshape(5, 3)
# b = np.mat(b)
# print(b)

矩阵对象和数组的主要有两点差别：

- 一是矩阵是二维的，而数组的可以是任意正整数维；
- 二是矩阵的`*`操作符进行的是矩阵乘法，乘号左侧的矩阵列和乘号右侧的矩阵行要相等，而在数组中`*`操作符进行的是每一元素的对应相乘，乘号两侧的数组每一维大小需要一致。

In [36]:
print("matrix a:")
print(a)
print("matrix b:")
print(b)
c = a * b
print("matrix c:")
print(c)

matrix a:
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
matrix b:
[[ 2  5  8]
 [11 14 17]
 [20 23 26]
 [29 32 35]
 [38 41 44]]
matrix c:
[[ 290  320  350]
 [ 790  895 1000]
 [1290 1470 1650]
 [1790 2045 2300]]


## 数组元素访问

In [37]:
a = np.array([[3.2, 1.5], [2.5, 4]])
print(a[0][1])
print(a[0, 1])

1.5
1.5


## 数组赋值

In [38]:
a = np.array([[3.2, 1.5], [2.5, 4]])
# 注意这里，使用copy，不使用=等于号
b = a.copy()
a[0][1] = 2.0
print("a:")
print(a)
print("b:")
print(b)

a:
[[3.2 2. ]
 [2.5 4. ]]
b:
[[3.2 1.5]
 [2.5 4. ]]


如果使用 `b = a` 修改其中一个数据，会在`a`和`b`中都发生修改。其原因在于`Python`不是真正将`a`复制一份给`b`，而是将`b`指到了`a`对应数据的内存地址上。想要真正的复制一份`a`给`b`需使用`copy`。

利用`:`可以访问到某一维的全部数据，例如取矩阵中的指定列。

In [39]:
a = np.arange(20).reshape(4, 5)
print("a:")
print(a)
print("the 2nd and 4th column of a:")
print(a[:,[1,3]])

a:
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
the 2nd and 4th column of a:
[[ 1  3]
 [ 6  8]
 [11 13]
 [16 18]]


将第一列大于5的元素（10和15）对应的第三列元素（12和17）取出来：

In [45]:
a[:, [0,2]][a[:, 0] > 5]

array([[10, 12],
       [15, 17]])

可使用`where`函数查找特定值在数组中的位置

In [46]:
loc = numpy.where(a==11)
print(loc)
print(a[loc[0][0], loc[1][0]])

(array([2]), array([1]))
11


## 矩阵(或二维数组)操作
### 矩阵转置

In [48]:
a = np.random.rand(2,4)
print("a:")
print(a)
a = np.transpose(a)
print("a is an array, by using transpose(a):")
print(a)
b = np.random.rand(2,4)
b = np.asmatrix(b)
print("b:")
print(b)
print("b is a matrix, by using b.T:")
print(b.T)

a:
[[0.99219357 0.78842252 0.50195631 0.04452124]
 [0.50483738 0.9910778  0.53993372 0.45117709]]
a is an array, by using transpose(a):
[[0.99219357 0.50483738]
 [0.78842252 0.9910778 ]
 [0.50195631 0.53993372]
 [0.04452124 0.45117709]]
b:
[[0.58910425 0.97680189 0.1063197  0.14540104]
 [0.29578761 0.24091323 0.54270395 0.39063568]]
b is a matrix, by using b.T:
[[0.58910425 0.29578761]
 [0.97680189 0.24091323]
 [0.1063197  0.54270395]
 [0.14540104 0.39063568]]


### 矩阵求逆

In [51]:
import numpy.linalg as nlg
a = np.random.rand(2,2)
a = np.asmatrix(a)
print("a:")
print(a)
ia = nlg.inv(a)
print("inverse of a:")
print(ia)
print("a * inv(a)")
print((a * ia).astype(int))


a:
[[0.46967024 0.10712804]
 [0.85236388 0.98663405]]
inverse of a:
[[ 2.65166766 -0.28791624]
 [-2.29080451  1.26228099]]
a * inv(a)
[[1 0]
 [0 1]]


### 求特征值和特征向量

In [54]:
a = np.random.rand(3,3)*100
print("a:")
print(a)
eig_value, eig_vector = nlg.eig(a)
print("eigen value:")
print(eig_value)
print("eigen vector:")
print(eig_vector)

a:
[[78.8310326  95.7141881  84.66118908]
 [60.48908132 60.60010609 68.85203477]
 [93.51518339 82.00970032 18.8457177 ]]
eigen value:
[215.66389447  -8.80729863 -48.57973945]
eigen vector:
[[-0.68102268 -0.59723221 -0.28556351]
 [-0.50226364  0.76368417 -0.39300418]
 [-0.53285958 -0.24515337  0.87407162]]


### 拼接两个向量成一个矩阵

按列拼接两个向量成一个矩阵

In [55]:
a = np.array((1,2,3))
b = np.array((2,3,4))
print(np.column_stack((a,b)))

[[1 2]
 [2 3]
 [3 4]]


在循环处理某些数据得到结果后，将结果拼接成一个矩阵是十分有用的，可以通过`vstack`和`hstack`完成

In [56]:
a = np.random.rand(2,2)
b = np.random.rand(2,2)
print("a:")
print(a)
print("b:")
print(a)

c = np.hstack([a,b])
d = np.vstack([a,b])
print("horizontal stacking a and b:")
print(c)
print("vertical stacking a and b:")
print(d)

a:
[[0.97889738 0.40239398]
 [0.05893537 0.64954541]]
b:
[[0.97889738 0.40239398]
 [0.05893537 0.64954541]]
horizontal stacking a and b:
[[0.97889738 0.40239398 0.3555438  0.84473964]
 [0.05893537 0.64954541 0.4056501  0.10771578]]
vertical stacking a and b:
[[0.97889738 0.40239398]
 [0.05893537 0.64954541]
 [0.3555438  0.84473964]
 [0.4056501  0.10771578]]


## 缺失值

缺失值在分析中也是信息的一种，`NumPy`提供`nan`作为缺失值的记录，通过`isnan`判定。

In [57]:
a = np.random.rand(2,2)
a[0, 1] = np.nan
print(np.isnan(a))

[[False  True]
 [False False]]


`nan_to_num`可用来将`nan`替换成`0`，在后面会介绍到的更高级的模块`pandas`时，我们将看到`pandas`提供能指定`nan`替换值的函数。

In [59]:
print(np.nan_to_num(a))

[[0.8902789  0.        ]
 [0.74776932 0.58574607]]
