`numpy`是Python中科学计算的基础包。它是一个Python库，提供多维数组对象，各种派生对象（如掩码数组和矩阵），以及用于数组快速操作的各种API，有包括数学、逻辑、`shape`操作、排序、选择、输入输出、离散傅立叶变换、基本线性代数，基本统计运算和随机模拟等等，numpy包的核心是 `ndarray` 对象。它封装了Python原生的同数据类型的 `n` 维数组

#### 数组基本属性

`numpy`核心对象`ndarray`是由相同类型的元素组成的多维数组，`ndarray`的维度称为`轴`，`ndarray`有如下重要的属性

- `ndarray.ndim`: 数组的轴个数，例如`m`行`n`列的数组轴的个数为2，轴的个数有时也被称为`rank`
- `ndarray.shape`: 数组的形状，这是一个整数的元组，表示每个维度中数组的大小，例如`m`行`n`列的数组其`shape`为`(m, n)`
- `ndarray.size`: 数组元素的总数，等价于`shape`中所有元素的乘积
- `ndarray.dtype`: 数组元素类型
- `ndarray.itemsize`: 数组中每个元素字节大小，例如`float64`类型数组的`itemsize`为8

In [1]:
import numpy as np

In [2]:
# 创建一个numpy数组
a = np.arange(15).reshape(3, 5)
print(a)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [3]:
a.ndim

2

In [4]:
a.shape

(3, 5)

In [5]:
a.size

15

In [6]:
a.dtype

dtype('int64')

In [7]:
a.itemsize

8

我们可以通过`astype`函数显式转换数组的数据类型

In [8]:
a = a.astype(np.float32)
a.dtype

dtype('float32')

#### 创建数组

In [9]:
# 从Python列表或者元组构造
a = np.array([1, 2, 3, 4, 5])
print(a)

[1 2 3 4 5]


In [10]:
# 二维数组
b = np.array([[1, 2, 3], [4, 5, 6]])
print(b)

[[1 2 3]
 [4 5 6]]


In [11]:
# 创建数组时可以通过dtype参数显式指定数据类型
c = np.array([1, 2, 3, 4, 5], dtype=np.float32)
print(c.dtype)

float32


In [12]:
# 通过zeros或ones创建全0或全1的数组，empty可创建初始值随机的数组，传递参数指定数组的shape
np.zeros((3, 5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [13]:
np.ones((3, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [14]:
np.empty((2, 3, 4))

array([[[4.64065538e-310, 0.00000000e+000, 6.92689941e-310,
         6.92690004e-310],
        [6.92689918e-310, 6.92690102e-310, 6.92690100e-310,
         6.92690102e-310],
        [6.92690102e-310, 6.92689920e-310, 6.92689918e-310,
         6.92690004e-310]],

       [[6.92689920e-310, 6.92689918e-310, 6.92689918e-310,
         6.92689918e-310],
        [6.92690101e-310, 6.92689920e-310, 6.92690101e-310,
         6.92689918e-310],
        [6.92689918e-310, 6.92689920e-310, 6.92689918e-310,
         6.92690102e-310]]])

In [15]:
# 类似的还有zeros_like，ones_like和empty_like等
a = np.arange(15).reshape(3, 5)

In [16]:
np.zeros_like(a)

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

In [17]:
np.ones_like(a)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

In [18]:
np.empty_like(a)

array([[93927915369456,              0,              0,              0,
                     0],
       [             0,              0,              0,              0,
                     0],
       [             0,              0,              0,              0,
                     0]])

In [19]:
# 通过arange构造，arange与标准Python中的range参数意义相同，但是arage返回的是ndarray
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [20]:
np.arange(3, 10)

array([3, 4, 5, 6, 7, 8, 9])

In [21]:
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

#### 基本操作

`numpy`数组最常见操作的就是各种数学计算，而其中最常见的又属**元素级别**(`element-wise`)的运算

In [22]:
a = np.arange(6).reshape(2, 3)
b = np.array([[10, 20, 30], [40, 50 ,60]])
print(a)
print(b)

[[0 1 2]
 [3 4 5]]
[[10 20 30]
 [40 50 60]]


In [23]:
# element-wise加法，对应元素进行相加
a + b

array([[10, 21, 32],
       [43, 54, 65]])

In [24]:
# element-wise减法，对应元素进行相减
a - b

array([[-10, -19, -28],
       [-37, -46, -55]])

In [25]:
# element-wise乘法，对应元素进行相乘
a * b

array([[  0,  20,  60],
       [120, 200, 300]])

In [26]:
# element-wise除法，对应元素进行相除
a / b

array([[0.        , 0.05      , 0.06666667],
       [0.075     , 0.08      , 0.08333333]])

In [27]:
# 对每个元素计算sin值
np.sin(a)

array([[ 0.        ,  0.84147098,  0.90929743],
       [ 0.14112001, -0.7568025 , -0.95892427]])

In [28]:
# 每个元素分别判断是否满足给定条件
a > 3

array([[False, False, False],
       [False,  True,  True]])

In [29]:
c = np.array([[3, 5], [2, 4], [7, 8]])

In [30]:
# 通过dot函数可做矩阵乘法
a.dot(c)

array([[16, 20],
       [52, 71]])

In [31]:
# 在Python >= 3.5的版本中还可以通过@运算符进行矩阵相乘
a @ c

array([[16, 20],
       [52, 71]])

In [32]:
# 数组还支持+=, -=, *=, /=等复合运算符
a += b
a

array([[10, 21, 32],
       [43, 54, 65]])

#### 通用函数ufunc

`numpy`提供了非常多的通用函数(`ufunc`)，这些函数可以在数组上进行`element-wise`运算并产生一个数组作为输出，以下只节选少量几个函数

In [33]:
a = np.arange(1, 7).reshape(2, 3)
b = np.array([[-1, 2, 10], [5, -10 ,6]])

# 对数组每个元素进行指数计算
np.exp(a)

array([[  2.71828183,   7.3890561 ,  20.08553692],
       [ 54.59815003, 148.4131591 , 403.42879349]])

In [34]:
# 对数组每个元素进行对数计算
np.log2(a)

array([[0.        , 1.        , 1.5849625 ],
       [2.        , 2.32192809, 2.5849625 ]])

In [35]:
# 对数组每个元素进行加法运算
np.add(a, b)

array([[ 0,  4, 13],
       [ 9, -5, 12]])

In [36]:
# element-wise乘法运算
np.multiply(a, b)

array([[ -1,   4,  30],
       [ 20, -50,  36]])

In [37]:
# 对数组每个元素进行余弦运算
np.cos(a)

array([[ 0.54030231, -0.41614684, -0.9899925 ],
       [-0.65364362,  0.28366219,  0.96017029]])

In [38]:
# 两个数组对应位置处的最大值
np.maximum(a, b)

array([[ 1,  2, 10],
       [ 5,  5,  6]])

In [39]:
# 对应位置元素进行大小比较
np.greater(a, b)

array([[ True, False, False],
       [False,  True, False]])

#### 数学函数

我们接下来看看用得比较多的数学函数

In [40]:
a = np.arange(1, 7).reshape(2, 3).astype(np.float32)
b = np.array([[-1, 2, 10], [5, -10 ,6]]).astype(np.float32)

np.add(a, b)

array([[ 0.,  4., 13.],
       [ 9., -5., 12.]], dtype=float32)

In [41]:
np.subtract(a, b)

array([[ 2.,  0., -7.],
       [-1., 15.,  0.]], dtype=float32)

In [42]:
np.multiply(a, b)

array([[ -1.,   4.,  30.],
       [ 20., -50.,  36.]], dtype=float32)

In [43]:
np.divide(a, b)

array([[-1. ,  1. ,  0.3],
       [ 0.8, -0.5,  1. ]], dtype=float32)

In [44]:
np.power(b, a)

array([[-1.0000e+00,  4.0000e+00,  1.0000e+03],
       [ 6.2500e+02, -1.0000e+05,  4.6656e+04]], dtype=float32)

In [45]:
np.abs(b)

array([[ 1.,  2., 10.],
       [ 5., 10.,  6.]], dtype=float32)

In [46]:
np.exp2(a)

array([[ 2.,  4.,  8.],
       [16., 32., 64.]], dtype=float32)

In [47]:
np.log(a)

array([[0.       , 0.6931472, 1.0986123],
       [1.3862944, 1.609438 , 1.7917595]], dtype=float32)

In [48]:
np.square(a)

array([[ 1.,  4.,  9.],
       [16., 25., 36.]], dtype=float32)

In [49]:
np.sqrt(a)

array([[1.       , 1.4142135, 1.7320508],
       [2.       , 2.236068 , 2.4494898]], dtype=float32)

In [50]:
np.reciprocal(a)

array([[1.        , 0.5       , 0.33333334],
       [0.25      , 0.2       , 0.16666667]], dtype=float32)

In [51]:
np.sin(a)

array([[ 0.841471 ,  0.9092974,  0.14112  ],
       [-0.7568025, -0.9589243, -0.2794155]], dtype=float32)

In [52]:
np.cos(a)

array([[ 0.5403023 , -0.4161468 , -0.9899925 ],
       [-0.6536436 ,  0.28366217,  0.96017027]], dtype=float32)

In [53]:
np.tan(a)

array([[ 1.5574077 , -2.1850398 , -0.14254655],
       [ 1.1578213 , -3.380515  , -0.29100618]], dtype=float32)

In [54]:
np.tanh(a)

array([[0.7615942, 0.9640276, 0.9950548],
       [0.9993293, 0.9999092, 0.9999877]], dtype=float32)

#### 随机数

对于从事机器学习方向的工程师来说肯定会用到随机数，下面我们看看在`numpy`随机数中有哪些常用的函数

In [55]:
# 导入默认的随机数生成器
from numpy.random import default_rng

# 构造默认的随机数生成器
rng = default_rng()

In [56]:
# 0到1之间均匀分布的随机数，参数为返回数组的shape
rng.random((3, 5))

array([[0.86724519, 0.33859852, 0.30907417, 0.47419351, 0.1408352 ],
       [0.78296739, 0.26631613, 0.31869871, 0.43791164, 0.79291682],
       [0.67048803, 0.83063512, 0.2944604 , 0.52219136, 0.74815201]])

In [57]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
# 从一个一维数组中随机采样若干个元素，第一个参数为输入数组，第二个参数为采样元素个数
rng.choice(a, 5)

array([ 2, 10,  4,  8,  6])

In [58]:
# 默认对每个元素的采样是等概率的，还可以指定对不同元素采样的概率，即选中该元素的概率
# 我们假定前9个元素被选中的概率都为0.05，最后一个元素被选中的概率为0.55，总体上肯定是最后一个元素被选中的次数会最多
prob = [0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.55]
rng.choice(a, 5, p=prob)

array([10,  4,  8, 10, 10])

In [59]:
# 原地随机打乱数组元素顺序
rng.shuffle(a)
a

array([ 3,  6,  9,  4,  5,  7,  2,  8, 10,  1])

In [60]:
# 传递整数时获取一个随机排列
rng.permutation(15)

array([11,  1,  5,  3, 14,  9, 13,  7,  8,  4, 12,  0,  6,  2, 10])

In [61]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
# 传递数组时随机打乱数组，返回的是副本，原数组不变
rng.permutation(a)

array([ 2,  3,  4,  5,  8,  7, 10,  9,  1,  6])

In [62]:
# 获取一个服从[low, high)均匀分布的数组，第一个参数为low，第二个参数为high，第三个参数为数组的shape
rng.uniform(3, 5, size=(4, 6))

array([[4.99839665, 4.14413899, 3.18385245, 4.14592458, 3.74949212,
        4.49322149],
       [3.72655683, 4.59786848, 4.50883799, 4.82268285, 3.50208463,
        3.40845151],
       [3.37843589, 4.25609134, 4.57184332, 3.74223565, 4.35080345,
        4.90048159],
       [3.32244825, 4.57217103, 3.71395117, 3.39915366, 4.89055982,
        4.83410493]])

In [63]:
# 获取一个服从高斯分布的数组，第一个参数为均值，第二个参数为标准差，第三个参数为数组的shape
rng.normal(3, 2, size=(4, 6))

array([[1.147034  , 5.4724211 , 3.46679008, 3.22554213, 2.61152803,
        3.61360133],
       [3.09663916, 4.29380322, 5.43795285, 4.87314174, 0.32691021,
        5.91569798],
       [3.4089544 , 0.40660551, 5.31796228, 2.17529935, 4.3325889 ,
        1.44491937],
       [3.05580343, 5.33418074, 5.5245752 , 4.16738871, 3.64268922,
        6.02439261]])

In [64]:
# 获取一个服从正态分布的数组，参数为返回数组的shape
rng.standard_normal((4, 6))

array([[-0.70857269, -0.11940124, -0.23843881, -0.1141186 , -0.14196911,
        -1.86372672],
       [ 0.30978379, -1.2216526 , -0.88348822, -0.35573199, -0.55618009,
        -0.87197866],
       [-0.32368775, -0.78474891, -1.43856293, -0.00214572, -0.59493367,
        -0.36274481],
       [-0.58003695,  0.74684696, -0.97697793,  0.9012882 ,  0.43451727,
         1.97145145]])

#### shape操作

我们可以改变数组的`shape`

In [65]:
# 通过reshape改变数组的shape
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [66]:
# 通过转置改变数组shape
a.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [67]:
# 通过转置改变数组shape
np.transpose(a)

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [68]:
# reshape和转置并不会修改数组本身的shape，它们返回的是修改的副本，通过resize可以原地修改数组的shape
a.resize((5, 3))
a

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [69]:
# 返回一个将数组拉成一维的副本，可以指定行主序或列主序
a.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [70]:
# 扩展数组的shape，即额外添加一个轴，参数axis指定在哪个维度添加轴
b = np.expand_dims(a, axis=0)
b.shape

(1, 5, 3)

In [71]:
# -1表示最后一个轴
c = np.expand_dims(a, axis=-1)
c.shape

(5, 3, 1)

In [72]:
# squeeze表示删除长度为1对应的轴
a = np.arange(15).reshape(1, 3, 1, 5, 1)
a

array([[[[[ 0],
          [ 1],
          [ 2],
          [ 3],
          [ 4]]],


        [[[ 5],
          [ 6],
          [ 7],
          [ 8],
          [ 9]]],


        [[[10],
          [11],
          [12],
          [13],
          [14]]]]])

In [73]:
# 不指定axis参数则默认删除所有长度为1的轴
b = np.squeeze(a)
b.shape

(3, 5)

In [74]:
# 给定axis参数显式指定删除哪个长度为1的轴
c = np.squeeze(a, axis=2)
c.shape

(1, 3, 5, 1)

我们还可以对数组进行堆叠和分割

In [75]:
a = np.array([[1, 2, 3], [4, 5, 6]])
a

array([[1, 2, 3],
       [4, 5, 6]])

In [76]:
b = np.array([[7, 8, 9], [10, 11, 12]])
b

array([[ 7,  8,  9],
       [10, 11, 12]])

In [77]:
# 水平堆叠
np.hstack((a, b))

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [78]:
# 垂直堆叠
np.vstack((a, b))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [79]:
c = np.arange(24).reshape(4, 6)
c

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23]])

In [80]:
# 水平分割，第二个参数表示划分成多少个数组
np.hsplit(c, 2)

[array([[ 0,  1,  2],
        [ 6,  7,  8],
        [12, 13, 14],
        [18, 19, 20]]),
 array([[ 3,  4,  5],
        [ 9, 10, 11],
        [15, 16, 17],
        [21, 22, 23]])]

In [81]:
# 垂直分割
np.vsplit(c, 2)

[array([[ 0,  1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10, 11]]),
 array([[12, 13, 14, 15, 16, 17],
        [18, 19, 20, 21, 22, 23]])]

In [82]:
# 通过concatenate拼接数组，axis默认值为0
np.concatenate((a, b))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [83]:
# 指定axis参数表示沿哪个轴拼接
np.concatenate((a, b), axis=0)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [84]:
np.concatenate((a, b), axis=1)

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

#### 索引与切片

`numpy`数组索引和切片操作与Python列表类似但比列表索引和切片操作更强大，下面我们举例演示

In [85]:
a = np.arange(42).reshape(6, 7)
a

array([[ 0,  1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12, 13],
       [14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27],
       [28, 29, 30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39, 40, 41]])

In [86]:
a[2, 3]

17

In [87]:
a[1:3, 2]

array([ 9, 16])

In [88]:
a[1:3, 2:4]

array([[ 9, 10],
       [16, 17]])

In [89]:
a[1:3, :]

array([[ 7,  8,  9, 10, 11, 12, 13],
       [14, 15, 16, 17, 18, 19, 20]])

In [90]:
a[:, 2:4]

array([[ 2,  3],
       [ 9, 10],
       [16, 17],
       [23, 24],
       [30, 31],
       [37, 38]])

In [91]:
a[:]

array([[ 0,  1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12, 13],
       [14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27],
       [28, 29, 30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39, 40, 41]])

In [92]:
# 我们还以使用布尔数组进行索引
b = a > 20
b

array([[False, False, False, False, False, False, False],
       [False, False, False, False, False, False, False],
       [False, False, False, False, False, False, False],
       [ True,  True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True,  True,  True]])

In [93]:
a[b]

array([21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37,
       38, 39, 40, 41])

广播机制可以处理不具有完全相同`shape`的数组之间进行运算，广播机制有如下规则

- 如果所有输入数组不具有相同数量的维度，则将长度为1的轴重复地预先添加到较小数组的形状，直到所有数组具有相同数量的维度
- 确保沿特定维度的大小为1的数组表现为具有沿该维度具有最大形状的数组的大小

下面我们通过举例来理解广播机制

In [94]:
a = np.arange(24).reshape(2, 3, 4).astype(np.float32)
a

array([[[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]],

       [[12., 13., 14., 15.],
        [16., 17., 18., 19.],
        [20., 21., 22., 23.]]], dtype=float32)

In [95]:
a.shape

(2, 3, 4)

In [96]:
# b是标量
b = 3.0
# 由于广播机制标量将与数组的每个元素进行运算
a + b

array([[[ 3.,  4.,  5.,  6.],
        [ 7.,  8.,  9., 10.],
        [11., 12., 13., 14.]],

       [[15., 16., 17., 18.],
        [19., 20., 21., 22.],
        [23., 24., 25., 26.]]], dtype=float32)

In [97]:
# c与a有两个轴大小相同，最后一个轴长度为1，则numpy会沿最后一个轴进行广播使c和a具有相同的shape
c = np.arange(6).reshape(2, 3, 1)
print(c.shape)
a + c

(2, 3, 1)


array([[[ 0.,  1.,  2.,  3.],
        [ 5.,  6.,  7.,  8.],
        [10., 11., 12., 13.]],

       [[15., 16., 17., 18.],
        [20., 21., 22., 23.],
        [25., 26., 27., 28.]]])

In [98]:
# c与a有两个轴大小相同，第一个轴长度为1，则numpy会沿第一个轴进行广播使c和a具有相同的shape
c = np.arange(12).reshape(1, 3, 4)
print(c.shape)
a + c

(1, 3, 4)


array([[[ 0.,  2.,  4.,  6.],
        [ 8., 10., 12., 14.],
        [16., 18., 20., 22.]],

       [[12., 14., 16., 18.],
        [20., 22., 24., 26.],
        [28., 30., 32., 34.]]])

In [99]:
# c与a有两个轴大小相同，第二个轴长度为1，则numpy会沿第二个轴进行广播使c和a具有相同的shape
c = np.arange(8).reshape(2, 1, 4)
print(c.shape)
a + c

(2, 1, 4)


array([[[ 0.,  2.,  4.,  6.],
        [ 4.,  6.,  8., 10.],
        [ 8., 10., 12., 14.]],

       [[16., 18., 20., 22.],
        [20., 22., 24., 26.],
        [24., 26., 28., 30.]]])

通过上面几个例子我们可以发现在如下两种情况下广播机制将会生效

- 标量
- 元素较少的数组至少要有一个维度为1的轴(且其它轴大小相同)，广播的时候将沿着长度为1的轴进行

#### 统计

`numpy`提供了很多统计函数供我们计算统计量

In [100]:
a = np.arange(15).reshape(3, 5).astype(np.float32)
a

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.]], dtype=float32)

In [101]:
# 不指定axis则相当于将数组flatten之后取最大值
np.amax(a)

14.0

In [102]:
# 显式指定轴方向计算最大值
np.amax(a, axis=0)

array([10., 11., 12., 13., 14.], dtype=float32)

In [103]:
# 显式指定轴方向计算最大值
np.amax(a, axis=1)

array([ 4.,  9., 14.], dtype=float32)

In [104]:
# 求最小值
np.amin(a, axis=0)

array([0., 1., 2., 3., 4.], dtype=float32)

In [105]:
# 求最小值
np.amin(a, axis=1)

array([ 0.,  5., 10.], dtype=float32)

In [106]:
# 计算中位数
np.median(a, axis=0)

array([5., 6., 7., 8., 9.], dtype=float32)

In [107]:
# 计算中位数
np.median(a, axis=1)

array([ 2.,  7., 12.], dtype=float32)

In [108]:
# 计算平均值
np.mean(a)

7.0

In [109]:
# 计算平均值
np.mean(a, axis=0)

array([5., 6., 7., 8., 9.], dtype=float32)

In [110]:
# 计算平均值
np.mean(a, axis=1)

array([ 2.,  7., 12.], dtype=float32)

In [111]:
a = rng.standard_normal((3, 5))
a

array([[-0.03613134, -1.02802712, -0.0374172 ,  0.79588615,  1.34680288],
       [-0.30298488, -2.10091596,  0.5191933 , -0.16549108, -0.28936649],
       [-0.39775915, -1.0943581 , -1.59905664, -0.59936813,  0.35526015]])

In [112]:
# 计算标准差
np.std(a)

0.8702498209663332

In [113]:
# 计算标准差
np.std(a, axis=0)

array([0.15310405, 0.49087779, 0.89663047, 0.58302182, 0.67294962])

In [114]:
# 计算标准差
np.std(a, axis=1)

array([0.81118119, 0.87081762, 0.65930949])

In [115]:
# 计算方差
np.var(a)

0.7573347508919349

In [116]:
# 计算方差
np.var(a, axis=0)

array([0.02344085, 0.240961  , 0.8039462 , 0.33991445, 0.45286119])

In [117]:
# 计算方差
np.var(a, axis=1)

array([0.65801493, 0.75832334, 0.434689  ])

In [118]:
# 计算协方差矩阵
np.cov(a)

array([[0.82251866, 0.52925947, 0.47378787],
       [0.52925947, 0.94790417, 0.00630445],
       [0.47378787, 0.00630445, 0.54336125]])

In [119]:
# 计算相关系数
np.corrcoef(a)

array([[1.        , 0.59939559, 0.70870701],
       [0.59939559, 1.        , 0.00878457],
       [0.70870701, 0.00878457, 1.        ]])

#### 排序与搜索

In [120]:
a = rng.standard_normal((3, 4))
a

array([[-0.18729268, -0.17053526, -1.69567936, -0.4625281 ],
       [ 0.8764371 , -0.56367214, -0.61921309,  0.36938349],
       [-0.33732085, -0.76391359,  2.11856947, -0.27602392]])

In [121]:
# 沿着axi=0轴排序
np.sort(a, axis=0)

array([[-0.33732085, -0.76391359, -1.69567936, -0.4625281 ],
       [-0.18729268, -0.56367214, -0.61921309, -0.27602392],
       [ 0.8764371 , -0.17053526,  2.11856947,  0.36938349]])

In [122]:
# 沿着axi=1轴排序
np.sort(a, axis=1)

array([[-1.69567936, -0.4625281 , -0.18729268, -0.17053526],
       [-0.61921309, -0.56367214,  0.36938349,  0.8764371 ],
       [-0.76391359, -0.33732085, -0.27602392,  2.11856947]])

In [123]:
a = rng.standard_normal(5)
a

array([-0.96935725, -0.71957976,  1.45253194,  0.44770788, -0.98543473])

In [124]:
# argsort返回的是排序之前数组元素的索引
np.argsort(a)

array([4, 0, 1, 3, 2])

In [125]:
# 使用argsort返回的索引重排数组元素相当于执行排序逻辑
a[np.argsort(a)]

array([-0.98543473, -0.96935725, -0.71957976,  0.44770788,  1.45253194])

In [126]:
a = rng.standard_normal((3, 4))
a

array([[ 0.47256302,  2.59821072, -0.73046688, -0.53309839],
       [ 1.85948129, -1.31341689, -1.87508681, -1.03212247],
       [-0.5767892 ,  0.6956839 ,  0.44371649,  0.22933418]])

In [127]:
# argmax返回给定轴最大值对应的索引
np.argmax(a, axis=0)

array([1, 0, 2, 2])

In [128]:
# argmax返回给定轴最大值对应的索引
np.argmax(a, axis=1)

array([1, 0, 1])

In [129]:
# argmin返回给定轴最小值对应的索引
np.argmin(a, axis=0)

array([2, 1, 1, 1])

In [130]:
# argmin返回给定轴最小值对应的索引
np.argmin(a, axis=1)

array([2, 2, 0])

In [131]:
a = np.array([1, 0, 3, 5, 0, 7, 0, 9])
# nonzero返回非0值对应的索引
np.nonzero(a)

(array([0, 2, 3, 5, 7]),)

In [132]:
# 获取非0值
a[np.nonzero(a)]

array([1, 3, 5, 7, 9])

In [133]:
a = np.array([[1, 0, 3], [5, 7, 0], [0, 9, 10]])
a

array([[ 1,  0,  3],
       [ 5,  7,  0],
       [ 0,  9, 10]])

In [134]:
# nonzero返回非0值对应的索引
np.nonzero(a)

(array([0, 0, 1, 1, 2, 2]), array([0, 2, 0, 1, 1, 2]))

In [135]:
# 获取非0值
a[np.nonzero(a)]

array([ 1,  3,  5,  7,  9, 10])

In [136]:
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [137]:
# 在where中传递条件，并返回满足条件的值在数组中的索引
np.where(a>10)

(array([2, 2, 2, 2]), array([1, 2, 3, 4]))

In [138]:
# 取出满足条件的值
a[np.where(a>10)]

array([11, 12, 13, 14])

#### 拷贝与视图

当计算和操作数组时，有时会将数据复制到新数组中，有时则不会，有如下三种情况

In [139]:
# 1. 完全不复制
a = np.arange(12).reshape(3, 4)
# 直接赋值不会拷贝底层数据，此时a和b是完全相同的引用
b = a
b is a

True

In [140]:
# 修改b将会直接影响a
b.shape = 4, 3

In [141]:
a.shape

(4, 3)

In [142]:
# 2. 视图或浅拷贝

# 通过view返回数组的一个视图
c = a.view()
# c和a引用的是相同的底层数据，但是c和a本身是不同的对象
c is a

False

In [143]:
# 由于c和a引用的相同的底层数据，修改c将会影响到a
c[0, 0] = 999
a

array([[999,   1,   2],
       [  3,   4,   5],
       [  6,   7,   8],
       [  9,  10,  11]])

In [144]:
# 3. 深拷贝

# 此时d拷贝了a的底层数据
d = a.copy()
d is a

False

In [145]:
# d与a引用的是不同的数据，修改d不会对a有任何影响
d[0, 0] = 111
a

array([[999,   1,   2],
       [  3,   4,   5],
       [  6,   7,   8],
       [  9,  10,  11]])

#### 线性代数

`numpy`提供了一些函数进行线性代数运算

In [146]:
a = np.arange(6)
b = np.array([1, 3, 5, 7, 9, 2])
# 当输入数组都是一维数组时，dot计算两个数组的内积
np.dot(a, b)

80

In [147]:
a = np.arange(6).reshape(2, 3)
b = np.arange(6).reshape(3, 2)
# 当输入数组都是二维数组时，dot则相当于进行矩阵乘法运算
np.dot(a, b)

array([[10, 13],
       [28, 40]])

In [148]:
# 矩阵相乘
np.matmul(a, b)

array([[10, 13],
       [28, 40]])

In [149]:
a = rng.standard_normal((5, 6))
a

array([[-0.67779274, -0.43584808, -0.50879782, -0.12220024,  0.72142055,
         0.43514844],
       [ 0.25122282,  0.43516071,  0.11014259, -0.50443078,  0.09059932,
        -0.41050069],
       [ 1.84379455, -0.09565833,  1.19424905,  1.60532324,  1.92204909,
        -0.22200276],
       [-0.63852863,  1.20194857, -1.01663791, -0.97667962,  1.17517516,
        -0.85145252],
       [-0.13796195,  1.26180014,  0.26477579,  0.0396604 ,  0.45342356,
         1.78262275]])

In [150]:
# 奇异值分解
u, s, vh = np.linalg.svd(a)

In [151]:
u

array([[ 0.09328146, -0.18412356,  0.06887728,  0.8756293 , -0.43119177],
       [ 0.02717221, -0.1552299 , -0.15880215, -0.44902895, -0.86505505],
       [-0.95185016, -0.24914703, -0.16522615,  0.06708888,  0.01031682],
       [ 0.28664621, -0.82773697, -0.40605738, -0.04648319,  0.2562073 ],
       [-0.04873876, -0.44133827,  0.88196118, -0.15806561, -0.00219263]])

In [152]:
s

array([3.42644166, 2.46474677, 2.21410541, 1.29293498, 0.32705449])

In [153]:
vh

array([[-0.58011292,  0.10076213, -0.43355035, -0.53554894, -0.42171609,
        -0.02632411],
       [ 0.0875733 , -0.61476701,  0.20435922,  0.19952205, -0.72973669,
        -0.01746576],
       [-0.11454745,  0.24455901,  0.17906945,  0.10749867, -0.1623939 ,
         0.92578408],
       [-0.41078284, -0.64873821, -0.31668262,  0.20598985,  0.45916215,
         0.23842528],
       [-0.21199535,  0.35373491, -0.38103663,  0.78058718, -0.21256492,
        -0.17389789],
       [ 0.65497651, -0.07816489, -0.70194639, -0.10037003, -0.08517275,
         0.23417672]])

In [154]:
a = np.arange(10)
# 对一维数组计算其2范数
np.linalg.norm(a)

16.881943016134134

In [155]:
a = np.arange(15).reshape(3, 5)
# 对二维数组计算Frobenius范数
np.linalg.norm(a)

31.85906464414798

In [156]:
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
# 计算行列式
np.linalg.det(a)

-9.51619735392994e-16

In [157]:
# 计算矩阵的迹
np.trace(a)

15

In [158]:
# 计算逆矩阵
np.linalg.inv(a)

array([[ 3.15251974e+15, -6.30503948e+15,  3.15251974e+15],
       [-6.30503948e+15,  1.26100790e+16, -6.30503948e+15],
       [ 3.15251974e+15, -6.30503948e+15,  3.15251974e+15]])

In [159]:
# 计算伪逆矩阵
np.linalg.pinv(a)

array([[-6.38888889e-01, -1.66666667e-01,  3.05555556e-01],
       [-5.55555556e-02,  1.38777878e-16,  5.55555556e-02],
       [ 5.27777778e-01,  1.66666667e-01, -1.94444444e-01]])

#### IO操作

`numpy`提供了函数可以使我们直接从文件加载数组或者把数组写入到文件中，如下函数可以二进制或者文本格式读写存储`numpy`数组的文件

- load: 读取`.npy`或`.npz`格式的`numpy`数组文件
- save: 以`.npy`格式存储数组
- loadtxt: 从文本文件读取数组
- savetxt: 将数组写入文本文件中

In [160]:
arr = rng.standard_normal((5, 6))
arr

array([[ 0.43013284, -0.18764296, -0.59434967, -0.18275303,  0.78840289,
         0.47128256],
       [-0.77487774,  1.03658648, -0.25082177,  0.6549337 , -0.40281681,
         0.19387217],
       [ 0.71593958,  0.20303987,  0.67033744,  2.55619232, -1.22048408,
        -0.63190514],
       [ 0.36782676, -1.92969043, -0.60999094, -0.93539982,  0.25029916,
        -0.00969169],
       [ 0.91035527, -0.63976366, -0.99167483, -0.34443958,  1.12346298,
         0.15280544]])

In [161]:
brr = np.arange(30).reshape(5, 6)
brr

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [162]:
# 以二进制格式把numpy数组写入文件
with open("./data/test.npy", "wb") as f:
    np.save(f, arr)
    np.save(f, brr)

In [163]:
# 读取numpy数组
with open("./data/test.npy", "rb") as f:
    arr2 = np.load(f)
    brr2 = np.load(f)

In [164]:
arr2

array([[ 0.43013284, -0.18764296, -0.59434967, -0.18275303,  0.78840289,
         0.47128256],
       [-0.77487774,  1.03658648, -0.25082177,  0.6549337 , -0.40281681,
         0.19387217],
       [ 0.71593958,  0.20303987,  0.67033744,  2.55619232, -1.22048408,
        -0.63190514],
       [ 0.36782676, -1.92969043, -0.60999094, -0.93539982,  0.25029916,
        -0.00969169],
       [ 0.91035527, -0.63976366, -0.99167483, -0.34443958,  1.12346298,
         0.15280544]])

In [165]:
brr2

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [166]:
# 以文本格式存储数组，可显式指定数据分隔符
np.savetxt("./data/test.txt", arr, delimiter=",")

In [167]:
# 从文本文件加载numpy数组，可显式指定数据分隔符
np.loadtxt("./data/test.txt", delimiter=",")

array([[ 0.43013284, -0.18764296, -0.59434967, -0.18275303,  0.78840289,
         0.47128256],
       [-0.77487774,  1.03658648, -0.25082177,  0.6549337 , -0.40281681,
         0.19387217],
       [ 0.71593958,  0.20303987,  0.67033744,  2.55619232, -1.22048408,
        -0.63190514],
       [ 0.36782676, -1.92969043, -0.60999094, -0.93539982,  0.25029916,
        -0.00969169],
       [ 0.91035527, -0.63976366, -0.99167483, -0.34443958,  1.12346298,
         0.15280544]])