In [3]:
import numpy as np

## 对axis轴的理解

通常而言，在numpy中之前可以简单的理解为：axis=0代表行， axis=1代表列。这样的理解是便于记忆，其实是不对的。

在numpy中，最外面的括号代表axis=0，依次往里的括号对应的axis的计数就依次累加1。比如我们有如下的二维数组：

```shell
[                # 这里的[]代表axis=0
  [0, 2, 1],     # 这里的[]代表axis=1
  [3, 4, 1]      # 这里的[]代表axis=1
]
```

也就是说对于二维数组而言，最外面的括号代表：axis=0，最里面的两个子括号代表：axis=1。

对于运算方式而言，如果指定的轴进行相关操作，那么会使用轴下的每个直接子元素的第0个，第1个...分别进行相关的运算操作。

In [6]:
arr = np.arange(4).reshape(2, 2)
arr

array([[0, 1],
       [2, 3]])

In [8]:
# ❓ 如何理解按照axis=0方式求和
# axis=0方式下的直接子元素为：[0, 1]，[2, 3]
# 则子元素的第0个元素，第1个元素分别求和，即：0 + 2 = 2，1 + 3 = 4 
# 最后的计算结果为：[2, 4]
np.sum(arr, axis = 0)

array([2, 4])

In [10]:
# ❓ 如何理解按照axis=1方式求和
# axis=1方式下的直接子元素为：0和1 以及 2和3
# 则子元素的第0个元素，第1个元素分别求和，即：0 + 1 = 1，2 + 3 = 5
# 最后的计算结果为：[1, 5]
np.sum(arr, axis = 1)

array([1, 5])

In [13]:
# ⚠️ 这里唯一的特例是delete函数
arr1 = np.array([[0,3,1,3], [3,4,1,9]])
print("<arr1> \n", arr1)
# axis=0方式下的直接子元素为：[0 3 1 3] 以及 [3 4 1 9]
# 这里的0表示删除直接子元素中的第0个元素，即删除了[0 3 1 3]
np.delete(arr1, 0, axis = 0)

<arr1> 
 [[0 3 1 3]
 [3 4 1 9]]


array([[0, 3, 1, 3],
       [3, 4, 1, 9]])

In [14]:
arr2 = np.array([[0,3,1,3], [3,4,1,9]])
print("<arr2> \n", arr1)
# axis=1方式下的直接子元素为：
#       对于[0 3 1 3]来说直接子元素为0，3，1和3
#       对于[3 4 1 9]来说直接子元素为3，4，1和9
# 这里的1表示删除直接子元素中的第1个元素：
#       对于[0 3 1 3]来说删除第1个直接子元素为3
#       对于[3 4 1 9]来说删除第1个直接子元素为4
np.delete(arr1, 1, axis = 1)

<arr2> 
 [[0 3 1 3]
 [3 4 1 9]]


array([[0, 1, 3],
       [3, 1, 9]])

## 常用函数

更多常用的函数可以参考：https://numpy.org/doc/stable/reference/routines.html

### 一.一元函数

In [15]:
arr = np.random.uniform(-10, 10, size = (3, 5))
arr

array([[-5.75451249, -9.09896956, -9.76757787, -9.0773475 ,  3.17405444],
       [ 4.24497658, -4.88536644, -1.10787756,  5.89263953, -0.77042566],
       [ 5.06660018, -1.74982955, -2.10423537, -5.80588756, -3.12374683]])

In [16]:
# 绝对值
np.abs(arr)

array([[5.75451249, 9.09896956, 9.76757787, 9.0773475 , 3.17405444],
       [4.24497658, 4.88536644, 1.10787756, 5.89263953, 0.77042566],
       [5.06660018, 1.74982955, 2.10423537, 5.80588756, 3.12374683]])

In [17]:
# 开平方跟
np.sqrt(arr)

  np.sqrt(arr)


array([[       nan,        nan,        nan,        nan, 1.78158762],
       [2.0603341 ,        nan,        nan, 2.42747596,        nan],
       [2.25091097,        nan,        nan,        nan,        nan]])

In [19]:
# 平方
np.square(arr)

array([[33.11441397, 82.79124714, 95.40557737, 82.39823758, 10.07462159],
       [18.0198262 , 23.8668053 ,  1.22739268, 34.72320065,  0.59355569],
       [25.67043738,  3.06190346,  4.4278065 , 33.70833042,  9.75779427]])

In [20]:
# e指数
np.exp(arr)

array([[3.16845089e-03, 1.11780932e-04, 5.72789214e-05, 1.14224186e-04,
        2.39042063e+01],
       [6.97541267e+01, 7.55635427e-03, 3.30259174e-01, 3.62360485e+02,
        4.62816025e-01],
       [1.58634082e+02, 1.73803565e-01, 1.21938876e-01, 3.00978219e-03,
        4.39920285e-02]])

In [21]:
# 对数
np.log(arr)

  np.log(arr)


array([[       nan,        nan,        nan,        nan, 1.15500977],
       [1.4457363 ,        nan,        nan, 1.77370404,        nan],
       [1.62267002,        nan,        nan,        nan,        nan]])

In [22]:
# 符号函数
# > 0 => 1
# = 0 => 0
# < 0 => -1
np.sign(arr)

array([[-1., -1., -1., -1.,  1.],
       [ 1., -1., -1.,  1., -1.],
       [ 1., -1., -1., -1., -1.]])

In [25]:
# 整数和小数分离
np.modf(arr)

(array([[-0.75451249, -0.09896956, -0.76757787, -0.0773475 ,  0.17405444],
        [ 0.24497658, -0.88536644, -0.10787756,  0.89263953, -0.77042566],
        [ 0.06660018, -0.74982955, -0.10423537, -0.80588756, -0.12374683]]),
 array([[-5., -9., -9., -9.,  3.],
        [ 4., -4., -1.,  5., -0.],
        [ 5., -1., -2., -5., -3.]]))

In [26]:
# 判断是不是数值
np.isnan(arr)

array([[False, False, False, False, False],
       [False, False, False, False, False],
       [False, False, False, False, False]])

In [27]:
# 判断是否是无穷大
np.isinf(arr)

array([[False, False, False, False, False],
       [False, False, False, False, False],
       [False, False, False, False, False]])

### 二.二元函数

In [28]:
# 加法
np.add(arr, 1)

array([[-4.75451249, -8.09896956, -8.76757787, -8.0773475 ,  4.17405444],
       [ 5.24497658, -3.88536644, -0.10787756,  6.89263953,  0.22957434],
       [ 6.06660018, -0.74982955, -1.10423537, -4.80588756, -2.12374683]])

In [29]:
# >
np.greater(arr, 0)

array([[False, False, False, False,  True],
       [ True, False, False,  True, False],
       [ True, False, False, False, False]])

In [30]:
# &&
np.logical_and(arr > 0, arr < 5)

array([[False, False, False, False,  True],
       [ True, False, False, False, False],
       [False, False, False, False, False]])

In [31]:
# ||
np.logical_and(arr > 0, arr < 5)

array([[False, False, False, False,  True],
       [ True, False, False, False, False],
       [False, False, False, False, False]])

### 三.聚合函数

In [32]:
# 默认求所有元素的和
np.sum(arr)

-34.86750565819829

In [33]:
# 按列求和
np.sum(arr, axis = 0)

array([  3.55706428, -15.73416556, -12.97969079,  -8.99059553,
        -0.72011805])

In [34]:
# 按列求积
np.prod(arr, axis = 0)

array([-123.76574772,  -77.78307431,  -22.77052077,  310.554236  ,
          7.63872609])

In [35]:
# 按列求均值
np.mean(arr, axis = 0)

array([ 1.18568809, -5.24472185, -4.3265636 , -2.99686518, -0.24003935])

In [36]:
# 求标准差
np.std(arr)

5.018576293152813

In [39]:
# 求最小值对应索引
print("<arr value>\n", arr)
print("<arr min>\n", np.min(arr))
print("<arr min>\n", np.argmin(arr))

<arr value>
 [[-5.75451249 -9.09896956 -9.76757787 -9.0773475   3.17405444]
 [ 4.24497658 -4.88536644 -1.10787756  5.89263953 -0.77042566]
 [ 5.06660018 -1.74982955 -2.10423537 -5.80588756 -3.12374683]]
<arr min>
 -9.767577866246967
<arr min>
 2


In [41]:
# 按列求最小值对应索引
print("<arr value>\n", arr)
print("<arr min>\n", np.min(arr, axis = 0))
print("<arr min>\n", np.argmin(arr, axis = 0))

<arr value>
 [[-5.75451249 -9.09896956 -9.76757787 -9.0773475   3.17405444]
 [ 4.24497658 -4.88536644 -1.10787756  5.89263953 -0.77042566]
 [ 5.06660018 -1.74982955 -2.10423537 -5.80588756 -3.12374683]]
<arr min>
 [-5.75451249 -9.09896956 -9.76757787 -9.0773475  -3.12374683]
<arr min>
 [0 0 0 0 2]


In [42]:
# 求中位数
np.median(arr)

-2.104235372538912

### 四.布尔函数

In [44]:
arr1 = np.random.randint(10, size = (3, 5))
arr1

array([[9, 3, 4, 9, 1],
       [9, 7, 2, 4, 5],
       [0, 0, 7, 7, 1]])

In [45]:
# any函数用于判断任何一个元素满足条件是否为真
# 例如：判断数组中不是所有元素都是0
np.any(arr1 == 0)

True

In [50]:
# all函数用于判断所有元素都满足条件则为真
arr2 = np.zeros((3, 5))
np.all(arr2 == 0)

True

### 五.排序函数

#### np.sort函数

In [51]:
unsorted_arr = np.random.randint(10, size = (3, 5))
unsorted_arr

array([[9, 7, 6, 5, 2],
       [5, 4, 2, 9, 7],
       [8, 2, 0, 6, 2]])

In [54]:
# 默认情况下，sort函数会按照最大的axis轴进行排序
# 如果是二维数组，默认会按照axis=1排序，则是按行排序
# ⚠️ 默认情况下不会改变原始对象
np.sort(unsorted_arr)

array([[2, 5, 6, 7, 9],
       [2, 4, 5, 7, 9],
       [0, 2, 2, 6, 8]])

In [55]:
# 按列排序
np.sort(unsorted_arr, axis = 0)

array([[5, 2, 0, 5, 2],
       [8, 4, 2, 6, 2],
       [9, 7, 6, 9, 7]])

#### sort函数

numpy的ndarray的sort函数会改变原始对象

In [56]:
arr3 = np.random.randint(10, size = (3, 5))
arr3

array([[2, 8, 1, 4, 3],
       [3, 0, 3, 2, 8],
       [4, 7, 6, 2, 7]])

In [60]:
arr3.sort(axis = 0)

In [61]:
arr3

array([[0, 2, 3, 3, 7],
       [1, 2, 3, 4, 8],
       [2, 4, 6, 7, 8]])

#### argsort函数

用于获取排序后的索引

In [67]:
arr4 = np.random.randint(10, size = (3, 5))
arr4

array([[2, 4, 7, 1, 3],
       [4, 5, 6, 3, 3],
       [9, 2, 8, 7, 0]])

In [68]:
np.argsort(arr4, axis = 1)

array([[3, 0, 4, 1, 2],
       [3, 4, 0, 1, 2],
       [4, 1, 3, 2, 0]])

#### 降序排序

In [69]:
arr5 = np.random.randint(10, size = (3, 5))
arr5

array([[1, 3, 0, 9, 4],
       [0, 8, 9, 5, 0],
       [0, 5, 9, 1, 5]])

In [72]:
-np.sort(-arr5, axis = 1)

array([[9, 4, 3, 1, 0],
       [9, 8, 5, 0, 0],
       [9, 5, 5, 1, 0]])

### 六.其他函数

#### apply_along_axis

沿着某个轴执之行指定的函数

In [83]:
arr6 = np.random.randint(10, size = (3, 5))
arr6

array([[7, 9, 1, 5, 5],
       [5, 8, 8, 3, 9],
       [0, 6, 3, 4, 3]])

In [87]:
# 按行求平均值，并且去除最大最小值

def _mean(x):
    return x[(x != x.max()) & (x != x.min())].mean()
    
np.apply_along_axis(_mean, axis = 1, arr = arr6)

array([5.66666667, 7.        , 3.33333333])

#### linspace

将指定区间内的值平均分为指定份数

In [95]:
# 将[1, 100]平均分成4份
np.linspace(1, 100, 4)

array([  1.,  34.,  67., 100.])

#### unique

返回数组中的唯一值（去重）

In [96]:
arr7 = np.random.randint(10, size = (3, 5))
arr7

array([[7, 7, 8, 8, 9],
       [1, 7, 7, 6, 2],
       [9, 5, 2, 5, 7]])

In [98]:
# 获取数组中取出后的值
np.unique(arr7)

array([1, 2, 5, 6, 7, 8, 9])

In [103]:
# 统计数组中每个元素以及对应个数
# 返回的左指为去重后的数组
# 返回的右指为每个元素个数
np.unique(arr7, return_counts = True)

(array([1, 2, 5, 6, 7, 8, 9]), array([1, 2, 2, 1, 5, 2, 2]))