## numpy数组聚合运算

In [1]:
import numpy as np

|方法名|NaN安全版本|描述|
|:---|:---|:---|
|np.sum()|np.nansum()|求和|
|np.prod()|np.nanprod()|乘积|
|np.mean()|np.nanmean()|均值|
|np.std()|np.nanstd()|标准差|
|np.var()|np.nanvar()|方差|
|np.median()|np.nanmedian()|中位数|
|np.min()|np.nanmin()|最小值|
|np.max()|np.nanmax()|最大值|
|np.argmin()|np.nanargmin()|最小值索引|
|np.argmax()|np.nanargmax()|最大值索引|
|np.any()|无|判断是否至少存在一个元素满足条件|
|np.all()|无|判断是否所有元素都满足条件|

- 说明：在python中 空值使用None表示，而在numpy中空值使用nan表示
- 如果想打印输出nan 不能直接输出nan，而是使用 np.nan
- np.nan与任何数据进行运算的结果都是 np.nan

In [3]:
np.nan

nan

### 1. 求和 sum()

#### 1.1 一维数组

In [4]:
data = np.array([1,2,3,4,5])
data

array([1, 2, 3, 4, 5])

In [5]:
np.sum(data)

15

#### 1.2 二维数组
- 不指定维度，则将二维数组里所有内容进行求和
- 指定轴，就求对应轴的和
- 指定0轴，就是行，把所有行对应相加 结果是一个一维数组
- 指定1轴，就是列，把所有列对应相加 结果是一个一维数组

In [6]:
data = np.array([1,2,3,4,5,6,7,8]).reshape(2,4)
data

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [7]:
np.sum(data)

36

In [8]:
np.sum(data, axis=0)

array([ 6,  8, 10, 12])

In [9]:
np.sum(data, axis=1)

array([10, 26])

#### 1.3 三维数组
- 和二维数组同理

In [10]:
data = np.arange(24).reshape(2,3,4)
data

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [11]:
np.sum(data)

276

In [12]:
np.sum(data, axis=0)

array([[12, 14, 16, 18],
       [20, 22, 24, 26],
       [28, 30, 32, 34]])

In [13]:
np.sum(data, axis=1)

array([[12, 15, 18, 21],
       [48, 51, 54, 57]])

In [14]:
np.sum(data, axis=2)

array([[ 6, 22, 38],
       [54, 70, 86]])

#### 1.4 有nan的情况
- 使用通常的sum方法后，由于nan与任何数相加都是nan,因此执行结果为nan
- 使用np.nansum方法，会事先将所有的nan转换成0，再执行加法

In [23]:
data = np.arange(24, dtype=np.float64)
data[2] = np.nan
data[7] = np.nan
data[12] = np.nan
data[20] = np.nan
data[23] = np.nan
data

array([ 0.,  1., nan,  3.,  4.,  5.,  6., nan,  8.,  9., 10., 11., nan,
       13., 14., 15., 16., 17., 18., 19., nan, 21., 22., nan])

In [24]:
display(np.sum(data),np.nansum(data))

nan

212.0

In [25]:
data.shape=(4,6)
data

array([[ 0.,  1., nan,  3.,  4.,  5.],
       [ 6., nan,  8.,  9., 10., 11.],
       [nan, 13., 14., 15., 16., 17.],
       [18., 19., nan, 21., 22., nan]])

In [26]:
display(np.sum(data),np.nansum(data))

nan

212.0

In [27]:
display(np.sum(data, axis=0),np.nansum(data, axis=0))

array([nan, nan, nan, 48., 52., nan])

array([24., 33., 22., 48., 52., 33.])

In [28]:
display(np.sum(data, axis=1),np.nansum(data, axis=1))

array([nan, nan, nan, nan])

array([13., 44., 75., 80.])

In [29]:
data.shape=(2,3,4)
data

array([[[ 0.,  1., nan,  3.],
        [ 4.,  5.,  6., nan],
        [ 8.,  9., 10., 11.]],

       [[nan, 13., 14., 15.],
        [16., 17., 18., 19.],
        [nan, 21., 22., nan]]])

In [30]:
display(np.sum(data),np.nansum(data))

nan

212.0

In [31]:
display(np.sum(data, axis=0),np.nansum(data, axis=0))

array([[nan, 14., nan, 18.],
       [20., 22., 24., nan],
       [nan, 30., 32., nan]])

array([[ 0., 14., 14., 18.],
       [20., 22., 24., 19.],
       [ 8., 30., 32., 11.]])

In [32]:
display(np.sum(data, axis=1),np.nansum(data, axis=1))

array([[12., 15., nan, nan],
       [nan, 51., 54., nan]])

array([[12., 15., 16., 14.],
       [16., 51., 54., 34.]])

In [33]:
display(np.sum(data, axis=2),np.nansum(data, axis=2))

array([[nan, nan, 38.],
       [nan, 70., nan]])

array([[ 4., 15., 38.],
       [42., 70., 43.]])

### 其它聚合函数与sum同理，不再演示

### 2. any()和all()
- any()：只要数组里存在一个元素满足条件则结果为True
- all()：需要数组里每个元素都满足条件，结果才为True
- 同理，当数组是高维数组时，也可以指定轴，否则处理成一维数组

In [42]:
data = np.array([1,2,3,4,5])
data

array([1, 2, 3, 4, 5])

In [43]:
np.any(data > 3)

True

In [44]:
np.all(data > 3)

False

In [45]:
np.any(data > 5)

False

In [46]:
np.all(data > 5)

False

In [47]:
data = np.array([1,2,3,4,5,6,7,8]).reshape(2,4)
data

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [48]:
np.any(data > 3)

True

In [49]:
np.all(data > 3)

False

In [50]:
np.any(data > 3, axis=0)

array([ True,  True,  True,  True])

In [51]:
np.any(data > 3, axis=1)

array([ True,  True])

In [52]:
np.all(data > 3, axis=0)

array([False, False, False,  True])

In [53]:
np.all(data > 3, axis=1)

array([False,  True])

In [54]:
data = np.arange(24).reshape(2,3,4)
data

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [55]:
np.any(data > 3, axis=0)

array([[ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

In [56]:
np.any(data > 3, axis=1)

array([[ True,  True,  True,  True],
       [ True,  True,  True,  True]])

In [57]:
np.any(data > 3, axis=2)

array([[False,  True,  True],
       [ True,  True,  True]])

In [58]:
np.all(data > 3, axis=0)

array([[False, False, False, False],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

In [59]:
np.all(data > 3, axis=1)

array([[False, False, False, False],
       [ True,  True,  True,  True]])

In [60]:
np.all(data > 3, axis=2)

array([[False,  True,  True],
       [ True,  True,  True]])