### 聚合操作

In [1]:
# 所谓的聚合操作就是把一组值变为 1 个值，最典型的 1 个聚合操作就是对一组数或一个向量来进行求和
import numpy as np
L = np.random.random(100)

In [2]:
L

array([0.94608337, 0.71676299, 0.4930339 , 0.71773322, 0.74998843,
       0.79300573, 0.48293344, 0.85948711, 0.62296152, 0.42715402,
       0.5694877 , 0.19346186, 0.81571334, 0.49323735, 0.07669165,
       0.23120141, 0.72866937, 0.74418265, 0.48044333, 0.13164606,
       0.97835983, 0.89898506, 0.88695991, 0.09094747, 0.49494995,
       0.09698131, 0.12666717, 0.33501239, 0.1995155 , 0.98122396,
       0.04899104, 0.09559617, 0.53709434, 0.63203784, 0.99640711,
       0.01110339, 0.73601346, 0.55686201, 0.35328482, 0.98129568,
       0.25458917, 0.76476939, 0.57336889, 0.47409489, 0.88187367,
       0.05928297, 0.84583198, 0.89157861, 0.56867609, 0.82607195,
       0.93779965, 0.59927193, 0.11975515, 0.03227632, 0.22142565,
       0.83361774, 0.38614316, 0.09040529, 0.52865538, 0.47175117,
       0.35891555, 0.86197685, 0.72171532, 0.11838102, 0.50584706,
       0.10519147, 0.49499589, 0.77722616, 0.75506155, 0.91578962,
       0.49860385, 0.52158114, 0.62692438, 0.73104468, 0.82915

In [3]:
# sum()用来计算一个 List 列表的和
sum(L)

50.99100823817459

In [4]:
np.sum(L)

50.99100823817458

In [5]:
# 使用 np.sum()比 Python 原生的 sum() 的效率要高得多
big_array = np.random.rand(1000000)
%timeit sum(big_array)
%timeit np.sum(big_array)

82.7 ms ± 893 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
1.29 ms ± 32.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [6]:
# 求一组数据的最小值
np.min(big_array)

6.428451728712758e-07

In [7]:
# 求一组数据的最大值
np.max(big_array)

0.9999972369411224

In [8]:
# 对于 NumPy 数组来说，可以直接采用面向对象的调用方式
big_array.min()

6.428451728712758e-07

In [9]:
big_array.max()

0.9999972369411224

In [10]:
big_array.sum()

500319.11740623583

In [11]:
X = np.arange(16).reshape(4, -1)
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [12]:
# 聚合运算默认不论传进的是一个一维数组还是一个二维数组，都是将所有的元素进行一个聚合
np.sum(X)

120

In [13]:
np.min(X)

0

In [14]:
np.max(X)

15

In [15]:
# 求出每一行的和或者是每一列的和
# axis = 0 求的是每一列的和，axis = 0 代表着的是沿着行的方向进行运算
np.sum(X, axis = 0)

array([24, 28, 32, 36])

In [16]:
# 求出每一行的和或者是每一列的和
# axis = 1 求的是每一行的和，axis = 1 代表着的是沿着列的方向进行运算
np.sum(X, axis = 1)

array([ 6, 22, 38, 54])

In [17]:
# axis 传的是多少可以理解为把这个轴给压缩掉，也就是不要这个轴
# 例如传的是 0 的话，就把行这个轴给压缩掉，也就是不要行，也就成了求某一列的和

In [38]:
# np.prod()是用来求所有元素的乘积
np.prod(X)

0

In [39]:
np.prod(X + 1)

2004189184

In [40]:
# 求平均值
np.mean(X)

7.5

In [41]:
# 求中位数
np.median(X)

7.5

In [42]:
# 虽然会经常使用均值来描述样本的平均情况，但是均值有一个非常大的缺点，
# 就是对与样本整体差距非常大的点非常的敏感
v = np.array([1, 1, 2, 2, 10])
np.mean(v)

3.2

In [43]:
np.median(v)

2.0

In [44]:
# 意思是 50% 的元素都是小于等于下面式子的值，下面这个式子的值跟我们的中位数是同一个值
np.percentile(big_array, q = 50)

0.500116795324427

In [46]:
np.median(big_array)

0.500116795324427

In [47]:
# 意思是 100% 的元素都是小于等于下面式子的值，下面这个式子的值跟我们的最大数是同一个值
np.percentile(big_array, q = 100)

0.9999972369411224

In [48]:
np.max(big_array)

0.9999972369411224

In [50]:
# 意思是 0% 的元素都是小于等于下面式子的值，下面这个式子的值跟我们的最小数是同一个值
np.percentile(big_array, q = 0)

6.428451728712758e-07

In [51]:
np.min(big_array)

6.428451728712758e-07

In [53]:
# 在统计学上，我们通常会对如下几个百分位点感兴趣
# 0 就是最小值，50 就是中位数，100 就是最大值
for pencent in (0, 25 , 50, 75, 100):
    print(np.percentile(big_array, q = pencent))

6.428451728712758e-07
0.2503114755896646
0.500116795324427
0.7504327599922388
0.9999972369411224


In [54]:
# 求方差
np.var(big_array)

0.0833229646695057

In [55]:
# 求标准差
np.std(big_array)

0.28865717498358795

In [57]:
# 均值为 0，标准差为 1
x = np.random.normal(0, 1, size = 1000000)
x

array([-2.57124063, -0.52533429,  1.48228204, ...,  1.84591405,
       -1.31325275,  0.79861713])

In [58]:
np.mean(x)

0.00043277496420602007

In [59]:
np.median(x)

0.000773123666012312

In [60]:
np.max(x)

4.8967891469601375

In [61]:
np.min(x)

-4.864997922212865

In [63]:
np.var(x)

1.000550923412187

In [64]:
np.std(x)

1.000275423776965

In [65]:
for percent in [0, 25, 50, 75, 100]:
    print(np.percentile(x, q = percent))

-4.864997922212865
-0.6747692530609515
0.000773123666012312
0.6751538114784634
4.8967891469601375


### 索引

In [66]:
# 求出最小的值在哪里，返回的是一个索引值
np.argmin(x)

566237

In [69]:
x[566237]

-4.864997922212865

In [70]:
# 求出最大的值在哪里，返回的是一个索引值
np.argmax(x)

539731

In [71]:
x[539731]

4.8967891469601375

### 排序和使用索引

In [72]:
x = np.arange(16)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [73]:
# 使用 np.random.shuffle()可以直接把向量变成乱序
np.random.shuffle(x)
x

array([ 8,  7,  5,  3,  9, 15,  6, 11, 12,  1, 14,  0,  2,  4, 10, 13])

In [74]:
# 对 x 进行排序，sort()后是返回一个排好序的向量，但是并没有改变 x 的本身，x 的本身还是乱序的
np.sort(x)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [75]:
x

array([ 8,  7,  5,  3,  9, 15,  6, 11, 12,  1, 14,  0,  2,  4, 10, 13])

In [77]:
# 直接原地对 x 本身进行修改
x.sort()
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [79]:
X = np.random.randint(10, size = (4, 4))
X

array([[2, 6, 7, 8],
       [6, 4, 2, 3],
       [9, 6, 2, 2],
       [1, 1, 7, 0]])

In [81]:
np.random.shuffle(X)
X

array([[9, 6, 2, 2],
       [6, 4, 2, 3],
       [1, 1, 7, 0],
       [2, 6, 7, 8]])

In [83]:
# 在二维数组上使用 sort() 是默认的把每一行进行排序
X.sort()
X

array([[2, 2, 6, 9],
       [2, 3, 4, 6],
       [0, 1, 1, 7],
       [2, 6, 7, 8]])

In [86]:
X = np.random.randint(10, size = (4, 4))
X

array([[0, 6, 8, 4],
       [4, 1, 0, 9],
       [0, 4, 2, 2],
       [8, 6, 8, 6]])

In [88]:
np.sort(X)

array([[0, 4, 6, 8],
       [0, 1, 4, 9],
       [0, 2, 2, 4],
       [6, 6, 8, 8]])

In [90]:
# np.sort()的默认的 axis 的值为 1，也就是沿着列排序，也就是把每一行变成有序的
np.sort(X, axis = 1)

array([[0, 4, 6, 8],
       [0, 1, 4, 9],
       [0, 2, 2, 4],
       [6, 6, 8, 8]])

In [91]:
# np.sort()的默认的 axis 的值为 0，也就是沿着行排序，也就是把每一列变成有序的
np.sort(X, axis = 0)

array([[0, 1, 0, 2],
       [0, 4, 2, 4],
       [4, 6, 8, 6],
       [8, 6, 8, 9]])

In [92]:
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [96]:
np.random.shuffle(x)
x

array([13,  6, 14,  7, 15,  1,  3,  5,  9,  4,  8, 12, 10,  2,  0, 11])

In [103]:
# 数组的意思是最小的数字在原数组的 x[14]个位置，返回的结果都是存放的是元素的索引
np.argsort(x)

array([14,  5, 13,  6,  9,  7,  1,  3, 10,  8, 12, 15, 11,  0,  2,  4],
      dtype=int64)

In [99]:
# 小于第 2 个参数的数都放在参数的左边，而大于第 2 个参数的数都放在参数的右边
# 下面是快速排序的一个非常著名的子过程，叫做 partition
# partition()做的事情是寻找出一个标定点，小于这个标定点的数都放在这个数的左边，
# 而大于这个标定点的数都放在这个数的右边
# 3 前面的数字虽然都比 3 要小，但它们都不是有序的；3 后面的数字虽然也比 3 要大，但它们也不是有序的
np.partition(x, 3)

array([ 1,  0,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 15, 14, 13])

In [100]:
np.argpartition(x, 3)

array([ 5, 14, 13,  6,  9,  7,  1,  3, 10,  8, 12, 15, 11,  4,  2,  0],
      dtype=int64)

In [104]:
# arg 操作符同样可以被二维数组引用
X

array([[0, 6, 8, 4],
       [4, 1, 0, 9],
       [0, 4, 2, 2],
       [8, 6, 8, 6]])

In [105]:
np.sort(X, axis = 1)

array([[0, 4, 6, 8],
       [0, 1, 4, 9],
       [0, 2, 2, 4],
       [6, 6, 8, 8]])

In [106]:
np.sort(X, axis = 0)

array([[0, 1, 0, 2],
       [0, 4, 2, 4],
       [4, 6, 8, 6],
       [8, 6, 8, 9]])

In [107]:
np.argsort(X, axis = 1)

array([[0, 3, 1, 2],
       [2, 1, 0, 3],
       [0, 2, 3, 1],
       [1, 3, 0, 2]], dtype=int64)

In [108]:
np.argsort(X, axis = 0)

array([[0, 1, 1, 2],
       [2, 2, 2, 0],
       [1, 0, 0, 3],
       [3, 3, 3, 1]], dtype=int64)

In [109]:
# 第 2 个参数是 partition 这个过程中的标定点
np.argpartition(X, 2, axis = 1)

array([[0, 3, 1, 2],
       [2, 1, 0, 3],
       [0, 2, 3, 1],
       [1, 3, 2, 0]], dtype=int64)

In [110]:
np.argpartition(X, 2, axis = 0)

array([[0, 1, 1, 2],
       [2, 2, 2, 0],
       [1, 0, 0, 3],
       [3, 3, 3, 1]], dtype=int64)