## NumPy 统计函数
- NumPy 提供了很多统计函数，用于从数组中查找最小元素，最大元素，百分位标准差和方差等。 函数说明如下：

- numpy.amin() 和 numpy.amax()
- numpy.amin() 用于计算数组中的元素沿指定轴的最小值。
- numpy.amax() 用于计算数组中的元素沿指定轴的最大值。

In [6]:
import numpy as np 
 
a = np.array([[3,7,5],[8,4,3],[2,4,9]])  
print (a)
print('\n')
print(np.amin(a))
print('\n')
print(np.amin(a,0))
print('\n')
print(np.amin(a,1))
print('\n')
print(np.amax(a))
print('\n')
print(np.amax(a,0))
print('\n')
print(np.amax(a,1))

[[3 7 5]
 [8 4 3]
 [2 4 9]]


2


[2 4 3]


[3 3 2]


9


[8 7 9]


[7 8 9]


In [10]:
# numpy.ptp()函数计算数组中元素最大值与最小值的差（最大值 - 最小值）。
import numpy as np 
 
a = np.array([[3,7,5],[8,4,3],[2,4,9]])  
print ('我们的数组是：')
print (a)
print ('\n')
print ('调用 ptp() 函数：')
print(np.ptp(a))
print ('\n')
print ('沿轴 1 调用 ptp() 函数：')
print(np.ptp(a,1))
print ('\n')
print ('沿轴 0 调用 ptp() 函数：')
print(np.ptp(a,0))

我们的数组是：
[[3 7 5]
 [8 4 3]
 [2 4 9]]


调用 ptp() 函数：
7


沿轴 1 调用 ptp() 函数：
[4 5 7]


沿轴 0 调用 ptp() 函数：
[6 3 6]


In [None]:
# 百分位数是统计中使用的度量，表示小于这个值的观察值的百分比。 函数numpy.percentile()接受以下参数。
# numpy.percentile(a, q, axis)
# a: 输入数组
# q: 要计算的百分位数，在 0 ~ 100 之间
# axis: 沿着它计算百分位数的轴

In [None]:
# 首先明确百分位数：
# 第 p 个百分位数是这样一个值，它使得至少有 p% 的数据项小于或等于这个值，且至少有 (100-p)% 的数据项大于或等于这个值。
# 举个例子：高等院校的入学考试成绩经常以百分位数的形式报告。比如，假设某个考生在入学考试中的语文部分的原始分数为 54 分。
# 相对于参加同一考试的其他学生来说，他的成绩如何并不容易知道。但是如果原始分数54分恰好对应的是第70百分位数，
# 我们就能知道大约70%的学生的考分比他低，而约30%的学生考分比他高。
# 这里的 p = 70。

In [14]:
import numpy as np 
 
a = np.array([[10, 7, 4, 8], [3, 2, 1, 9]])
print ('我们的数组是：')
print (a)
 
print ('调用 percentile() 函数：')
print (np.percentile(a, 70)) 
 
# axis 为 0，在纵列上求
print (np.percentile(a, 50, axis=0)) 
 
# axis 为 1，在横行上求
print (np.percentile(a, 50, axis=1)) 
 
# 保持维度不变
print (np.percentile(a, 50, axis=1, keepdims=True))

我们的数组是：
[[10  7  4  8]
 [ 3  2  1  9]]
调用 percentile() 函数：
7.8999999999999995
[6.5 4.5 2.5 8.5]
[7.5 2.5]
[[7.5]
 [2.5]]


In [15]:
# numpy.median() 函数用于计算数组 a 中元素的中位数（中值）
import numpy as np 
 
a = np.array([[30,65,70],[80,95,10],[50,90,60]])  
print ('我们的数组是：')
print (a)
print ('\n')
print ('调用 median() 函数：')
print (np.median(a))
print ('\n')
print ('沿轴 0 调用 median() 函数：')
print (np.median(a, axis =  0))
print ('\n')
print ('沿轴 1 调用 median() 函数：')
print (np.median(a, axis =  1))

我们的数组是：
[[30 65 70]
 [80 95 10]
 [50 90 60]]


调用 median() 函数：
65.0


沿轴 0 调用 median() 函数：
[50. 90. 60.]


沿轴 1 调用 median() 函数：
[65. 80. 60.]


## numpy.average()
- numpy.average() 函数根据在另一个数组中给出的各自的权重计算数组中元素的加权平均值。

- 该函数可以接受一个轴参数。 如果没有指定轴，则数组会被展开。

- 加权平均值即将各数值乘以相应的权数，然后加总求和得到总体值，再除以总的单位数。

- 考虑数组[1,2,3,4]和相应的权重[4,3,2,1]，通过将相应元素的乘积相加，并将和除以权重的和，来计算加权平均值。



In [17]:
import numpy as np 
 
a = np.array([1,2,3,4])  
print ('我们的数组是：')
print (a)
print ('\n')
print ('调用 average() 函数：')
print (np.average(a))
print ('\n')
# 不指定权重时相当于 mean 函数
wts = np.array([4,3,2,1])  
print ('再次调用 average() 函数：')
print (np.average(a,weights = wts))
print ('\n')
# 如果 returned 参数设为 true，则返回权重的和  
print ('权重的和：')
print (np.average([1,2,3,  4],weights =  [4,3,2,1], returned =  True))
print (np.average([1,2,3,  4],weights =  [4,3,2,1], returned =  False))

我们的数组是：
[1 2 3 4]


调用 average() 函数：
2.5


再次调用 average() 函数：
2.0


权重的和：
(2.0, 10.0)
2.0


In [None]:
# 标准差
# 标准差是一组数据平均值分散程度的一种度量。
# 标准差是方差的算术平方根。
# 标准差公式如下：
# 一组数值，有个平均值，每个值与平均值的差值的平方求和，在求下平均值，则为方差，如果再开根号则为标准差

In [20]:
import numpy as np 
 
print (np.std([1,2,3,4,5]))

1.4142135623730951


In [None]:
5个,
3是平均值
值与平均值差值的平方：
2，1，0，1，2
4，1，0，1，4
求和10
平均值：2
开根号：squr(2)

In [22]:
# 统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数，即 mean((x - x.mean())** 2)。
# 换句话说，标准差是方差的平方根。
import numpy as np 
print (np.var([1,2,3,4]))
print(np.var([1,2,3,4,5]))

1.25
2.0


## NumPy 排序、条件刷选函数
- NumPy 提供了多种排序的方法。 这些排序函数实现不同的排序算法，每个排序算法的特征在于执行速度，最坏情况性能，所需的工作空间和算法的稳定性。   - 下表显示了三种排序算法的比较。

In [30]:
# numpy.sort() 函数返回输入数组的排序副本。函数格式如下：
import numpy as np  
a = np.array([[3,7,18],[9,1,33],[30,5,76]])  
print(a)
print('\n')
print(np.sort(a))
print('\n')
print(np.sort(a,axis=0))


[[ 3  7 18]
 [ 9  1 33]
 [30  5 76]]


[[ 3  7 18]
 [ 1  9 33]
 [ 5 30 76]]


[[ 3  1 18]
 [ 9  5 33]
 [30  7 76]]


In [34]:
import numpy as np
dt = np.dtype([('name', 'S10'),('age', int)])
a = np.array([('angel',20),('zkip',90),('yuuo',30),('swik',22)], dtype=dt)
print(np.sort(a))
print('\n')
print(np.sort(a,order='name'))
print('\n')
print(np.sort(a,order='age'))

[(b'angel', 20) (b'swik', 22) (b'yuuo', 30) (b'zkip', 90)]


[(b'angel', 20) (b'swik', 22) (b'yuuo', 30) (b'zkip', 90)]


[(b'angel', 20) (b'swik', 22) (b'yuuo', 30) (b'zkip', 90)]


In [45]:
# numpy.argsort() 函数返回的是数组值从小到大的索引值。
import numpy as np
a = np.array([4,2,5,3])
print(a)
print('\n')
y = np.argsort(a)
print(y)
print(a[y])
for i in y:
    print(a[i],end=' ')

[4 2 5 3]


[1 3 0 2]
[2 3 4 5]
2 3 4 5 

In [None]:
# numpy.lexsort()
# numpy.lexsort() 用于对多个序列进行排序。把它想象成对电子表格进行排序，每一列代表一个序列，排序时优先照顾靠后的列。
# 这里举一个应用场景：小升初考试，重点班录取学生按照总成绩录取。在总成绩相同时，数学成绩高的优先录取，在总成绩和数学成绩都相同时，
# 按照英语成绩录取…… 这里，总成绩排在电子表格的最后一列，数学成绩在倒数第二列，英语成绩在倒数第三列。

In [55]:
import numpy as np 
a = np.array([[1,2,5],[9,3,0],[2,8,0]])
print(a)
print('\n')
ind=np.lexsort(a)
print(a[ind])

[[1 2 5]
 [9 3 0]
 [2 8 0]]


[[2 8 0]
 [1 2 5]
 [9 3 0]]


## msort、sort_complex、partition、argpartition
- msort(a)	数组按第一个轴排序，返回排序后的数组副本。np.msort(a) 相等于 np.sort(a, axis=0)。
- sort_complex(a)	对复数按照先实部后虚部的顺序进行排序。
- partition(a, kth[, axis, kind, order])	指定一个数，对数组进行分区
- argpartition(a, kth[, axis, kind, order])	可以通过关键字 kind 指定算法沿着指定轴对数组进行分区

In [58]:
import numpy as np
print(np.sort_complex([5, 3, 6, 2, 1]))
print(np.sort_complex([1 + 2j, 2 - 1j, 3 - 2j, 3 - 3j, 3 + 5j]))

[1.+0.j 2.+0.j 3.+0.j 5.+0.j 6.+0.j]
[1.+2.j 2.-1.j 3.-3.j 3.-2.j 3.+5.j]


In [68]:
import numpy as np
a = np.array([0, 3, 1, 2, 1, 2])
print(np.partition(a,5)) # 将数组 a 中所有元素（包括重复元素）从小到大排列，比第3小的放在前面，大的放在后面
print(np.partition(a,(1,3)))

[1 0 1 2 2 3]
[0 1 1 2 3 2]


In [69]:
# numpy.argmax() 和 numpy.argmin()函数分别沿给定轴返回最大和最小元素的索引。
import numpy as np 
a = np.array([[30,40,70],[80,20,10],[50,90,60]])  
print  ('我们的数组是：') 
print (a) 
print ('\n') 
print ('调用 argmax() 函数：') 
print (np.argmax(a)) 
print ('\n') 
print ('展开数组：') 
print (a.flatten()) 
print ('\n') 
print ('沿轴 0 的最大值索引：') 
maxindex = np.argmax(a, axis =  0)  
print (maxindex) 
print ('\n') 
print ('沿轴 1 的最大值索引：') 
maxindex = np.argmax(a, axis =  1)  
print (maxindex) 
print ('\n') 
print ('调用 argmin() 函数：') 
minindex = np.argmin(a)  
print (minindex) 
print ('\n') 
print ('展开数组中的最小值：') 
print (a.flatten()[minindex]) 
print ('\n') 
print ('沿轴 0 的最小值索引：') 
minindex = np.argmin(a, axis =  0)  
print (minindex) 
print ('\n') 
print ('沿轴 1 的最小值索引：') 
minindex = np.argmin(a, axis =  1)  
print (minindex)

我们的数组是：
[[30 40 70]
 [80 20 10]
 [50 90 60]]


调用 argmax() 函数：
7


展开数组：
[30 40 70 80 20 10 50 90 60]


沿轴 0 的最大值索引：
[1 2 0]


沿轴 1 的最大值索引：
[2 0 1]


调用 argmin() 函数：
5


展开数组中的最小值：
10


沿轴 0 的最小值索引：
[0 1 1]


沿轴 1 的最小值索引：
[0 2 0]


In [72]:
import numpy as np 
a = np.array([[30,40,70],[80,20,10],[50,90,60]])  
print('我们的数组是：') 
print(a) 
print('\n') 
print('调用 argmax() 函数：') 
print(np.argmax(a)) # 返回数组展开后最大元素的索引值
print(np.argmin(a)) # 返回数组展开后最小元素的索引值

我们的数组是：
[[30 40 70]
 [80 20 10]
 [50 90 60]]


调用 argmax() 函数：
7
5


In [73]:
# numpy.nonzero() 函数返回输入数组中非零元素的索引。
import numpy as np 
a = np.array([[30,40,0],[0,20,10],[50,0,60]])  
print ('我们的数组是：')
print (a)
print ('\n')
print ('调用 nonzero() 函数：')
print (np.nonzero(a))

我们的数组是：
[[30 40  0]
 [ 0 20 10]
 [50  0 60]]


调用 nonzero() 函数：
(array([0, 0, 1, 1, 2, 2]), array([0, 1, 1, 2, 0, 2]))


In [None]:
[0,0,1,1,2,2]
[0,1,1,2,0,2]

In [74]:
# numpy.where() 函数返回输入数组中满足给定条件的元素的索引。
import numpy as np 
 
x = np.arange(9.).reshape(3,  3)  
print ('我们的数组是：')
print (x)
print ( '大于 3 的元素的索引：')
y = np.where(x >3)  
print (y)
print ('使用这些索引来获取满足条件的元素：')
print (x[y])

我们的数组是：
[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]
大于 3 的元素的索引：
(array([1, 1, 2, 2, 2]), array([1, 2, 0, 1, 2]))
使用这些索引来获取满足条件的元素：
[4. 5. 6. 7. 8.]


In [75]:
# numpy.extract() 函数根据某个条件从数组中抽取元素，返回满条件的元素。
import numpy as np 
 
x = np.arange(9.).reshape(3,  3)  
print ('我们的数组是：')
print (x)
# 定义条件, 选择偶数元素
condition = np.mod(x,2)  ==  0  
print ('按元素的条件值：')
print (condition)
print ('使用条件提取元素：')
print (np.extract(condition, x))

我们的数组是：
[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]
按元素的条件值：
[[ True False  True]
 [False  True False]
 [ True False  True]]
使用条件提取元素：
[0. 2. 4. 6. 8.]
