## 08.统计相关

* 次序统计

> * 计算最小值 numpy.amin
> * 计算最大值 numpy.amax
> * 计算极差 numpy.ptp
> * 计算分位数 numpy.percentile

* 均值与方差

> * 计算中位数 numpy.media
> * 计算平均值 numpy.mean
> * 计算加权平均值 numpy.average
> * 计算方差 numpy.var
> * 计算标准差 numpy.std


* 相关

> * 计算协方差矩阵 numpy.cov
> * 计算相关系数 numpy.corrcoef
> * 直方图 numpy.digitize


### 8.1 次序统计

**a. 计算最小值**

* numpy函数说明

  numpy.amin(a,axis=None,out=None,keepdims=np._NoValue, initial=np._NoValue, where=np._NoValue)
  
  按照axis维度返回数组最小值
  
  参数说明:
  
  * a: 数组
  
  * axis: 不指定表示返回整体的最小值，axis = 0 返回每列的最小值（len（返回数组） = len（原数组[0]）） ,axis=1返回每行的最小值
  
  * out:
  
  * keepdims:
  
  
 【例1】计算最小值

In [24]:
import numpy as np

x = np.array([[0,2,3,4],
            [2,0,1,1],
            [12,11,0,14],
            [15,16,17,18],
            [19,20,21,0]])

In [12]:
# 基本使用
np.amin(x)

1

In [25]:
# axis = 0 返回每列的最小值，
np.amin(x,axis=0)

array([0, 0, 0, 0])

In [20]:
# axis = 1 返回每行的最小值
np.amin(x,axis=1)

array([ 1,  1, 11, 15, 19])

**b. 计算最大值**
​
* numpy函数说明
​
  numpy.amax(a,axis=None,out=None,keepdims=np._NoValue, initial=np._NoValue, where=np._NoValue)
  
  按照axis维度返回数组最大值（同最小值）
  
  参数说明:
  
  * a: 数组
  
  * axis: 不指定表示返回整体的最大值，axis = 0 返回每列的最大值（len（返回数组） = len（原数组[0]）） ,axis=1返回每行的最大值
  
  * out:
  
  * keepdims:
  
  
 【例2】计算最大值


In [26]:
x = np.array([[0,2,3,4],
            [2,0,1,1],
            [12,11,0,14],
            [15,16,17,18],
            [19,20,21,0]])

In [27]:
# 整体的最大值

np.amax(x)

21

In [28]:
# axis = 0 ，返回每列的最大值  （len（返回数组） = len（原数组[0]））

np.amax(x, axis=0)

array([19, 20, 21, 18])

In [29]:
# # axis = 1，返回每行的最大值  （len（返回数组） = len（原数组））

np.amax(x,axis = 1)

array([ 4,  2, 14, 18, 21])

**c. 计算极差**
​
* numpy函数说明
​
  numpy.ptp(a,axis=None,out=None,keepdims=np._NoValue)
  
  按照axis维度返回数组极差
  
  参数说明:
  
  * a: 数组
  
  * axis: 不指定表示返回整体的极差，axis = 0 返回每列的极差（len（返回数组） = len（原数组[0]）） ,axis=1返回每行的极差
  
  * out:
  
  * keepdims:
  
  
 【例3】计算极差


In [31]:
np.random.seed(2020)
x = np.random.randint(0,20,size = (5,3))
x

array([[ 0,  8,  3],
       [ 3,  3,  7],
       [16,  0, 10],
       [ 9, 19, 11],
       [18,  3,  6]])

In [32]:
# 返回总体极差

np.ptp(x)

19

In [33]:
# 按axis = 0 返回极差
np.ptp(x,axis=0)

array([18, 19,  8])

In [34]:
# 按axis = 1返回极差
np.ptp(x,axis=1)

array([ 8,  4, 16, 10, 15])

**d. 计算分位数**
​
* numpy函数说明
​
  numpy.percentile(a,q,axis=None,out = None,overwrite_input=False, interpolation='linear', keepdims=False)
  
  按照axis维度返回数组分位数
  
  参数说明:
  
  * a: array，数组
  
  * q: 介于[0-100]的float，计算几分位的参数，可以同时计算多个分位数，例计算[25,50]，百分之25和百分之50的分位数
  
  * axis: 计算分位数的维度，axis = 0/1

   **问题：分数位的计算？**
   
   参考文章 https://www.cnblogs.com/gispathfinder/p/5770091.html
  
 【例4】计算分位数


In [36]:
np.random.seed(2020)
x = np.random.randint(0,20,size = (5,3))
x

array([[ 0,  8,  3],
       [ 3,  3,  7],
       [16,  0, 10],
       [ 9, 19, 11],
       [18,  3,  6]])

In [38]:
# 计算整体数组的25%和 50%分位数

np.percentile(x,[25,50])

array([3., 7.])

In [41]:
# 计算axis = 0 的分位数
np.percentile(x,[25,50],axis = 0)

array([[3., 3., 6.],
       [9., 3., 7.]])

In [40]:
# 计算axis = 1 的分位数
np.percentile(x,[25,50],axis = 1)

array([[ 1.5,  3. ,  5. , 10. ,  4.5],
       [ 3. ,  3. , 10. , 11. ,  6. ]])

In [47]:
## 

a = np.array([1,1,1,2,4])

np.percentile(a,20)

1.0

### 8.2 均值和方差

**a. 计算中位数**

* numpy函数说明

  numpy.median(a, axis=None, out=None, overwrite_input=False, keepdims=False)
  
  按照axis维度返回数组中位数
  
  参数说明:
  
  * a: 数组
  
  * axis: 不指定表示返回整体的中位数，axis = 0 返回每列的中位数（len（返回数组） = len（原数组[0]）） ,axis=1返回每行的中位数
  
  * out:
  
  * overwrite_input：
  
  * keepdims:
  
  
 【例5】计算中位数

In [49]:
np.random.seed(2020)
x = np.random.randint(0,20,size=(5,4))
x

array([[ 0,  8,  3,  3],
       [ 3,  7, 16,  0],
       [10,  9, 19, 11],
       [18,  3,  6,  5],
       [16,  8,  6,  1]])

In [50]:
# 计算整体的中位数
np.median(x)

6.5

In [51]:
# 计算axis = 0 的中位数
np.median(x,axis=0)

array([10.,  8.,  6.,  3.])

In [52]:
# 计算axis = 1中位数
np.median(x,axis = 1)

array([ 3. ,  5. , 10.5,  5.5,  7. ])

**b. 计算平均值**

* numpy函数说明

  numpy.mean(a, axis=None, dtype = None , out=None,  keepdims=False)
  
  按照axis维度返回数组中的平均值
  

**b. 计算加权平均数**

* numpy函数说明

  numpy.average(a, axis=None, weight = None, returned = False)
  
  按照axis维度返回数组中的加权平均值
  
  不加权的情况下,average函数和mean是一致的


**c. 计算方差和标准差**

* numpy函数说明

  方差 numpy.val(a[, axis=None, dtype=None, out=None, ddof=0, keepdims=np._NoValue])
  
  标准差 numpy.std(a[, axis=None, dtype=None, out=None, ddof=0, keepdims=np._NoValue])
  

### 8.3 相关

**a. 协方差矩阵**

* numpy函数说明

  numpy.cov(m, y=None, rowvar=True, bias=False, ddof=None, fweights=None,aweights=None)
  
  返回协方差矩阵,
  
  协方差表示的两个变量,变化趋势的相同程度，0表示 变量变化趋势相同，>0 表示 变化趋势是相同的， < 0 表示 变化趋势相反
  

  【例6】计算协方差

In [53]:
x = [1,2,4,5,6]
y = [0,2,5,6,7]

In [60]:
np.var(x,ddof=1)

4.3

In [56]:
np.cov(y)

array(8.5)

In [54]:
np.cov(x,y)

array([[4.3, 6. ],
       [6. , 8.5]])

**b. 计算相关系数**

* numpy函数说明

  numpy.corrcoef(x, y=None, rowvar=True, bias=np._NoValue, ddof=np._NoValue)
  
  相关系数 就是正则化后的协方差
  
  【例6】计算相关系数

In [61]:
np.corrcoef(x,y)

array([[1.        , 0.99244754],
       [0.99244754, 1.        ]])

**c. 直方图**

* numpy函数说明

  numpy.digitize(x, bins, right=False)
  
  x: numpy数组
  
  bins: 一维单调数组
  
  right: 间隔是否包含最右
  
  返回值:  x按照bins的升序或者降序排序后的索引号
  
  【例7】计算直方图

In [62]:
x = np.array([0.2,6.4,3.0,1.6])
bins = np.array([0.0,1.0,2.5,4.0,10.0])

inds = np.digitize(x,bins)


array([1, 4, 3, 2], dtype=int64)