# Numpy的描述性统计

对于数值型数组来说，经常需要使用统计结果进行数据描述。本节介绍 Numpy 包中的一些常用的描述性统计函数：
- 排序统计
- 均值与方差
- 相关系数

In [1]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## 基本统计

| 函数          |  说明      |
|:------------------|:-------------|
| `numpy.amin(a[, axis, out, keepdims])`| 返回给定数组指定轴的最小值 |
| `numpy.amax(a[, axis, out, keepdims])`| 返回给定数组指定轴的最大值 |
| `numpy.ptp(a[, axis, out])`| 返回数组指定轴数组范围（最大值-最小值）|
| `numpy.percentile(a, q[, axis, out, …])`| 计算数组在指定轴的百分位数 |

### `numpy.amin()`与`numpy.amax()`

从数组中查找最小值与最大值，可以沿指定轴查找。

In [8]:
data = np.array([0, 1, 2, 3, 4])
data

array([0, 1, 2, 3, 4])

In [16]:
print(np.amin(data))
print(np.amax(data))

0
4


In [17]:
arr = np.array([[3,7,5],[8,4,3],[2,4,9]]) 
arr

array([[3, 7, 5],
       [8, 4, 3],
       [2, 4, 9]])

In [18]:
print(np.amin(arr, axis=0))
print(np.amax(arr, axis=0))
print(np.amin(arr, axis=1))
print(np.amax(arr, axis=1))

[2 4 3]
[8 7 9]
[3 3 2]
[7 8 9]


### `numpy.ptp()`

返回数组值的范围（最大值与最小值之差），可以沿指定轴计算。

In [19]:
arr = np.array([0, 1, 2, 3, 4])
print(np.ptp(arr))

4


In [21]:
arr = np.array([[3,7,5],[8,4,3],[2,4,9]]) 
print(np.ptp(arr, axis=0))
print(np.ptp(arr, axis=1))

[6 3 6]
[4 5 7]


### `numpy.percentile()`

百分位数是统计中使用的度量，表示小于这个值得观察值占某个百分比。
![百分位数](../images/numpy_quartile.png)

`numpy.percentile()`的语法为：
```
percentile(a, q, axis=None, out=None, overwrite_input=False, interpolation='linear', keepdims=False)
```
其中：
- `a`，数组
- `q`，要计算的百分位数，范围在0与100之间。

In [29]:
arr = np.array([[30, 40, 70],[80, 20, 10],[50, 90, 60]])  
print(np.percentile(arr, 50))
print(np.percentile(arr, 50, axis=0))
print(np.percentile(arr, 50, axis=1))

50.0
[50. 40. 60.]
[40. 20. 60.]


## 均值与方差

| 函数          |  说明      |
|:------------------|:-------------|
| `numpy.mean(a[, axis, dtype, out, keepdims])`| 算术平均值 |
| `numpy.average(a[, axis, weights, returned])`| 加权平均值 |
| `numpy.median(a[, axis, out, overwrite_input, keepdims])`| 中位数 |
| `numpy.std(a[, axis, dtype, out, ddof, keepdims])`| 标准差 |
| `numpy.var(a[, axis, dtype, out, ddof, keepdims])`| 方差 |

### `numpy.mean()`

`numpy.mean()`用来计算数组数值的算术平均值，可以沿指定轴来计算。

对于一个数组$X$，假设有n个数值，则其平均值公式为：
$$
\mu = \frac{x_0 + x_1 + \cdots+x_{n-1}}{N}
$$

In [32]:
arr = np.arange(16).reshape(4, 4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [34]:
print(np.mean(arr))
print(np.mean(arr, axis=0))
print(np.mean(arr, axis=1))

7.5
[6. 7. 8. 9.]
[ 1.5  5.5  9.5 13.5]


### `numpy.average()`

用于计算数组的加权平均值。

In [44]:
data = np.arange(1,11)
wts = np.arange(10,0,-1)
data, wts

(array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]),
 array([10,  9,  8,  7,  6,  5,  4,  3,  2,  1]))

In [46]:
print(np.average(data))
print(np.average(data, weights=wts))

5.5
4.0


### `numpy.median`

计算平均值时，常常会被某些大值或异常值影响，也就是“被平均”了的由来。中值是将数据样本平分的值，类似百分位数取50。

In [37]:
arr = np.array([[30, 40, 70],[80, 20, 10],[50, 90, 60]])  
print(np.median(arr))
print(np.median(arr, axis=0))
print(np.median(arr, axis=1))

50.0
[50. 40. 60.]
[40. 20. 60.]


In [38]:
print(np.percentile(arr, 50))
print(np.percentile(arr, 50, axis=0))
print(np.percentile(arr, 50, axis=1))

50.0
[50. 40. 60.]
[40. 20. 60.]


### `numpy.std()`

对于一个数组$X$，假设有n个数值，其标准差定义为:
$$
\sigma = \sqrt{\frac{(x_1-\mu)^2 +(x_2-\mu)^2 +\cdots+(x_{n-1}-\mu)^2}{n}}
$$
其中$\mu$是算术平均值。

如果数组是一个样本数据，其标准差公式调整为：
$$
\sigma = \sqrt{\frac{(x_1-\mu)^2 +(x_2-\mu)^2 +\cdots+(x_{n-1}-\mu)^2}{n-1}}
$$


`numpy.std()`用来计算数值的标准差，其语法为：
```
std(a, axis=None, dtype=None, out=None, ddof=0)
```
需要注意的是，函数关键字参数`ddof=0`表示计算的是总体标准差。如果要计算样本标准差需要设置`ddof=1`，也就是公式内要除以`n-1`。

In [47]:
arr = np.arange(16).reshape(4, 4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [49]:
print(np.std(arr))
print(np.std(arr, axis=0))
print(np.std(arr, axis=1))

4.6097722286464435
[4.47213595 4.47213595 4.47213595 4.47213595]
[1.11803399 1.11803399 1.11803399 1.11803399]


### `numpy.var()`

方差是标准差的平方。

In [51]:
print(np.var(arr))
print(np.var(arr, axis=0))
print(np.var(arr, axis=1))

21.25
[20. 20. 20. 20.]
[1.25 1.25 1.25 1.25]


## 相关

| 函数          |  说明      |
|:------------------|:-------------|
| `numpy.corrcoef(x[, y, rowvar, bias, ddof])`| 计算Pearson相关系数 |
| `numpy.cov(m[, y, rowvar, bias, ddof, fweights, …])`| 计算协方差阵 |
| `numpy.correlate(a, v[, mode])`| 计算2个一维数组的互相关 |

### `numpy.corrcoef()`

计算 Pearson 相关系数。

In [9]:
ages = np.random.normal(35.0, 10.0, 1000)
saleries = np.random.normal(50000, 10000, 1000)
capitals = ages * saleries
print(np.corrcoef(ages, saleries))
print(np.corrcoef(ages, capitals))

[[ 1.        -0.0137996]
 [-0.0137996  1.       ]]
[[1.         0.80575208]
 [0.80575208 1.        ]]


### `numpy.cov()`

计算协方差阵。

In [8]:
print(np.cov(ages, saleries))
print(np.cov(ages, capitals))

[[ 9.70685004e+01 -4.73949039e+02]
 [-4.73949039e+02  9.63057158e+07]]
[[9.70685004e+01 4.82254337e+06]
 [4.82254337e+06 3.64445805e+11]]
