## Numpy 数学统计函数

本节内容：

#### 1、Numpy 有哪些数学统计函数：

|函数名|说明|
|:----|----|
|`np.sum`|所有元素的和|
|`np.prod`|所有元素的乘积|
|`np.cumsum`|元素的累积加和|
|`np.cumprod`|元素的累积乘积|
|`np.min`|最小值|
|`np.max`|最大值|
|`np.percentile`|0 - 100百分位数|
|`np.quantile`|0 - 1 分位数|
|`np.median`|中位数|
|`np.average`|加权平均，参数可以指定 weights|
|`np.mean`|平均值|
|`np.std`|标准差|
|`np.var`|方差|

#### 2、怎样实现按不同 axis 计算

以上函数，都有一个参数叫做 `axis` 用于指定计算轴为行还是列，如果不指定，那么会计算所有元素的结果


##### 3、实例：机器学习将数据进行标准化

`A = (A - mean(A, axis=0) / std(A, axis=0))`

### 1、Numpy 的数学统计函数

In [2]:
import numpy as np

In [3]:
arr = np.arange(12).reshape(3, 4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [4]:
np.sum(arr) # 所有元素的和

66

In [5]:
np.prod(arr) # 所有元素的乘积

0

In [8]:
np.cumsum(arr) # 元素的累积加和，前几个元素累积求和

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45, 55, 66])

In [9]:
np.cumprod(arr) # 元素的累积乘积，因为第一个元素是 0，所以累乘也是 0

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [10]:
np.min(arr) # 最小值

0

In [11]:
np.max(arr) # 最大值

11

In [12]:
np.percentile(arr, [25, 50, 70])

array([2.75, 5.5 , 7.7 ])

In [13]:
np.quantile(arr, [0.25, 0.5, 0.75])

array([2.75, 5.5 , 8.25])

In [14]:
np.median(arr) # 中位数

5.5

In [15]:
np.mean(arr) # 平均值

5.5

In [16]:
np.std(arr) # 标准差

3.452052529534663

In [17]:
np.var(arr) # 方差

11.916666666666666

In [18]:
# weights 的 shape 需要和 arr 一样
weights = np.random.rand(*arr.shape)
np.average(arr, weights=weights)

5.990803458219529

### 2、Numpy 的 axis 参数的用途

`axis=0` 代表行、`axis=1` 代表列

对于 sum / mean / media 等 **聚合函数**：

- 理解 1：`axis=0` 代表把行消解掉，`axis=1` 代表把列消解掉
- 理解 2：`axis=0` 代表跨行计算，`axis=1` 代表跨列计算

In [19]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [21]:
arr.sum(axis=0) # 每一列结果的求和

array([12, 15, 18, 21])

In [23]:
arr.sum(axis=1) # 每一行结果的求和

array([ 6, 22, 38])

In [24]:
arr.cumsum(axis=0) # 按列累积求和

array([[ 0,  1,  2,  3],
       [ 4,  6,  8, 10],
       [12, 15, 18, 21]])

In [26]:
arr.cumsum(axis=1) # 按行累积求和

array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]])

### 3、实例：机器学习将数据进行标准化

In [28]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

arr 如果对应到现实世界的一种解释：

- 行：每行对应一个样本数据
- 列：每列代表样本的一个特征

数据标准化：

- 对比机器学习、神经网络来说，不同列的 **量纲** 应该相同，训练收敛的更快；
- 比如商品的价格是 0 到 100 元、销量是 1 万到 10 万个，这俩数字没有可比性，因此需要先都做标准化；
- 不同列代表不同的特征，因此需要 `axis=0` 做计算
- 标准化一般使用 `A = (A - mean(A, axis=0)) / std(A, axis=0)` 公式进行（每一列减去均值，除以方差）

In [29]:
# 计算每列的均值
mean = np.mean(arr, axis=0)
mean

array([4., 5., 6., 7.])

In [30]:
# 计算每列的方差
std = np.std(arr, axis=0)
std

array([3.26598632, 3.26598632, 3.26598632, 3.26598632])

In [32]:
# 计算标准化的分子，A - mean(A, axis=0)
# 注意每行都会分别减去 [4., 5., 6., 7.]，这叫做 numpy 的广播
fenzi = arr - mean
fenzi

array([[-4., -4., -4., -4.],
       [ 0.,  0.,  0.,  0.],
       [ 4.,  4.,  4.,  4.]])

In [33]:
# 计算结果
result = fenzi / std
result

array([[-1.22474487, -1.22474487, -1.22474487, -1.22474487],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 1.22474487,  1.22474487,  1.22474487,  1.22474487]])

### 用随机数再试一次

In [35]:
arr2 = np.random.randint(1, 100, size=(3, 4))
arr2

array([[16, 88, 92,  3],
       [46, 37, 67, 38],
       [56, 15, 99, 91]])

In [36]:
result = (arr2 - np.mean(arr2, axis=0)) / np.std(arr2, axis=0)
result

array([[-1.37281295,  1.35182487,  0.43682115, -1.1333638 ],
       [ 0.39223227, -0.31615259, -1.38326699, -0.16585812],
       [ 0.98058068, -1.03567228,  0.94644583,  1.29922192]])