## Numpy的数学统计函数

本节内容：

#### 1、Numpy有哪些数学统计函数：  
<table style="margin-left:0px; text-align:left;">
    <tr><th>函数名</th><th>说明</th></tr>
    <tr><td>np.sum</td><td>所有元素的和</td></tr>
    <tr><td>np.prod</td><td>所有元素的乘积</td></tr>
    <tr><td>np.cumsum</td><td>元素的累积加和</td></tr>
    <tr><td>np.cumprod</td><td>元素的累积乘积</td></tr>
    <tr><td>np.min</td><td>最小值</td></tr>
    <tr><td>np.max</td><td>最大值</td></tr>
    <tr><td>np.percentile</td><td>0-100百分位数</td></tr>
    <tr><td>np.quantile</td><td>0-1分位数</td></tr>
    <tr><td>np.median</td><td>中位数</td></tr>
    <tr><td>np.average</td><td>加权平均，参数可以指定weights</td></tr>
    <tr><td>np.mean</td><td>平均值</td></tr>
    <tr><td>np.std</td><td>标准差</td></tr>
    <tr><td>np.var</td><td>方差</td></tr>
</table>

#### 2、怎样实现按不同的axis计算
以上函数，都有一个参数叫做axis用于指定计算轴为行还是列，如果不指定，那么会计算所有元素的结果

#### 3、实例：机器学习将数据进行标准化
A = (A - mean(A, axis=0)) / std(A, axis=0)

### 1、Numpy的数学统计函数

In [1]:
import numpy as np

In [2]:
arr = np.arange(12).reshape(3,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [3]:
np.sum(arr)

66

In [4]:
np.prod(arr)

0

In [5]:
np.cumsum(arr)

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45, 55, 66], dtype=int32)

In [6]:
np.cumprod(arr)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int32)

In [7]:
np.min(arr)

0

In [8]:
np.max(arr)

11

In [9]:
np.percentile(arr, [25, 50, 75])

array([2.75, 5.5 , 8.25])

In [10]:
np.quantile(arr, [0.25, 0.5, 0.75])

array([2.75, 5.5 , 8.25])

In [11]:
np.median(arr)

5.5

In [12]:
np.mean(arr)

5.5

In [13]:
np.std(arr)

3.452052529534663

In [14]:
np.var(arr)

11.916666666666666

In [16]:
# weights的shape需要和arr一样
weights = np.random.rand(*arr.shape)
np.average(arr, weights=weights)

5.374443700857059

### 2、Numpy的axis参数的用途

axis=0代表行、axis=1代表列

对于sum/mean/media等聚合函数：
* 理解1：axis=0代表把行消解掉，axis=1代表把列消解掉
* 理解2：axis=0代表跨行计算，axis=1代表跨列计算

In [17]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [18]:
arr.sum(axis=0)

array([12, 15, 18, 21])

In [19]:
arr.sum(axis=1)

array([ 6, 22, 38])

In [20]:
arr.cumsum(axis=0)

array([[ 0,  1,  2,  3],
       [ 4,  6,  8, 10],
       [12, 15, 18, 21]], dtype=int32)

In [21]:
arr.cumsum(axis=1)

array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]], dtype=int32)

### 3、实例：机器学习将数据进行标准化

In [22]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

arr如果对应到现实世界的一种解释：
* 行：每行对应一个样本数据
* 列：每列代表样本的一个特征

数据标准化：  
* 对于机器学习、神经网络来说，不同列的量纲应该相同，训练收敛的更快；
* 比如商品的价格是0到100元、销量是1万到10万个，这俩数字没有可比性，因此需要先都做标准化；
* 不同列代表不同的特征，因此需要axis=0做计算
* 标准化一般使用A = (A - mean(A, axis=0)) / std(A, axis=0)公式进行

In [23]:
# 计算每列的均值
mean = np.mean(arr, axis=0)
mean

array([4., 5., 6., 7.])

In [24]:
# 计算每列的方差
std = np.std(arr, axis=0)
std

array([3.26598632, 3.26598632, 3.26598632, 3.26598632])

In [25]:
# 计算分子，注意每行都会分别减去[4., 5., 6., 7.]，这叫做numpy的广播
fenzi = arr-mean
fenzi

array([[-4., -4., -4., -4.],
       [ 0.,  0.,  0.,  0.],
       [ 4.,  4.,  4.,  4.]])

In [26]:
result = fenzi/std
result

array([[-1.22474487, -1.22474487, -1.22474487, -1.22474487],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 1.22474487,  1.22474487,  1.22474487,  1.22474487]])

#### 用随机数再试一次

In [27]:
arr2 = np.random.randint(1, 100, size=(3,4))
arr2

array([[99, 90, 17, 96],
       [27, 63, 80, 61],
       [75, 27, 85,  3]])

In [28]:
result = (arr2 - np.mean(arr2,axis=0)) / np.std(arr2,axis=0)
result

array([[ 1.06904497,  1.16247639, -1.41113333,  1.11249683],
       [-1.33630621,  0.11624764,  0.62477659,  0.19990177],
       [ 0.26726124, -1.27872403,  0.78635674, -1.3123986 ]])