### 1. Numpy有哪些数学统计函数
函数名|说明
---|:--:
np.sum|所有元素的和
np.prod|所有元素的乘积
np.cumsum|元素的累积加和
np.cumprod|元素的累积乘积
np.min|最小值
np.max|最大值
np.percentile|0-100百分位数
np.quantile|0-1分位数
np.median|中位数
np.average|加权平均，参数可以指定weights
np.mean|平均值
np.std|标准差
np.var|方差

### 2. 怎样实现按不同的axis计算
以上函数，都有一个参数叫做axis用于指定计算轴为行还是列，如果不指定，那么会计算所有元素的结果

### 3.  实例：机器学习将数据进行标准化
A = (A - mean(A, axis=0)) / std(A, axis=0)

## 1. Numpy的数学统计函数

In [1]:
import numpy as np

In [3]:
arr = np.arange(12).reshape(3, 4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [4]:
np.sum(arr)

66

In [5]:
np.prod(arr)

0

In [6]:
np.cumsum(arr)

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45, 55, 66])

In [7]:
np.cumprod(arr)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [8]:
np.min(arr)

0

In [9]:
np.max(arr)

11

In [10]:
np.percentile(arr, [25, 50, 75])

array([2.75, 5.5 , 8.25])

In [12]:
np.quantile(arr, [0.25, 0.5, 0.75])

array([2.75, 5.5 , 8.25])

In [13]:
np.mean(arr)

5.5

In [14]:
np.std(arr)

3.452052529534663

In [15]:
np.var(arr)

11.916666666666666

In [16]:
# weights的shape需要和arr一样
weights = np.random.rand(*arr.shape)
np.average(arr, weights=weights)

5.1481552864310025

## 2. Numpy的axis参数的用途
axis=0代表行，axis=1代表列
对于sum/mean/media等聚合函数：
* 理解1：axis=0代表把行消解掉，axis=1代表把列消解掉
* 理解2：axis=0代表跨行计算，axis=1代表跨列计算

In [22]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [18]:
arr.sum(axis=0)

array([12, 15, 18, 21])

In [19]:
arr.sum(axis=1)

array([ 6, 22, 38])

In [20]:
arr.cumsum(axis=0)

array([[ 0,  1,  2,  3],
       [ 4,  6,  8, 10],
       [12, 15, 18, 21]])

In [21]:
arr.cumsum(axis=1)

array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]])

## 3. 实例：机器学习将数据进行标准化

In [24]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

arr如果对应到现实世界的一种解释：
* 行：每行对应一个样本数数据
* 列：每列代表样本的一个特征
数据标准化：
* 对于机器学习、神经网络来说，不同列的量纲应该相同，训练收敛的更快；
* 对比商品的价格是从0到100元、销量是1万到10万个，这两个数字没有可比性，因此需要先做标准化；
* 不同列代表不同的特征，因此需要用axis=0做计算
* 标准化一般使用A = (A - mean(A, axis=0)) / std(A, axis=0)进行计算

In [25]:
# 计算每列的均值
mean = np.mean(arr, axis=0)
mean

array([4., 5., 6., 7.])

In [27]:
# 计算每列的方差
std = np.std(arr, axis=0)
std

array([3.26598632, 3.26598632, 3.26598632, 3.26598632])

In [29]:
# 计算分子，注意每行都会分别减去[4., 5., 6., 7.]，这个叫做numpy的广播
fenzi = arr - mean
fenzi

array([[-4., -4., -4., -4.],
       [ 0.,  0.,  0.,  0.],
       [ 4.,  4.,  4.,  4.]])

In [30]:
result = fenzi / std
result

array([[-1.22474487, -1.22474487, -1.22474487, -1.22474487],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 1.22474487,  1.22474487,  1.22474487,  1.22474487]])

#### 用随机数再试一次

In [32]:
arr2 = np.random.randint(1, 100, size=(3,4))
arr2

array([[46, 90, 57, 44],
       [96, 29, 21, 82],
       [75, 39, 66, 39]])

In [33]:
result = (arr2 - np.mean(arr2, axis=0)) / np.std(arr2, axis=0)
result

array([[-1.2845953 ,  1.39759994,  0.46291005, -0.57289595],
       [ 1.1545097 , -0.88597853, -1.38873015,  1.40619914],
       [ 0.1300856 , -0.51162141,  0.9258201 , -0.83330319]])