## 6、numpy的数学统计函数

In [1]:
import numpy as np

In [2]:
#先创建一个新的数组
a = np.arange(12).reshape((3,4))

In [4]:
#求数组中所有项的相加和
a1 = np.sum(a)

In [5]:
a1

66

In [6]:
#求数组中所有项的乘积
a2 = np.prod(a)

In [7]:
a2

0

In [8]:
#求数组的前缀和，返回前缀和列表
a3 = np.cumsum(a)

In [9]:
a3

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45, 55, 66], dtype=int32)

In [10]:
#求数组的前缀乘积，返回乘积列表
a4 = np.cumprod(a)

In [11]:
a4

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int32)

In [12]:
#求数组中的最小和最大值
a5 = np.min(a)
a6 = np.max(a)

In [13]:
a5

0

In [14]:
a6

11

In [33]:
#平均数
#也可以用a7=np.average(a)计算平均数
a7 = np.mean(a)

In [34]:
a7

5.5

In [18]:
#中位数
a8 = np.median(a)

In [19]:
a8

5.5

In [21]:
#标准差
a9 = np.std(a)

In [22]:
a9

3.452052529534663

In [24]:
#方差，有平方的
a10 = np.var(a)

In [25]:
a10

11.916666666666666

In [27]:
#取数组中固定位置的数字
#即取的是前百分之25、前百分之50、前百分之75的那个数，如果位置是小数，那么就返回其相邻两数的平均数
a11 = np.percentile(a,[25,50,75,100])

In [28]:
a11

array([ 2.75,  5.5 ,  8.25, 11.  ])

In [29]:
#和上面一样，不过是用0-1之间来表示
a12 = np.quantile(a, [0.25,0.5,0.75,1.0])

In [30]:
a12

array([ 2.75,  5.5 ,  8.25, 11.  ])

In [32]:
#对数据进行加权再求平均数
#先给数组权重
weights = np.random.rand(*a.shape)

In [35]:
#weights储存的是每个数的权值，即对每个数进行加权处理，然后再求平均值
a13 = np.average(a, weights=weights)

In [36]:
a13

5.628281154106681

In [39]:
#对于sum,mean,media等聚合函数可以添加axis=0/1的参数
#axis=0表示对当前数组中的每一列进行聚合函数的操作，得到的值变为一个新的数组，数组元素的个数是原数组的列数
#axis=1表示对当前数组中的每一行进行聚合函数的操作，得到的值变为一个新的数组，数组元素的个数是原数组的行数
a14 = a.sum(axis=0)

In [40]:
a14

array([12, 15, 18, 21])

In [41]:
a15 = a.sum(axis = 1)

In [42]:
a15

array([ 6, 22, 38])

## 7、机器学习中的数据标准化
比如商品的价格是0-100元，销量是1-10000件，这两个数据没有可比性，所以需要标准化

对于神经网络：
不同列的量纲应该相同，训练收敛的更快
对于数据：
每行对应一个样本数据，每列代表样本的一个特征

标准化一般的公式：每一列的数据减去这列数据的平均值除以标准差

In [43]:
#随机一个3*4的数据
arr = np.random.randint(1, 100, size= (3,4))

In [44]:
#求出每一列数据的方差
std = np.std(arr, axis = 0)

In [45]:
#求出每一列数据的平均数
mean = np.mean(arr, axis = 0)

In [46]:
#利用numpy广播的功能，获取公式中的分子
fenzi = arr - mean

In [47]:
#分子除分母
result = fenzi / std

In [48]:
arr

array([[27, 99,  6, 75],
       [ 3,  7, 26, 21],
       [54, 92, 62, 42]])

In [49]:
result

array([[-0.04800154,  0.78915157, -1.09332714,  1.30477168],
       [-1.2000384 , -1.41090735, -0.23017414, -1.12480318],
       [ 1.24803994,  0.62175578,  1.32350128, -0.17996851]])

In [51]:
#便捷版
result = (arr - np.mean(arr,axis = 0))/np.std(arr, axis = 0)

In [52]:
result

array([[-0.04800154,  0.78915157, -1.09332714,  1.30477168],
       [-1.2000384 , -1.41090735, -0.23017414, -1.12480318],
       [ 1.24803994,  0.62175578,  1.32350128, -0.17996851]])

In [54]:
#计算数组中满足条件的元素个数
#好像只能填写一个条件
#返回的也是一个数组类型
a[a < 10]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [55]:
a[a < 10].size

10