# 六、使用数组进行面向数组编程

使用Numpy数组可以使你利用简单的数组表达式完成多种数据操作任务，而无须写大量的循环，这种利用数组表达式来替代循环的方法，称向量化。

通常，向量化的数组操作会比纯Python的等价实现在速度上快一到两个数量级（甚至更多）

## 6.1 数学和统计方法

|方法	|描述|
|-----|----|
|sum	|沿着轴向计算所有元素的累和，0长度的数组累和为0|
|average	|加权平均，参数可以指定weights|
|prod|	所有元素的乘积|
|mean|	数学平均，0长度的数组平均值为NaN|
|std,var|	标准差和方差，可以选择自由度调整（默认分母是n）|
|min,max|	最小和最大值|
|argmin,argmax|	最小和最大值的位置|
|cumsum|	从0开始元素累积和|
|cumprod|	从1开始元素累积积|
|median|	中位数|
|prercentile|	0-100百分位数|
|quantile|	0-1分位数|

In [10]:
import numpy as np
arr = np.random.normal(0, 1, 100)
# print(arr)
print(np.mean(arr))
print(np.std(arr))

-0.20145373403445635
1.0234106443061295


### 7.1.1 平均数，加权平均数，中位数，众数

1、平均数：所有数加在一起求平均

2、中位数：对于有限的数集，可以通过把所有观察值**高低排序**后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。

3、众数：出现次数最多的那个数

4、加权平均数：加权平均值即将各数值乘以相应的权数，然后加总求和得到总体值，再除以总的单位数。加权平均值的大小不仅取决于总体中各单位的数值（变量值）的大小，而且取决于各数值出现的次数（频数），由于各数值出现的次数对其在平均数中的影响起着权衡轻重的作用，因此叫做权数。 因为加权平均值是根据权数的不同进行的平均数的计算，所以又叫加权平均数。在日常生活中，人们常常把“权数”理解为事物所占的“权重”
x占a% y占b% z占c% n占m%
加权平均数=（ax+by+cz+mn）/(x+y+z+n)

### 7.1.2 一维数组

沿轴向进行计算，一维数组只有一个0轴

In [11]:
import numpy as np
a = np.array([1,2,3,4,3,5,3,6])
print(f'数组：{a}')
print(np.sum(a))
print(np.prod(a))     # 所有元素的乘积
print(np.cumsum(a))   # 从0开始元素的累积和
print(np.cumprod(a))  # 从1开始元素的累积积
print(np.max(a))
print(np.min(a))
print(np.argmax(a))    # 最大值所在的下标
print(np.argmin(a))    # 最小值所在的下标
print(np.mean(a))      # 平均数
print(np.median(a))    # 中位数
print(np.average(a))   # 加权平均
counts = np.bincount(a) # 统计非负整数的个数，不能统计浮点数
print(np.argmax(counts)) # 返回众数,此方法不能用于二维数组

数组：[1 2 3 4 3 5 3 6]
27
6480
[ 1  3  6 10 13 18 21 27]
[   1    2    6   24   72  360 1080 6480]
6
1
7
0
3.375
3.0
3.375
3


### 7.1.3 二维数组

In [12]:
import numpy as np
from scipy import stats
a = np.array([[1,3,6],[9,2,3],[2,3,3]])
print(f'数组：\n{a}')
print('-'*30)
print(np.sum(a))
print(np.prod(a))
print(np.cumsum(a))    # 从0开始元素的累积和，返回一维数组
print(np.cumprod(a))   # 从1开始元素的累积积，返回一维数组
print(np.max(a))
print(np.min(a))
print(np.argmax(a))    
print(np.argmin(a))    
print(np.mean(a))      
print(np.median(a))    
print(np.average(a))  

数组：
[[1 3 6]
 [9 2 3]
 [2 3 3]]
------------------------------
32
17496
[ 1  4 10 19 21 24 26 29 32]
[    1     3    18   162   324   972  1944  5832 17496]
9
1
3
0
3.5555555555555554
3.0
3.5555555555555554


注意：数组的众数不建议在Numpy里面计算，在Pandas里面计算更简单。

将一维数组转成Pandas的Series,然后调用mode()方法

In [27]:
import numpy as np
import pandas as pd

nums = np.random.randint(1, 10, size = 20)
print(nums)
ser = pd.Series(nums)
print(ser.mode())

[5 2 7 7 7 7 2 2 6 6 7 2 1 9 4 1 2 5 8 5]
0    2
1    7
dtype: int32


将二维数组转成Pandas的DataFrame,然后调用mode()方法

In [29]:
nums = np.random.randint(1, 10, size=20).reshape(4, 5)
print(nums)
df = pd.DataFrame(nums)
print(df.mode())

[[9 2 7 9 6]
 [7 1 3 3 4]
 [6 2 2 3 4]
 [7 1 2 9 1]]
     0  1    2  3    4
0  7.0  1  2.0  3  4.0
1  NaN  2  NaN  9  NaN


### 7.1.4 Numpy的axis参数的用途

axis=0代表行，axis=1代表列

所有的数学和统计函数都有这个参数，都可以使用

我们想按行或按列使用时使用这个参数

In [30]:
import numpy as np
a = np.array([[1,3,6],[9,3,2],[1,4,3]])
print(f'数组:\n{a}')
print('-'*30)
print(np.sum(a,axis=0))  # 每行中的每个对应元素相加，返回一维数组
print('-'*30)
print(np.sum(a,axis=1))  # 每列中的每个元素相加，返回一维数组

数组:
[[1 3 6]
 [9 3 2]
 [1 4 3]]
------------------------------
[11 10 11]
------------------------------
[10 14  8]


其中思路正好是反的：axis=0 求每列的和。axis=1求每行的和。

数组对应到现实中的一种解释：
- 行：每行对应一个样本数据
- 列：每列代表样本的一个特征

数据标准化：
- 对于机器学习、神经网络来说，不同列的量钢是相同的，收敛更快。
- 有两个特征，一个是商品单价1元至50元，另一个是销售数量3千个至1万个，这两个数字不可比，所以需要都做标准化。
- 比如在Excel里，单价一个列，销售数量一个列，不同列代表不同特征，所以用axis=0做计算
- 标准化一般使用：通过均值和方差实现

	数组 = （数组 - mean(数组，axis=0)）/ std(数组, axis=0)   