**Ch04: NumPy入门！！**

Source: 

[Book_1_《编程不难》 | 鸢尾花书：从加减乘除到机器学习](https://github.com/Visualize-ML/Book1_Python-For-Beginners); 

[数据分析实战 45 讲](https://time.geekbang.org/column/intro/100021701?tab=intro)

---

## NumPy ndarray

- NumPy将问题向量化。它底层使用C语言编写，内置并行计算功能，运算速度高于Python。

    - A universal function or **ufunc**: 'a core feature of NumPy, *applies to the entire array*' (whereas a Python function only works on single values).

- Python中用列表保存数组的数值；列表中的元素可以是任意的对象，所以实际上**保存的是对象的指针，遍历元素时需要对内存地址进行查找**，效率低。而ndarray所有元素数据类型相同，**内存地址连续**，跟列表相比效率很高的说。（除了使用ndarray外另外一个提升内存和计算资源利用率的规则是*避免采用隐式拷贝，而是采用就地操作的方式*，比如让一个数值x是原来的两倍，直接写`x*=2`而不要写成`y=x*2`）

    - 另一个区别是列表可以动态增长，而ndarray创建时具有固定大小，更改其大小将创建一个新数组并删除原来的数组。
    
    - numpy的结构数组：允许存储不同数据类型的数据，类似于表格，每个字段有名称`names`和数据类型`formats`，后者有一套字符代码eg. `S`, `i`, `f`, 还有允许中文字符的`U32`。适用于处理CSV、数据库等结构化数据，但性能不如纯数值数组。

- ndarray数组支持broadcasting，矩阵运算时不需要写for循环。比如`+`对于一般路过python列表来说是把两个拼一块，对于ndarray直接就逐元素相加了。但一定注意numpy中广播是较小数组会在维度上扩展，而不是像R中向量运算那样子把同维度的形状也变了。

### 创建ndarray

1. `np.array()`可从其他python结构（list, tuple）转换
2. numpy原生数组创建：
    - `np.linspace()`与`np.arange()`区别除了第三个参数是元素个数还是步长外，前者生成浮点型且默认包括终值索引（第二个参数），而后者类似内置函数`range()`，生成整型且默认是不包括终值的。
    - `np.ones()`, `np.zeros()`, 还有如下所示全部为指定值的`np.full()`，及单位阵`np.eye()`。
    - 随机数组，`np.random.rand()`和`np.random.random()`虽然都在[0, 1)的均匀分布中产生随机数，但传参方式不同：前者接收分开的参数，后者接收一个单独的元组。

In [93]:
import numpy as np

# ndarray的属性包括shape, dtype, size和ndim等，可通过如下代码可以查看数组的属性：
a = np.full((2,3),6)
print(a)
print('Shape of a: ', a.shape) # 1维 (N, ), 2维 (M, N), 3维 (M, N, K)；可a.reshape
print('Type of a: ', a.dtype) # dtype可用a.astype转化；结构数组的dtype类型也是通过np.dtype()指定
print('Size of a: ', a.size) # 区分shape；大小等于各个维度的长度的乘积（但是创建数组时kwarg又叫'size='，明明该传进去的实参是shape形式...?）
print('Dimension of a: ', a.ndim)

# 通过列表创建数组 + 广播
a = [[1, 2, 3, 4], [5, 6, 7, 8]]
a= np.array(a)
b = [11, 22, 33, 44]
print("\n",a+b)
print((a+b).dtype)

print("\n",np.arange(1,2,1),np.linspace(1,2,1))

array_ones = np.ones((4,4))
print("\n",array_ones)
array_eye = np.eye(4)
print("\n",array_eye)

rand_int = np.random.randint(0,9,size=(4,4))
print("\n",rand_int)
rand_uni = np.random.uniform(-1.0, 2.0, size=(2, 2))
print("\n",rand_uni)
rand_normal = np.random.normal(0.0, 1.0, size=(3, 3))  # 前两个参数分别为均值及标准差
print("\n",rand_normal)
# 随机选取元素
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
b = np.random.choice(a, 6)
print("\n",b)

[[6 6 6]
 [6 6 6]]
Shape of a:  (2, 3)
Type of a:  int64
Size of a:  6
Dimension of a:  2

 [[12 24 36 48]
 [16 28 40 52]]
int64

 [1] [1.]

 [[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]

 [[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]

 [[7 7 3 4]
 [2 2 5 3]
 [8 2 8 7]
 [2 6 8 8]]

 [[-0.4461444   1.35565426]
 [-0.77067712 -0.95048159]]

 [[-7.07734842e-01  3.03342526e-03  8.38469482e-01]
 [ 7.25370959e-01 -5.63327694e-01 -1.30692131e-03]
 [ 7.09662084e-01  1.51484207e+00 -2.22834031e+00]]

 [4 2 4 9 2 3]


In [57]:
# 数组之间的运算
x1 = np.arange(1,11,2) # 1, 3, 5, 7, 9
x2 = np.linspace(1,9,5) # 1., 3., 5., 7., 9.
print("Addition: ",np.add(x1, x2))
print("Subtraction: ",np.subtract(x1, x2))
print("Multiplication: ",np.multiply(x1, x2))
print("Division: ",np.divide(x1, x2))
print("Exponentiation: ",np.power(x1, x2)) # x2数组中的元素作次方的**次数**
print("Mod: ",np.remainder(x1, x2),"\n") # 也可以用 np.mod(x1, x2)

# 统计函数
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
print(np.mean(a))
print(np.average(a)) # average是加权平均数，但默认每个元素权重相同，即默认跟mean()一个效果
w = np.array([[1,1,1,1],[3,3,3,3]])
print(np.average(a,weights=w)) # 每个权重对应到每个元素
# 下面的函数不指定axis时，默认沿数组中全部元素查找（扁平化）
print(np.amin(a))
print(np.amin(a),0)
print(np.amin(a),1)
print(np.amax(a),1)
print(np.ptp(a)) # 寻找极差
print(np.ptp(a),0)
print(np.median(a),np.percentile(a,50),np.percentile(a, 50, axis=1)) # 第50百分位数，不就是中位数嘛
print(np.std(a),np.var(a)) # 标准差与方差

Addition:  [ 2.  6. 10. 14. 18.]
Subtraction:  [0. 0. 0. 0. 0.]
Multiplication:  [ 1.  9. 25. 49. 81.]
Division:  [1. 1. 1. 1. 1.]
Exponentiation:  [1.00000000e+00 2.70000000e+01 3.12500000e+03 8.23543000e+05
 3.87420489e+08]
Mod:  [0. 0. 0. 0. 0.] 

4.5
4.5
5.5
1
1 0
1 1
8 1
7
7 0
4.5 4.5 [2.5 6.5]
2.29128784747792 5.25


In [81]:
# 排序
# sort(a, axis=-1, kind=‘quicksort’, order=None)
a = np.array([[3,4,2],[2,4,1]])
print(np.sort(a)) # 默认axis=-1，即最后一个轴
print(np.sort(a, axis=None)) # 扁平化！
print(np.sort(a, axis=0))  
print(np.sort(a, axis=1)) 

# python的内置函数sorted(): sorted(iterable, key, reverse=False)，参数key接收一个函数确定排序依据，可以为匿名函数。
# https://blog.csdn.net/sangedianhao/article/details/137350769

# 结构数组 + 内置sorted函数
person_type = np.dtype({ 'names':['name', 'age', 'chinese', 'math', 'english'], 'formats':['S32','i', 'i', 'i', 'f']})
ppl = np.array([("ZhangFei",32,75,100, 90),("GuanYu",24,85,96,88.5), ("ZhaoYun",28,85,92,96.5),("HuangZhong",29,65,85,100)], dtype=person_type)
print(sorted(ppl,key=lambda x:(x['chinese']+x[3]+x[4]),reverse=True)) # 可以通过字段名访问也可以平平无奇数字索引喵

[[2 3 4]
 [1 2 4]]
[1 2 2 3 4 4]
[[2 4 1]
 [3 4 2]]
[[2 3 4]
 [1 2 4]]
[(b'ZhaoYun', 28, 85, 92, 96.5), (b'GuanYu', 24, 85, 96, 88.5), (b'ZhangFei', 32, 75, 100, 90.), (b'HuangZhong', 29, 65, 85, 100.)]
