## Numpy
> 胥嘉政 xjz22@mails.tsinghua.edu.cn

* NumPy是Python语言的一个扩展程序库。支持高阶大规模的多维数组与矩阵运算，此外也针对数组运算提供大量的数学函数函式库。

### 初识ndarray
* ndarray对象是用于存放同类型元素的多维数组，是numpy中的基本对象之一

In [1]:
import numpy as np

a = np.array([1,2,3,4,5,6])
b = np.array([[1,2,3],[4,5,6]])
c = np.array([[[1,2,3],[4,5,6]], [[7,8,9],[10,11,12]]])

print(a)
print(b)
print(c)

[1 2 3 4 5 6]
[[1 2 3]
 [4 5 6]]
[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


* shape: 数组的“形状”

In [2]:
print("a.shape: ", a.shape)
print("b.shape: ", b.shape)
print("c.shape: ", c.shape)

a.shape:  (6,)
b.shape:  (2, 3)
c.shape:  (2, 2, 3)


#### ndarray的属性dtype: 数组元素的数据类型

ndarray数据类型dtype：
* 布尔型：bool_
* 整型：int_ int8 int16 int32 int 64
* 无符号整型：uint8 uint16 uint32 uint64
* 浮点型：float_ float16 float32 float64
* 复数型：complex_ complex64 complex128
* 其他类型：object(Python对象) string_ unicode

In [3]:
a = np.array([1,2,3,4,5,6])
a2 = np.array([1,2,3,1,2,3])
x = a == a2
print("x: ", x)
print("x.dtype: ", x.dtype)
x_to_float = x.astype('float')
print("x_to_float: ", x_to_float)
print("x_to_float.dtype: ", x_to_float.dtype)

x:  [ True  True  True False False False]
x.dtype:  bool
x_to_float:  [1. 1. 1. 0. 0. 0.]
x_to_float.dtype:  float64


In [4]:
a = np.array([-1.4111, 2.500, -3.533])
b = a.astype('int32') # 小数转整数遵循向零取整法
print("b: ", b)

b:  [-1  2 -3]


#### ndarray其他创建方法

* np.arange([start, ]stop, [step, ]dtype=None, *)

In [5]:
arange1 = np.arange(5)
arange2 = np.arange(10, 20, 2) # 步长为2
arange3 = np.arange(0.0, 1.0, 0.1) # 步长为0.1
print("arange1: ", arange1)
print("arange2: ", arange2)
print("arange3: ", arange3)

arange1:  [0 1 2 3 4]
arange2:  [10 12 14 16 18]
arange3:  [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9]


* linspace(start, stop, num=50, endpoint=True, *)
    * 生成线性空间，即从start到stop区间内均匀的num个数。endpoint参数指定数组在stop处的开闭。

In [6]:
linspace1 = np.linspace(0, 1, 9)
linspace2 = np.linspace(0, 1, 10, endpoint=False)
print("linspace1: ", linspace1)
print("linspace2: ", linspace2)

linspace1:  [0.    0.125 0.25  0.375 0.5   0.625 0.75  0.875 1.   ]
linspace2:  [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9]


* 根据shape元组创建ndarray:

In [7]:
ndarray_base = np.array([[[1,2,3],[4,5,6]], [[7,8,9],[10,11,12]]])
ndarray_zeros = np.zeros(ndarray_base.shape, dtype=float) # 全0数组
ndarray_ones = np.ones(ndarray_base.shape, dtype=float) # 全1数组
ndarray_empty = np.empty(ndarray_base.shape, dtype=float) # 空数组（值未初始化）
print("ndarray_zeros: ", ndarray_zeros)
print("ndarray_ones: ", ndarray_ones)
print("ndarray_empty: ", ndarray_empty)

ndarray_zeros:  [[[0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]]]
ndarray_ones:  [[[1. 1. 1.]
  [1. 1. 1.]]

 [[1. 1. 1.]
  [1. 1. 1.]]]
ndarray_empty:  [[[0.00000000e+000 1.29074082e-231 3.95252517e-323]
  [0.00000000e+000 0.00000000e+000 0.00000000e+000]]

 [[0.00000000e+000 0.00000000e+000 0.00000000e+000]
  [0.00000000e+000 0.00000000e+000 0.00000000e+000]]]


In [8]:
x = np.array([[[1,2,3],[4,5,6]], [[7,8,9],[10,11,12]]])
ndarray_empty = np.empty(ndarray_base.shape, dtype=float) # 空数组（值未初始化）
print("ndarray_empty: ", ndarray_empty)

ndarray_empty:  [[[1. 1. 1.]
  [1. 1. 1.]]

 [[1. 1. 1.]
  [1. 1. 1.]]]


### NumPy：数组的变形

* ndarray.reshape(newshape)将原数组按行重新排布为新形状。

In [9]:
a = np.arange(12)
b = a.reshape(3,4)
c = a.reshape(2,-1,2)
print("a.shape: ", a.shape)
print("b.shape: ", b.shape)
print("c.shape: ", c.shape)

a.shape:  (12,)
b.shape:  (3, 4)
c.shape:  (2, 3, 2)


* ndarray.flatten()将高维数组按行“展平”为一维数组。
* ndarray.T或ndarray.transpose()可进行二维数组的转置。

In [10]:
a = np.array([[[1,2,3],[4,5,6]], [[7,8,9],[10,11,12]]])
b = a.flatten()
a_T = a.transpose((1,0,2))
print("a: ", a)
print("b: ", b)
print("a_T: ", a_T)

a:  [[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]
b:  [ 1  2  3  4  5  6  7  8  9 10 11 12]
a_T:  [[[ 1  2  3]
  [ 7  8  9]]

 [[ 4  5  6]
  [10 11 12]]]


### NumPy：数组的运算
* NumPy支持数组的向量化运算，因此无需编写循环即可对数据进行快速批量运算。
    * a=np.arange(10) b=np.arange(10, 20)
* 同样大小的数组间运算会自动应用到元素级：
    * a+b a–b a*a
* 数组与标量的运算会将标量传播到各元素
    * a+1 a**0.5 1/a
* 同样大小的数组间比较（或数组与标量的比较）会生成同样大小的布尔数组
    * a > b a == b a >= 5

### NumPy：数组的索引与切片
NumPy数组切片是原数组的视图而非拷贝，视图上的任何修改都会反映到原数组上。

In [11]:
a = np.arange(10)
b = a[3:5]
b[0] = 100
print("a: ", a)
a = np.arange(10)
c = a[3:5].copy()
c[0] = 100
print("a: ", a)

a:  [  0   1   2 100   4   5   6   7   8   9]
a:  [0 1 2 3 4 5 6 7 8 9]


In [12]:
a = np.arange(15).reshape(3, 5)
print("a: ", a)
print("a[2]: ", a[2])
print("a[1,2]: ", a[1,2])

a:  [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
a[2]:  [10 11 12 13 14]
a[1,2]:  7


In [13]:
a = np.arange(15).reshape(3, 5)
print("a[0:2, 3:5]:\n", a[0:2, 3:5])
print("a[:2, 3:]:\n", a[:2, 3:])
print("a[:-1, -2:]:\n", a[:-1, -2:])

a[0:2, 3:5]:
 [[3 4]
 [8 9]]
a[:2, 3:]:
 [[3 4]
 [8 9]]
a[:-1, -2:]:
 [[3 4]
 [8 9]]


In [14]:
# 布尔型索引

a = np.array([-3, -1, -2, 0, 2, 3, -1, 2, 5])

# 选出所有非负数
mask = a >= 0
print("mask: ", mask)
print("a[mask]: ", a[mask])

# 布尔型索引也可以用来设置值
a[mask] = 0
print("a: ", a)

mask:  [False False False  True  True  True False  True  True]
a[mask]:  [0 2 3 2 5]
a:  [-3 -1 -2  0  0  0 -1  0  0]


In [15]:
# 花式索引

a = np.arange(10)
print(a[[4, 3, 0, 2]])

[4 3 0 2]


### NumPy：通用函数

#### 一元通用函数（接收一个数组参数）
* abs, fabs 绝对值
* sqrt 开方
* exp 指数函数e^x
* log, log10, log2 对数
* sign 取符号（返回1，-1，0的数组）
* ceil 向上取整
* floor 向下取整
* rint, round 四舍五入
* trunc 向零取整
* modf 整数部分和小数部分两个数组
* sin, cos, tan 三角函数
* sinh, cosh, tanh 双曲三角函数
* logical_not 逻辑非

#### 二元通用函数
* maximum 取元素最大值
* minimum 取元素最小值
* logical_and 逻辑与
* logical_or 逻辑或
* logical_xor 逻辑异或

In [16]:
a = np.array([1,2,3,4,5])
b = np.array([5,4,3,2,1])
np.maximum(a, b)

array([5, 4, 3, 4, 5])

注意：使用数组进行向量化计算或通用函数计算时，遇到不合法计算并不会报错，而是根据规则在不合法位置生成nan（非数）、inf（正无穷）或-inf（负无穷）值。

In [17]:
a = np.array([0, 4, -1, 9, 16])
print(np.sqrt(a))
print(a / np.array([0, 0, 0, 3, 4]))

[ 0.  2. nan  3.  4.]
[ nan  inf -inf   3.   4.]


  print(np.sqrt(a))
  print(a / np.array([0, 0, 0, 3, 4]))
  print(a / np.array([0, 0, 0, 3, 4]))


In [18]:
# 特殊值的处理

x = np.array([1, np.nan, np.inf, 4])
print(np.isinf(x))
print(np.isnan(x))
print((x == np.nan) | (x == np.inf)) # 不能用x == np.nan代替np.isnan(x)

[False False  True False]
[False  True False False]
[False False  True False]


In [19]:
# np.where(condition, x, y): 相当于三元表达式x if condition else y

x = np.array([1.1, 2.2, 1.3, 2.4, 1.5])
y = np.array([2.1, 1.2, 2.3, 1.4, 2.5])
result = np.where(x>y, x, y)
print(result)

[2.1 2.2 2.3 2.4 2.5]


In [20]:
# np.nonzero(a): 返回数组a中非零元素的索引

a = np.array([1, 0, 2, 0, 3, 0, 4])
print(np.nonzero(a))
print(a[np.nonzero(a)])
print(np.nonzero(a>2))
print(a[np.nonzero(a>2)])

(array([0, 2, 4, 6]),)
[1 2 3 4]
(array([4, 6]),)
[3 4]


### NumPy：其他常用函数
#### 统计类函数
* sum 求和
* cumsum 求累计和（前缀和）
* mean 求平均值
* std, var 求标准差、方差
* min, max 求最大值、最小值
* argmin, argmax 求最大值、最小值的索引

#### 排序
* np.sort(a) 返回排序副本，不修改原数组
* a.sort() 原地排序，修改原数组

#### 集合类函数
* unique(x) 数组去重
* intersect1d(x,y) 求交集
* union(x,y) 求并集
* in1d(x,y) 求x中的每个元素是否包含于y setdiff(x,y) 求集合的差
* setxor(x,y) 求集合的对称差

#### 线性代数函数
* trace 求矩阵的迹
* det 计算矩阵的行列式
* eig 计算方阵的特征值和特征向量
* inv 计算方阵的逆
* pinv 计算矩阵的伪逆
* svd 计算奇异值分解
* solve 解线性方程组Ax=b

#### 伪随机数函数（np.random包内）
* rand(d0, d1, …, dn) 产生均一分布U(0,1)的样本
* randn(d0, d1, …, dn) 产生正态分布N(0,1)的样本
* randint(low, high, shape) 生成[low,high)区间的随机整数
* normal(loc,scale,shape) 生成服从N(loc,scale^2)的样本
* uniform(low, high,shape) 生成均一分布U(low,high)样本
* shuffle(x) 随机排列数组

In [21]:
# Numpy的四种乘法

a = np.arange(6).reshape((2,3))
b = np.arange(6).reshape((3,2))

print("a: ", a)
print("b: ", b)

# 1. 点乘
x1 = np.dot(a, b)
print("x1: ", x1)

# 2. 矩阵乘法
x2 = a @ b
print("x2: ", x2)

# 3. 向量内积
x3 = np.inner(a, b.T)
print("x3: ", x3)

# 4. 向量外积
x4 = np.outer(a, b)
print("x4: ", x4)

a:  [[0 1 2]
 [3 4 5]]
b:  [[0 1]
 [2 3]
 [4 5]]
x1:  [[10 13]
 [28 40]]
x2:  [[10 13]
 [28 40]]
x3:  [[10 13]
 [28 40]]
x4:  [[ 0  0  0  0  0  0]
 [ 0  1  2  3  4  5]
 [ 0  2  4  6  8 10]
 [ 0  3  6  9 12 15]
 [ 0  4  8 12 16 20]
 [ 0  5 10 15 20 25]]
