# NumPy简述

## 一、数组
NumPy中的基本对象是`同类型`的`多维数组`（`homogeneous multidimensional array`），这和C++中的数组是一致的，例如字符型和数值型就不可共存于同一个数组中。先上例子：

In [121]:
import numpy as np
a = np.arange(20)
print(a)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


这里我们生成了一个一维数组a，从0开始，步长为1，长度为20。Python中的计数是从0开始的，R和Matlab的使用者需要小心。

通过函数`reshape`，我们可以重新构造一下这个数组，例如，我们可以构造一个`4*5`的二维数组，其中`reshape`的参数表示各维度的大小，且按`各维顺序排列`（两维时就是按行排列，这和R中按列是不同的）：

In [122]:
a = a.reshape(4,5)
print(a)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


构造更高维的也没问题:

In [123]:
a = a.reshape(2, 2, 5)
print(a)

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]]

 [[10 11 12 13 14]
  [15 16 17 18 19]]]


既然`a`是`array`，我们还可以调用`array`的函数进一步查看`a`的相关属性：
* `ndim`查看维度；
* `shape`查看各维度的大小；
* `size`查看全部的元素个数，等于各维度大小的乘积；
* `dtype`可查看元素类型；

In [124]:
print(a.ndim)
print(a.shape)
print(a.size)
print(a.dtype)

3
(2, 2, 5)
20
int64


## 二、创建数组
数组的创建可通过转换列表实现，高维数组可通过转换嵌套列表实现：

In [125]:
raw = [0, 1, 2, 3, 4]
a = np.array(raw)
print(a)

raw = [[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]]
b = np.array(raw)

print(b)

[0 1 2 3 4]
[[0 1 2 3 4]
 [5 6 7 8 9]]


一些特殊的数组有特别定制的命令生成，如`4*5`的全零矩阵：

In [126]:
d = (4, 5)
c = np.zeros(d)
print(c)

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


默认生成的类型是浮点型，可以通过指定类型改为整型：

In [127]:
d = (4, 5)
np.ones(d, dtype=int)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

`[0, 1)`区间的随机数数组：

In [128]:
np.random.rand(5)

array([0.01830846, 0.53752361, 0.84015703, 0.74893688, 0.12269316])

## 三、数组操作
简单的四则运算已经重载过了，全部的`+，-，*，/`运算都是基于全部的数组元素的，以加法为例：

In [129]:
a = np.array([[1.0, 2], [2, 4]])
b = np.array([[3.2, 1.5], [2.5, 4]])
print(a+b)
print(a*b)

[[4.2 3.5]
 [4.5 8. ]]
[[ 3.2  3. ]
 [ 5.  16. ]]


这里可以发现，`a`中虽然仅有一个与元素是浮点数，其余均为整数，在处理中Python会自动将整数转换为浮点数（因为数组是同质的），并且，两个二维数组相加要求各维度大小相同。当然，`NumPy`里这些运算符也可以对标量和数组操作，结果是数组的全部元素对应这个标量进行运算，还是一个数组：

In [130]:
print(3*a)
print(a + 1.8)

[[ 3.  6.]
 [ 6. 12.]]
[[2.8 3.8]
 [3.8 5.8]]


类似C++，`+=、-=、*=、/=`操作符在NumPy中同样支持：

In [131]:
a += 2
print(a)

[[3. 4.]
 [4. 6.]]


开根号求指数也很容易：

In [132]:
print(np.exp(a)) #e的指数
print(np.sqrt(a)) #开根号
print(np.square(a)) #平方数
print(np.power(a, 3)) # 3次方

[[ 20.08553692  54.59815003]
 [ 54.59815003 403.42879349]]
[[1.73205081 2.        ]
 [2.         2.44948974]]
[[ 9. 16.]
 [16. 36.]]
[[ 27.  64.]
 [ 64. 216.]]


需要知道二维数组的最大最小值怎么办？

想计算全部元素的和、按行求和、按列求和怎么办？for循环吗？不，NumPy的`ndarray`类已经做好函数了：

In [133]:
a = np.arange(20).reshape(4, 5)
print(a)
print("sum of all elements in a: " + str(a.sum())) # 求和
print("maximum element in a: " + str(a.max()))
print("minimum element in a: " + str(a.min()))
print("maximum element in each row of a: " + str(a.max(axis=1)))
print("minimum element in each column of a: " + str(a.min(axis=0)))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
sum of all elements in a: 190
maximum element in a: 19
minimum element in a: 0
maximum element in each row of a: [ 4  9 14 19]
minimum element in each column of a: [0 1 2 3 4]


科学计算中大量使用到矩阵运算，除了数组，`NumPy`同时提供了`矩阵对象`（`matrix`）。`矩阵对象和数组`的主要有`两点差别`：
* 一是矩阵是二维的，而数组的可以是任意正整数维；
* 二是矩阵的 **操作符进行的是矩阵乘法，乘号左侧的矩阵列和乘号右侧的矩阵行要相等**，而在数组中操作符进行的是每一元素的`对应相乘`，乘号两侧的数组每一维大小需要一致。

数组可以通过`asmatrix`或者`mat`转换为矩阵，或者直接生成也可以：

In [134]:
a = np.arange(20).reshape(4, 5)
a = np.asmatrix(a)
print(a)
print(type(a))

b = np.matrix('1.0 2.0; 3.0 4.0')
print(b)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
<class 'numpy.matrix'>
[[1. 2.]
 [3. 4.]]


再来看一下矩阵的乘法，这使用arange生成另一个矩阵b，arange函数还可以通过arange(起始，终止，步长)的方式调用生成等差数列，注意含头不含尾。

In [135]:
b = np.arange(2, 45, 3).reshape(5, 3)
b = np.mat(b)
print(b)

[[ 2  5  8]
 [11 14 17]
 [20 23 26]
 [29 32 35]
 [38 41 44]]


有人要问了，arange指定的是步长，如果想指定生成的一维数组的长度怎么办？好办，linspace就可以做到：

In [136]:
np.linspace(0, 2, 9)

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

矩阵a和b做矩阵乘法：

In [137]:
print(a)
print(b)
print(a*b)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
[[ 2  5  8]
 [11 14 17]
 [20 23 26]
 [29 32 35]
 [38 41 44]]
[[ 290  320  350]
 [ 790  895 1000]
 [1290 1470 1650]
 [1790 2045 2300]]


## 四、数组元素访问
数组和矩阵元素的访问可通过下标进行，以下均以二维数组（或矩阵）为例：

In [138]:
a = np.array([[3.2, 1.5], [2.5, 4]])
print(a[0][1])
print(a[0,1])

1.5
1.5


可以通过下标访问来修改数组元素的值：

In [139]:
b = a
a[0][1] = 2.0
print(b)
print(a)

[[3.2 2. ]
 [2.5 4. ]]
[[3.2 2. ]
 [2.5 4. ]]


现在问题来了，明明改的是a[0][1]，怎么连b[0][1]也跟着变了？这个陷阱在Python编程中很容易碰上，其原因在于Python不是真正将a复制一份给b，而是将b指到了a对应数据的内存地址上。想要真正的复制一份a给b，可以使用copy：

In [140]:
a = np.array([[3.2, 1.5], [2.5, 4]])
b = a.copy()
a[0][1] = 2.0
print(b)
print(a)

[[3.2 1.5]
 [2.5 4. ]]
[[3.2 2. ]
 [2.5 4. ]]


若对a重新赋值，即将a指到其他地址上，b仍在原来的地址上：

In [141]:
a = np.array([[3.2, 1.5], [2.5, 4]])
b = a
a = np.array([[2, 1], [9, 3]])

In [142]:
print(a)
print(b)

[[2 1]
 [9 3]]
[[3.2 1.5]
 [2.5 4. ]]


利用`:`可以访问到某一维的全部数据，例如取矩阵中的指定列：

In [143]:
a = np.arange(20).reshape(4, 5)

print(a)
print(a[:, [1, 3]])

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
[[ 1  3]
 [ 6  8]
 [11 13]
 [16 18]]


稍微复杂一些，我们尝试取出满足某些条件的元素，这在数据的处理中十分常见，通常用在单行单列上。

下面这个例子是将第一列大于5的元素（10和15）对应的第三列元素（12和17）取出来：

In [144]:
print(a[:, 2][a[:, 0] > 5])

[12 17]


可使用where函数查找特定值在数组中的位置：

In [145]:
loc = np.where(a == 11)
print(loc)
print(a[loc[0][0], loc[1][0]])

(array([2]), array([1]))
11


## 五、矩阵操作
### 矩阵转置：

In [146]:
a = np.random.rand(2, 4)
print(a)
a = np.transpose(a)
print(a)

b = np.random.rand(2, 4)
b = np.mat(b)
print(b)
print(b.T) ## 矩阵转置

[[0.53938463 0.09740076 0.14837233 0.97557417]
 [0.3519553  0.78887398 0.58568078 0.60447673]]
[[0.53938463 0.3519553 ]
 [0.09740076 0.78887398]
 [0.14837233 0.58568078]
 [0.97557417 0.60447673]]
[[0.91523966 0.45328236 0.25653551 0.319851  ]
 [0.53632806 0.57246777 0.16722138 0.49967316]]
[[0.91523966 0.53632806]
 [0.45328236 0.57246777]
 [0.25653551 0.16722138]
 [0.319851   0.49967316]]


### 矩阵求逆

In [147]:
import numpy.linalg as nlg

a = np.random.rand(2, 2)
a = np.mat(a)
print(a)
ia = nlg.inv(a)
print(ia)
print(a * ia)

[[0.12254115 0.08813315]
 [0.36013897 0.36762138]]
[[ 27.6229233   -6.62228986]
 [-27.06069809   9.20769259]]
[[ 1.00000000e+00  5.92774933e-17]
 [-9.69098904e-17  1.00000000e+00]]


### 求特征值和特征向量

In [148]:
a = np.random.rand(3, 3)
eig_value, eig_vector = nlg.eig(a)

print(eig_value)
print(eig_vector)

[ 1.81987668  0.30196216 -0.51108981]
[[-0.63429605 -0.70916595 -0.38762699]
 [-0.57348558  0.67384003 -0.5307123 ]
 [-0.51844267 -0.2074205   0.7537173 ]]


按列拼接两个向量成一个矩阵：

In [149]:
a = np.array((1, 2, 3))
b = np.array((2, 3, 4))
print(np.column_stack((a, b)))

[[1 2]
 [2 3]
 [3 4]]


在循环处理某些数据得到结果后，将结果拼接成一个矩阵是十分有用的，可以通过vstack和hstack完成：

In [150]:
a = np.random.rand(2, 2)
b = np.random.rand(2, 2)
print(a)
print(b)
c = np.hstack([a, b])
d = np.vstack([a, b])
print(c)
print(d)

[[0.46067357 0.17759175]
 [0.88857463 0.69537099]]
[[0.92182254 0.96221743]
 [0.90807064 0.68502222]]
[[0.46067357 0.17759175 0.92182254 0.96221743]
 [0.88857463 0.69537099 0.90807064 0.68502222]]
[[0.46067357 0.17759175]
 [0.88857463 0.69537099]
 [0.92182254 0.96221743]
 [0.90807064 0.68502222]]


## 六、缺失值
缺失值在分析中也是信息的一种，NumPy提供nan作为缺失值的记录，通过isnan判定。

In [151]:
a = np.random.rand(2, 2)
a[0, 1] = np.nan
print(a)
print(np.isnan(a))

[[0.2482904         nan]
 [0.74166509 0.8342416 ]]
[[False  True]
 [False False]]


nan_to_num可用来将nan替换成0，在后面会介绍到的更高级的模块pandas时，我们将看到pandas提供能指定nan替换值的函数。

In [152]:
print(np.nan_to_num(a))


[[0.2482904  0.        ]
 [0.74166509 0.8342416 ]]
