## NumPy

Numpy是一个开源的Python科学计算库，用于快速处理任意维度的数组。Numpy支持常见的数组和矩阵操作，对于同样的数值计算任务，使用NumPy不仅代码要简洁的多，而且NumPy的性能远远优于原生Python，基本是一个到两个数量级的差距，而且数据量越大，NumPy的优势就越明显。

Numpy最为核心的数据类型是ndarray，使用ndarray可以处理一维、二维和多维数组，该对象相当于是一个快速而灵活的大数据容器。NumPy底层代码使用C语言编写，解决了GIL的限制，ndarray在存储数据的时候，数据与数据的地址都是连续的，这样就给使得批量操作速度很快，远远优于Python中的list；另一方面ndarray对象提供了更多的方法来处理数据，尤其是和统计相关的方法，这些方法也是Python原生的list没有的。

### 准备工作

启动Notebook

jupyter notebook

提示：在启动Notebook之前，建议先安装好数据分析相关依赖项，包括之前提到的三大神器以及相关依赖项，包括：numpy、pandas、matplotlib、openpyxl、xlrd、xlwt等。如果使用Anaconda，则无需单独安装。

### 创建数组对象

In [2]:
# 导入依赖
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#### 一维数组

In [10]:
# 使用array函数，通过list创建
array1 = np.array([1,2,3,4,5])
array1

array([1, 2, 3, 4, 5])

In [12]:
# 使用arange函数，指定取值范围创建
array2 = np.arange(0, 20, 2)
array2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [16]:
# 使用 linspace函数，用指定范围均匀间隔的数字创建
array3 = np.linspace(-5, 5, 101)
array3

array([-5. , -4.9, -4.8, -4.7, -4.6, -4.5, -4.4, -4.3, -4.2, -4.1, -4. ,
       -3.9, -3.8, -3.7, -3.6, -3.5, -3.4, -3.3, -3.2, -3.1, -3. , -2.9,
       -2.8, -2.7, -2.6, -2.5, -2.4, -2.3, -2.2, -2.1, -2. , -1.9, -1.8,
       -1.7, -1.6, -1.5, -1.4, -1.3, -1.2, -1.1, -1. , -0.9, -0.8, -0.7,
       -0.6, -0.5, -0.4, -0.3, -0.2, -0.1,  0. ,  0.1,  0.2,  0.3,  0.4,
        0.5,  0.6,  0.7,  0.8,  0.9,  1. ,  1.1,  1.2,  1.3,  1.4,  1.5,
        1.6,  1.7,  1.8,  1.9,  2. ,  2.1,  2.2,  2.3,  2.4,  2.5,  2.6,
        2.7,  2.8,  2.9,  3. ,  3.1,  3.2,  3.3,  3.4,  3.5,  3.6,  3.7,
        3.8,  3.9,  4. ,  4.1,  4.2,  4.3,  4.4,  4.5,  4.6,  4.7,  4.8,
        4.9,  5. ])

In [21]:
# 使用random模块的函数生成随机数创建

# 产生10个$[0, 1)$范围的随机小数：
array4 = np.random.rand(10)
array4

array([0.95657269, 0.18104453, 0.73527402, 0.8668867 , 0.84742635,
       0.97721272, 0.35457762, 0.62056864, 0.58403926, 0.40975201])

In [23]:
# 产生10个$[1, 100)$范围的随机整数:
array5 = np.random.randint(1, 100, 10)
array5

array([92, 86, 58, 52, 83, 52, 54, 81, 26, 28])

In [24]:
# 产生20个$\mu=50$，$\sigma=10$的正态分布随机数
array6 = np.random.normal(50, 10, 20)
array6

array([45.68129008, 73.04054001, 43.65552087, 47.21163732, 44.85356991,
       60.8796293 , 43.56195252, 56.99991671, 39.15854681, 58.64145847,
       41.07094791, 48.41978316, 41.14008487, 41.57517331, 41.61658062,
       47.92038829, 67.50294151, 41.89043519, 55.39822627, 49.68319951])

#### 二维数组

In [26]:
# 使用array函数，通过嵌套的list创建
array7 = np.array([[1,2,3], [4,5,6]])
array7

array([[1, 2, 3],
       [4, 5, 6]])

In [28]:
# 使用zeros、ones、full函数指定数组的形状创建
array8 = np.zeros((3, 4))
array8

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [31]:
array9 = np.ones((3, 4))
array9

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [32]:
# 填充元素为10
array10 = np.full((3,4), 10)
array10

array([[10, 10, 10, 10],
       [10, 10, 10, 10],
       [10, 10, 10, 10]])

In [33]:
# 使用eye函数创建单位矩阵
array11 = np.eye(4)
array11

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [34]:
# 通过reshape将一维数组变成二维数组
array12 = np.array([1,2,3,4,5,6])
array12.reshape(2, 3)
# reshape是ndarray对象的一个方法，使用reshape方法时需要确保调形后的数组元素个数与调形前数组元素个数保持一致，否则将会产生异常。

array([[1, 2, 3],
       [4, 5, 6]])

In [35]:
# 通过numpy.random模块的函数生成随机数创建
array13 = np.random.rand(3, 4)
array13

array([[0.45134241, 0.37844806, 0.38208074, 0.15332057],
       [0.57741252, 0.24351538, 0.32056319, 0.74059884],
       [0.82040471, 0.01715954, 0.03217832, 0.61490181]])

In [36]:
# 产生$[1, 100)$范围的随机整数构成的3行4列的二维数组
array14 = np.random.randint(1, 100, (3, 4))
array14

array([[36,  6, 16, 65],
       [62, 72, 63, 99],
       [97, 22, 76, 36]])

#### 多维数组

In [37]:
# 使用随机的方式创建
array15 = np.random.randint(1, 100, (3,4,5))
array15

array([[[39,  2, 19,  4, 32],
        [97, 73, 75, 24,  9],
        [ 6, 53, 18, 83, 46],
        [92, 53, 77, 39, 66]],

       [[99, 10, 38, 71, 67],
        [64, 84, 46, 75, 16],
        [80, 77, 18, 93, 52],
        [80, 91, 43, 33,  9]],

       [[33, 68, 82, 95, 79],
        [23, 74, 13, 86, 18],
        [22, 42, 27,  6, 65],
        [47, 12, 45, 23, 71]]])

In [38]:
# 将一维二维的数组调形为多维数组

# 一维数组调形为多维数组
array16 = np.arange(1, 25)
array16.reshape((2, 3, 4))

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24]]])

In [39]:
# 二维数组调形为多维数组
array17 = np.random.randint(1, 100, (4,6))
array17.reshape((4,3,2))

array([[[ 6, 36],
        [73, 53],
        [43, 82]],

       [[15, 73],
        [11, 34],
        [84, 24]],

       [[ 2, 81],
        [50, 70],
        [53, 42]],

       [[96, 97],
        [96, 30],
        [85, 98]]])

#### 数组对象的属性

In [47]:
# size属性：数组元素个数
array18 = np.arange(1, 100, 2)
print(array18.size)

array19 = np.random.rand(3, 4)
print(array19.size)

50
12


In [49]:
# shape属性：数组的形状
array19.shape

(3, 4)

In [52]:
# dtype属性：数组元素的数据类型
array19.dtype

dtype('float64')

ndarray对象元素的数据类型可以参考如下所示的表格。
![image.png](attachment:image.png)

In [53]:
# ndim属性：数组的维度
array19.ndim

2

In [55]:
# itemsize属性：数组单个元素占用内存空间的字节数
array20 = np.arange(1, 100, 2, dtype=np.int8)
print(array19.itemsize, array20.itemsize)

8 1


说明：在使用arange创建数组对象时，通过dtype参数指定元素的数据类型。可以看出，np.int8代表的是8位有符号整数，只占用1个字节的内存空间，取值范围是$[-128,127]$。

In [56]:
# nbytes属性：数组所有元素占用内存空间的字节数
print(array19.nbytes, array20.nbytes)

96 50


In [58]:
# flat属性：数组（一维化之后）元素的迭代器
from typing import Iterable
print(isinstance(array20.flat, np.ndarray), isinstance(array20.flat, Iterable))

False True


In [59]:
# base属性：数组的基对象（如果数组共享了其他数组的内存空间）
array21 = array20[:]
print(array21.base is array19, array21.base is array20)

False True


说明：上面的代码用到了数组的切片操作，它类似于Python中list类型的切片，但在细节上又不完全相同，下面会专门讲解这个知识点。通过上面的代码可以发现，ndarray切片后得到的新的数组对象跟原来的数组对象共享了内存中的数据，因此array22的base属性就是array19对应的数组对象。

#### 数组的索引和切片

和Python中的列表类似，NumPy的ndarray对象可以进行索引和切片操作，通过索引可以获取或修改数组中的元素，通过切片可以取出数组的一部分。

索引运算

In [85]:
# 一维数组： 
array22 = np.arange(1, 10)
print(array22[0], array22[array22.size - 1])
print(array22[-array22.size], array22[-1])

1 9
1 9


In [83]:
# 二维数组：
array23 = np.arange(1, 10).reshape((3,3))
print(array23, "\n")
print(array23[2])
print(array23[0][0], array23[-1][-1])
print(array23[1][1], array23[1][1])

[[1 2 3]
 [4 5 6]
 [7 8 9]] 

[7 8 9]
1 9
5 5


In [84]:
array23[1][1] = 10
print(array23, "\n")
array23[1] = [10, 11, 12]
print(array23)

[[ 1  2  3]
 [ 4 10  6]
 [ 7  8  9]] 

[[ 1  2  3]
 [10 11 12]
 [ 7  8  9]]


切片运算（切片索引）

切片是形如[开始索引:结束索引:步长]的语法，通过指定开始索引（默认值无穷小）、结束索引（默认值无穷大）和步长（默认值1），从数组中取出指定部分的元素并构成新的数组。因为开始索引、结束索引和步长都有默认值，所以它们都可以省略，如果不指定步长，第二个冒号也可以省略。一维数组的切片运算跟Python中的list类型的切片非常类似，此处不再赘述，二维数组的切片可以参考下面的代码，相信非常容易理解。

In [87]:
array24 = np.arange(1, 10).reshape((3,3))
array24[:2, 1:]

array([[2, 3],
       [5, 6]])

In [88]:
array24[2]

array([7, 8, 9])

In [90]:
array24[2, :]

array([7, 8, 9])

In [92]:
array24[2:, :]

array([[7, 8, 9]])

In [93]:
array24[:, :2]

array([[1, 2],
       [4, 5],
       [7, 8]])

In [94]:
array24[1:2, :2]

array([[4, 5]])

花式索引（fancy index）

In [96]:
array25 = np.array([50, 30, 15, 20, 40])
array25[[0,1,-1]]

array([50, 30, 40])

In [98]:
# 二维数组的花式索引
array26 = np.array([[30,20,10], [40,60,50], [10,90,80]])
array26[[0, 2]]

array([[30, 20, 10],
       [10, 90, 80]])

In [102]:
# 取二维数组第1行第2列，第3行第3列的两个元素
array26[[0,2], [1,2]]

array([20, 80])

In [105]:
# 取二维数组第1行第2列，第3行第2列的两个元素
array26[[0,2], [1,1]]
array26[[0,2], 1]

array([20, 90])

布尔索引

布尔索引就是通过布尔类型的数组对数组元素进行索引，布尔类型的数组可以手动构造，也可以通过关系运算来产生布尔类型的数组。

In [106]:
array27 = np.arange(1, 10)
array27[[True, False, True, True, False, False, False, False, True]]

array([1, 3, 4, 9])

In [107]:
array27 >= 5

array([False, False, False, False,  True,  True,  True,  True,  True])

In [108]:
# ~运算符可以实现逻辑变反，看看运行结果跟上面有什么不同
~(array27 >= 5)

array([ True,  True,  True,  True, False, False, False, False, False])

In [109]:
array27[array27 >= 5]

array([5, 6, 7, 8, 9])

提示：切片操作虽然创建了新的数组对象，但是新数组和原数组共享了数组中的数据，简单的说，如果通过新数组对象或原数组对象修改数组中的数据，其实修改的是同一块数据。花式索引和布尔索引也会创建新的数组对象，而且新数组复制了原数组的元素，新数组和原数组并不是共享数据的关系，这一点通过前面讲的数组的base属性也可以了解到，大家一定要注意.

#### 数组对象的方法

统计方法

ndarray对象的统计方法主要包括：sum()、mean()、std()、var()、min()、max()、argmin()、argmax()、cumsum()等，分别用于对数组中的元素求和、求平均、求标准差、求方差、找最大、找最小、求累积和等，请参考下面的代码。

In [110]:
array28 = np.array([1, 2, 3, 4, 5, 5, 4, 3, 2, 1])
print(array28.sum())
print(array28.mean())
print(array28.max())
print(array28.min())
print(array28.std())
print(array28.var())
print(array28.cumsum())

30
3.0
5
1
1.4142135623730951
2.0
[ 1  3  6 10 15 20 24 27 29 30]


其它方法

all() / any()方法：判断数组是否所有元素都是True / 判断数组是否有为True的元素。

astype()方法：拷贝数组，并将数组中的元素转换为指定的类型。

dump()方法：保存数组到文件中，可以通过NumPy中的load()函数从保存的文件中加载数据创建数组。

fill()方法：向数组中填充指定的元素。

flatten()方法：将多维数组扁平化为一维数组。

nonzero()方法：返回非0元素的索引。

round()方法：对数组中的元素做四舍五入操作。

sort()方法：对数组进行就地排序。

take()方法：从数组中取指定索引的元素，类似于花式索引。

In [115]:
# swapaxes()和transpose()方法：交换数组指定的轴。
array29 = np.array([[1, 2], [3, 4], [5, 6]])
array29.swapaxes(0, 1)

array([[1, 3, 5],
       [2, 4, 6]])

In [117]:
# 对于二维数组，transpose相当于实现了矩阵的转置
array29.transpose()

array([[1, 3, 5],
       [2, 4, 6]])

#### 数组的运算

使用NumPy最为方便的是当需要对数组元素进行运算时，不用编写循环代码遍历每个元素，所有的运算都会自动的矢量化（使用高效的提前编译的底层语言代码来对数据序列进行数学操作）。简单的说就是，NumPy中的数学运算和数学函数会自动作用于数组中的每个成员。

数组跟标量的运算

In [121]:
array30 = np.arange(1,10)
print(array30 + 10)
print(array30 * 10)

[11 12 13 14 15 16 17 18 19]
[10 20 30 40 50 60 70 80 90]


数组跟数组的运算

In [122]:
array31 = np.array([1, 1, 1, 2, 2, 2, 3, 3, 3])
print(array30 + array31)
print(array30 * array31)
print(array30 ** array31)

[ 2  3  4  6  7  8 10 11 12]
[ 1  2  3  8 10 12 21 24 27]
[  1   2   3  16  25  36 343 512 729]


#### 通用一元函数

通用函数是对ndarray中的数据执行元素级运算的函数。你可以将其看做普通函数（接收一个标量值作为参数，返回一个标量值）的矢量化包装器。



| 函数                             | 说明                                          |
| -------------------------------- | --------------------------------------------- |
| `abs` / `fabs`                   | 求绝对值的函数                                |
| `sqrt`                           | 求平方根的函数，相当于`array ** 0.5`          |
| `square`                         | 求平方的函数，相当于`array ** 2`              |
| `exp`                            | 计算$e^x$的函数                               |
| `log` / `log10` / `log2`         | 对数函数（`e`为底 / `10`为底 / `2`为底）      |
| `sign`                           | 符号函数（`1` - 正数；`0` - 零；`-1` - 负数） |
| `ceil` / `floor`                 | 上取整 / 下取整                               |
| `isnan`                          | 返回布尔数组，NaN对应`True`，非NaN对应`False` |
| `isfinite` / `isinf`             | 判断数值是否为无穷大的函数                    |
| `cos` / `cosh` / `sin`           | 三角函数                                      |
| `sinh` / `tan` / `tanh`          | 三角函数                                      |
| `arccos` / `arccosh` / `arcsin`  | 反三角函数                                    |
| `arcsinh` / `arctan` / `arctanh` | 反三角函数                                    |
| `rint` / `round`                 | 四舍五入函数                                  |



#### 通用二元函数

In [124]:
array32 = np.array([[4, 5, 6], [7, 8, 9]])
array33 = np.array([[1, 2, 3], [3, 2, 1]])
print(array32 * array33)
print(np.power(array32, array33))

[[ 4 10 18]
 [21 16  9]]
[[  4  25 216]
 [343  64   9]]




| 函数                               | 说明                                                    |
| ---------------------------------- | ------------------------------------------------------- |
| `add(x, y)` / `substract(x, y)`    | 加法函数 / 减法函数                                     |
| `multiply(x, y)` / `divide(x, y)`  | 乘法函数 / 除法函数                                     |
| `floor_divide(x, y)` / `mod(x, y)` | 整除函数 / 求模函数                                     |
| `allclose(x, y)`                   | 检查数组`x`和`y`元素是否几乎相等                        |
| `power(x, y)`                      | 数组$x$的元素$x_i$和数组$y$的元素$y_i$，计算$x_i^{y_i}$ |
| `maximum(x, y)` / `fmax(x, y)`     | 两两比较元素获取最大值 / 获取最大值（忽略NaN）          |
| `minimum(x, y)` / `fmin(x, y)`     | 两两比较元素获取最小值 / 获取最小值（忽略NaN）          |
| `inner(x, y)`                      | 内积运算                                                |
| `cross(x, y) `/ `outer(x, y)`      | 叉积运算 / 外积运算                                     |
| `intersect1d(x, y)`                | 计算`x`和`y`的交集，返回这些元素构成的有序数组          |
| `union1d(x, y)`                    | 计算`x`和`y`的并集，返回这些元素构成的有序数组          |
| `in1d(x, y)`                       | 返回由判断`x` 的元素是否在`y`中得到的布尔值构成的数组   |
| `setdiff1d(x, y)`                  | 计算`x`和`y`的差集，返回这些元素构成的数组              |
| `setxor1d(x, y)`                   | 计算`x`和`y`的对称差，返回这些元素构成的数组            |



#### 广播机制

上面的例子中，两个二元运算的数组形状是完全相同的，我们再来研究一下，两个形状不同的数组是否可以直接做二元运算或使用二元函数进行运算，请看下面的例子。

In [125]:
array34 = np.array([[0, 0, 0], [1, 1, 1], [2, 2, 2], [3, 3, 3]])
array35 = np.array([1, 2, 3])
array34 + array35

array([[1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6]])

In [126]:
array36 = np.array([[1], [2], [3], [4]])
array36 + array34

array([[1, 1, 1],
       [3, 3, 3],
       [5, 5, 5],
       [7, 7, 7]])

#### 其他常用函数

除了上面讲到的函数外，NumPy中还提供了很多用于处理数组的函数，ndarray对象的很多方法也可以通过直接调用函数来实现，下表给出了一些常用的函数。



| 函数                           | 说明                                             |
| ------------------------------ | ------------------------------------------------ |
| `unique`                       | 去除数组重复元素，返回唯一元素构成的有序数组     |
| `copy`                         | 返回拷贝数组得到的数组                           |
| `sort`                         | 返回数组元素排序后的拷贝                         |
| `split` / `hsplit` / `vsplit`  | 将数组拆成若干个子数组                           |
| `stack` / `hstack` / `vstack`  | 将多个数组堆叠成新数组                           |
| `concatenate`                  | 沿着指定的轴连接多个数组构成新数组               |
| `append` / `insert`            | 向数组末尾追加元素 / 在数组指定位置插入元素      |
| `argwhere`                     | 找出数组中非0元素的位置                          |
| `extract` / `select` / `where` | 按照指定的条件从数组中抽取或处理数组元素         |
| `flip`                         | 沿指定的轴翻转数组中的元素                       |
| `fromiter`                     | 通过迭代器创建数组对象                           |
| `fromregex`                    | 通过读取文件和正则表达式解析获取数据创建数组对象 |
| `repeat` / `tile`              | 通过对元素的重复来创建新数组                     |
| `roll`                         | 沿指定轴对数组元素进行移位                       |
| `resize`                       | 重新调整数组的大小                               |
| `place` / `put`                | 将数组中满足条件的元素/指定的元素替换为指定的值  |
| `ptp`                          | 沿指定的轴计算极差（最大值与最小值的差）         |
| `median`                       | 沿指定轴计算中位数                               |
| `partition`                    | 用选定的元素对数组进行一次划分并返回划分后的数组 |



提示：上面的resize函数和ndarray对象的resize方法是有区别的，resize函数在调整数组大小时会重复数组中的元素作为填补多出来的元素的值，而ndarry对象的resize方法是用0来填补多出来的元素。这些小细节不清楚暂时也不要紧，但是如果用到对应的功能了就要引起注意。

In [128]:
array37 = np.array([[1, 1, 1], [2, 2, 2], [3, 3, 3]])
array38 = np.array([[4, 4, 4], [5, 5, 5], [6, 6, 6]])
np.hstack((array37, array38))

array([[1, 1, 1, 4, 4, 4],
       [2, 2, 2, 5, 5, 5],
       [3, 3, 3, 6, 6, 6]])

In [129]:
np.vstack((array37, array38))

array([[1, 1, 1],
       [2, 2, 2],
       [3, 3, 3],
       [4, 4, 4],
       [5, 5, 5],
       [6, 6, 6]])

In [130]:
np.concatenate((array37, array38))

array([[1, 1, 1],
       [2, 2, 2],
       [3, 3, 3],
       [4, 4, 4],
       [5, 5, 5],
       [6, 6, 6]])

In [131]:
np.concatenate((array37, array38), axis=1)

array([[1, 1, 1, 4, 4, 4],
       [2, 2, 2, 5, 5, 5],
       [3, 3, 3, 6, 6, 6]])