Numpy 是一个开源的 Python 科学计算库，用于快速处理任意维度的数组。Numpy 支持常见的数组和矩阵操作，对于同样的数值计算任务，使用 NumPy 不仅代码要简洁的多，而且 NumPy 在性能上也远远优于原生 Python，至少是一到两个数量级的差距，而且数据量越大，NumPy 的优势就越明显。

NumPy 最为核心的数据类型是ndarray，使用ndarray可以处理一维、二维和多维数组，该对象相当于是一个快速而灵活的大数据容器。NumPy 底层代码使用 C 语言编写，解决了 GIL 的限制，ndarray在存取数据的时候，数据与数据的地址都是连续的，这确保了可以进行高效率的批量操作，性能上远远优于 Python 中的list；另一方面ndarray对象提供了更多的方法来处理数据，尤其获取数据统计特征的方法，这些方法也是 Python 原生的list没有的。

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### 创建数组对象

方法一：使用array函数，通过list创建数组对象

In [3]:
array1 = np.array([1, 2, 3, 4, 5])
array1

array([1, 2, 3, 4, 5])

In [4]:
array2 = np.array([[1, 2, 3], [4, 5, 6]])
array2

array([[1, 2, 3],
       [4, 5, 6]])

方法二：使用arange函数，指定取值范围和跨度创建数组对象

In [5]:
array3 = np.arange(0, 20, 2)
array3

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

方法三：使用`linspace`函数，用指定范围和元素个数创建数组对象，生成等差数列

In [7]:
array4 = np.linspace(-1, 1, 11)
array4

array([-1. , -0.8, -0.6, -0.4, -0.2,  0. ,  0.2,  0.4,  0.6,  0.8,  1. ])

方法四：使用`logspace`函数，生成等比数列

In [None]:
# 等比数列的起始值是 2^1，等比数列的终止值是 2^10，num是元素的个数，base就是底数。
array5 = np.logspace(1, 10, num=10, base=2)
array5

array([   2.,    4.,    8.,   16.,   32.,   64.,  128.,  256.,  512.,
       1024.])

方法五：通过`fromstring`函数从字符串提取数据创建数组对象

In [10]:
array6 = np.fromstring('1, 2, 3, 4, 5', sep=',', dtype='i8')
array6

array([1, 2, 3, 4, 5])

方法六：通过`fromiter`函数从生成器（迭代器）中获取数据创建数组对象

In [11]:
def fib(how_many):
    a, b = 0, 1
    for _ in range(how_many):
        a, b = b, a + b
        yield a

gen = fib(20)
array7 = np.fromiter(gen, dtype='i8')
array7

array([   1,    1,    2,    3,    5,    8,   13,   21,   34,   55,   89,
        144,  233,  377,  610,  987, 1597, 2584, 4181, 6765])

方法七：使用`numpy.random`模块的函数生成随机数创建数组对象

In [12]:
array8 = np.random.rand(10)
array8

array([0.86108877, 0.669745  , 0.43778792, 0.30196661, 0.13012967,
       0.01244373, 0.48745206, 0.17777421, 0.74372365, 0.08565308])

产生 10 个 [1,100) 范围的随机整数，代码：

In [14]:
array9 = np.random.randint(1, 100, 10)
array9

array([73, 30, 85, 84, 42, 98, 58,  8, 97, 50])

产生 20 个 μ=50 ， σ=10 的正态分布随机数，代码：

In [15]:
array10 = np.random.normal(50, 10, 20)
array10

array([57.6188653 , 45.7993068 , 38.35284742, 72.27565016, 48.40421261,
       52.93487932, 49.26840102, 50.25236637, 63.01587644, 52.17463942,
       36.6805308 , 34.20864165, 58.37180371, 61.01087381, 45.94230683,
       49.89944754, 38.61362406, 61.30094922, 57.25901672, 55.9533506 ])

产生 [0,1) 范围的随机小数构成的 3 行 4 列的二维数组，代码：

In [16]:
array11 = np.random.rand(3, 4)
array11

array([[0.41264787, 0.68703332, 0.25399125, 0.61492543],
       [0.52703126, 0.16797435, 0.43532612, 0.88830713],
       [0.13078745, 0.05955593, 0.39003096, 0.14387417]])

产生 [1,100) 范围的随机整数构成的三维数组，代码：

In [17]:
array12 = np.random.randint(1, 100, (3, 4, 5))
array12

array([[[31, 30, 82, 21, 85],
        [32, 26, 97, 30, 45],
        [72, 54, 96, 30, 26],
        [17, 62, 69, 10, 58]],

       [[60, 67, 39, 15, 99],
        [82,  1, 11, 98, 68],
        [68,  3, 23, 35, 12],
        [69, 79, 45, 16, 60]],

       [[59, 95, 90, 98, 90],
        [35, 62, 47, 56, 23],
        [65, 15, 43, 62, 11],
        [45, 61, 70,  9, 38]]])

方法八：创建全0、全1或指定元素的数组

使用zeros函数，代码：

In [18]:
array13 = np.zeros((3, 4))
array13

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

使用ones函数，代码：

In [19]:
array14 = np.ones((3, 4))
array14

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

使用`full`函数，代码：

In [20]:
array15 = np.full((3, 4), 10)
array15

array([[10, 10, 10, 10],
       [10, 10, 10, 10],
       [10, 10, 10, 10]])

方法九：使用eye函数创建单位矩阵

In [21]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

方法十：读取图片获得对应的三维数组

In [None]:
array16 = plt.imread('guido.jpg')
array16

### 数组对象的属性

size属性：获取数组元素个数。

In [22]:
array17 = np.arange(1, 100, 2)
array18 = np.random.rand(3, 4)
print(array17.size)
print(array18.size)

50
12


shape属性：获取数组的形状。

In [23]:
print(array17.shape)
print(array18.shape)

(50,)
(3, 4)


dtype属性：获取数组元素的数据类型。

In [24]:
print(array17.dtype)
print(array18.dtype)

int64
float64


ndim属性：获取数组的维度。

In [25]:
print(array17.ndim)
print(array18.ndim)

1
2


itemsize属性：获取数组单个元素占用内存空间的字节数。

In [26]:
print(array17.itemsize)
print(array18.itemsize)

8
8


nbytes属性：获取数组所有元素占用内存空间的字节数。

In [27]:
print(array17.nbytes)
print(array18.nbytes)

400
96


### 数组的索引运算

和 Python 中的列表类似，NumPy 的ndarray对象可以进行索引和切片操作，通过索引可以获取或修改数组中的元素，通过切片操作可以取出数组的一部分，我们把切片操作也称为切片索引。

普通索引

类似于 Python 中list类型的索引运算。

In [28]:
array19 = np.arange(1, 10)
print(array19[0], array19[array19.size - 1])
print(array19[-array19.size], array19[-1])

1 9
1 9


In [29]:
array20 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
array20[2]

array([7, 8, 9])

In [30]:
print(array20[0][0])
print(array20[-1][-1])

1
9


In [31]:
print(array20[1][1])
print(array20[1, 1])

5
5


In [32]:
array20[1][1] = 10
array20

array([[ 1,  2,  3],
       [ 4, 10,  6],
       [ 7,  8,  9]])

In [33]:
array20[1] = [10, 11, 12]
array20

array([[ 1,  2,  3],
       [10, 11, 12],
       [ 7,  8,  9]])

切片索引

切片索引是形如[开始索引:结束索引:跨度]的语法，通过指定开始索引（默认值无穷小）、结束索引（默认值无穷大）和跨度（默认值1），从数组中取出指定部分的元素并构成新的数组。因为开始索引、结束索引和步长都有默认值，所以它们都可以省略，如果不指定步长，第二个冒号也可以省略。一维数组的切片运算跟 Python 中的list类型的切片非常类似，此处不再赘述，二维数组的切片可以参考下面的代码，相信非常容易理解。

In [34]:
array20[:2, 1:]

array([[ 2,  3],
       [11, 12]])

In [35]:
array20[2, :]

array([7, 8, 9])

In [36]:
array20[2:, :]

array([[7, 8, 9]])

In [37]:
array20[:, :2]

array([[ 1,  2],
       [10, 11],
       [ 7,  8]])

In [38]:
array20[::2, ::2]

array([[1, 3],
       [7, 9]])

In [39]:
array20[::-2, ::-2]

array([[9, 7],
       [3, 1]])

花式索引

花式索引是用保存整数的数组充当一个数组的索引，这里所说的数组可以是 NumPy 的ndarray，也可以是 Python 中list、tuple等可迭代类型，可以使用正向或负向索引。

In [40]:
array19[[0, 1, 1, -1, 4, -1]]

array([1, 2, 2, 9, 5, 9])

In [41]:
array20[[0, 2]]

array([[1, 2, 3],
       [7, 8, 9]])

In [42]:
array20[[0, 2], [1, 2]]

array([2, 9])

In [43]:
array20[[0, 2], 1]

array([2, 8])

布尔索引

布尔索引就是通过保存布尔值的数组充当一个数组的索引，布尔值为True的元素保留，布尔值为False的元素不会被选中。布尔值的数组可以手动构造，也可以通过关系运算来产生。

In [44]:
array19[[True, True, False, False, True, False, False, True, True]]

array([1, 2, 5, 8, 9])

In [45]:
array19 > 5

array([False, False, False, False, False,  True,  True,  True,  True])

In [46]:
~(array19 > 5)

array([ True,  True,  True,  True,  True, False, False, False, False])

In [47]:
array19[array19 > 5]

array([6, 7, 8, 9])

In [48]:
array19 % 2 == 0

array([False,  True, False,  True, False,  True, False,  True, False])

In [49]:
array19[array19 % 2 == 0]

array([2, 4, 6, 8])

In [50]:
(array19 > 5) & (array19 % 2 == 0)

array([False, False, False, False, False,  True, False,  True, False])

In [51]:
array19[(array19 > 5) & (array19 % 2 == 0)]

array([6, 8])

In [52]:
array19[(array19 > 5) | (array19 % 2 == 0)]

array([2, 4, 6, 7, 8, 9])

In [54]:
array20[array20 % 2 != 0]

array([ 1,  3, 11,  7,  9])

### 案例：通过数组切片处理图像

学习基础知识总是比较枯燥且没有成就感的，所以我们还是来个案例为大家演示下上面学习的数组索引和切片操作到底有什么用。前面我们说到过，可以用三维数组来表示图像，那么通过图像对应的三维数组进行操作，就可以实现对图像的处理，如下所示。

读入图片创建三维数组对象。

In [None]:
guido_image = plt.imread('guido.jpg')
plt.imshow(guido_image)

对数组的0轴进行反向切片，实现图像的垂直翻转。

In [None]:
plt.imshow(guido_image[::-1])

对数组的1轴进行反向切片，实现图像的水平翻转。

In [None]:
plt.imshow(guido_image[:,::-1])

通过切片操作实现抠图，将吉多大叔的头抠出来。

In [None]:
plt.imshow(guido_image[30:350, 90:300])

通过切片操作实现降采样。

In [None]:
plt.imshow(guido_image[::10, ::10])