# 1. NumPy

[NumPy](https://numpy.org) 是非常著名的 Python 科学计算工具包，其中包含了大量有用的概念，比如数组对象（用来表示向量、矩阵、图像等）以及线性代数函数。NumPy 中的数组对象可以帮助你实现数组中重要的操作，比如矩阵乘积、转置、解方程系统、向量乘积和归一化，这为图像变形、图像分类、图像聚类、深度学习等提供了基础。

[NumPy 官方快速入门教程 Quickstart tutorial](https://numpy.org/devdocs/user/quickstart.html)

使用 import 命令导入 NumPy包：

In [1]:
import numpy as np

## 1.1 NumPy 数组

NumPy 包的核心是 ndarray 对象，用来表示 N 维数组，它的许多方法在编译代码中执行以提高性能。 NumPy 数组和标准 Python 序列之间有几个重要的区别：

- NumPy 数组的大小在创建时就已经固定，不像 Python list 可以动态增长。改变 ndarray 数组的大小将会创建一个新的数组对象并销毁之前的对象。


- NumPy 数组中的元素都需要具有相同的数据类型，因此在内存中的大小相同。



- NumPy 数组对大数据量的高级数学和其他类型的操作进行了优化。与使用 Python 内置序列相比，此类操作的执行效率更高，代码更少。


- 越来越多的基于 Python 的科学和数学软件包正在使用 NumPy 数组; 虽然这些包通常支持 Python 序列作为输入，但它们在处理之前将这些输入转换为NumPy数组，并且它们通常输出 NumPy 数组。为了有效地使用当今大多数的基于 Python 的科学/数学软件，只知道如何使用Python的内置序列类型是不够的 ，还需要知道如何使用 NumPy 数组。

NumPy 数组是一个所有的元素都是一种类型、通过一个正整数元组索引的元素表格(通常是元素是数字)。在 NumPy 中维度(dimensions)叫做轴(axes)，轴的个数叫做秩(rank)。

例如，3D空间中的点的坐标 \[1, 2, 1\] 是rank为1的数组，因为它具有一个轴。该轴的长度为3。在下面的示例中，该数组有2个轴。
第一个轴（维度）的长度为2，第二个轴（维度）的长度为3。

In [2]:
[[ 1., 0., 0.],
[ 0., 1., 2.]]

[[1.0, 0.0, 0.0], [0.0, 1.0, 2.0]]

可以使用内置 dir 来查看 ndarray 的方法：

In [3]:
dir(np.ndarray)

['T',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_finalize__',
 '__array_function__',
 '__array_interface__',
 '__array_prepare__',
 '__array_priority__',
 '__array_struct__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__complex__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__ilshift__',
 '__imatmul__',
 '__imod__',
 '__imul__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__irshift__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lshift__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__

ndarray 对象关键的属性有：

- **ndarray.ndim**
      数组的轴（维度）的个数。在Python世界中，维度的数量被称为rank。

- **ndarray.shape**
      数组的维度。这是一个整数的元组，表示每个维度中数组的大小。对于有n行和m列的矩阵，shape将是(n,m)。因此，shape元组的长度就是rank或维度的个数 ndim。
      
- **ndarray.size**
      数组元素的总数，等于shape的元素的乘积。
      
- **ndarray.dtype**
      一个描述数组中元素类型的对象。可以使用标准的Python类型创建或指定dtype。另外NumPy提供它自己的类型。例如numpy.int32、numpy.int16和numpy.float64。

- **ndarray.itemsize**
      数组中每个元素的字节大小。例如，元素为 float64 类型的数组的 itemsize 为8（=64/8），而 int32 类型的数组的 itemsize 为4（=32/8）。它等于 ndarray.dtype.itemsize。
      
- **ndarray.data**
      该缓冲区包含数组的实际元素。通常，我们不需要使用此属性，因为我们将使用索引访问数组中的元素。

## 1.2 创建数组

你可以使用 np.array() 函数从常规 Python 列表或元组中创建数组，得到的数组的类型是从Python列表中元素的类型推导出来的。

In [4]:
a = np.array([2, 3, 4])
a

array([2, 3, 4])

In [5]:
a.dtype

dtype('int32')

In [6]:
b = np.array([1.2, 3.5, 5.1])
print(b)
print(b.dtype)

[1.2 3.5 5.1]
float64


一个常见的错误在于使用多个数值参数调用 np.array() 函数，而不是提供一个数字列表（List）作为参数。

In [7]:
# a = np.array(1, 2, 3, 4)    # WRONG
a = np.array([1, 2, 3, 4])  # RIGHT

np.array() 将序列的序列转换成二维数组，将序列的序列的序列转换成三维数组，等等。

In [8]:
b = np.array([(1.5, 2, 3), (4, 5, 6)])
b

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

数组的类型也可以在创建时明确指定：

In [9]:
c = np.array([[1, 2], [3, 4]], dtype=complex)
c

array([[1.+0.j, 2.+0.j],
       [3.+0.j, 4.+0.j]])

通常，数组的元素数值最初是未定的，但它的大小是已知的。因此，NumPy 提供了几个函数来创建具有初始占位符内容的数组。这就减少了数组增长的必要，因为数组增长的操作花费很大。

函数 zeros 创建一个由0组成的数组，函数 ones 创建一个由1数组的数组，函数 empty 内容是随机的并且取决于存储器的状态。默认情况下，创建的数组的dtype是 float64。

In [10]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [11]:
np.ones((2, 3, 4), dtype=np.int16)          # dtype can also be specified

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int16)

In [12]:
np.empty((2, 3))                           # uninitialized, output may vary

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

要创建数字序列，NumPy 提供了一个类似于 range 的函数 arange，该函数返回数组而不是列表。

In [13]:
np.arange(10, 30, 5)

array([10, 15, 20, 25])

In [14]:
np.arange(0, 2, 0.3)                        # it accepts float arguments

array([0. , 0.3, 0.6, 0.9, 1.2, 1.5, 1.8])

当 arange 与浮点参数一起使用时，由于浮点数的精度是有限的，通常不容易预测获得的元素数量。出于这个原因，通常最好使用函数 linspace ，它接收我们想要的元素数量而不是步长作为参数：

In [15]:
from numpy import pi
np.linspace(0, 2, 9)                 # 9 numbers from 0 to 2

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

In [16]:
np.linspace(0, 2*pi, 50)        # useful to evaluate function at lots of points

array([0.        , 0.12822827, 0.25645654, 0.38468481, 0.51291309,
       0.64114136, 0.76936963, 0.8975979 , 1.02582617, 1.15405444,
       1.28228272, 1.41051099, 1.53873926, 1.66696753, 1.7951958 ,
       1.92342407, 2.05165235, 2.17988062, 2.30810889, 2.43633716,
       2.56456543, 2.6927937 , 2.82102197, 2.94925025, 3.07747852,
       3.20570679, 3.33393506, 3.46216333, 3.5903916 , 3.71861988,
       3.84684815, 3.97507642, 4.10330469, 4.23153296, 4.35976123,
       4.48798951, 4.61621778, 4.74444605, 4.87267432, 5.00090259,
       5.12913086, 5.25735913, 5.38558741, 5.51381568, 5.64204395,
       5.77027222, 5.89850049, 6.02672876, 6.15495704, 6.28318531])

## 1.3 打印数组

当你打印数组时，NumPy 以与嵌套列表类似的方式显示它，但是具有以下布局：

- 最后一个轴从左到右打印，

- 倒数第二个从上到下打印，

- 其余的也从上到下打印，每个切片与下一个用空行分开。

一维数组被打印为行、二维为矩阵和三维为矩阵列表。

In [17]:
a = np.arange(6)                         # 1d array
print(a)

[0 1 2 3 4 5]


In [18]:
b = np.arange(12).reshape(4, 3)           # 2d array
print(b)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [19]:
c = np.arange(24).reshape(2, 3, 4)         # 3d array
print(c)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


如果数组太大而无法打印，NumPy 将自动跳过数组的中心部分并仅打印角点：

In [20]:
print(np.arange(10000))

[   0    1    2 ... 9997 9998 9999]


In [21]:
print(np.arange(10000).reshape(100,100))

[[   0    1    2 ...   97   98   99]
 [ 100  101  102 ...  197  198  199]
 [ 200  201  202 ...  297  298  299]
 ...
 [9700 9701 9702 ... 9797 9798 9799]
 [9800 9801 9802 ... 9897 9898 9899]
 [9900 9901 9902 ... 9997 9998 9999]]


## 1.4 基本操作

数组上的算术运算符按元素运算的，运算后创建一个新的数组并填充结果。

In [22]:
a = np.array([20, 30, 40, 50])
b = np.arange(4)
b

array([0, 1, 2, 3])

In [23]:
c = a - b
c

array([20, 29, 38, 47])

In [24]:
b**2

array([0, 1, 4, 9], dtype=int32)

In [25]:
10 * np.sin(a)

array([ 9.12945251, -9.88031624,  7.4511316 , -2.62374854])

In [26]:
a < 35

array([ True,  True, False, False])

In [27]:
x = np.array([1.0, 2.0, 3.0])
y = np.array([2.0, 4.0, 6.0])
x + y                           # 对应元素的加法

array([3., 6., 9.])

In [28]:
x * y                           # element-wise product

array([ 2.,  8., 18.])

In [29]:
x / y

array([0.5, 0.5, 0.5])

与许多矩阵语言不同，乘法运算符 * 的运算在NumPy数组中是元素级别的。矩阵乘积可以使用 dot 函数或方法执行：

In [30]:
A = np.array( [[1,1],
               [0,1]] )
B = np.array( [[2,0],
               [3,4]] )
A * B                           # elementwise product

array([[2, 0],
       [0, 4]])

In [31]:
A.dot(B)                        # matrix product

array([[5, 4],
       [3, 4]])

In [32]:
np.dot(A, B)                    # another matrix product

array([[5, 4],
       [3, 4]])

某些操作（例如 += 和 \*= ）适用于修改现有数组，而不是创建新数组。

In [33]:
a = np.ones((2, 3), dtype=int)
a *= 3
a

array([[3, 3, 3],
       [3, 3, 3]])

In [34]:
b = np.random.random((2, 3))
b += a
b

array([[3.45565301, 3.50056764, 3.19801912],
       [3.94629023, 3.13425064, 3.38986188]])

In [35]:
# a += b    # Cannot cast ufunc add output from dtype('float64') to dtype('int32') with casting rule 'same_kind'

当使用不同类型的数组操作时，结果数组的类型对应于更一般或更精确的数组（称为向上转换的行为）。

In [36]:
a = np.linspace(0, pi, 3)
a.dtype.name

'float64'

In [37]:
b = np.ones(3, dtype=np.int32)
c = a + b
print(c)
print(c.dtype.name)

[1.         2.57079633 4.14159265]
float64


许多一元运算，例如计算数组中所有元素的总和、查找最值，都是作为 ndarray 类的方法实现的。

In [38]:
a = np.random.random((2,3))
a

array([[0.18505734, 0.18447031, 0.21410963],
       [0.21787707, 0.39439114, 0.00939002]])

In [39]:
a.sum()                     # 所有元素求和

1.2052954987366684

In [40]:
a.min()                     # 返回数组最小值

0.00939002313494497

In [41]:
a.max()                     # 返回数组最大值

0.3943911357085689

默认情况下，这些操作适用于数组，就好像它是数字列表一样，无论其形状如何。但是，通过指定 axis 参数，你可以沿着数组的指定轴应用操作：

In [42]:
b = np.arange(12).reshape(3, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [43]:
b.sum(axis=0)                            # sum of each column

array([12, 15, 18, 21])

In [44]:
b.sum(axis=1)                            # sum of each row

array([ 6, 22, 38])

In [45]:
b.min(axis=1)                            # min of each row

array([0, 4, 8])

In [46]:
b.cumsum(axis=1)                         # cumulative sum along each row

array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]], dtype=int32)

## 1.5 通用函数

NumPy 提供了常见的数学函数，如 sin，cos 和 exp。在NumPy中，这些叫作“通用函数”(ufunc)。在 NumPy 中，这些函数在数组上按元素级别操作，产生一个数组作为输出。

In [47]:
B = np.arange(3)
B

array([0, 1, 2])

In [48]:
np.exp(B)

array([1.        , 2.71828183, 7.3890561 ])

In [49]:
np.sqrt(B)

array([0.        , 1.        , 1.41421356])

In [50]:
C = np.array([2., -1., 4.])
np.add(B, C)                   # 和 B + C 相等

array([2., 0., 6.])

## 1.6 索引、切片和迭代

一维数组可以被索引，切片和迭代，就像列出和其它 Python 序列一样。

In [51]:
a = np.arange(10)**3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729], dtype=int32)

In [52]:
a[2]

8

In [53]:
a[2:5]

array([ 8, 27, 64], dtype=int32)

In [54]:
a[:6:2] = -1000
a

array([-1000,     1, -1000,    27, -1000,   125,   216,   343,   512,
         729], dtype=int32)

In [55]:
a[ : :-1]

array([  729,   512,   343,   216,   125, -1000,    27, -1000,     1,
       -1000], dtype=int32)

In [56]:
a = np.arange(10)**3
for i in a:
    print(i**(1/3.))

0.0
1.0
2.0
3.0
3.9999999999999996
5.0
5.999999999999999
6.999999999999999
7.999999999999999
8.999999999999998


In [57]:
(-1000)**(1/3.)

(5+8.660254037844384j)

多维（Multidimensional） 数组每个轴可以有一个索引。 这些索在元组中以逗号分隔给出：

In [58]:
def f(x, y):
    return 10 * x + y

b = np.fromfunction(f, (5, 4), dtype=int)
b

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]])

In [59]:
b[2, 3]

23

In [60]:
b[0:5, 1]                       # each row in the second column of b

array([ 1, 11, 21, 31, 41])

In [61]:
b[:, 1]                        # equivalent to the previous example

array([ 1, 11, 21, 31, 41])

In [62]:
b[1:3, :]                      # each column in the second and third row of b

array([[10, 11, 12, 13],
       [20, 21, 22, 23]])

当提供比轴数更少的索引时，缺失的索引被认为是一个完整切片（但是不建议这种用法）：

In [63]:
b[-1]                                  # the last row. Equivalent to b[-1,:]

array([40, 41, 42, 43])

三个点（ ... ）表示产生完整索引元组所需的冒号。例如，如果 x 是rank为的5数组（即，它具有5个轴），则

- x[1,2,...] 等于 x[1, 2, :, :, :]


- x[...,3] 等效于 x[:, :, :, :, 3]


- x[4,..., 5, :] 等效于 x[4, :, :, 5, :]。

In [64]:
c = np.array( [[[  0,  1,  2],              # a 3D array (two stacked 2D arrays)
                [ 10, 12, 13]],
               [[100,101,102],
                [110,112,113]]])
c.shape

(2, 2, 3)

In [65]:
c[1,...]                                    # same as c[1,:,:] or c[1]

array([[100, 101, 102],
       [110, 112, 113]])

In [66]:
c[...,2]                                    # same as c[:,:,2]

array([[  2,  13],
       [102, 113]])

In [67]:
c[...,].shape

(2, 2, 3)

迭代（Iterating） 多维数组是相对于第一个轴完成的：

In [68]:
for row in b:
    print(row)

[0 1 2 3]
[10 11 12 13]
[20 21 22 23]
[30 31 32 33]
[40 41 42 43]


In [69]:
for row in c:
    print(row)

[[ 0  1  2]
 [10 12 13]]
[[100 101 102]
 [110 112 113]]


但是，如果想要对数组中的每个元素执行操作，可以使用 flat 属性，该属性是数组中所有元素的迭代器：

In [70]:
for element in b.flat:             # A 1-D iterator over the array
    print(element)

0
1
2
3
10
11
12
13
20
21
22
23
30
31
32
33
40
41
42
43


或者使用 flatten() 方法将数组转换为一维数组，然后进行迭代：

In [71]:
for element in b.flatten():           # Return a copy of the array collapsed into one dimension
    print(element)

0
1
2
3
10
11
12
13
20
21
22
23
30
31
32
33
40
41
42
43


## 1.7 形状操作

一个数组具有由每个轴上的元素数量给出的形状：

In [72]:
arr = np.arange(12).reshape(3,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [73]:
arr.shape

(3, 4)

数组的形状可以通过各种命令进行更改。请注意，以下三个命令（ravel、reshape、T）都返回一个修改后的数组，但不会更改原始数组：

In [74]:
arr.ravel()                 # returns the array, flattened

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [75]:
arr.reshape(6, 2)            # returns the array with a modified shape

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11]])

In [76]:
arr.T                       # returns the array, transposed

array([[ 0,  4,  8],
       [ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11]])

In [77]:
arr.T.shape

(4, 3)

### ravel() 与 flatten()：

- 两个函数都可以将多维数组转换为一维数组

- ravel()：如果没有必要，不会产生源数据的副本

- flatten()：返回源数据的副本

由 ravel() 产生的数组中元素的顺序通常是“C风格”，也就是说，最右边的索引“改变最快”，所以[0,0]之后的元素是[0,1] 。如果数组被重新塑造成其他形状，数组又被视为“C-style”。NumPy通常创建按此顺序存储的数组，因此ravel()通常不需要复制其参数，但如果数组是通过切片另一个数组或使用不寻常选项创建的，则可能需要复制它。

如果在reshape操作中将维度指定为-1，则会自动计算其他维度：

In [78]:
print(arr.shape)
arr.reshape(4, -1)

(3, 4)


array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

## 1.8 堆叠数组

几个数组可以沿不同的轴堆叠在一起：

In [79]:
a = np.arange(0,4).reshape(2,2)
b = np.arange(4,8).reshape(2,2)
print(a)
print(b)

[[0 1]
 [2 3]]
[[4 5]
 [6 7]]


In [80]:
np.vstack((a,b))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [81]:
np.hstack((a,b))

array([[0, 1, 4, 5],
       [2, 3, 6, 7]])

一般来说，对于具有两个以上维度的数组，vstack 沿第一轴堆叠，hstack 沿第二轴堆叠。

# 2. Matplotlib

[Matplotlib](https://matplotlib.org)