# Numpy概述

Numpy 是 Numerical Python的简称，是 Python 数值计算最重要的基础包。大多数科学计算工具包都会用 Numpy 的数组作为基础。Numpy 主要功能包括如下：
- `ndarray`，具有矢量运算和复杂广播能力的多维数组。
- 对多维数组进行快速计算的数学函数（ufunc）。
- 读写硬盘数据以及操作内存映射文件的工具。
- 线性代数、随机数以及傅里叶变换功能。
- 用于集成C、C++、Fortran等语言编写代码的工具。

In [1]:
import math
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## 为什么使用NumPy？

Python 内置结构类型有：

| 结构      | 同质 | 可变 | 重复 |  有序  | 映射 |
|------------:|-----:|-----:|-----:|-----:|-----:|
|列表（list） | 否   |  是 | 是   | 是 |  否  |
|元组（tuple）| 否   |  否 | 是   | 是 |  否  |
|集合（set）  | 否   |  是 | 否   | 否 |  否  |
|字典（dict） | 否   |  是 | 是   | 否 |  是  |

Python 列表中的元素可以为不同类型，也可以是相同类型。当使用列表对象包含大量同类型数据时，其计算速度会特别慢：

In [2]:
# 创建列表
NDATA = 1024 * 1024
L1 = [i * 1.0 for i in range(NDATA)]

In [3]:
%%timeit
# 测试速度
L2 = [i * math.pi for i in L1]

175 ms ± 23.1 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


使用 Numpy 包，大量同类型数据的计算速度会大大提高：

In [4]:
# 创建数组
arr1 =  np.arange(NDATA)
arr1

array([      0,       1,       2, ..., 1048573, 1048574, 1048575])

In [5]:
%%timeit
# 测试速度
newarr = arr1 * math.pi

7.3 ms ± 641 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


使用 Numpy 包，可以实现类如数组的结构类型，其运行速度大约快了1到2个量级。Numpy 包的优势并不仅限于此，还包括更多：
- 内存更为节俭；
- 运算形式更为简洁；
- 更多的科学计算。

## 自省

Numpy 是一个第三方的高性能科学计算基础包，提供了如下重要功能：
- 任意维度的同类数组结构类型；
- 高性能的数组运算；
- 一些常用常数；
- 线性拟合、傅里叶变换，随机数生成器等科学计算。

要使用 Numpy 软件包，必须先行导入，在导入时习惯命名为库的缩写 `np` ：

In [8]:
import numpy as np

NumPy 包提供了用于数值计算的两种基本对象：
- `ndarray`，是`n-dimensional array object`的缩写，用来存储单一数据类型的多维数组（以后统称为数组）。
- `ufunc`是`universal function object`的缩写，是一组对数组对象中的数据进行元素级运算的函数（以后统称为通用函数）。

除此之外， NumPy 包提供了一系列实用函数和常用的数学常数。

## 常数

`Numpy`包提供由常用的数学常数：
- `np.pi`: 圆周率$\pi$
- `np.e`: 自然对数$e$
- `np.euler_gamma`: 欧拉常数
- `np.PZERO, np.NZERO`: 正数零，负数零
- `np.nan, np.NaN, np.NAN`: 非数字
- `np.inf, np.Inf, np.Infinity, np.PINF, np.NINF, np.infty`: 无穷大

In [18]:
np.pi, np.e, np.euler_gamma, np.PZERO, np.NZERO

(3.141592653589793, 2.718281828459045, 0.5772156649015329, 0.0, -0.0)

In [19]:
np.nan, np.NaN, np.NAN, np.inf, np.Inf, np.Infinity, np.NINF, np.PINF, np.infty

(nan, nan, nan, inf, inf, inf, -inf, inf, inf)

## 数组（`ndarray`）

数组(`ndarray`)对象是 Numpy 包中最重要的基础对象，Numpy 中所有函数都是围绕数组对象来进行处理。数组对象是数组类型的实例，是一种结构类型，用于存储多维数据集。与内置结构类型列表相比，数组对象同样是可变的、可重复的、有序的、无映射的数据集，区别在于数组对象是同质的。

| 结构      | 同质 | 可变 | 重复 |  有序  | 映射 |
|------------:|-----:|-----:|-----:|-----:|-----:|
|列表（list） | 否   |  是 | 是   | 是 |  否  |
|数组（ndarray）| 是   | 是 | 是   | 是 |  否  |

### 创建对象

类是对象的抽象，对象是类的实例。学习数组结构类型的最好方法是创建一个数组对象，然后去使用它。当然可以使用`np.ndarray()`来构造一个数组对象，但由于参数众多，初学时是会比较麻烦，故通常使用 Numpy 的实用函数来创建数组对象。例如使用 `np.array()` 来创建数组对象：
```
np.array(object, dtype=None, copy=True, order=None, subok=False, ndmin=0)
```
其中主要参数包括：
- `object`，Python 对象，可以是列表、元组、迭代器或 Numpy 数组对象本身。
- `dtype`，指定数组的数据类型。
- `order`，数组元素在内存中存储顺序：`C`表示行-列；F（Fortran）表示列行。

下面实用 `np.array()` 来创建一些数组对象：

In [21]:
# 序列
xdata = [1, 2, 3]
arr = np.array(xdata)
print(arr)
arr = np.array(range(64))
print(arr)

[1 2 3]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63]


数组对象的数据是同一类型，当列表中的数据类型不同时，会进行类型提升：

In [23]:
# Upcasting
xdata = (1, 2, 3.0)
arr1 = np.array(xdata)
print(arr1)
arr2 = np.array(['Python', 'C', 'C++', 1])
print(arr2)

[1. 2. 3.]
['Python' 'C' 'C++' '1']


数组对象支持多维数据：

In [24]:
# More than one dimension
xdata = [[1, 2], [3, 4]]
arr3 = np.array(xdata)
print(arr3)

[[1 2]
 [3 4]]


创建数组对象后，使用自省方法 `type()` 来查看数组对象的类型:

In [25]:
print(type(arr1), type(arr2), type(arr3))

<class 'numpy.ndarray'> <class 'numpy.ndarray'> <class 'numpy.ndarray'>


`ndarray`对象的值可以修改，是可变对象。

In [26]:
arr[0] = 1000
arr

array([1000,    1,    2,    3,    4,    5,    6,    7,    8,    9,   10,
         11,   12,   13,   14,   15,   16,   17,   18,   19,   20,   21,
         22,   23,   24,   25,   26,   27,   28,   29,   30,   31,   32,
         33,   34,   35,   36,   37,   38,   39,   40,   41,   42,   43,
         44,   45,   46,   47,   48,   49,   50,   51,   52,   53,   54,
         55,   56,   57,   58,   59,   60,   61,   62,   63])

### 数组对象的属性

数组对象是多维数组，一个多维数组可以实用如下特征来描述：
- 组成部分
    - 实际数据
    - 描诉数据的元数据
- 数据类型
- 数组属性
    - 秩（rank）：数组的维数。一维数组秩为1，二维数组为2，以此类推
    - 轴（axes）：轴的数量就是秩

数组对象有如下属性来描述多维数组的特征：
- `ndarray.ndim`：数组的维数（即数组轴的个数），等于秩。
- `ndarray.shape`：数组的维度。用整数的元组来表示数组每个维度的大小。例如二维数组中，表示数组的“行数”和“列数”。
- `ndarray.size`：数组元素的总数，等于shape属性中元组元素的乘积。
- `ndarray.dtype`：表示数组中元素类型的对象
- `ndarray.itemsize`：数组中每个元素的字节大小。例如数组元素类型为float64(64bits)，则其值为8。
- `ndarray.strides`：在内存中沿着某个维度从一个元素移动到下一个所需的偏移量（字节）
- `ndarray.nbytes`：存储该数组所需的内存大小 = itemsize * size
- `ndarray.data`：包含实际数组元素的缓冲区。由于一般通过数组的位置索引获取元素。

一个数组对象的数据结构如下图所示：
![ndarray数据结构](../images/numpy_ndarray_type.png)

下面创建一个数组对象，并打印对象的属性：

In [27]:
arr1 = np.array(range(64))
arr2 = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])

In [28]:
print('ndim: ', arr1.ndim, arr2.ndim)
print('shape: ', arr1.shape, arr2.shape)
print('size: ', arr1.size, arr2.size)
print('dtype: ', arr1.dtype, arr2.dtype)
print('itemsize: ', arr1.itemsize, arr2.itemsize)
print('strides: ', arr1.strides, arr2.strides)

ndim:  1 2
shape:  (64,) (2, 4)
size:  64 8
dtype:  int32 int32
itemsize:  4 4
strides:  (4,) (16, 4)


数组对象的 `shape` 属性是一个描述数组维度的元组（tuple），如下图所示。更改数组的shape属性，可以改变维度大小，数组元素在内存中位置并没有改变。

![Numpy数组结构](../images/numpy_ndarray.png)

例如，下面创建一个一维数组对象，然后更改 `shape` 属性，使其成为三维数组：

In [29]:
arr1 = np.array(range(64))
arr1.shape = 4, 4, 4
arr1

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23],
        [24, 25, 26, 27],
        [28, 29, 30, 31]],

       [[32, 33, 34, 35],
        [36, 37, 38, 39],
        [40, 41, 42, 43],
        [44, 45, 46, 47]],

       [[48, 49, 50, 51],
        [52, 53, 54, 55],
        [56, 57, 58, 59],
        [60, 61, 62, 63]]])

当设置某个轴的元素格式为-1时，会自动计算此轴长度。

In [30]:
arr1.shape = 2, -1
arr1

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31],
       [32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47,
        48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63]])

数组对象的 `dtype` 属性指明其中元素的数据类型，其值为`numpy.dtype`对象。在创建数组时，可以使用关键字参数 `dtype` 来指定元素类型：

In [32]:
ai32 = np.array([1, 2, 3, 4], dtype=np.int32)
af = np.array([1, 2, 3, 4], dtype=float)
ac = np.array([1, 2, 3, 4], dtype=complex)

In [33]:
ai32.dtype, af.dtype, ac.dtype

(dtype('int32'), dtype('float64'), dtype('complex128'))

###  存取数组元素

与内置结构类型列表一样，可以使用切片方式来读取数组对象中的数据元素，其语法可写为`A[obj]`：
- 第一种情况，实用单个位置索引来访问数据元素；
- 第二种情况，实用切片方法 `start:stop:step`来访问多个数据元素：
    - 变量`start`、`stop`和`step`都是非负整数，并且`start`小于等于`stop`值。
    - `start`值大于`stop`值，用一个负的`step`值可以用来翻转序列。

下面示例来演示如何访问数组对象的元素数据：

In [35]:
arr1 = np.array(range(64))
arr1

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63])

In [36]:
print(arr1[:20])
print(arr1[16:])
print(arr1[16:20])

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
[16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63]
[16 17 18 19]


In [37]:
print(arr1[16:20:2])
print(arr1[16:20:-1])
print(arr1[20:16:-1])
print(arr1[::-1])

[16 18]
[]
[20 19 18 17]
[63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40
 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16
 15 14 13 12 11 10  9  8  7  6  5  4  3  2  1  0]


对于二维或多维数据，具有类似操作：

In [None]:
arr2 = np.array([[1, 2, 3, 4], [5, 6, 7, 8]], dtype=float)
arr2

In [None]:
print(arr2[:, ::2])

In [34]:
print(arr2[0:2:1, 4:0:-2])

[[4 2]
 [8 6]]


数组对象是可变对象，也就是说数组对象的元素是可以修改的：

In [38]:
arr = np.array(range(16))
print(arr)
arr[0] = 1000
print(arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
[1000    1    2    3    4    5    6    7    8    9   10   11   12   13
   14   15]


### 数组对象的常规方法

创建数组对象后，使用 `dir()` 函数可以列出数组对象的方法：

In [46]:
print(dir(arr))

['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_interface__', '__array_prepare__', '__array_priority__', '__array_struct__', '__array_ufunc__', '__array_wrap__', '__bool__', '__class__', '__complex__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dir__', '__divmod__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__ilshift__', '__imatmul__', '__imod__', '__imul__', '__index__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lshift__', '__lt__', '__matmul__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__rfloordiv__', '__rlshift__', '__rmatmul__', '__

调用数组对象的的常规方法，与调用 Numpy 同名函数来操作数组对象的作用很多情况下是相同，例如，下面两种操作都是计算数组对象的平均值，其结果也是相同的：
- `arr.mean()`
- `np.mean(arr)`

In [47]:
print(arr.mean())
print(np.mean(arr))

70.0
70.0


## 通用函数（`ufunc`）

Numpy 包除了提供数组对象外，还提供通用函数(`ufunc`)对象，也就是一组对数组进行元素级运算的函数，是数组运算最常用的操作。通用函数是一个函数的“矢量化”包装器，输入数组并产生特定数组输出。

在 Numpy 中，通用函数是 `numpy.ufunc` 类的实例。通用函数可以对标量进行运算操作，也可以对数组（向量，矩阵）进行操作，数组不一致会进行广播。 使用 `numpy.frompyfunc` 工厂函数可以生成自定义通用函数实例对象。

所有通用函数函数都使用可选的关键字参数，大多数代表高级用法，通常不会被使用，有如下参数：
- `out`，输出结果。
- `where`，接受与操作数一起广播的布尔数组。
- `casting`，提供允许何种类型的转换的策略。
- `order`，内存布局。默认值是`K`，意味着尽可能紧密地匹配输入的元素顺序。
- `dtype`，重写计算输出数组的数据类型
- `subok`，默认值为True。如果设置为False，输出均严格为数组。


Numpy 中定义多达60多个通用函数，涵盖各种运算操作：
- 数学运算
- 三角函数
- 位运算函数
- 比较函数
- 浮点数运算函数

### 数学操作

| 函数                             |  说明              |
|:-----------------------------------------------|:--------------------------|
| `add(x1, x2, /[, out, where, casting, order, …])`|  `x1 + x2` | 
| `subtract(x1, x2, /[, out, where, casting, …])`|  `x1 - x2` |
| `multiply(x1, x2, /[, out, where, casting, …])`|  `x1 * x2` |
| `divide(x1, x2, /[, out, where, casting, …])`|  `x1 / x2` |
| `true_divide(x1, x2, /[, out, where, …])`|  `x1 / x2` |
| `floor_divide(x1, x2, /[, out, where, …])`|  `x1 // x2` |
| `negative(x, /[, out, where, casting, order, …])`|  `-x1` |
| `positive(x, /[, out, where, casting, order, …])`|  `+x1`|

### 三角函数

三角函数输入都是用弧度。

| 函数                             |  说明              |
|:-----------------------------------------------|:--------------------------|
|`sin(x, /[, out, where, casting, order, …])`| 正弦函数 |
|`cos(x, /[, out, where, casting, order, …])`| 余弦函数|
|`tan(x, /[, out, where, casting, order, …])`|  正切函数|
|`hypot(x1, x2, /[, out, where, casting, …])`| 返回斜边$\sqrt{x_1^2+x_2^2}$ |
|`deg2rad(x, /[, out, where, casting, order, …])`|角度转换为弧度 |
|`rad2deg(x, /[, out, where, casting, order, …])`| 弧度转换为角度 |

### 位运算函数

| 函数                             |  说明              |
|:-----------------------------------------------|:--------------------------|
| `bitwise_and(x1, x2, /[, out, where, …])`| `x1 & x2` |
| `bitwise_or(x1, x2, /[, out, where, casting, …])`| 求或 |
| `bitwise_xor(x1, x2, /[, out, where, …])`| `x1 xor x2` |
| `invert(x, /[, out, where, casting, order, …])`| `~x1` |
| `left_shift(x1, x2, /[, out, where, casting, …])`| `x1 >> x2` |
| `right_shift(x1, x2, /[, out, where, …])`| `x1 << x2` |

### 比较函数

| 函数                             |  说明              |
|:-----------------------------------------------|:--------------------------|
| `greater(x1, x2, /[, out, where, casting, …])`| 返回`x1 > x2`真值 |
| `greater_equal(x1, x2, /[, out, where, …])`| 返回`x1 >= x2`真值 |
| `less(x1, x2, /[, out, where, casting, …])`| 返回`x1 < x2`真值 |
| `less_equal(x1, x2, /[, out, where, casting, …])`| 返回`x1 <= x2`真值 |
| `not_equal(x1, x2, /[, out, where, casting, …])`| 返回`x1 != x2`真值 |
| `equal(x1, x2, /[, out, where, casting, …])`| 返回`x1 == x2`真值  |


| 函数                             |  说明              |
|:-----------------------------------------------|:--------------------------|
| `maximum(x1, x2, /[, out, where, casting, …])`| 返回最大值|
| `minimum(x1, x2, /[, out, where, casting, …])`| 返回最小值 |
| `fmax(x1, x2, /[, out, where, casting, …])`| 返回较大值 |
| `fmin(x1, x2, /[, out, where, casting, …])`| 返回较小值 |

### 浮点数运算函数


| 函数                             |  说明              |
|:-----------------------------------------------|:--------------------------|
| `isfinite(x, /[, out, where, casting, order, …])`| 检查数组元素是否具有有限值 (非inf或nan）|
| `isinf(x, /[, out, where, casting, order, …])`| 检查数组元素是否是无穷大 |
| `isnan(x, /[, out, where, casting, order, …])`| 检查数组元素是否是NaN |
| `isnat(x, /[, out, where, casting, order, …])`| 检查数组元素不是时间（not a time, NaT) |
| `fabs(x, /[, out, where, casting, order, …])`| 计算绝对值 |
| `signbit(x, /[, out, where, casting, order, …])`| 返回符号位是否设置|
| `copysign(x1, x2, /[, out, where, casting, …])`| 根据`x1`的符号更改`x2` |
| `nextafter(x1, x2, /[, out, where, casting, …])`| 返回`x1`往`x2`的浮点数 |
| `spacing(x, /[, out, where, casting, order, …])`| 返回`x`与接近整数的距离 |
| `modf(x[, out1, out2], / [[, out, where, …])`|  返回x的小数点与整数 |
| `ldexp(x1, x2, /[, out, where, casting, …])`| 返回`x1 * 2**x2` |
| `frexp(x[, out1, out2], / [[, out, where, …])`| 返回`x`的有效数字和2的幂次|
| `fmod(x1, x2, /[, out, where, casting, …])`| 返回余数 |
| `floor(x, /[, out, where, casting, order, …])`| 返回四舍五入 |
| `ceil(x, /[, out, where, casting, order, …])`| 返回`ceil`运算结果 |
| `trunc(x, /[, out, where, casting, order, …])`| 返回`trunc`运算结果 |

### 简单示例

下面用实际例子来演示通用函数的使用：

In [None]:
arr1 = np.array([1.0, 2.0, 3.0, 4.0])
arr2 = np.array([-1.0, -2.0, -3.0, -4.0])
arr3 = np.array([0.5, 1.5, 3.5, 5.5])

In [None]:
# 加法
arr1 + arr2

In [None]:
np.add(arr1, arr2)

In [None]:
# 真除
arr1 / arr3

In [None]:
np.divide(arr1, arr3)

In [None]:
np.true_divide(arr1, arr3)

## 实用函数

Numpy 软件包还提供了一系列实用函数，可以使用 Numpy 直接访问，或者通过 Numpy 子包访问。Numpy 包实用函数分类如下：

- 创建数组（Array creation routines）
- 数组操作（Array manipulation routines）
- 二进制运算（Binary operations）
- 字符串运算（String operations）
- 外部函数接口（C-Types Foreign Function Interface ）--- `numpy.ctypeslib`

- 时间日期操作（Datetime Support Functions）
- 数据类型操作（Data type routines）
- 可选Scipy加速函数(numpy.dual)（Optionally Scipy-accelerated routines ）
- 自动域数学函数（Mathematical functions with automatic domain ）---`numpy.emath`
- 浮点数错误处理（Floating point error handling）

- 离散傅里叶变换（Discrete Fourier Transform）--- `numpy.fft`
- 金融函数（Financial functions）
- 函数式编程（Functional programming）
- Numpy帮助函数（NumPy-specific help functions）
- 索引函数（Indexing routines）

- 输入输出函数（Input and output）
- 线性代数（Linear algebra） --- `numpy.linalg`
- 逻辑函数（Logic functions）
- 掩码数组操作（Masked array operations）
- 数学函数（Mathematical functions）

- 矩阵库（Matrix library）---`numpy.matlib`
- 杂项函数（Miscellaneous routines）
- 填充数组（Padding Arrays）
- 多项式函数（Polynomials）
- 随机Random sampling (numpy.random)

- Set routines
- 排序、搜索与技术（Sorting, searching, and counting）
- 统计函数（Statistics）
- 测试有关函数（Test Support） --- `numpy.testing`
- 窗口函数（Window functions）

## 小结

本节简单列出 Numpy 包的内容。首要的是了解并掌握 Numpy 的基础数据结构数组对象（`np.ndarray`）；然后熟悉数组对象的创建、运算以及操作。再根据具体任务需求，不断深入了解各个领域的实用函数。总之，多看帮助以及参考，不断积累即可。

下面会继续围绕数组对象，不断地深入介绍数组对象的操作与实用。