# 4、NumPy 数组计算 —— 通用函数(Universal Functions)

### 4.1 NumPy 在数据计算方面的重要性

NumPy 在数据科学世界如此重要，原因在于

- 易用灵活的接口
- 优化的数据计算
- 快速的计算

实现快速高效的关键

- 在一般NumPy的 *通用函数 universal functions(ufuncs)* 中，使用 *向量化vectorized* 操作，使得大量数组元素重复计算的效率大大提高。

### 4.2   认识 Python 循环的缓慢

Python 常规操作的缺省实现（基于CPython）十分缓慢，原因在于

- 动态、解释型语言：类型比较灵活，但操作不能编译成高效的机器代码（如C和Fortran）

为克服此缺点，业界付出大量努力：

- [PyPy](http://pypy.org/)项目，及时编译实现Python
- [Cython](http://cython.org)项目，转换Python代码成C代码
- [Numba](http://numba.pydata.org/) 项目, 转换Python片断成LLVM(底层虚拟机,Low Level Virtual Machine)字节码

上述项目各有优劣，不过都没有超越标准CPython引擎。

#### 示例 —— 循环计算倒数

Python 的迟缓多是由于小操作的大量重复，例如，对数组元素的循环操作，考虑 *一个循环计算倒数* 的例子。

In [1]:
import numpy as np
np.random.seed(0)

def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output
        
values = np.random.randint(1, 10, size=5)
compute_reciprocals(values)

array([0.16666667, 1.        , 0.25      , 0.25      , 0.125     ])

#### 魔法命令发现 —— 慢得令人吃惊

- 采用基准 IPython 的魔法命令``%timeit``，测量上述代码的运行时间

In [2]:
big_array = np.random.randint(1, 100, size=10**6)
%timeit compute_reciprocals(big_array)

1.88 s ± 12.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


#### 计算效能的解读

- 运算级别：百万
- 时间开销：数秒

#### 思考

- 手机的处理速度都到了Giga-FLOPS (即, 每秒百万次数字运算)，上例慢得离谱
- 瓶颈：不是操作本身，而是每次循环CPython必须做的类型检查、函数调用等
- 如果在C语言下，无须这么多琐碎，效率将大大提高

### 4.3    通用函数 (UFuncs) 介绍

- 对于多种操作，NumPy提供了便利接口（诸如 静态类型、编译程序等），即所谓 *向量化(vectorized)* 操作
- 可以轻松对数组运算实现到元素级
- 向量化操作的实质是在 NumPy 的 *编译层* 实现循环，从而快速执行代码

#### 示例 —— 效率对比

- 比较以下两例结果......

In [3]:
print(compute_reciprocals(values))
print(1.0 / values)

[0.16666667 1.         0.25       0.25       0.125     ]
[0.16666667 1.         0.25       0.25       0.125     ]


#### 发现 —— 效率得到提高

- 对于大数组运算，执行效率比 Python 循环在量级上大幅提高

In [4]:
%timeit (1.0 / big_array)

4.52 ms ± 53.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


### 4.4   NumPy 向量化操作

通过 *通用函数 ufuncs* 来实现

#### 主要目的

- 快速执行大量重复的数组操作

#### 通用函数的极度灵活性

In [None]:
np.arange(5) / np.arange(1, 6)

#### ufunc 操作不限于一维数组

- 多维数组也可

In [5]:
x = np.arange(9).reshape((3, 3))
2 ** x

array([[  1,   2,   4],
       [  8,  16,  32],
       [ 64, 128, 256]], dtype=int32)

- 使用 *向量化vectorization* 和 *通用函数ufuncs* 进行计算，几乎总是高效的，尤其对大型数组
- 无论何时，有Python脚本的类似循环计算，就有必要考虑采用 *向量化操作*

### 4.5   探讨 NumPy 的 UFuncs

Ufuncs 存在的两种形式：
- 一元通用函数 *unary ufuncs*，操作单个输入
- 二元通用函数 *binary ufuncs*，操作两个输入

#### 示例 —— 数组算法

- NumPy 的通用函数 ufuncs 用起来非常自然，可实现在诸如：加、减、乘、除等标准计算

In [None]:
x = np.arange(4)
print("x     =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x // 2 =", x // 2)  # floor division

#### 一元通用函数 (unary ufunc) 也适用于

- 取反 -
- 乘幂 **
- 取余 %

等操作符

In [None]:
print("-x     = ", -x)
print("x ** 2 = ", x ** 2)
print("x % 2  = ", x % 2)

#### 运算捆绑

- 普通表达式 —— 运算捆绑

In [None]:
-(0.5*x + 1) ** 2

#### 内部包装

每个运算操作都在NumPy内部进行简易包装，例如

- ``+``操作包装成``add``函数

In [None]:
np.add(x, 2)

#### 实现通用函数的运算符表

- 下表列出所有在 NumPy 中实现的运算符

| 运算符	   | 等效的通用函数     | 描述                   |
|--------------|----------------------|---------------------------------|
|``+``      |``np.add``         |相加 (例如, ``1 + 1 = 2``)     |
|``-``      |``np.subtract``      |相减 (例如, ``3 - 2 = 1``)     |
|``-``      |``np.negative``      |取负 (例如, ``-2``)          |
|``*``      |``np.multiply``      |相乘 (例如, ``2 * 3 = 6``)     |
|``/``      |``np.divide``       |相除 (例如, ``3 / 2 = 1.5``)   |
|``//``      |``np.floor_divide``   |地板除 (例如, ``3 // 2 = 1``)  |
|``**``      |``np.power``        |乘幂 (例如, ``2 ** 3 = 8``)   |
|``%``      |``np.mod``         |模除 (例如, ``9 % 4 = 1``)     |

此外，还有布尔/位运算符，略。

### 4.6  内建通用函数系列

#### 绝对值

- 如同Python的内建运算符，内建的绝对值函数也适用。

In [None]:
x = np.array([-2, -1, 0, 1, 2])
abs(x)

与之相应的 NumPy 通用函数(ufunc)是``np.absolute``，它也可使用假名(alias)``np.abs``

In [None]:
np.absolute(x)

In [None]:
np.abs(x)

该通用函数(ufunc)也可处理复数，这时所谓的绝对值也就是幅值

In [None]:
x = np.array([3 - 4j, 4 - 3j, 2 + 0j, 0 + 1j])
np.abs(x)

#### 三角函数

NumPy 提供了大量的通用函数(ufuncs)，包括三角函数

考虑下例

In [None]:
theta = np.linspace(0, np.pi, 3)

计算若干三角函数值

In [None]:
print("theta      = ", theta)
print("sin(theta) = ", np.sin(theta))
print("cos(theta) = ", np.cos(theta))
print("tan(theta) = ", np.tan(theta))

#### 结果值达到机器精度！

####  反三角函数也适用

In [None]:
x = [-1, 0, 1]
print("x         = ", x)
print("arcsin(x) = ", np.arcsin(x))
print("arccos(x) = ", np.arccos(x))
print("arctan(x) = ", np.arctan(x))

#### 指数和对数函数

In [None]:
x = [1, 2, 3]
print("x     =", x)
print("e^x   =", np.exp(x))
print("2^x   =", np.exp2(x))
print("3^x   =", np.power(3, x))

对数函数也适用

- log 自然对数
- log2 以2为底
- log10 以10为底

In [None]:
x = [1, 2, 4, 10]
print("x        =", x)
print("ln(x)    =", np.log(x))
print("log2(x)  =", np.log2(x))
print("log10(x) =", np.log10(x))

<font color="red">指数和对数函数的特殊版本</font>
- 适用于小输入数

In [None]:
x = [0, 0.001, 0.01, 0.1]
print("exp(x) - 1 =", np.expm1(x))
print("log(1 + x) =", np.log1p(x))

当``x``非常小时，这些函数的精度比原来的``np.log``或``np.exp``更高

#### NumPy 提供的特殊通用函数 (ufuncs)

NumPy 有众多通用函数可用，包括

- 双曲三角函数
- 位运算函数
- 比较运算符
- 弧度rad/度deg转换函数
- 舍入和剩余函数

#### scipy.special 中提供的特殊通用函数
- SciPy 提供的特殊函数子模块``scipy.special``中的函数

更多的函数，无法一一列举:

In [None]:
from scipy import special

In [None]:
# Gamma functions (generalized factorials) and related functions
x = [1, 5, 10]
print("gamma(x)     =", special.gamma(x))
print("ln|gamma(x)| =", special.gammaln(x))
print("beta(x, 2)   =", special.beta(x, 2))

In [None]:
# Error function (integral of Gaussian)
# its complement, and its inverse
x = np.array([0, 0.3, 0.7, 1.0])
print("erf(x)  =", special.erf(x))
print("erfc(x) =", special.erfc(x))
print("erfinv(x) =", special.erfinv(x))

### 4.7  通用函数(Ufunc)的高级特性

- 指定输出
- 使用数组视(array views)

#### 指定输出

- 对大型计算，指定存放结果的数组是有用的
- 相比创建临时数组，更可能采用将结果直接写入内存的办法
- 对所有的 ufuncs，可以采用``out``参数指定输出

In [None]:
x = np.arange(5)
y = np.empty(5)
np.multiply(x, 10, out=y)
print(y)

#### 使用数组视(array views)

In [None]:
y = np.zeros(10)
np.power(2, x, out=y[::2])
print(y)

- 对于上述小算例，可采用 ``y[::2] = 2 ** x``，影响不大。
    - 创建一临时数组存贮结果``2 ** x``
    - 然后将之拷贝到``y``数组
- 对于大型数组计算，宜采用 ``out``参数
    - 直接操作 `y`
    - 将节省内存

### 4.8   聚合 Aggregates

对于二元通用函数(ufuncs)，存在一些有趣的可从对象直接计算的聚合

例如，如果想缩减（*reduce*）数组计算，可使用通用函数的``reduce``方法 <p>

<font color="red">缩减可对数组元素重复</font>

例如，对于``add``通用函数调用``reduce``将返回所有元素的和

In [6]:
x = np.arange(1, 6)
np.add.reduce(x)

15

类似，对于``multiply``调用``reduce``将计算所有元素的乘积

In [None]:
np.multiply.reduce(x)

如果打算存放所有的中间结果，可采用``accumulate``

In [7]:
np.add.accumulate(x)

array([ 1,  3,  6, 10, 15], dtype=int32)

In [8]:
np.multiply.accumulate(x)

array([  1,   2,   6,  24, 120], dtype=int32)

上述特例，有专用的 NumPy 函数可用

- ``np.sum``、``np.prod``、``np.cumsum``、``np.cumprod``

详见[Aggregations: Min, Max, and Everything In Between](A.05 数组计算之aggregates.ipynb).

### 4.9   外积

最后, 通过使用``outer``方法，任一通用函数可计算两不同输入所有配对的输出，这使得可用一行代码完成诸如乘积表的创建工作。

In [9]:
x = np.arange(1, 6)
y=np.array([4,6,1,9])
np.multiply.outer(x, y)

array([[ 4,  6,  1,  9],
       [ 8, 12,  2, 18],
       [12, 18,  3, 27],
       [16, 24,  4, 36],
       [20, 30,  5, 45]])

### 4.10  其它有用的方法

- ``ufunc.at``
- ``ufunc.reduceat``

在[Fancy Indexing](02.07-Fancy-Indexing.ipynb)中介绍

#### 另一有用特性

- ufuncs 可操作不同大小(size)和构形(shape)的数组，即著名的 *broadcasting* 操作

详见[数组计算之broadcasting](02.05-数组计算之broadcasting.ipynb))

### 4.11  关于通用函数的更多知识

参考[NumPy](http://www.numpy.org) and [SciPy](http://www.scipy.org) 在线文档网页。

### 结束