In [1]:
from __future__ import print_function
import numpy as np
import cv2

# 目标
在图像处理中，要在每秒钟进行大量的运算，我们的任务不仅要提供正确的结果，还要有较快的处理速度。因此本节将学习：
- 测量代码的性能；
- 改善性能的一些提示；
- 涉及以下函数：**cv2.getTickCount**，**cv2.getTickFrequency**等。

除了OpenCV，Python提供了一个**time**模块用于测量运行时间。另一个模块**profile**可以获得代码执行更详细的报告，例如每个函数用了多少时间、函数进行了多少次调用等等。但是，如果使用**IPython**，所有这些特性被整合并提供一个更友好的接口。更多的细节可以阅读**额外资源**小节中的链接。

# 1. 用OpenCV测量性能
**cv2.getTickCount**函数返回在一个参考时间（例如开机的时刻）到调用该函数时的**时钟周期数**。因此在执行代码之前和之后分别调用该函数，就可以计算执行代码所用的时间。

**cv2.getTickFrequency**函数返回时钟周期的频率，也就是每秒多少个时钟周期。因此可以得到以秒为单位的执行时间。

In [2]:
e1 = cv2.getTickCount()
# 执行代码
e2 = cv2.getTickCount()
time = (e2 - e1) / cv2.getTickFrequency()

下面的例子将展示如何使用这两个函数，该例子执行中值滤波，核的尺寸是5到49之间的奇数：

In [3]:
img1 = cv2.imread('forest.jpg')

e1 = cv2.getTickCount()
for i in range(5, 49, 2):
    img1 = cv2.medianBlur(img1, i)
e2 = cv2.getTickCount()
t = (e2 - e1) / cv2.getTickFrequency()

print(t)

3.258087141


> **注意**  
> 也可以用**time**模块来完成这一功能，可以用**time.time()**获得时间，然后计算两个时间之间的差。

# 2. OpenCV中的默认优化
许多OpenCV的函数使用了SSE2、AVX等优化功能。同时也包含无优化的代码。因此如果你的系统支持这些特性，那么就要利用这些特性（几乎所有的现代处理器都支持这些特性）。在编译时默认使用这些特性，因此如果OpenCV打开了这些特性，就执行优化代码，否则执行未优化的代码。可以使用**cv2.useOptimized()**来检查是否允许使用优化，用**cv2.setUseOptimized()**来设置是否使用优化代码。

In [4]:
# 检查是否允许执行优化后的代码
print(cv2.useOptimized())

True


In [5]:
%timeit res = cv2.medianBlur(img1, 49)

10 loops, best of 3: 147 ms per loop


In [6]:
cv2.setUseOptimized(False)
print(cv2.useOptimized())

False


In [7]:
%timeit res = cv2.medianBlur(img1, 49)

1 loop, best of 3: 396 ms per loop


可以看到，优化后的中值滤波比未优化的代码快了近两倍。如果查看源码，可以看到中值滤波使用了SIMD来优化代码。因此可以再代码的最开始打开优化（默认都是打开的）。

# 3. 用IPython来度量性能
有时我们需要比较两个相似的运算性能如何，IPython提供了一个**Magic**命令来测量运算的时间。它运行代码若干次来获得精确的结果。该命令适合测量单行代码。

下面的例子比较了不同的乘方运算的性能：

In [8]:
x = 5
%timeit y = x ** 2

The slowest run took 6.04 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 362 ns per loop


In [9]:
%timeit y = x * x

The slowest run took 13.52 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 83.7 ns per loop


In [10]:
z = np.uint8([5])
%timeit y = z * z

The slowest run took 52.54 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 680 ns per loop


In [11]:
%timeit y = np.square(z)

The slowest run took 79.17 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 651 ns per loop


上面的结果可以看到，**x = 5; y = x \* x**比用Numpy运算快了近10倍。如果考虑数组的创建，有可能会快上100倍。

> **注意**  
> Python的标量运算比Numpy的标量运算要快，因此在涉及一两个元素的运算时，应该进行Python标量运算，而不是Numpy数组运算。Numpy在数组较大的时候才会发挥其优势。

下面的例子，比较对同一张图像，两个函数**cv2.countNonZero()**和**np.count_nonzero()**的速度。

In [16]:
cv2.setUseOptimized(True)
img2 = img1[:, :, 0]
%timeit z = cv2.countNonZero(img2)

1000 loops, best of 3: 902 µs per loop


In [17]:
%timeit z = np.count_nonzero(img2)

100 loops, best of 3: 3.42 ms per loop


可以看到OpenCV处理的速度是Numpy的30倍。

> **注意**  
> 通常情况下OpenCV的函数要比Numpy的函数要快。因此，对于相同的操作推荐使用OpenCV的函数。


# 4. 更多的IPython魔法命令
还有其他的一些魔法命令可以用来测量性能、内存使用等功能。由于其文档非常完备，因此请参考最后提供的链接。

# 5. 性能优化技术
存在一些最大化利用Python和Numpy的性能的技术和编程方法。优化代码的核心就是首先实现一个简单的算法实现，然后剖析它，找到瓶颈之后优化。
1. 避免使用Python的循环，尤其是二重甚至三重循环。
2. 将代码或算法尽最大的可能向量化，因为Numpy和OpenCV是针对向量运算进行优化的。
3. 利用缓存一致性。
4. 除非必要，不要拷贝数组，试着使用**views**，数组拷贝是计算昂贵的。

在做到以上几点之后，代码依然很慢或者无法避免使用复杂的循环，可以使用额外的Cython来提速。

# 6. 额外资源
1. [Python优化技术](http://wiki.python.org/moin/PythonSpeed/PerformanceTips)  
2. Scipy课程笔记 - [高级Numpy](http://scipy-lectures.github.io/advanced/advanced_numpy/index.html#advanced-numpy)  
3. [用IPython测量性能](http://pynash.org/2013/03/06/timing-and-profiling.html)  