# Python性能分析

> 过早优化是万恶之源（Don’t Cut Yourself: Code Optimization as a Double-Edged Sword.）   
> 高德纳(Donald Knuth）

总所周知，奥运会有个著名口号“更快更高更强（Swifter, Higher, Stronger）”，意思是跑得更快、跳得更高、扔得更远。在百米赛跑中，无数运动员为了提高百分之一秒而不断努力奋斗。计算机的最显著特性就是一个“快”字，然而为了把程序运行的更快，或者消耗更少的内存，仍然有无数程序员在努力，新技术新程序层出不穷。

衡量一个程序性能的重要指标包括：
- 运行速度；
- 消耗内存。

作为程序员，写出一个运行的更快与消耗内存更小的程序，傲视群雄，飘飘然，自会油然生出一种天下英雄谁敌手的感觉。就此打住！须知评价一个程序优劣的还有很多标准：
- 首要标准是正确。如果优化之后跑的很快，结果不正确，那有何意义？
- 随着经济发展，人时远比机时要贵得多，计算机可以24小时运行。如果花了几天时间，让程序从1分钟加速到30秒，未必更有意义。有时候买更贵的计算机是最好的解决方法。
- 为了优化，过多使用新技术与过多防范，使得程序复杂性提高，可阅读性下降，最终导致企业运维难度增加、企业成本增加、故障除错难度增加，综合考虑并不划算。

尽管代码优化有诸多好处，但并不意味着必须进行优化，过早优化可能会适得其反，费时费力不讨好，好心办坏事。

实际上，大多数情况下，在正确的时候做正确的事情都不会错。那么代码优化何时做怎么做呢？

首要的是在代码正确工作之前不要做。高德纳提出“过早优化是万恶之源”的主要原因就是，让正确的程序更快，要比让快速的程序正确更容易。

其次搞清楚是否要优化以及要优化什么？程序运行的慢或者消耗更多内存，是否会导致故障增多、实际生产效率降低，工作人员需要较多等待时间。如果需要优化，要明确优化内容与目的，是加快速度，减少CPU使用率，还是降低内存消耗？

使用性能分析工具，分析性能优化的瓶颈在哪里。根据程序各个模块对性能影响进行排序，首先解决影响最大的计算模块，然后在处理较小的模块。

将更多努力与时间花在性能优化关键部位，会事半功倍，钱要花在刀刃上。

最后，必须承认性能优化不是万能的，也无法优化一切，甚至无法同时优化两个问题，例如速度加快了，资源利用会增加；提高了存储利用率，可能导致计算变慢。需要权衡优化目标，甚至学会接收现实。

本节介绍常用的Python性能分析工具
- `timeit`
- `cProfile`
- `line_profiler`
- `memory_profiler`

## `timeit`

用于调查分析程序代码性能问题的一个常用工具是`timeit`模块，大家已经使用过多次。`timeit`可用于对一小段代码进行计时，也可用于对两个或多个特定函数或方法进行性能比较。

实际上，Jupyter notebook已经提供了模式命令来实现计时功能。

例如使用元组和列表都可以存储元素，以及访问元素，下面使用`timeit`魔术命令来比对一下

In [1]:
%%timeit
colors = ('red', 'yellow', 'green', 'blue', 'black')
x = colors[0] + colors[1] + colors[2] + colors[3] + colors[4]

320 ns ± 3.63 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [2]:
%%timeit
colors = ['red', 'yellow', 'green', 'blue', 'black']
x = colors[0] + colors[1] + colors[2] + colors[3] + colors[4]

367 ns ± 2.88 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


可以看出，只需要只读序列时，使用元组要比使用列表稍快一些。

## `cProfile`

Python还提供了`cProfile`工具，可以对程序进行性能分析。与`timeit`模块不同，`cProfile`精确地列出程序中哪些函数或方法被调用，以及每个调用耗费的时间，基于此可以便利地发现性能瓶颈所在。

### 简单示例

下面创建一个简单示例，包括三个函数，运行速度有快有慢。

In [52]:
%%writefile perfdemo01.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import time


def afunc():
    print('function A')


def bfunc():
    time.sleep(1)
    print('function B')


def cfunc():
    time.sleep(3)
    print('function C')

    
def main():
    for _ in range(10):
        afunc()
    for _ in range(3):
        bfunc()
    cfunc()

    
if __name__ == '__main__':
    main()

Writing perfdemo01.py


下面使用`cProfile`模块来对该程序进行分析：

In [53]:
import cProfile
import perfdemo01

cProfile.run('perfdemo01.main()')

function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A

`cProfile`模块会对分析结果进行排序，并输出分析结果，其中每个字段分别为：
- `ncalls`，函数总的调用次数；
- `tottime`，函数内部（不包括子函数）的占用时间
- `percall`，平均调用时间`tottime/ncalls`
- `cumtime`，函数（包括子函数）占用时间
- `percall`，平均调用时间`cumtime/ncalls`
- `filename:lineno(function)`，文件：行号（函数）

从上结果可知:
- 模块总共花了8.016秒；
- `afunc`函数花费了0.002秒；
- `bfunc`函数花费了5.006秒；
- `cfunc`函数花费了3.004秒；
- `time.sleep()`函数花费了8.008秒.

在使用Python运行`perfdemo01.py`时，可以在命令行加载`cProfile`模块。

In [54]:
!python -m cProfile perfdemo01.py

function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function B
function B
function B
function C
         36 function calls in 6.006 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        3    0.000    0.000    3.003    1.001 perfdemo01.py:10(bfunc)
        1    0.000    0.000    3.003    3.003 perfdemo01.py:15(cfunc)
        1    0.000    0.000    6.006    6.006 perfdemo01.py:20(main)
        1    0.000    0.000    6.006    6.006 perfdemo01.py:3(<module>)
       10    0.000    0.000    0.000    0.000 perfdemo01.py:6(afunc)
        1    0.000    0.000    6.006    6.006 {built-in method builtins.exec}
       14    0.000    0.000    0.000    0.000 {built-in method builtins.print}
        4    6.006    1.502    6.006    1.502 {built-in method time.sleep}
        1    0.000    0.000    0.000    0.000 {method 'disable' of '_lsprof.Profiler' objects}




运行是还可以使用如下选项：
- `-o <profile>`，指定概要分析结果输出文件；
- `-s cumulative`，对函数累计耗时进行排序。

In [55]:
!python -m cProfile -o perfdemo01.cprof -s cumulative perfdemo01.py

function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function B
function B
function B
function C


### 使用`pstats`模块分析cProfile的概要分析结果

`cProfile`输出的概要分析文件可以使用`pstats`模块来定制输出。

首先导入模块，并创建`pstats.Stats`对象：

In [56]:
import pstats
p = pstats.Stats('perfdemo01.cprof')

使用`sort_stats()`方法进行排序，可以指定如下参数：
- `ncalls`, 总调用次数
- `cumulative`，函数运行总时间
- `file`，文件名
- `module`，模块名
- `line`，行号
- `name`，函数名
- `nfl`，`Name/file/line`
- `stdname`，标准函数名
- `time`，函数内部运行时间（不包括子函数）

输出统计分析报表：

In [57]:
p.sort_stats("cumulative")
p.print_stats()

Wed Aug 22 18:46:03 2018    perfdemo01.cprof

         36 function calls in 6.007 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    6.007    6.007 {built-in method builtins.exec}
        1    0.000    0.000    6.007    6.007 perfdemo01.py:3(<module>)
        1    0.000    0.000    6.007    6.007 perfdemo01.py:20(main)
        4    6.006    1.502    6.006    1.502 {built-in method time.sleep}
        3    0.000    0.000    3.003    1.001 perfdemo01.py:10(bfunc)
        1    0.000    0.000    3.003    3.003 perfdemo01.py:15(cfunc)
       14    0.000    0.000    0.000    0.000 {built-in method builtins.print}
       10    0.000    0.000    0.000    0.000 perfdemo01.py:6(afunc)
        1    0.000    0.000    0.000    0.000 {method 'disable' of '_lsprof.Profiler' objects}




<pstats.Stats at 0x7f2af8fb6978>

还有两个方法，可以列出函数调用情况：

In [58]:
p.print_callers()

   Ordered by: cumulative time

Function                                          was called by...
                                                      ncalls  tottime  cumtime
{built-in method builtins.exec}                   <- 
perfdemo01.py:3(<module>)                         <-       1    0.000    6.007  {built-in method builtins.exec}
perfdemo01.py:20(main)                            <-       1    0.000    6.007  perfdemo01.py:3(<module>)
{built-in method time.sleep}                      <-       3    3.003    3.003  perfdemo01.py:10(bfunc)
                                                           1    3.003    3.003  perfdemo01.py:15(cfunc)
perfdemo01.py:10(bfunc)                           <-       3    0.000    3.003  perfdemo01.py:20(main)
perfdemo01.py:15(cfunc)                           <-       1    0.000    3.003  perfdemo01.py:20(main)
{built-in method builtins.print}                  <-      10    0.000    0.000  perfdemo01.py:6(afunc)
                                 

<pstats.Stats at 0x7f2af8fb6978>

In [27]:
p.print_callees()

   Ordered by: cumulative time

Function                                          called...
                                                      ncalls  tottime  cumtime
{built-in method builtins.exec}                   ->       1    0.000    6.006  perfdemo01.py:3(<module>)
perfdemo01.py:3(<module>)                         ->       1    0.000    6.006  perfdemo01.py:20(main)
perfdemo01.py:20(main)                            ->      10    0.000    0.000  perfdemo01.py:6(afunc)
                                                           3    0.000    3.003  perfdemo01.py:10(bfunc)
                                                           1    0.000    3.003  perfdemo01.py:15(cfunc)
{built-in method time.sleep}                      -> 
perfdemo01.py:10(bfunc)                           ->       3    0.000    0.000  {built-in method builtins.print}
                                                           3    3.003    3.003  {built-in method time.sleep}
perfdemo01.py:15(cfunc)          

<pstats.Stats at 0x7f2af8b50400>

### 生成性能分析可视化图形

`cProfile`输出的概要分析文件，可以转换为可视化图形文件，步骤包括：
- 使用`gprof2dot`程序，把概要分析文件转换为`dot`脚本文件；
- 使用`Graphivz`软件将`dot`脚本文件生成图像文件。

#### 安装`gprof2dot`

使用pip安装
```
pip install gprof2dot
```

验证安装情况

In [28]:
!gprof2dot -h

Usage: 
	gprof2dot [options] [file] ...

Options:
  -h, --help            show this help message and exit
  -o FILE, --output=FILE
                        output filename [stdout]
  -n PERCENTAGE, --node-thres=PERCENTAGE
                        eliminate nodes below this threshold [default: 0.5]
  -e PERCENTAGE, --edge-thres=PERCENTAGE
                        eliminate edges below this threshold [default: 0.1]
  -f FORMAT, --format=FORMAT
                        profile format: axe, callgrind, hprof, json, oprofile,
                        perf, prof, pstats, sleepy, sysprof or xperf [default:
                        prof]
  --total=TOTALMETHOD   preferred method of calculating total time: callratios
                        or callstacks (currently affects only perf format)
                        [default: callratios]
  -c THEME, --colormap=THEME
                        color map: color, pink, gray, bw, or print [default:
                        color]
  -s, --strip           strip fu

#### 安装`Graphivz`

在linux系统下，使用系统命令安装：
```
apt-get install graphivz
yum install graphivz
```

在Windows系统，需要到[Graphviz官网](https://graphviz.gitlab.io/)下载，如当前稳定版本为：
```
graphviz-2.38.msi
```

下载完毕安装即可。

安装完毕可以验证安装情况

In [61]:
!dot -V

dot - graphviz version 2.30.1 (20180420.1509)


#### 可视化概要分析文件

按照前述两个步骤，创建概要分析图形文件：

In [59]:
!gprof2dot -f pstats perfdemo01.cprof > perfdemo01.dot

In [60]:
!dot -Tpng perfdemo01.dot -o perfdemo01.png

结果如下图所示
![Python程序性能概要分析](perfdemo01.png)

使用`cProfile`模块以及可视化工具，可以轻松列出程序中的函数调用以及耗时分析，可以快速获得程序性能瓶颈，借以获得性能优化努力方向。

##  `line_profiler`

使用`cProfile`模块，可以定位出程序的性能瓶颈，可能是某函数。而`line_profiler`是逐行代码分析工具，可以对指定函数进行逐行分析。

### 安装

使用`line_profiler`模块，需要先进行安装。

在Linux系统下使用pip安装：
```
pip install line_profiler
```

在Windowns系统下，使用pip安装可能会失败，因为需要使用VC编译器。不过可以如下网址
<https://www.lfd.uci.edu/~gohlke/pythonlibs/#line_profiler>下载指定版本的wheel包
    
下载完后使用pip安装，例如：
```
pip install line_profiler‑2.1.2‑cp36‑cp36m‑win_amd64.whl
```

使用如下命令检查安装情况

In [62]:
!kernprof -h

Usage: kernprof [-s setupfile] [-o output_file_path] scriptfile [arg] ...

Options:
  --version             show program's version number and exit
  -h, --help            show this help message and exit
  -l, --line-by-line    Use the line-by-line profiler from the line_profiler
                        module instead of Profile. Implies --builtin.
  -b, --builtin         Put 'profile' in the builtins. Use 'profile.enable()'
                        and 'profile.disable()' in your code to turn it on and
                        off, or '@profile' to decorate a single function, or
                        'with profile:' to profile a single section of code.
  -o OUTFILE, --outfile=OUTFILE
                        Save stats to <outfile>
  -s SETUP, --setup=SETUP
                        Code to execute before the code to profile
  -v, --view            View the results of the profile in addition to saving
                        it.


### 快速使用

使用`line_profile`需要在分析函数上添加装饰器`@profile`。

In [63]:
%%writefile perfdemo02.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import time


def afunc():
    print('function A')


def bfunc():
    time.sleep(1)
    print('function B')

def cfunc():
    time.sleep(3)
    print('function C')

    
@profile   
def main():
    for _ in range(10):
        afunc()
    for _ in range(3):
        bfunc()
    cfunc()

    
if __name__ == '__main__':
    main()

Writing perfdemo02.py


使用kernprof命令执行Python代码文件，会创建lprof文件。

In [64]:
!kernprof -l perfdemo02.py

function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function B
function B
function B
function C
Wrote profile results to perfdemo02.py.lprof


得到lprof文件后，使用如下命令来查看：

In [65]:
!python -m line_profiler perfdemo02.py.lprof

Timer unit: 1e-06 s

Total time: 6.00644 s
File: perfdemo02.py
Function: main at line 19

Line #      Hits         Time  Per Hit   % Time  Line Contents
    19                                           @profile   
    20                                           def main():
    21        11         12.0      1.1      0.0      for _ in range(10):
    22        10         61.0      6.1      0.0          afunc()
    23         4         11.0      2.8      0.0      for _ in range(3):
    24         3    3003255.0 1001085.0     50.0          bfunc()
    25         1    3003106.0 3003106.0     50.0      cfunc()



其中各项数据含义如下：
- `Line`， 代码行
- `Hits`，执行次数
- `Time:`，占用总时间
- `Per Hit`，每次执行时间
- `Time`， 时间占比
- `Line Contents`，代码语句

## `memory_profiler`

使用`memory_profiler`用来测量内存的使用情况。

### 安装

使用pip安装
```
# 依赖psutil模块
pip install psutil
pip install memory_profiler
```

### 快速使用

同样，需要在程序的函数中使用装饰器`@profile`

In [66]:
%%writefile perfdemo03.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import time


def afunc():
    print('function A')


def bfunc():
    time.sleep(1)
    print('function B')

def cfunc():
    time.sleep(3)
    print('function C')

    
@profile
def main():
    for _ in range(10):
        afunc()
    for _ in range(3):
        bfunc()
    cfunc()

    
if __name__ == '__main__':
    main()

Writing perfdemo03.py


运行命令如下：

In [67]:
!python -m memory_profiler perfdemo03.py

function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function B
function B
function B
function C
Filename: perfdemo03.py

Line #    Mem usage    Increment   Line Contents
    19   43.270 MiB   43.270 MiB   @profile
    20                             def main():
    21   43.270 MiB    0.000 MiB       for _ in range(10):
    22   43.270 MiB    0.000 MiB           afunc()
    23   43.270 MiB    0.000 MiB       for _ in range(3):
    24   43.270 MiB    0.000 MiB           bfunc()
    25   43.270 MiB    0.000 MiB       cfunc()




其中各项含义为：
- `Line`， 代码行
- `Mem Usage`, 内存占用情况
- `Increment`, 代码执行后新增内存
- `Line Contents`，代码语句

模块提供了`mprof`工具程序来可视化显示内存使用，依赖matplotlib库。

使用使用如下命令生成统计文件：

In [70]:
!mprof run -o perfdemo03_memory.dat perfdemo03.py

mprof: Sampling memory every 0.1s
running as a Python program...
function A
function A
function A
function A
function A
function A
function A
function A
function A
function A
function B
function B
function B
function C


然后使用如下命令，来生成统计文件图像：

In [73]:
!mprof plot -o perfdemo03_memory.png perfdemo03_memory.dat 

内存使用结果如下所示：
![内存使用](perfdemo03_memory.png)

## 小结

本章节对Python程序的性能分析工具进行了介绍，在工作中`cProfile`以及可视化工具会比较常用。

再次提醒，过早优化是万恶之源。