## B.1　使用命令历史
IPython维护一个小的磁盘数据库，其中包含执行的每条命令的文本。这些文本有多种用途：

* 以最少的打字搜索、完成并执行先前执行过的命令

* 在会话之间保持命令历史记录

* 将输入/输出历史日志，记录到文件

这些功能在命令行中比在notebook中更有用，因为notebook在设计时就设计成了会记录每个代码单元中的输入和输出。

### B.1.1　搜索和复用命令历史
IPython命令行允许你搜索并执行先前的代码或其他命令。这很有用，因为经常会重复执行相同的命令，例如`％run`命令或其他代码片段。假设运行了下面的代码：

In [1]:
%run examples/data_script.py

Filename: data_script.py


然后探索脚本的结果（假设它成功运行），只是发现做出了错误的计算。找出问题并修改data_script.py后，可以开始输入`％run`命令的几个字母，然后按下Ctrl-P组合键或向上箭头键。这将搜索与你输入的字母匹配的第一个先前命令的命令历史记录。多次按下Ctrl-P或向上箭头键将继续搜索历史记录。如果你错过了你想执行的命令，不要害怕。你可以通过按Ctrl-N或向下箭头键在命令历史记录中前进。这样做几次之后，你可以开始按这些键而不用考虑！

使用Ctrl-R可以提供相同的部分增量搜索功能，这种功能在Unix风格的命令行（比如bash shell）中由readline提供。在Windows上，readline功能由IPython模拟。要使该功能，请按Ctrl-R，然后键入要搜索的输入行中包含的几个字符：

```
In [1]: a_command = foo(x, y, z)
(reverse-i-search)`com': a_command = foo(x, y, z)
```
按Ctrl-R键将循环查看与输入的字符相匹配的每行历史记录。

### B.1.2　输入和输出变量
忘记将函数调用的结果赋值给变量是非常恼人的。IPython会话存储对输入和输出命令的引用，并将特定变量中的Python对象输出。前两个输出分别存储在`_`（一个下划线）和`__`（两个下划线）变量中：

In [2]:
2 ** 32

4294967296

In [3]:
_

4294967296

输入变量存储在名为`_iX`的变量中，其中`X`是输入行号。对于每个输入变量，都有一个对应的输出变量`_X`。因此，在输入行27之后，比方说，输入中会有两个新变量`_27`（用于输出）和`_i27`：

In [4]:
foo = 'bar'

In [5]:
foo

'bar'

In [6]:
_i4

"foo = 'bar'"

In [7]:
# 这个方法在现在的iptyhon中已经失效
# _4 

由于输入变量是字符串，因此可以使用Python exec关键字再次执行它们：

In [8]:
exec(_i4)

In [9]:
%hist

%run examples/data_script.py
2 ** 32
_
foo = 'bar'
foo
_i4
# 这个方法在现在的iptyhon中已经失效
# _4
exec(_i4)
%hist


这里`_i4`代表`In[4]`中的代码输入。

一些魔术函数可以处理输入和输出历史。`％hist`可以用包含或不包含行号的形式打印全部或部分输入历史记录。`％reset`用于清除交互式命名空间以及可选的输入和输出缓存。`％xdel`魔术函数用于从IPython机器中移除对特定对象的所有引用。有关更多详细信息，请参阅这些魔术方法的文档。

> 在处理非常大的数据集时，请记住，即使使用`del`关键字从交互式命名空间中删除变量，IPython的输入和输出历史记录也会导致引用的所有对象不会被垃圾回收（释放内存）。在这种情况下，小心使用`％xdel`和`％reset`可以帮助避免遇到内存问题。

## B.2　与操作系统交互
IPython的另一个特性是它可以无缝地访问文件系统和操作系统shell。这意味着，除了特殊情况，可以像在Windows或Unix（Linux、macOS）shell中那样执行大多数标准命令行操作，而无须退出IPython。这些命令包括shell命令、更改目录命令以及将命令的结果存储在Python对象（列表或字符串）中。此外，还有简单的命令别名和目录书签功能。

下表是对魔术函数及其调用shell命令的语法的总结。

| 命令 | 描述 |
| ---- | ---- |
| !cmd | 在系统命令行中执行cmd命令 |
| output = !cmd args | 运行cmd并在 output中保存 stdout |
| %alias alias_name cmd | 为系统(shel)命令定义别名 |
| %bookmark | 使用 IPython的目录书签系统 |
| %cd directory | 将系统工作目录更改为传递的目录 |
| %pwd | 返回当前工作目录 |
| % pushd directory | 将当前目录放在堆栈上并更改为目标目录 |
| %popd | 切换到堆栈顶部弹出的目录 |
| %dirs | 返回包含当前目录堆栈的列表 |
| %dhist | 打印访问目录的历史记录 |
| %env | 以字典形式返回系统环境变量 |
| %matplotlib | 配置 matplotlib集成选项 |

### B.2.1　shell命令及其别名
在IPython中用感叹号`！`或者`bang`(?)开始一行，就是告诉IPython在系统shell中执行bang命令后所有的命令。这意味着你可以删除文件（使用rm或del，取决于你的操作系统）、更改目录或执行任何其他进程。

通过将以！转义的表达式赋值给变量，你可以把命令行的shell输出存储在一个变量中。例如，在我的基于Linux系统的机器上，机器通过以太网连接到互联网上，我可以以Python变量的形式获得我的IP地址：

In [10]:
ip_info = !ifconfig lo | grep "inet "

ip_info[0].strip()

'inet 127.0.0.1  netmask 255.0.0.0'

返回的Python对象ip_info实际上是一个包含各种版本的控制台输出的自定义列表类型。

在使用`!`时，IPython也可以替换当前环境中定义的Python值。为此，请在美元符号`$`前面加上变量名称：

In [11]:
foo = 'mydata.*'

!ls $foo

mydata.h5  mydata.sqlite


`％alias`魔术函数可以为shell命令定义自定义快捷键。举一个简单的例子：

In [12]:
%alias ll ls -l

In [13]:
ll ./

total 6884
-rw-r--r-- 1 zhuangbin users         730 Apr 28 15:45 array_archive.npz
-rw-r--r-- 1 zhuangbin users         571 Apr 28 15:45 arrays_compressed.npz
drwxr-xr-x 8 zhuangbin users        4096 Jun 19 10:13 datasets
drwxr-xr-x 4 zhuangbin users        4096 Jun 28 13:35 examples
-rw-r--r-- 1 zhuangbin users       84325 May 20 21:49 mydata.h5
-rw-r--r-- 1 zhuangbin users           0 May 20 21:23 mydata.sqlite
-rw-rw-r-- 1 zhuangbin zhuangbin   80000 Jun 24 21:02 mymmap
-rw-r--r-- 1 zhuangbin users         208 Apr 28 15:45 some_array.npy
-rw-r--r-- 1 zhuangbin users          13 May  7 18:08 SomePath
-rw-r--r-- 1 zhuangbin users       19204 Apr 18 21:53 第一章、准备工作.ipynb
-rw-r--r-- 1 zhuangbin users      157485 Jun  2 13:58 第七章、数据清洗与准备.ipynb
-rw-r--r-- 1 zhuangbin users      104263 May  7 18:11 第三章、内建数据结构、函数及文件.ipynb
-rw-r--r-- 1 zhuangbin users     2970559 Jun 10 18:12 第九章、绘图与可视化.ipynb
-rw-r--r-- 1 zhuangbin users       87571 Apr 23 16:02 第二章、Python语言基础、IPython及Jupyter.ip

可以像在命令行上一样使用分号分隔多个命令，并执行：

In [14]:
%alias test_alias (cd examples; ls; cd ..)

In [15]:
test_alias

array_ex.txt	  ex7.csv		      segismundo.txt
cprof_example.py  example.json		      sink.txt
csv_mindex.csv	  fdic_failed_bank_list.html  spx.csv
data_script.py	  frame_pickle		      stinkbug.png
ex1.csv		  ipython_bug.py	      stock_px_2.csv
ex1.xlsx	  ipython_bug_set_trace.py    stock_px.csv
ex2.csv		  macrodata.csv		      test_file.csv
ex2.xlsx	  mta_perf		      tips.csv
ex3.csv		  mydata.csv		      tmp.txt
ex3.txt		  mydata.h5		      tseries.csv
ex4.csv		  nation_hand.xlsx	      volume.csv
ex5.csv		  out.csv		      yahoo_price.pkl
ex6.csv		  prod_mod.py		      yahoo_volume.pkl


> IPython会在会话关闭后“忘记”所有在交互中定义的别名。要创建永久别名，需要使用配置系统。

### B.2.2　目录书签系统
IPython有一个简单易用的目录书签系统，允许保存通用目录的别名，以便轻松地跳转。

In [16]:
%bookmark jupyter /home/zhuangbin/Jupyter

运行上面的代码，当使用`％cd`魔术函数时，可以使用定义的任何书签：

In [17]:
%cd jupyter

(bookmark:jupyter) -> /home/zhuangbin/Jupyter
/home/zhuangbin/OneDrive/ProjectSpace/Jupyter


In [18]:
cd -

/home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析


如果书签名称与当前工作目录中的目录名称冲突，可以使用`-b`标志进行覆盖并使用书签位置。使用`%bookmark -l`选项，将列出所有的书签：

In [19]:
%bookmark -l

Current bookmarks:
jupyter -> /home/zhuangbin/Jupyter


## B.3　软件开发工具
除了为交互式计算和数据探索提供舒适的环境外，IPython还可以成为通用Python软件开发的伴侣。在数据分析应用程序中，首先，代码的正确性非常重要。幸运的是，IPython紧密集成并增强了内置的Python pdb调试器。其次，希望代码更快。为此，IPython拥有易于使用的代码测时和分析工具。

### B.3.1　交互式调试器
IPython的调试器对pdb进行了加强，加强的地方包括tab键补全、语法高亮以及异常回溯中每一行的上下文。调试代码的最佳时机之一就是在发生错误之后。在异常发生后立刻输入`%debug`命令，可以唤起"后现代"调试器并进入抛出异常的堆栈区：

In [20]:
run examples/ipython_bug.py

AssertionError: 

In [21]:
%debug

> [0;32m/home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析/examples/ipython_bug.py[0m(9)[0;36mthrows_an_exception[0;34m()[0m
[0;32m      7 [0;31m    [0ma[0m [0;34m=[0m [0;36m5[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      8 [0;31m    [0mb[0m [0;34m=[0m [0;36m6[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m----> 9 [0;31m    [0;32massert[0m[0;34m([0m[0ma[0m [0;34m+[0m [0mb[0m [0;34m==[0m [0;36m10[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m     10 [0;31m[0;34m[0m[0m
[0m[0;32m     11 [0;31m[0;32mdef[0m [0mcalling_things[0m[0;34m([0m[0;34m)[0m[0;34m:[0m[0;34m[0m[0;34m[0m[0m
[0m
ipdb> q


一旦进入调试器，就可以执行任意Python代码，并探索每个堆栈区内的所有对象和数据（数据由解释器“保持活动状态”）。默认情况下，从最底层开始，那里是错误发生的地方。通过按`u`（上）和`d`（下），可以在堆栈回溯的不同层级间切换。

执行`%pdb`命令可以使IPython在任何异常之后自动调用调试器，许多用户认为这个命令特别有用。

使用调试器来帮助开发代码也很容易，特别是当希望设置断点或单步执行函数或脚本来检查每个阶段的状态时。有多种方式可以实现这个功能。第一种方式是使用`%run`命令和`-d`标志，这种方式在执行所有传递的脚本中的代码前唤起调试器。必须立刻按下`s`（step）来进入脚本：

In [22]:
run -d examples/ipython_bug.py

Breakpoint 1 at /home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析/examples/ipython_bug.py:1
NOTE: Enter 'c' at the ipdb>  prompt to continue execution.
> [0;32m/home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析/examples/ipython_bug.py[0m(1)[0;36m<module>[0;34m()[0m
[1;31m1[0;32m---> 1 [0;31m[0;32mdef[0m [0mworks_fine[0m[0;34m([0m[0;34m)[0m[0;34m:[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      2 [0;31m    [0ma[0m [0;34m=[0m [0;36m5[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      3 [0;31m    [0mb[0m [0;34m=[0m [0;36m6[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      4 [0;31m    [0;32massert[0m[0;34m([0m[0ma[0m [0;34m+[0m [0mb[0m [0;34m==[0m [0;36m11[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      5 [0;31m[0;34m[0m[0m
[0m
ipdb> n
> [0;32m/home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析/examples/ipython_bug.py[0m(6)[0;36m<module>[0;34m()[0m
[0;32m      4 [0;31m    [0;32m

在这之后，如何处理文件将取决于自己。例如，在之前的异常中，可以在调用works_fine方法前设置一个断点，然后按下`c`（continue，继续）运行程序直到达到断点处：

In [23]:
run -d examples/ipython_bug.py

Breakpoint 1 at /home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析/examples/ipython_bug.py:1
NOTE: Enter 'c' at the ipdb>  prompt to continue execution.
> [0;32m/home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析/examples/ipython_bug.py[0m(1)[0;36m<module>[0;34m()[0m
[1;31m1[0;32m---> 1 [0;31m[0;32mdef[0m [0mworks_fine[0m[0;34m([0m[0;34m)[0m[0;34m:[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      2 [0;31m    [0ma[0m [0;34m=[0m [0;36m5[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      3 [0;31m    [0mb[0m [0;34m=[0m [0;36m6[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      4 [0;31m    [0;32massert[0m[0;34m([0m[0ma[0m [0;34m+[0m [0mb[0m [0;34m==[0m [0;36m11[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      5 [0;31m[0;34m[0m[0m
[0m
ipdb> n
> [0;32m/home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析/examples/ipython_bug.py[0m(6)[0;36m<module>[0;34m()[0m
[0;32m      4 [0;31m    [0;32m

进入throws_an_exception，再进入到错误发生的行检查范围内的变量。请注意，调试器命令优先于变量名称。在这种情况下，变量前面加上`!`来检查变量的内容：

对交互式调试器的熟练程度在很大程度上取决于实践和经验。有关调试器命令的完整目录，请参见下表。如果习惯于使用IDE，那么可能会发现终端驱动的调试器起初有点不习惯，但这会随着时间的推移而改进。一些Python IDE具有出色的GUI调试器，所以大多数用户可以找到适合他们的东西。

| 命令 | 动作 |
| ---- | ----|
| h(elp) | 展示命令列表 |
| help command | 显示 command命令的文档 |
| c(ontinue) | 恢复程序执行 |
| q(uit) | 退出调试器而不再执行更多的代码 |
| b(reak) number | 在当前文件的 number位置设置断点 |
| b path/to/file.py: number | 在指定文件的 number位置设置断点 |
| s(tep) | 单步进入函数调用 |
| n(ext) | 执行当前行,并进入到当前层级的下一行 |
| u(p)/d(own) | 在函数调用堆栈中上下移动 |
| a(rgs) | 显示当前函数的参数 |
| debug statement | 在新的(递归)调试器中调用语句 statement |
| I(ist) statement | 显示当前堆栈的当前位置和上下文 |
| w(here) | 在当前位置打印带有上下文的完整堆栈回溯 |

#### B.3.1.1　调试器的其他用途
有几个其他有用的方法来调用调试器。第一种方法是使用一个特殊的`set_trace`函数（以`pdb.set_trace`命名），该函数基本上是一个“穷人的断点”。这里有两个小技巧，可以将这些技巧放在某处用于常规使用（也可以将它们添加到IPython配置文件中）：

In [24]:
from IPython.core.debugger import Pdb

def set_trace():
    Pdb(color_scheme='Linux').set_trace(sys._getframe().f_back)

def debug(f, *args, **kwargs):
    pdb = Pdb(color_scheme='Linux')
    return pdb.runcall(f, *args, **kwargs)

第一个函数`set_trace`是非常简单的。可以在代码的任何部分使用`set_trace`来临时停止，以便更仔细地检查代码（例如在异常发生前）：

In [25]:
run examples/ipython_bug_set_trace.py

  Pdb(color_scheme='Linux').set_trace(sys._getframe().f_back)


> [1;32m/home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析/examples/ipython_bug_set_trace.py[0m(24)[0;36mcalling_things[1;34m()[0m
[1;32m     22 [1;33m    [0mworks_fine[0m[1;33m([0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m     23 [1;33m    [0mset_trace[0m[1;33m([0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m---> 24 [1;33m    [0mthrows_an_exception[0m[1;33m([0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m     25 [1;33m[1;33m[0m[0m
[0m[1;32m     26 [1;33m[0mcalling_things[0m[1;33m([0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[0m
ipdb> q


BdbQuit: 

> 按c（continue，继续）将导致代码恢复正常，不会造成任何损害。

刚刚查看的debug函数允许在任意函数调用中轻松唤起交互式调试器。假设已经写了如下的函数，并且希望单步运行通过它的逻辑：

In [26]:
def f(x, y, z=1):
    tmp = x + y
    return tmp / z

通常，使用`f`看起来像`f(1，2，z=3)`。与单步进入f不同，将f作为第一个参数传递给debug，然后将位置和关键字参数传递给f：

In [27]:
debug(f, 1, 2, z=3)

> [1;32m<ipython-input-26-359ec13d6433>[0m(2)[0;36mf[1;34m()[0m
[1;32m      1 [1;33m[1;32mdef[0m [0mf[0m[1;33m([0m[0mx[0m[1;33m,[0m [0my[0m[1;33m,[0m [0mz[0m[1;33m=[0m[1;36m1[0m[1;33m)[0m[1;33m:[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m----> 2 [1;33m    [0mtmp[0m [1;33m=[0m [0mx[0m [1;33m+[0m [0my[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m      3 [1;33m    [1;32mreturn[0m [0mtmp[0m [1;33m/[0m [0mz[0m[1;33m[0m[1;33m[0m[0m
[0m
ipdb> q


这两个简单的技巧可以节省很多日常的时间。

最后，调试器可以与`%run`结合使用。通过使用`%run -d`运行脚本，将直接进入到调试器中，随时可以设置任何断点并启动脚本：

In [28]:
%run -d examples/ipython_bug.py

Breakpoint 1 at /home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析/examples/ipython_bug.py:1
NOTE: Enter 'c' at the ipdb>  prompt to continue execution.
> [0;32m/home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析/examples/ipython_bug.py[0m(1)[0;36m<module>[0;34m()[0m
[1;31m1[0;32m---> 1 [0;31m[0;32mdef[0m [0mworks_fine[0m[0;34m([0m[0;34m)[0m[0;34m:[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      2 [0;31m    [0ma[0m [0;34m=[0m [0;36m5[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      3 [0;31m    [0mb[0m [0;34m=[0m [0;36m6[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      4 [0;31m    [0;32massert[0m[0;34m([0m[0ma[0m [0;34m+[0m [0mb[0m [0;34m==[0m [0;36m11[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      5 [0;31m[0;34m[0m[0m
[0m
ipdb> n
> [0;32m/home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析/examples/ipython_bug.py[0m(6)[0;36m<module>[0;34m()[0m
[0;32m      4 [0;31m    [0;32m

用行号加上`-b`会启动一个已经设置了断点的调试器：

In [29]:
%run -d -b2 examples/ipython_bug.py

Breakpoint 1 at /home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析/examples/ipython_bug.py:2
NOTE: Enter 'c' at the ipdb>  prompt to continue execution.
> [0;32m/home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析/examples/ipython_bug.py[0m(1)[0;36m<module>[0;34m()[0m
[0;32m----> 1 [0;31m[0;32mdef[0m [0mworks_fine[0m[0;34m([0m[0;34m)[0m[0;34m:[0m[0;34m[0m[0;34m[0m[0m
[0m[1;31m1[0;32m     2 [0;31m    [0ma[0m [0;34m=[0m [0;36m5[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      3 [0;31m    [0mb[0m [0;34m=[0m [0;36m6[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      4 [0;31m    [0;32massert[0m[0;34m([0m[0ma[0m [0;34m+[0m [0mb[0m [0;34m==[0m [0;36m11[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      5 [0;31m[0;34m[0m[0m
[0m
ipdb> n
> [0;32m/home/zhuangbin/OneDrive/ProjectSpace/Jupyter/Python3/利用Python进行数据分析/examples/ipython_bug.py[0m(6)[0;36m<module>[0;34m()[0m
[0;32m      4 [0;31m    [0;32m

### B.3.2　对代码测时：`%time`和`%timeit`
对于更大规模或更长时间运行的数据分析应用程序，可能希望测量各个组件或单个语句或函数调用的执行时间。可能需要一个在复杂过程中哪些函数最耗时的报告。幸运的是，IPython可以非常方便地在开发、测试代码的时候获得这些信息。

手工使用内置`time`模块及其函数`time.clock`和`time.time`通常是单调和重复的，因为必须编写相同的无趣样板代码：

In [30]:
import time
# 运行次数
iterations = 100
start = time.time()
for i in range(iterations):
    # 这里是一些需要运行的代码
    elapsed_per = (time.time() - start) / iterations

由于这是一个很常见的操作，而IPython有两个魔术函数，`%time`和`%timeit`，自动执行此过程。

`%time`一次运行一条语句，并报告总执行时间。假设有一大串字符串，想比较不同的选择所有的字符串中以特殊前缀开始的字符串的方法。这里有一个包含600，000个字符串的列表和两个只选出以'foo'开头的方法：

In [31]:
# 一个非常大的字符串列表
strings = ['foo', 'foobar', 'baz', 'qux',
           'python', 'Guido Van Rossum'] * 100000

method1 = [x for x in strings if x.startswith('foo')]

method2 = [x for x in strings if x[:3] == 'foo']

看上去他们的性能是一样的，是吧？使用`%time`来测试下：

In [32]:
%time method1 = [x for x in strings if x.startswith('foo')]

CPU times: user 123 ms, sys: 7.39 ms, total: 130 ms
Wall time: 129 ms


In [33]:
%time method2 = [x for x in strings if x[:3] == 'foo']

CPU times: user 89.5 ms, sys: 16.3 ms, total: 106 ms
Wall time: 104 ms


Wall time（"wall-clock time"简写，壁钟时间）是主要感兴趣的数字。所以，看起来第一种方法需要两倍以上的时间，但这不是一个非常精确的测量。如果尝试多用`%time`测试，就发现测试结果是个变量。为了获得更精确的测量，可以使用`%timeit`魔术函数。给定任意的语句，`%timeit`有多次运行语句以产生更准确的平均运行时间的功能：

In [34]:
%timeit [x for x in strings if x.startswith('foo')]

114 ms ± 524 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [35]:
%timeit [x for x in strings if x[:3] == 'foo']

96.9 ms ± 592 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


这个看似普通的例子表明，理解使用的Python标准库、NumPy、pandas以及其他的类库的性能特征是很有必要的。在更大型的数据分析应用中，相差的毫秒就开始累加了！

`%timeit`对于执行时间很短的分析语句和函数特别有用，甚至在微秒（百万分之一秒）或纳秒（十亿分之一秒）的级别依然有效。

这些时间可能看起来微不足道，但是，调用100万次的20微秒函数比5毫秒的函数要多用15秒。在之前的例子中，可以非常直接地对比两个字符串操作来理解它们的性能差异：

In [36]:
x = 'foobar'

y = 'foo'

%timeit x.startswith(y)

%timeit x[:3] == y

221 ns ± 0.715 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
194 ns ± 2.03 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


### B.3.3　基础分析：%prun和%run-p
代码分析与代码测时相关性很高，但代码分析更多关注于时间开销的位置。主要的Python分析工具是`cProfile`模块，该模块不是专用于IPython。`cProfile`执行程序或任意代码块，同时记录每个函数花费多少时间。

使用`cProfile`的常用方法是在命令行上运行整个程序，并输出每个函数的聚合时间。假设有一个简单的脚本，它在循环中执行一些线性代数（计算一系列100×100矩阵的最大绝对特征值）：

In [37]:
import numpy as np
from numpy.linalg import eigvals

def run_experiment(niter=100):
    K = 100
    results = []
    for _ in range(niter):
        mat = np.random.randn(K, K)
        max_eigenvalue = np.abs(eigvals(mat)).max()
        results.append(max_eigenvalue)
    return results
some_results = run_experiment()
print('Largest one we saw: %s' % np.max(some_results))

Largest one we saw: 11.343798392316682


可以使用下面的代码在命令行中通过`cProfile`运行脚本：

In [38]:
output = !python3 -m cProfile examples/cprof_example.py
output[:20]

['Largest one we saw: 11.754141426893407',
 '         89781 function calls (86565 primitive calls) in 1.656 seconds',
 '',
 '   Ordered by: standard name',
 '',
 '   ncalls  tottime  percall  cumtime  percall filename:lineno(function)',
 '        1    0.000    0.000    0.000    0.000 <__array_function__ internals>:2(<module>)',
 '      100    0.001    0.000    0.004    0.000 <__array_function__ internals>:2(all)',
 '        1    0.000    0.000    0.000    0.000 <__array_function__ internals>:2(amax)',
 '        1    0.000    0.000    0.000    0.000 <__array_function__ internals>:2(concatenate)',
 '        1    0.000    0.000    0.000    0.000 <__array_function__ internals>:2(copyto)',
 '      100    0.000    0.000    1.267    0.013 <__array_function__ internals>:2(eigvals)',
 '      485    0.001    0.000    0.002    0.000 <frozen importlib._bootstrap>:103(release)',
 '      177    0.000    0.000    0.000    0.000 <frozen importlib._bootstrap>:143(__init__)',
 '      177    0.000    0.0

如果按照上面的代码尝试，会发现输出是按照函数名排序的。这很难了解大部分时间花在哪里，所以通常需要使用`-s`标志指定一个排序顺序：

In [39]:
output = !python3 -m cProfile -s cumulative examples/cprof_example.py

In [40]:
output[:20]

['Largest one we saw: 12.431088284300452',
 '         89781 function calls (86565 primitive calls) in 1.750 seconds',
 '',
 '   Ordered by: cumulative time',
 '',
 '   ncalls  tottime  percall  cumtime  percall filename:lineno(function)',
 '    462/1    0.011    0.000    1.751    1.751 {built-in method builtins.exec}',
 '        1    0.000    0.000    1.751    1.751 cprof_example.py:1(<module>)',
 '        1    0.002    0.002    1.484    1.484 cprof_example.py:4(run_experiment)',
 '      100    0.000    0.000    1.390    0.014 <__array_function__ internals>:2(eigvals)',
 '  203/103    0.000    0.000    1.390    0.013 {built-in method numpy.core._multiarray_umath.implement_array_function}',
 '      100    1.381    0.014    1.389    0.014 linalg.py:989(eigvals)',
 '    177/1    0.001    0.000    0.267    0.267 <frozen importlib._bootstrap>:966(_find_and_load)',
 '    177/1    0.001    0.000    0.267    0.267 <frozen importlib._bootstrap>:936(_find_and_load_unlocked)',
 '    168/1    0.00

输出只显示最前面的15行。通过扫描cumtime列来查看每个函数内花费的总时间是最容易的。

> 如果一函数调用了其他一些函数，时钟并不会停止运行。`cProfile`记录了每个函数调用的起始和结束时间，并以此来生成耗时。

除了命令行的使用，还可以通过编程方式使用cProfile来分析任意代码块，而无须运行新进程。IPython使用`%prun`命令和`%run`的`-p`选项为此功能提供了方便的接口。`%prun`与`cProfile`采用相同的“命令行选项”，但会分析任意Python语句而不是整个.py文件：

In [41]:
%prun -l 7 -s cumulative run_experiment()

 

In [42]:
%run -p -l 7 -s cumulative examples/cprof_example.py

Largest one we saw: 11.769736366396215
 

同样，调用`%run -p -l 7 -s cumulative examples/cprof_example.py`与命令行方法具有相同的效果，并且不必离开IPython。

在Jupyter notebook中，可以使用`%%prun`魔术方法（两个百分号%）来分析整个代码块。这会弹出一个包含配置文件输出的独立窗口。独立窗口对于快速回答如下问题很有用：“为什么代码块需要很长时间才能运行？”

In [43]:
%%prun -l 7 -s cumulative
from numpy.linalg import eigvals

def run_experiment(niter=100):
    K = 100
    results = []
    for _ in range(niter):
        mat = np.random.randn(K, K)
        max_eigenvalue = np.abs(eigvals(mat)).max()
        results.append(max_eigenvalue)
    return results
some_results = run_experiment()
print('Largest one we saw: %s' % np.max(some_results))

Largest one we saw: 11.690773252967158
 

还有其他工具可以帮助你在使用IPython或Jupyter时更容易理解配置文件。其中一个是SnakeViz（https://github.com/jiffyclub/snakeviz ），它使用d3.js生成配置文件结果的交互式可视化。

### B.3.4　逐行分析函数
某些情况下，从`%prun`（或者及其他基于cProfile的分析方法）获得的信息可能无法完整阐述函数的执行时间，或者特别复杂而使得根据函数名聚合得到的结果太难而无法解释。对于这种情况，有一个小的库，叫作`line_profiler`（从PyPI或者其他的包管理工具中获得）。这个库包含了一个IPython拓展，增加了一个新的魔术函数`%lprun`，`%lprun`可以对一或多个函数进行逐行分析。可以通过修改你的IPython配置类开启这个拓展（参考IPython官方文档或本章之后介绍配置的小节），修改配置时增加下面一行：

```
# IPython拓展需要载入的模块名称列表
c.TerminalIPythonApp.extensions = ['line_profiler']
```

也可以运行以下命令：

In [44]:
%load_ext line_profiler

line_profiler可以按编程的方式使用（参考line_profiler完整文档），但是可能最有效的使用方式还是在IPython中交互式使用。假设有一个prod_mod模块，该模块含有以下进行NumPy数组操作的代码：

In [45]:
from numpy.random import randn

def add_and_sum(x, y):
    added = x + y
    summed = added.sum(axis=1)
    return summed

def call_function():
    x = randn(1000, 1000)
    y = randn(1000, 1000)
    return add_and_sum(x, y)

如果想要知道`add_and_sum`函数的性能，`%prun`会给出以下结果：

In [46]:
%run examples/prod_mod

In [47]:
x = randn(3000, 3000)

y = randn(3000, 3000)

%prun add_and_sum(x, y)

 

这不是特别让人理解。通过激活`line_profiler`的IPython扩展，可以使用新的命令`%lprun`。使用的唯一区别是必须向`%lprun`指明希望分析哪些函数。一般的语法是：
```
%lprun -f func1 -f func2 statement_to_profile
```
在这种情况下，要对add_and_sum做分析，因此运行以下代码：

In [48]:
%lprun -f add_and_sum add_and_sum(x, y)

这结果更容易解释。在这种情况下，分析在之前语句中使用的相同函数。查看之前的模块代码，可以调用并分析call_function以及add_and_sum，从而全面了解代码的性能：

In [49]:
%lprun -f add_and_sum -f call_function call_function()

作为一个通用的经验规则，倾向于使用`%prun`（基于cProfile）作为”宏观“的性能分析，用`%lprun`（基于line_profiler）作为微观分析。对于这两个工具的理解都是非常有意义的。

> 必须明确指定要使用`%lprun`进行分析的函数的名称，原因是“回溯”每行的执行时间的开销很大。回溯不感兴趣的函数可能会显著改变分析结果。

## B.4　使用IPython进行高效代码开发的技巧
对于很多用户来说，以易于开发、调试和最终交互使用的方式编写代码可能是一种习惯的改变。代码重新加载等程序细节可能需要一些调整以及编码风格方面的考虑。

因此，实现本节中所介绍的大多技巧更多的是艺术而不是科学，并且需要你进行一些实验来确定一种对你有效的Python代码编写方法。最终，希望以易于迭代使用的方式构建代码，并能够尽可能轻松地探索程序或函数运行的结果。使用IPython设计的软件比仅用作独立命令行应用程序的代码更易于使用。这一点变得尤为重要，特别是出现了问题使你不得不对程序中你自己或别人在数月或数年前写的代码进行检查的时候。

### B.4.1　重载模块依赖项
在Python中，当输入`import some_lib`时，some_lib中的代码将被执行，并且所有定义的变量、函数和导入都将存储在新创建的some_lib模块命名空间中。之后再输入`import some_lib`时，将获得对现有模块命名空间的引用。在交互式IPython代码开发中可能会遇到潜在的困难，比如当以`%run`命令运行一个依赖于其他模块的脚本，而依赖的模块可能已经做了修改的时候。假设在test_script.py中有以下代码：

```python
import some_lib

x = 5
y = [1, 2, 3, 4]
result = some_lib.get_answer(x, y)
```

如果要执行`%run test_script.py`，然后修改some_lib.py，则下次执行`%run test_script.py`时，由于Python模块系统是“一次加载”的，仍然会得到旧版本的some_lib.py。这种行为不同于其他数据分析环境，如MATLAB，它会自动传播代码的变更。

> 由于模块或包可以在特定程序的许多不同位置导入，因此Python在第一次导入模块时会缓存模块的代码，而不是每次都在模块中执行代码。否则，模块化和良好的代码组织可能会导致应用程序效率低下。

为了解决这个问题，有几个选择。第一种方法是在标准库的importlib模块中使用`reload`函数：
```python
import some_lib
import importlib

importlib.reload(some_lib)
```
上面的代码保证每次运行test_script.py时都会得到一个新的some_lib.py副本。显然，如果依赖关系变得更深，那么在整个地方插入reload的用法可能有点棘手。对于这个问题，IPython有一个特殊的`dreload`函数（不是一个魔术函数），用于模块的“深层”（递归）重载。如果要运行some_lib.py然后输入`dreload(some_lib)`，将尝试重新加载some_lib及其所有依赖项。不幸的是，并不是所有的情况下都有效，有时不得不重新启动IPython。

### B.4.2　代码设计技巧
这里并没有什么简单的方法，但是有一些高级的准则。

#### B.4.2.1　保持相关对象和数据的存在

看到结构有点像下面这个简单的例子的命令行代码并不罕见：

```python
from my_functions import g

def f(x, y):
    return g(x + y)

def main():
    x = 6
    y = 7.5
    result = x + y

if __name__ == '__main__':
    main()
```

如果要在IPython中运行该程序，什么地方可能会出错？完成后，在main函数中定义的结果或对象都不会在IPython shell中访问。更好的方法是直接在模块的全局命名空间中，执行main中所有代码（如果想要让模块也变得可导入的话，则在`if __name__=='__main__'：`代码块中执行）。这样，当运行代码时，就能够看到main中定义的所有变量。这种方式和在Jupyter notebook中在代码单元内定义顶层变量的方式是等价的。

#### B.4.2.2　扁平优于嵌套

深度嵌套的代码联想到洋葱一层层的皮。在测试或调试某个功能时，为了达到感兴趣的代码，必须剥下多少层洋葱？”扁平优于嵌套“的观念是Python之禅的一部分，开发交互式代码的时候这种观念依然有用。使函数和类尽可能地解耦并模块化，可以使得它们更易于测试（如果正在编写单元测试）、调试以及交互式使用。

#### B.4.2.3　克服对长文件的恐惧

如果你有Java背景（或者其他什么语言），你可能已经知道要保持文件短小。在很多语言中，这听起来只是个建议，冗长通常是一种不好的"代码味道"，这表明重构和重组可能是必要的。但是，在使用IPython开发代码的同时，使用10个小但内部关联的文件（每个文件不超过100行）比两三个更长的文件可能会感到更加头痛。更少的文件意味着更少的模块重新加载，并且在编辑时也减少了文件之间的跳跃。维护更大的模块，使每个模块都具有很高的内部凝聚力，更加有用也更加Pythonic。向解决方案进行迭代之后，有时候将较大的文件重构为较小的文件是有意义的。

显然，不要将这个论点推向极端，这将会把所有代码放在一个单一的怪异文件中。为大型代码库寻找一个合理且直观的模块及包结构通常需要不少工作，但是团队合作尤为重要。每个模块应该在内部具有内聚性，并且在哪里找到负责每个功能区域的功能和类应该尽可能明显。

## B.5　高阶IPython特性
充分利用IPython系统可能会用稍微不同的方式编写代码，或者深入了解配置。

### B.5.1　使自定义的类对IPython友好
IPython会尽一切努力显示对控制台友好的字符串，这些字符串表示的是想检查的对象。对于许多对象，如字典、列表和元组，内置的`pprint`模块可以很好地完成格式化。但是，在用户定义的类中，必须自己生成所需的字符串输出。假设有以下简单的类：

In [50]:
class Message:
    def __init__(self, msg):
        self.msg = msg

如果写了上面的代码，会失望地发现这个类的默认输出不是很好：

In [51]:
x = Message('I have a secret')

x

<__main__.Message at 0x7f7a9812a278>

IPython获取的输出字符串是由`__repr__`的魔术方法返回的（通过语句`output=repr(obj)`），并将输出打印到控制台。因此，可以增加一个简单的`__repr__`方法到之前的类，就可以获得更有用的输出：

In [52]:
class Message:
    def __init__(self, msg):
        self.msg = msg

    def __repr__(self):
        return 'Message: %s' % self.msg

In [53]:
x = Message('I have another secret')

x

Message: I have another secret

### B.5.2　配置文件与配置
IPython的大部分外观选项（颜色、提示和线条间距等）以及IPython和Jupyter环境的行为可以通过广泛的设置系统进行配置。下面这些事情都可以通过配置来完成：

* 更改颜色主题

* 更改输入输出的外观，或者去除Out之后和下一个In之前的空白行

* 执行任意的Python语句列表（例如，导入你总是使用的库，或者是其他你希望每次你启动IPython就运行的程序）

* 始终启用IPython扩展，如line_profiler中的％lprun魔术函数

* 激活Jupyter拓展

* 自定义魔术函数或系统别名

IPython shell的配置在专门的ipython_config.py文件中指定，这些文件通常位于用户主目录中的.ipython/目录中。配置是基于特定配置文件执行的。当正常启动IPython时，默认情况下会加载存储在profile_default目录中的默认配置文件。因此，在Linux操作系统上，默认IPython配置文件的完整路径是：

要在自己的系统上初始化该文件，在终端运行下面的指令：

```sh
ipython profile create secret_project
```

这个文件里的内容。幸运的是它有注释，描述每个配置选项的用途。另一个有用的功能是可以有多个配置文件。假设想要为特定应用程序或项目定制另一套IPython配置。创建一个新的配置文件就像输入下面代码一样简单：


完成此操作后，编辑新创建的profle_secret_project目录中的配置文件，然后启动IPython，如下所示：

```sh
ipython --profile=secret_project
```

和通常情况一致，IPython的官方在线文档是对于配置文件和配置是一个非常好的资源。

Jupyter的设置略有不同，因为在Juypter的notebook中使用的不只是Python语言。要生成类似的Jupyter配置文件，运行下面指令：
```
jupyter notebook --generate-config
```
上面的代码会将默认配置文件写入主目录下的`.jupyter/jupyter_notebook_confg.py`目录。将配置文件编辑到符合需求后，将它重命名为不同的
文件，比如：

```sh
mv ~/.jupyter/jupyter_notebook_config.py ~/.jupyter/my_custom_config.py
```

在启动Jupyter的时候，可以添加`--config`参数：
```
jupyter notebook --config=~/.jupyter/my_custom_config.py
```

## B.6　附录小结

可以在nbviewer网站（https://nbviewer.jupyter.org/ ）上发现很多感兴趣的Jupyter notebook。