## 3.13　高性能Pandas：`eval()`与`query()`
前面的章节已经介绍过，Python 数据科学生态环境的强大力量建立在NumPy 与Pandas 的基础之上，并通过直观的语法将基本操作转换成C 语言：在NumPy 里是向量化/ 广播运算，在Pandas 里是分组型的运算。虽然这些抽象功能可以简洁高效地解决许多问题，但是它们经常需要创建临时中间对象，这样就会占用大量的计算时间与内存。

Pandas 从0.13 版开始（2014 年1 月）就引入了实验性工具，让用户可以直接运行C 语言速度的操作，不需要十分费力地配置中间数组。它们就是`eval()`和`query()`函数，都依赖于[Numexpr](https://github.com/pydata/numexpr) 程序包。我们将在下面的Notebook 中演示其用法，并介绍一些使用时的注意事项。

### 3.13.1　query()与eval()的设计动机：复合代数式
前面已经介绍过，NumPy 与Pandas 都支持快速的向量化运算。例如，你可以对下面两个数组进行求和：

In [3]:
import numpy as np

rng = np.random.RandomState(42)
x = rng.rand(1000000)
y = rng.rand(1000000)
%timeit x + y

7.7 ms ± 3.13 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [6]:
%timeit np.fromiter((xi + yi for xi, yi in zip(x, y)), dtype=x.dtype, count=len(x))

449 ms ± 7.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


但是这种运算在处理复合代数式（compound expression）问题时的效率比较低，例如下面的表达式：

In [7]:
mask = (x > 0.5) & (y < 0.5)

由于NumPy 会计算每一个代数子式，因此这个计算过程等价于：

In [8]:
tmp1 = (x > 0.5)
tmp2 = (y < 0.5)
mask = tmp1 & tmp2

也就是说，每段中间过程都需要显式地分配内存。如果x 数组和y 数组非常大，这么运算就会占用大量的时间和内存消耗。Numexpr 程序库可以让你在不为中间过程分配全部内存的前提下，完成元素到元素的复合代数式运算。虽然[Numexpr 文档](https://github.com/pydata/numexpr)里提供了更详细的内容，但是简单点儿说，这个程序库其实就是用一个NumPy 风格的字符串代数式进行运算：

In [9]:
import numexpr
mask_numexpr = numexpr.evaluate('(x > 0.5) & (y < 0.5)')
np.allclose(mask, mask_numexpr)

True

这么做的好处是，由于Numexpr 在计算代数式时不需要为临时数组分配全部内存，因此计算比NumPy 更高效，尤其适合处理大型数组。马上要介绍的Pandas 的`eval()`和`query()`工具其实也是基于Numexpr 实现的。

### 3.13.2　用pandas.eval()实现高性能运算
Pandas 的eval() 函数用字符串代数式实现了DataFrame 的高性能运算， 例如下面的DataFrame：

In [12]:
import pandas as pd

nrows, ncols = 100000, 100
rng = np.random.RandomState(42)
df1, df2, df3, df4 = (pd.DataFrame(rng.rand(nrows, ncols)) for i in range(4))

如果要用普通的Pandas 方法计算四个DataFrame 的和，可以这么写：

In [13]:
%timeit df1 + df2 + df3 + df4

151 ms ± 2.51 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


也可以通过pd.eval 和字符串代数式计算并得出相同的结果：

In [14]:
%timeit pd.eval('df1 + df2 + df3 + df4')

71.7 ms ± 918 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


这个eval() 版本的代数式比普通方法快一倍（而且内存消耗更少），结果也是一样的：

In [15]:
np.allclose(df1 + df2 + df3 + df4,
pd.eval('df1 + df2 + df3 + df4'))

True

**pd.eval()支持的运算**
<br>从Pandas v0.16 版开始，pd.eval() 就支持许多运算了。为了演示这些运算，创建一个整数类型的DataFrame：

In [16]:
df1, df2, df3, df4, df5 = (pd.DataFrame(rng.randint(0, 1000, (100, 3))) for i in range(5))

**(1) 算术运算符。**
<br>pd.eval() 支持所有的算术运算符，例如：

In [17]:
result1 = -df1 * df2 / (df3 + df4) - df5
result2 = pd.eval('-df1 * df2 / (df3 + df4) - df5')
np.allclose(result1, result2)

True

**(2) 比较运算符。**
<br>pd.eval() 支持所有的比较运算符，包括链式代数式（chained expression）：

In [18]:
result1 = (df1 < df2) & (df2 <= df3) & (df3 != df4)
result2 = pd.eval('df1 < df2 <= df3 != df4')
np.allclose(result1, result2)

True

**(3) 位运算符。**
<br>pd.eval() 支持&（与）和|（或）等位运算符：

In [19]:
result1 = (df1 < 0.5) & (df2 < 0.5) | (df3 < df4)
result2 = pd.eval('(df1 < 0.5) & (df2 < 0.5) | (df3 < df4)')
np.allclose(result1, result2)

True

另外，你还可以在布尔类型的代数式中使用and 和or 等字面值：

In [20]:
result3 = pd.eval('(df1 < 0.5) and (df2 < 0.5) or (df3 < df4)')
np.allclose(result1, result3)

True

**(4) 对象属性与索引。**
<br>pd.eval() 可以通过obj.attr 语法获取对象属性，通过obj[index] 语法获取对象索引：

In [21]:
result1 = df2.T[0] + df3.iloc[1]
result2 = pd.eval('df2.T[0] + df3.iloc[1]')
np.allclose(result1, result2)

True

**(5) 其他运算。**
<br>目前pd.eval() 还不支持函数调用、条件语句、循环以及更复杂的运算。如
果你想要进行这些运算，可以借助Numexpr 来实现。

### 3.13.3　用DataFrame.eval()实现列间运算
由于pd.eval() 是Pandas 的顶层函数，因此DataFrame 有一个eval() 方法可以做类似的运算。
<br>使用eval() 方法的好处是可以借助列名称进行运算，示例如下：

In [22]:
df = pd.DataFrame(rng.rand(1000, 3), columns=['A', 'B', 'C'])
df.head()

Unnamed: 0,A,B,C
0,0.375506,0.406939,0.069938
1,0.069087,0.235615,0.154374
2,0.677945,0.433839,0.652324
3,0.264038,0.808055,0.347197
4,0.589161,0.252418,0.557789


如果用前面介绍的pd.eval()，就可以通过下面的代数式计算这三列：

In [23]:
result1 = (df['A'] + df['B']) / (df['C'] - 1)
result2 = pd.eval("(df.A + df.B) / (df.C - 1)")
np.allclose(result1, result2)

True

而DataFrame.eval() 方法可以通过列名称实现简洁的代数式：

In [24]:
result3 = df.eval('(A + B) / (C - 1)')
np.allclose(result1, result3)

True

请注意，这里用列名称作为变量来计算代数式，结果同样是正确的。

#### 3.13.3.1. 用DataFrame.eval()新增列
除了前面介绍的运算功能，DataFrame.eval() 还可以创建新的列。还用前面的DataFrame来演示，列名是'A'、'B' 和'C':

In [25]:
df.head()

Unnamed: 0,A,B,C
0,0.375506,0.406939,0.069938
1,0.069087,0.235615,0.154374
2,0.677945,0.433839,0.652324
3,0.264038,0.808055,0.347197
4,0.589161,0.252418,0.557789


可以用df.eval() 创建一个新的列'D'，然后赋给它其他列计算的值：

In [26]:
df.eval('D = (A + B) / C', inplace=True)
df.head()

Unnamed: 0,A,B,C,D
0,0.375506,0.406939,0.069938,11.18762
1,0.069087,0.235615,0.154374,1.973796
2,0.677945,0.433839,0.652324,1.704344
3,0.264038,0.808055,0.347197,3.087857
4,0.589161,0.252418,0.557789,1.508776


还可以修改已有的列：

In [27]:
df.eval('D = (A - B) / C', inplace=True)
df.head()

Unnamed: 0,A,B,C,D
0,0.375506,0.406939,0.069938,-0.449425
1,0.069087,0.235615,0.154374,-1.078728
2,0.677945,0.433839,0.652324,0.374209
3,0.264038,0.808055,0.347197,-1.566886
4,0.589161,0.252418,0.557789,0.603708


#### 3.13.3.2. DataFrame.eval()使用局部变量
DataFrame.eval() 方法还支持通过@ 符号使用Python 的局部变量，如下所示：

In [28]:
column_mean = df.mean(1)
result1 = df['A'] + column_mean
result2 = df.eval('A + @column_mean')
np.allclose(result1, result2)

True

@ 符号表示“这是一个变量名称而不是一个列名称”，从而让你灵活地用两个“命名空间”的资源（列名称的命名空间和Python 对象的命名空间）计算代数式。

需要注意的是，@ 符号只能在DataFrame.eval() 方法中使用，而不能在pandas.eval() 函数中使用，因为pandas.eval() 函数只能获取一个（Python）命名空间的内容。

### 3.13.4　DataFrame.query()方法
DataFrame 基于字符串代数式的运算实现了另一个方法，被称为query()，例如：

In [29]:
result1 = df[(df.A < 0.5) & (df.B < 0.5)]
result2 = pd.eval('df[(df.A < 0.5) & (df.B < 0.5)]')
np.allclose(result1, result2)

True

和前面介绍过的DataFrame.eval() 一样，这是一个用DataFrame 列创建的代数式，但是不能用DataFrame.eval() 语法5。不过，对于这种过滤运算，你可以用query() 方法：

In [30]:
result2 = df.query('A < 0.5 and B < 0.5')
np.allclose(result1, result2)

True

除了计算性能更优之外，这种方法的语法也比掩码代数式语法更好理解。需要注意的是，query() 方法也支持用@ 符号引用局部变量：

In [31]:
Cmean = df['C'].mean()
result1 = df[(df.A < Cmean) & (df.B < Cmean)]
result2 = df.query('A < @Cmean and B < @Cmean')
np.allclose(result1, result2)

True

### 3.13.5　性能决定使用时机
在考虑要不要用这两个函数时，需要思考两个方面：计算时间和内存消耗，而内存消耗是更重要的影响因素。就像前面介绍的那样，每个涉及NumPy 数组或Pandas 的DataFrame的复合代数式都会产生临时数组，例如：

In [32]:
x = df[(df.A < 0.5) & (df.B < 0.5)]

它基本等价于：

In [33]:
tmp1 = df.A < 0.5
tmp2 = df.B < 0.5
tmp3 = tmp1 & tmp2
x = df[tmp3]

如果临时DataFrame 的内存需求比你的系统内存还大（通常是几吉字节），那么最好还是使用eval() 和query() 代数式。你可以通过下面的方法大概估算一下变量的内存消耗：

In [34]:
df.values.nbytes

32000

在性能方面，即使你没有使用最大的系统内存，eval() 的计算速度也比普通方法快。现在的性能瓶颈变成了临时DataFrame 与系统CPU 的L1 和L2 缓存（在2016 年依然是几兆字节）之间的对比了——如果系统缓存足够大，那么eval() 就可以避免在不同缓存间缓慢地移动临时文件。在实际工作中，我发现普通的计算方法与eval/ query 计算方法在计算时间上的差异并非总是那么明显，普通方法在处理较小的数组时反而速度更快！ eval/ query 方法的优点主要是节省内存，有时语法也更加简洁。

我们已经介绍了eval()与query()的绝大多数细节，若想了解更多的信息，请参考Pandas文档。尤其需要注意的是，可以通过设置不同的解析器和引擎来执行这些查询，相关细节请参考Pandas 文档中[“Enhancing Performance”](http://pandas.pydata.org/pandas-docs/dev/enhancingperf.html)节。

在这一章中，我们介绍了许多关于如何通过Pandas 实现高效数据分析的基础知识。但因篇幅有限，仍有许多知识无法介绍到。如果你想学习更多的Pandas 知识，推荐参考下面的资源。

* [Pandas 在线文档](http://pandas.pydata.org/)。
<br>这是Pandas 程序包最详细的文档。虽然文档中的示例都是在处理小数据集，但是它们内容完整、功能全面，对于理解各种函数非常有用。

* 《利用Python 进行数据分析》
<br>这是Wes McKinney（Pandas 创建者）的著作，里面介绍了许多本章没有介绍的Pandas知识，非常详细。值得一提的是，由于作者曾经是一名金融分析师，因此他深刻论述了用Pandas 处理时间序列的工具。这本书中还有许多有趣的示例，通过Pandas 探索真实数据集的规律。但需要注意的是，由于这本书已经有些年头，而Pandas 程序包作为开源项目，发展速度很快，所以许多新特性书中并没有介绍（作者在博客透露2017 年会出新版）。
* Stack Overflow 网站的Pandas 话题（http://stackoverflow.com/questions/tagged/pandas）
<br>Pandas 的用户很多，只有你有问题，就可以到Stack Overflow 上看看别人是不是已经问过同样的问题。使用Pandas 的过程中，Google 等搜索引擎也必不可少。在你最喜欢的搜索引擎中敲入遇到的问题或异常，可能会得到比Stack Overflow 上更多的答案。
* PyVideo 上关于Pandas 的教学视频（http://pyvideo.org/tag/pandas/）
<br>从PyCon 到SciPy 再到PyData， 许多会议都有Pandas 开发者和专家分享的教程。
<br>PyCon 的教程特别受欢迎，好评最多。

希望通过本章的内容和这些资源，可以让你学会如何通过Pandas 解决工作中遇到的所有数
据分析问题！