# Pandas de alto rendimiento: eval() y query()

Como ya hemos visto en notebook anteriores, la potencia de PyData se basa en la capacidad de NumPy y Pandas para introducir operaciones básicas en C a través de una sintaxis intuitiva: algunos ejemplos son las operaciones vectorizadas/transmitidas en NumPy, y las operaciones de tipo agrupación en Pandas.
Aunque estas abstracciones son eficientes y eficaces para muchos casos de uso común, a menudo dependen de la creación de objetos intermedios temporales, que pueden causar una sobrecarga indebida en el tiempo de cálculo y el uso de memoria.

Pandas incluye algunas herramientas que permiten acceder directamente a operaciones de velocidad C sin la costosa asignación de arrays intermedios.
Se trata de las funciones ``eval()`` y ``query()``.
En este cuaderno repasaremos su uso y daremos algunas reglas sobre cuándo deberías pensar en usarlas.

## Motivación de ``query()`` y ``eval()``: Expresiones compuestas

Hemos visto anteriormente que NumPy y Pandas soportan operaciones vectoriales rápidas; por ejemplo, al sumar los elementos de dos arrays:

In [21]:
import numpy as np
rng = np.random.RandomState(42)
x = rng.rand(1000000)
y = rng.rand(1000000)
%timeit x + y

2.84 ms ± 712 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Esto es mucho más rápido que hacer la suma mediante un bucle o comprensión de Python:

In [22]:
%timeit np.fromiter((xi + yi for xi, yi in zip(x, y)), dtype=x.dtype, count=len(x))

174 ms ± 13.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Pero esta abstracción puede perder eficacia al calcular expresiones compuestas.
Por ejemplo, considere la siguiente expresión:

In [23]:
mask = (x > 0.5) & (y < 0.5)

Dado que NumPy evalúa cada subexpresión, esto equivale aproximadamente a lo siguiente:

In [24]:
tmp1 = (x > 0.5)
tmp2 = (y < 0.5)
mask = tmp1 & tmp2

El beneficio aquí es que evalúa la expresión de una manera que no utiliza arrays temporales de tamaño completo, y por lo tanto puede ser mucho más eficiente que NumPy, especialmente para arrays grandes.

## ``pandas.eval()`` para operaciones eficientes

La función ``eval()`` de Pandas utiliza expresiones de cadena para calcular eficientemente operaciones utilizando ``DataFrame``.
Por ejemplo, considera los siguientes ``DataFrame``:

In [25]:
import pandas as pd
nrows, ncols = 100000, 100
rng = np.random.RandomState(42)
df1, df2, df3, df4 = (pd.DataFrame(rng.rand(nrows, ncols))
                      for i in range(4))

Para calcular la suma de los cuatro ``DataFrame`` utilizando el enfoque típico de Pandas, podemos simplemente escribir la suma:

In [26]:
%timeit df1 + df2 + df3 + df4

54.7 ms ± 739 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


El mismo resultado puede calcularse mediante ``pd.eval`` construyendo la expresión como una string:

In [27]:
%timeit pd.eval('df1 + df2 + df3 + df4')

55.7 ms ± 619 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


La versión ``eval()`` de esta expresión es aproximadamente un 50% más rápida (y utiliza mucha menos memoria), pero da el mismo resultado:

In [28]:
np.allclose(df1 + df2 + df3 + df4,
            pd.eval('df1 + df2 + df3 + df4'))

True

### Operaciones soportadas por ``pd.eval()``

Pandas ``pd.eval()`` soporta un amplio rango de operaciones.
Para demostrarlas, usaremos los siguientes ``DataFrame`` enteros:

In [29]:
df1, df2, df3, df4, df5 = (pd.DataFrame(rng.randint(0, 1000, (100, 3)))
                           for i in range(5))

#### Operadores aritméticos
``pd.eval()`` soporta todos los operadores aritméticos. Por ejemplo:

In [30]:
result1 = -df1 * df2 / (df3 + df4) - df5
result2 = pd.eval('-df1 * df2 / (df3 + df4) - df5')
np.allclose(result1, result2)

True

#### Operadores de comparación
``pd.eval()`` soporta todos los operadores de comparación, incluidas las expresiones encadenadas:

In [31]:
result1 = (df1 < df2) & (df2 <= df3) & (df3 != df4)
result2 = pd.eval('df1 < df2 <= df3 != df4')
np.allclose(result1, result2)

True

#### Operadores bit a bit
``pd.eval()`` soporta los operadores bit a bit ``&`` y ``|``:

In [32]:
result1 = (df1 < 0.5) & (df2 < 0.5) | (df3 < df4)
result2 = pd.eval('(df1 < 0.5) & (df2 < 0.5) | (df3 < df4)')
np.allclose(result1, result2)

True

Además, admite el uso de los literales ``and`` y ``or`` en expresiones booleanas:

In [33]:
result3 = pd.eval('(df1 < 0.5) and (df2 < 0.5) or (df3 < df4)')
np.allclose(result1, result3)

True

#### Atributos e índices de objetos

``pd.eval()`` permite acceder a los atributos de los objetos mediante la sintaxis ``obj.attr``, y a los índices mediante la sintaxis ``obj[index]``:

In [34]:
result1 = df2.T[0] + df3.iloc[1]
result2 = pd.eval('df2.T[0] + df3.iloc[1]')
np.allclose(result1, result2)

True

## ``DataFrame.eval()`` para operaciones por columnas

Al igual que Pandas tiene una función de alto nivel ``pd.eval()``, ``DataFrame`` tiene un método ``eval()`` que funciona de manera similar.
La ventaja del método ``eval()`` es que se puede hacer referencia a las columnas *por su nombre*.
Usaremos este array etiquetado como ejemplo:

In [35]:
df = pd.DataFrame(rng.rand(1000, 3), columns=['A', 'B', 'C'])
df.head()

Unnamed: 0,A,B,C
0,0.375506,0.406939,0.069938
1,0.069087,0.235615,0.154374
2,0.677945,0.433839,0.652324
3,0.264038,0.808055,0.347197
4,0.589161,0.252418,0.557789


Usando ``pd.eval()`` como arriba, podemos calcular expresiones con las tres columnas así:

In [36]:
result1 = (df['A'] + df['B']) / (df['C'] - 1)
result2 = pd.eval("(df.A + df.B) / (df.C - 1)")
np.allclose(result1, result2)

True

El método ``DataFrame.eval()`` permite una evaluación mucho más sucinta de las expresiones con las columnas:

In [37]:
result3 = df.eval('(A + B) / (C - 1)')
np.allclose(result1, result3)

True

Observe que aquí tratamos los *nombres de columna como variables* dentro de la expresión evaluada, y el resultado es el que desearíamos.

### Asignación en DataFrame.eval()

Además de las opciones que acabamos de discutir, ``DataFrame.eval()`` también permite la asignación a cualquier columna.
Usemos el ``DataFrame`` de antes, que tiene las columnas ``'A'``, ``'B'``, y ``'C'``:

In [38]:
df.head()

Unnamed: 0,A,B,C
0,0.375506,0.406939,0.069938
1,0.069087,0.235615,0.154374
2,0.677945,0.433839,0.652324
3,0.264038,0.808055,0.347197
4,0.589161,0.252418,0.557789


Podemos utilizar ``df.eval()`` para crear una nueva columna ``'D'`` y asignarle un valor calculado a partir de las otras columnas:

In [39]:
df.eval('D = (A + B) / C', inplace=True)
df.head()

Unnamed: 0,A,B,C,D
0,0.375506,0.406939,0.069938,11.18762
1,0.069087,0.235615,0.154374,1.973796
2,0.677945,0.433839,0.652324,1.704344
3,0.264038,0.808055,0.347197,3.087857
4,0.589161,0.252418,0.557789,1.508776


Del mismo modo, puede modificarse cualquier columna existente:

In [40]:
df.eval('D = (A - B) / C', inplace=True)
df.head()

Unnamed: 0,A,B,C,D
0,0.375506,0.406939,0.069938,-0.449425
1,0.069087,0.235615,0.154374,-1.078728
2,0.677945,0.433839,0.652324,0.374209
3,0.264038,0.808055,0.347197,-1.566886
4,0.589161,0.252418,0.557789,0.603708


### Variables locales en DataFrame.eval()

El método ``DataFrame.eval()`` soporta una sintaxis adicional que le permite trabajar con variables locales de Python.

In [41]:
column_mean = df.mean(1)
result1 = df['A'] + column_mean
result2 = df.eval('A + @column_mean')
np.allclose(result1, result2)

True

El carácter ``@`` marca aquí un *nombre de variable* en lugar de un *nombre de columna*, y te permite evaluar eficientemente expresiones que involucran los dos "espacios de nombres": el espacio de nombres de las columnas, y el espacio de nombres de los objetos Python.
Ten en cuenta que este carácter ``@`` sólo está soportado por el método ``DataFrame.eval()`` *method*, no por la función ``pandas.eval()`` *function*, porque la función ``pandas.eval()`` sólo tiene acceso a un espacio de nombres (Python).

## Método DataFrame.query()

El ``DataFrame`` tiene otro método basado en cadenas evaluadas, llamado método ``query()``.
Considera lo siguiente:

In [42]:
result1 = df[(df.A < 0.5) & (df.B < 0.5)]
result2 = pd.eval('df[(df.A < 0.5) & (df.B < 0.5)]')
np.allclose(result1, result2)

True

Al igual que en el ejemplo utilizado anteriormente sobre ``DataFrame.eval()``, se trata de una expresión que implica columnas del ``DataFrame``.
Sin embargo, no puede expresarse utilizando la sintaxis ``DataFrame.eval()``.
En su lugar, para este tipo de operación de filtrado, puedes utilizar el método ``query()``:

In [43]:
result2 = df.query('A < 0.5 and B < 0.5')
np.allclose(result1, result2)

True

Además de ser un cálculo más eficiente, comparado con la expresión de enmascaramiento es mucho más fácil de leer y entender.
Tenga en cuenta que el método ``query()`` también acepta la bandera ``@`` para marcar variables locales:

In [44]:
Cmean = df['C'].mean()
result1 = df[(df.A < Cmean) & (df.B < Cmean)]
result2 = df.query('A < @Cmean and B < @Cmean')
np.allclose(result1, result2)

True

## Rendimiento: Cuándo utilizar estas funciones

A la hora de considerar si utilizar o no estas funciones, hay dos consideraciones: *tiempo de cálculo* y *uso de memoria*.
El uso de memoria es el aspecto más predecible. Como ya se ha mencionado, cada expresión compuesta que involucre arrays de NumPy o ``DataFrame``s de Pandas resultará en la creación implícita de arrays temporales:

In [45]:
x = df[(df.A < 0.5) & (df.B < 0.5)]

es aproximadamente equivalente a esto:

In [46]:
tmp1 = df.A < 0.5
tmp2 = df.B < 0.5
tmp3 = tmp1 & tmp2
x = df[tmp3]

Si el tamaño del ``DataFrame`` temporal es significativo comparado con la memoria disponible de tu sistema (normalmente varios gigabytes) entonces es una buena idea usar una expresión ``eval()`` o ``query()``.
Puedes comprobar el tamaño aproximado de tu array en bytes usando esto:

In [47]:
df.values.nbytes

32000

Desde el punto de vista del rendimiento, ``eval()`` puede ser más rápido incluso cuando no se está maximizando la memoria del sistema.
La cuestión es cómo se comparan tus ``DataFrame`` temporales con el tamaño de la caché L1 o L2 de la CPU en tu sistema (normalmente unos pocos megabytes en 2016); si son mucho más grandes, entonces ``eval()`` puede evitar algún movimiento potencialmente lento de valores entre las diferentes cachés de memoria.
En la práctica, encuentro que la diferencia en tiempo de cálculo entre los métodos tradicionales y el método ``eval``/``query`` no suele ser significativa; en todo caso, el método tradicional es más rápido para matrices más pequeñas.
El beneficio de ``eval``/``query`` es principalmente el ahorro de memoria, y la sintaxis a veces más limpia que ofrecen.

Hemos cubierto la mayoría de los detalles de ``eval()`` y ``query()`` aquí; para más información sobre ellos, puedes consultar la documentación de Pandas.
En particular, se pueden especificar diferentes analizadores sintácticos y motores para ejecutar estas consultas; para más detalles sobre esto, vea la discusión dentro de la sección ["Enhancing Performance"](https://pandas.pydata.org/pandas-docs/dev/user_guide/enhancingperf.html).

<!--NAVIGATION-->
< [Trabajando con TimeSeries](10-Trabajar_con_TimeSeries.ipynb)
