peculiar performance drop for inplace rename after dropna

Upon profiling a process which needed to be optimized I found that renaming columns NOT inplace improves performance (execution time) by  x120.
Profiling indicates this is related to garbage collection (see below).
Furthermore, the expected performance is recovered by avoiding the dropna method.

The following short example demonstrates a factor x12:

``` python
import pandas as pd
import numpy as np
```
### inplace=True

``` python
%%timeit
np.random.seed(0)
r,c = (7,3)
t = np.random.rand(r)
df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
indx = np.random.choice(range(r),r/3, replace=False)
t[indx] = np.random.rand(len(indx))
df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
df = (df1-df2).dropna()
## inplace rename:
df.rename(columns={col:'d{}'.format(col) for col in df.columns}, inplace=True)
```

> 100 loops, best of 3: 15.6 ms per loop

first output line of `%%prun`:

>   ncalls   tottime  percall  cumtime  percall  filename:lineno(function)
>        1      0.018     0.018      0.018    0.018                   {gc.collect}
### inplace=False

``` python
%%timeit
np.random.seed(0)
r,c = (7,3)
t = np.random.rand(r)
df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
indx = np.random.choice(range(r),r/3, replace=False)
t[indx] = np.random.rand(len(indx))
df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
df = (df1-df2).dropna()
## avoid inplace:
df = df.rename(columns={col:'d{}'.format(col) for col in df.columns})
```

> 1000 loops, best of 3: 1.24 ms per loop
### avoiding dropna

The expected performance is recovered by avoiding the `dropna` method:

``` python
%%timeit
np.random.seed(0)
r,c = (7,3)
t = np.random.rand(r)
df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
indx = np.random.choice(range(r),r/3, replace=False)
t[indx] = np.random.rand(len(indx))
df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
#no dropna:
df = (df1-df2)#.dropna()
## inplace rename:
df.rename(columns={col:'d{}'.format(col) for col in df.columns}, inplace=True)
```

>  1000 loops, best of 3: 865 µs per loop

``` python
%%timeit
np.random.seed(0)
r,c = (7,3)
t = np.random.rand(r)
df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
indx = np.random.choice(range(r),r/3, replace=False)
t[indx] = np.random.rand(len(indx))
df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
## no dropna
df = (df1-df2)#.dropna()
## avoid inplace:
df = df.rename(columns={col:'d{}'.format(col) for col in df.columns})
```

> 1000 loops, best of 3: 902 µs per loop


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

peculiar performance drop for inplace rename after dropna #6674

inplace=True

inplace=False

avoiding dropna

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Uh oh!

peculiar performance drop for inplace rename after dropna #6674

Description

inplace=True

inplace=False

avoiding dropna

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions