# 性能
* 过早的优化是万恶之源
* 先编写可正常工作的代码，发现性能瓶颈后再进行优化
* 使用 timeit 函数测试python语句或表达式的执行时间

## 魔法命令
* IPython提供了很多魔法命令，使得在IPython环境中的操作更加得心应手。魔法命令都以%或%%开头，以%开头的为行命令，以%%开头的为单元命令。行命令只对命令所在的行有效，而单元命令则必须出现在单元的第一行，对整个单元的代码进行处理[3]。
* 执行%magic可以查看关于各个命令的说明：

## 性能测试库
* cProfile snakevis 工具有助于计算整个脚本和代码块的运行时间，并逐行列出执行情况。

## 大数据计算
* 有多种库和框架有助于扩大计算规模。
* concurrent.futures 允许将函数调用重写为内置的map函数
* Dask库可以用于处理大型数据集，它允许创建计算图（computational graph),其中只有’过时‘的计算才需要重新计算
* Dask还支持在单机或集群中的多台机器上执行并行计算
* Dask语法和pandas语法相同

In [18]:
import pandas as pd
import numpy as np

In [20]:
%magic

In [35]:
# timeit
df = pd.DataFrame(
    {
        'a':[10,20,30],
        'b':[20,30,40]
    }
)

def avg_apply(row):
    x = row[0]
    y = row[1]
    if(x == 20):
        return np.nan
    else:
        return (x+y)/2

@np.vectorize
def avg_apply_vec(x,y):
    if(x == 20):
        return np.nan
    else:
        return (x+y)/2
    

import numba
@numba.vectorize
def avg_apply_numba(x,y):
    if(x == 20):
        return np.nan
    else:
        return (x+y)/2

In [36]:
%%timeit

# 比较不同求平均方法的性能

df.apply(avg_apply,axis=1)

524 µs ± 2.51 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [37]:
%%timeit

avg_apply_vec(df['a'],df['b'])


47 µs ± 1.79 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [39]:
%%timeit

avg_apply_numba(df['a'].values , df['b'].values)

3.9 µs ± 95.7 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
