# 使用内建函数

可以用Python写出高效的代码,但很难击败内建函数。

# 使用 join() 连接字符串

你可以使用“+”来连接字符串，但由于string在python中是不可变的，每一个“+”操作都会创建一个新的字符串并复制旧内容。常见用法是使用Python的数组模块单个的修改字符;当完成的时候,使用 ***join()*** 函数创建最终字符串

# 使用Python多重赋值，交换变量

In [11]:
# 优雅又快速
x=10
y=5
x,y=y,x
print(x,y)

5 10


In [8]:
# 慢
temp=x
x=y
y=temp
print(x,y)

10 5


# 尽量使用局部变量

Python 检索局部变量比检索全局变量快. 这意味着,避免 "global" 关键字。

# 尽量使用 ***in***

In [13]:
# 简洁而快速
sequence=[1,2,3,4]
for key in sequence:
    print("found")

found
found
found
found


# 使用延迟加载加速

将 ***import*** 声明移入函数中,仅在需要的时候导入。换句话说，如果某些模块不需马上使用，稍后导入他们。例如，你不必在一开使就导入大量模块而加速程序启动。该技术不能提高整体性能。但它可以帮助你更均衡的分配模块的加载时间。*（这样就会将模块导入部分分散，不能一眼看出一个脚本导入了那些模块）*

# 为无限循环使用 ***while 1***

有时候在程序中你需一个无限循环.(例如一个监听套接字的实例) 尽管 **while True:**能完成同样的事，但 ***while 1*** 是单步运算。这招能提高你的Python性能。

In [14]:
# faster
# while 1:
# slower
# while True:

# 使用list comprehension(列表推导式)

使用list comprehension 取代大量的 *for* 和 *while* 块。使用List comprehension通常更快，Python解析器能在循环中发现它是一个可预测的模式而被优化。额外好处是，list comprehension更具可读性（函数式编程），并在大多数情况下，它可以节省一个额外的计数变量。

In [16]:
print(dict([(x,x**2) for x in range(1,10)]))
print([ (x,y) for x in range(10) if x%2 if x>3 for y in range(10) if y>7 if y!=8 ])
print([x*y for x in [1,2,3] for y in [1,2,3]])

{1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}
[(5, 9), (7, 9), (9, 9)]
[1, 2, 3, 2, 4, 6, 3, 6, 9]


# 使用 Python generator(生成器)

这可以节省内存和提高性能。例如一个视频流，你可以一个一个字节块的发送，而不是整个流。

In [17]:
chunk=(1000*i for i in range(1000))
chunk

<generator object <genexpr> at 0x000001F409A61D58>

In [21]:
next(chunk)

0

In [22]:
next(chunk)

1000

In [23]:
next(chunk)

2000

# 了解itertools模块

该模块对迭代和组合是非常有效的。

In [24]:
# 生成一个列表[1,2,3]的所有排列组合
import itertools
iter=itertools.permutations([1,2,3])
list(iter)

[(1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1)]

# 学习bisect模块保持列表排序

二分查找实现和快速插入有序序列的工具

In [31]:
import bisect
list=[1,3,4,5,7,8,9]
element=2
bisect.insort(list, element)

In [32]:
list

[1, 2, 3, 4, 5, 7, 8, 9]

你已將一个元素插入列表中, 而你不需要再次调用sort()来保持容器的排序, 因为这在长序列中这会非常昂贵。

# 理解Python列表，实际上是一个数组

Python中的列表实现并不是以普通单链表实现的。Python中的列表是一个数组。也就是说，你可以以常量时间 O(1) 检索列表的某个元素，而不需要从头开始搜索。这有什么意义呢？ Python开发人员使用列表对象 insert() 时, 需三思。

In [33]:
list=[1,3,4,5,7,8,9]
list.insert(0,6)

In [34]:
list

[6, 1, 3, 4, 5, 7, 8, 9]

在列表的前面插入一个元素效率不高, 因为列表中的所有后续下标不得不改变。然而，您可以使用 list.append()在列表的尾端有效添加元素。

**挑选deque,如果你想快速的在两端插入或删除。它是快速的，因为在python中的deque用双链表实现**

# 使用 dict 和 set 测试成员

检查一个元素是在dictionary或set是否存在，这在python中非常快。这是因为dict和set使用***散列表***来实现。查找效率可以达到O(1)。因此如果你需要**经常检查**成员，**使用set或dict**作为你的容器

In [35]:
myset=set(['a','b','c'])

In [38]:
'c' in myset #faster

True

In [39]:
mylist=['a','b','c']

In [41]:
'c' in mylist #slower

True

# 使用Schwartzian Transform 的 ***sort()***

原生的 list.sort() 函数是非常快的。Python会按自然顺序排序列表。有时，你需要非自然顺序的排序。例如，你要根据服务器位置排序的IP地址。Python支持自定义的比较，你可以使用 list.sort(CMP()) ，这会比 list.sort() 慢，因为增加了函数调用的开销。如果性能有问题，你可以申请Guttman-Rosler Transform,基于Schwartzian Transfor。它只对实际的要用的算法有兴趣，它的简要工作原理是，你可以变换列表，并调用Python内置 list.sort() -> 更快，而无需使用 list.sort(CMP()) -> 慢。

# python装饰器缓存结果

**@**符号是python的装饰语法。它不只用于追查，锁或日志。你可以修饰一个python函数，记住调用结果供后续使用，这种技术被称为**memoization**

In [42]:
from functools import wraps
def memo(f):
    cache={ }
    @wraps(f)
    def wrap(*arg):
        if arg not in cache:
            cache['arg']=f(*arg)
        return cache['arg']
    return wrap

对 Fibonacci 函数使用装饰器

In [43]:
@memo
def fib(i):
    if i<2:
        return 1
    return fib(i-1)+fib(i-2)

这里的关键思想是:***增强函数(装饰)函数,记住每个已经计算的Fibonacci值;如果它们在缓存中,就不需要再计算了***

# 理解python的GIL(全局解释器锁)

GIL是必要的，因为***CPython的内存管理是非线程安全***的。你不能简单地创建多个线程，并希望Python能在多核心的机器上运行得更快。这是因为**GIL將会防止多个原生线程同时执行Python字节码**。换句话说，***GIL將序列化您的所有线程***。然而，您可以使用线程管理多个派生进程加速程序，这些程序独立的运行于你的Python代码外。

# 像熟悉文档一样的熟悉Python源代码

Python有些模块为了性能使用C实现。当性能至关重要而官方文档不足时，可以自由探索源代码。你可以找到底层的数据结构和算法。 

# **有益的提醒**
静态编译的代码仍然重要. 仅例举几例, Chrome,Firefox,MySQL,MS Office 和 Photoshop都是高度优化的软件,我们每天都在使用. Python作为解析语言,很明显不适合。**不能单靠Python来满足那些性能是首要指示的领域。**这就是为什么Python支持让你接触底层裸机基础设施的原因, 将更繁重的工作代理给更快的语言如C. 这高性能计算和嵌入式编程中是关键的功能. ***Python性能鸡汤第一部分讨论了怎样高效的使用Python. 在第二部分, 我们將涉及监控和扩展Python.***

# 拒绝调优诱惑

调优给你的代码增加复杂性. 集成其它语言之前, 请检查下面的列表. 如果你的算法是"足够好", 优化就没那么迫切了

1.你做了性能测试报告吗?

2.你能减少硬盘的 I/O 访问吗?

3.你能减少网络 I/O 访问吗?

4.你能升级硬件吗?

5.你是为其它开发者编译库吗?

6.你的第三方库软件是最新版吗?

# ***使用工具监控代码, 而不是直觉***

速度的问题可能很微妙, 所以不要依赖于直觉. 感谢 *cprofiles* 模块, 通过简单的运行你就可以监控Python代码

我们写了个测试程序. 基于黑盒监控. 这里的瓶颈是 very_slow() 函数调用。我们还可以看到 fast() 和 slow() 都被调用200次。这意味着, 如果我们可以改善 fast() 和 slow() 函数, 我们可以获得全面的性能提升。cprofiles 模块也可以在运行时导入。这对于检查长时间运行的进程非常有用。

In [49]:
import cProfile
import time
def fast():
    time.sleep(0.001)
def slow():
    time.sleep(0.01)
def very_slow():
    for i in range(100):
        fast()
        slow()
    time.sleep(0.1)
def main():
    very_slow()
    very_slow()

if __name__=='__main__':
    main()

# 审查时间复杂度

控制以后, 提供一个基本的算法性能分析. 恒定时间是理想值. 对数时间复度是稳定的. 阶乘复杂度很难扩展

***O(1) -> O(lg n) -> O(n) -> O(n×lgn) -> O(n^2) -> O(n^3) -> O(n^k) -> O(k^n) -O(n!)***

# 使用第三方包

有很多为Python设计的高性能的第三方库和工具. 下面是一些有用的加速包的简短列表.

1.NumPy: 一个开源的相当于MatLab的包

2.SciPy: 另一个数值处理库

3.GPULib: 使用GPUs加速代码

4.PyPy: 使用 just-in-time 编译器优化Python代码

5.Cython: 將Python代码转成C

6.ShedSkin: 將Python代码转成C++

# 使用 multiprocessing 模块实现真正的并发

因为GIL会序列化线程, Python中的多线程不能在多核机器和集群中加速. 因此Python提供了 multiprocessing 模块, 可以派生额外的进程代替线程, 跳出GIL的限制. 此外, 你也可以在外部C代码中结合该建议, 使得程序更快。

**注意**: 进程的开销通常比线程昂贵, 因为***线程自动共享内存地址空间和文件描述符***。意味着, 创建进程比创建线程会花费更多, 也可能花费更多内存。这点在你计算使用多处理器时要牢记.

我希望这些Python建议能让你成为一个更好的开发者. 最后, 我需要指出, 追求性能极限是一个有趣的游戏, 而过度优化就会变成嘲弄了. 虽然Python授予你与C接口无缝集成的能力, 你必须问自己你花数小时的艰辛优化工作用户是否买帐. 另一方面, ***牺牲代码的可维护性换取几毫秒的提升是否值得.*** 团队中的成员常常会感谢你编写了**简洁的代码**. 尽量贴近Python的方式, 因为人生苦短