## 第1章 引论 

#### 建议1.理解Pythonic的概念

%s非常影响可读性，很难看清楚哪一个占位符对应哪一个实参

In [1]:
print('hello %s !'%('Tom'))

hello Tom !


可以写成较为pythonic的代码如下

In [2]:
value = {'sentence':'hello world','language':'Python'}

In [3]:
print("%(sentence)s is from %(language)s."%value)

hello world is from Python.


进一步可以利用format写成更pythonic的形式

In [4]:
print("{sentence} is from {language}.".format(sentence = 'hello world',language = 'Python'))

hello world is from Python.


#### 建议2.编写Pythonic代码

1、避免只用大小写来区别对象；   
2、避免使用容易引起混淆的名称；  
3、不要害怕过长的变量名。 

#### 建议3.理解Python与C语言的不同之处

(1) 缩进与"{}";  
(2) '与"";  
(3) 三元操作符：  

In [5]:
x,y = 1,2
print(x if x < y else y)

1


#### 建议4.在代码中适当添加注释

#### 建议5.添加空行使代码布局更加优雅

#### 建议6.编写函数的4个原则

1、函数设计要尽量短信，嵌套层次不宜过深；     
2、函数申明应做到合理、简单、易于使用；    
3、函数参数设计尽可能使用默认参数，考虑向下兼容；  
4、一个函数只做一件事，尽量保证数据粒度的一致性。

#### 建议7.将常量集中到一个文件

## 第2章 编程惯用法

#### 建议8.利用assert语句发现问题

1、不要滥用；     
2、如果Python本身存在异常处理，就不需要assert；    
3、不用异常来检测用户的输入；  
4、在函数调用后，当需要确认返回值是否合理时可以使用断言；  
5、当条件是使业务逻辑继续下去的先决条件时可以使用断言。

In [6]:
x,y = 1,2

In [8]:
assert x == y,"not equals"

AssertionError: not equals

In [9]:
def foo(x):
    assert x
foo(0)

AssertionError: 

#### 建议9.数据交换的时候不推荐使用中间变量

In [10]:
import dis

In [11]:
def swap1():
    x,y = 2,3
    x,y = y,x

def swap2():
    x,y = 2,3
    temp = x
    x = y
    y = temp

In [12]:
print('swap1():')
dis.dis(swap1)

swap1():
  2           0 LOAD_CONST               1 ((2, 3))
              2 UNPACK_SEQUENCE          2
              4 STORE_FAST               0 (x)
              6 STORE_FAST               1 (y)

  3           8 LOAD_FAST                1 (y)
             10 LOAD_FAST                0 (x)
             12 ROT_TWO
             14 STORE_FAST               0 (x)
             16 STORE_FAST               1 (y)
             18 LOAD_CONST               0 (None)
             20 RETURN_VALUE


In [13]:
print('swap2():')
dis.dis(swap2)

swap2():
  6           0 LOAD_CONST               1 ((2, 3))
              2 UNPACK_SEQUENCE          2
              4 STORE_FAST               0 (x)
              6 STORE_FAST               1 (y)

  7           8 LOAD_FAST                0 (x)
             10 STORE_FAST               2 (temp)

  8          12 LOAD_FAST                1 (y)
             14 STORE_FAST               0 (x)

  9          16 LOAD_FAST                2 (temp)
             18 STORE_FAST               1 (y)
             20 LOAD_CONST               0 (None)
             22 RETURN_VALUE


显然，两者相比swap2中存在对于temp的load和store指令，这让swap2消耗的时间更多

#### 建议10.充分利用Lazy evaluation特性

1、避免不必要的计算，带来性能上的提升    
在编程过程中，如果对于or条件表达式应该将值为真的可能性较高的变量写在or前面，而and则应该退后。

2、节省空间，使得无限循环的数据结构成为可能

In [16]:
def fib():
    a,b = 0,1
    while True:
        yield a
        a,b = b, a + b

In [17]:
# 使用islice只迭代5次
from itertools import islice
print(list(islice(fib(),5)))

[0, 1, 1, 2, 3]


#### 建议11.理解枚举替代实现的缺陷

#### 建议12.不推荐使用type进行类型检查

基于内建类型扩展的用户自定义类型，type函数并不能准确返回结果。  
宜使用isinstance代替type

In [21]:
isinstance(2,float)

False

#### 建议13.尽量转换为浮点类型后再做除法

你会发现如下代码会无限循环。因为循环到第5次的时候，i的实际值为1.5000000000000004

i = 1
while i != 1.5:
    i = i + 0.1
    print(i)

In [28]:
i = 1
while round(i,1) != 1.5:
    i = i + 0.1
    print(i)

1.1
1.2000000000000002
1.3000000000000003
1.4000000000000004
1.5000000000000004


#### 建议14.警惕eval()的安全漏洞

#### 建议15.使用enumerate()获取序列的索引和值

enumerate由于清晰简洁可读性好，因此建议使用

In [29]:
li = ['a','b','c','d','e']

In [30]:
#正序形式
for idx,val in enumerate(li):
    print(idx,val)

0 a
1 b
2 c
3 d
4 e


In [34]:
#对于字典的循环使用enumerate并不适合，宜使用iteritems
personinfo = {'name':'Jon','age':'20','hobby':'football'}

for k,v in personinfo.items():
    print(k,v)

name Jon
age 20
hobby football


#### 建议16.分清==与is的适用场景

判断两个对象相等应该使用==，而不是is

In [37]:
str1 = 'string'
str2 = ''.join(['s','t','r','i','n','g'])

In [38]:
str1 == str2

True

In [39]:
str1 is str2

False

is表示的是对象标示符(object identity),而==表示的意思是相等，显然两者并不是一个东西。  
is的作用是用来检查对象的标示符是否一致的， 也就是比较两个对象在内存中是否拥有同一块内存空间， 它并不适合用来判断两个字符串是否相等。  
x is y仅当x和y是同一个对象的时候才返回True, x is b 基本相当于id(x) = id(y）。   
而==才是用来检验两个对象的值是否相等的 ， 它实际调用内部_eq_（）方法，因此a==b相当于a._eq_（b)， 所以＝＝操作符是可以被重载的， 而is不能被重载。 
一般情况下，如果x is y为True的话,x == y的值也为True。 

#### 建议17.考虑兼容性，尽可能使用Unicode

Python中默认的编码是ASCII编码，当调用print方法输出的时候会隐式地进行从ASCII到系统默认编码(Windows上为CP936)  
的转换，但是中文字符并不是ASCII字符，而此时源文件中又未指定其他编码方式，Python解释器并不知道如何正确处理这种情况，便会抛出异常

因此，要避免这种错误需要在源文件中进行编码声明

第一种声明方式:

In [42]:
# coding = <encoding name>

第二种声明方式:

In [43]:
#!/usr/bin/pyth。n
# -*- coding: <encoding name> -•-

第三种声明方式:

In [44]:
# !/usr/bin/pyth。n
# vim: set.fileencoding=<encoding name>:

#### 建议18.构建合理的包层次来管理module

本质上每一个Python文件都是一个模块，使用模块可以增强代码的可维护性和可重用性。  
但显然在大的项目中将所有的Python文件放在一个目录下并不是一个值得推荐的做法，   
我们需要合理地组织项目的层次来管理模块，这就是包（Package）发挥功效的地方了。  

包的使用可以带来以下便利:  
1.合理组织代码，便于维护和使用；   
2.能够有效地避免名称空间冲突。

## 第3章 基础语法

#### 建议19.有节制地使用from...import 语句

使用import要注意以下几点:  
1.一般情况下尽量优先使用import a的形式，如访问B时需要使用a.B的形式；    
2.有节制地使用from a import B形式．可以直接访问B；  
3.尽量避免使用合from a import *。较多的使用可能会导致：  
（1）命名空间冲突  
（2）循环嵌套导入的问题  

#### 建议20.优先使用absolute import来导入模块

由于命名冲突原因及语义模糊等，不推荐使用隐式的relative import，并且它在Python 3中已经移除

#### 建议21.i += 1 不等于 ++ i

++ i在python语法中是合法的，但是并不是我们理解的自增操作，与 i += 1不一样

In [45]:
+1

1

In [46]:
++1

1

#### 建议22.使用with自动关闭资源

利用with语句保证文档打开和关闭的正常

In [47]:
with open("test.txt",'w') as f:
    f.write("test")

#### 建议23.使用else子句简化循环（异常处理）

#### 建议24.异常处理的几点基本原则

最为全面的组合为：try-except-else-finally异常处理

异常处理需要遵循以下几个基本原则:  
1.注意异常的粒度；    
2.谨慎使用单独的except语句处理所有异常，最好可以定位具体的异常，不要用一个except捕获所有异常；  
3.注意异常捕获的顺序，在合适的层次处理异常；  
4.使用更为友好的异常信息，遵循异常参数规范，能较为清晰的让用户理解异常。

#### 建议25.避免finally中可能发生的陷阱

In [52]:
def FinallyTest():
    while True:
        try:
            print("I am running")
            raise IndexError("r")
        except NameError as e:
            print("NameError happened")
            break
        finally:
            print("finally executed")
            #如果finally语句中加入了return或者break语句，那么临时保存的异常将会被丢失，从而导致异常被屏蔽，可以尝试注释掉break
            break

In [53]:
FinallyTest()

I am running
finally executed


In [54]:
def ReturnTest(a):
    try:
        if a <= 0:
            raise ValueError("data can not be negative")
        else:
            return a
    except ValueError as e:
        print(e)
    finally:
        print("The End")
        return -1

In [55]:
ReturnTest(0)

data can not be negative
The End


-1

In [56]:
#a = 2的时候，因为try中没有报错，所以先执行了finally中的return语句，所以try中的return如何也没有执行
ReturnTest(2)

The End


-1

#### 建议26.深入理解None，正确判断对象是否为空

Python中哪些数据可能被认为为空：
1.常量None  
2.常量False  
3.任何形式的数值类型零，如0、0L、0.0、0j  
4.空的序列，如'',(),[]  
5.空的字典，如{}  
6.当用户定义的类中定义了nonzero()方法和len()方法，并且该方法返回整数0或者布尔值False的时候  

In [57]:
id(None)

140713515769056

In [58]:
None == 0

False

#### 建议27.连接字符串应优先使用join而不是+

通过timeit模块监测可见使用+进行操作的时间远大于join操作。  
这是由于使用+操作，每进行一次相加，变回在内存中申请一块新的内存空间计算，字符串连接的时间复杂度近似为O(n^2)  
而使用join连接字符串的时候，先申请总的内存空间，然后一次性将所有的字符串复制到内存中，所以时间复杂度近似为O(n)  

In [60]:
str1,str2,str3 = 'testing','string','concatenation'

In [80]:
strlist = [str(n) for n in range(1000)]

In [61]:
import timeit

两种方式对比可见，使用join方式时间明显小于拼接字符串的形式

In [96]:
def plusTest(strlist):
    result = ''
    for i in strlist:
        result += i
    return result

In [97]:
%timeit plusTest(strlist)

210 µs ± 14.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [98]:
%timeit ''.join(strlist)

7.29 µs ± 84.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


#### 建议28.格式化字符串时尽量使用.format方式而不是%

%操作符的几种常见用法

In [102]:
#直接格式化字符或数值
print('your score is %06.1f'%9.5)

your score is 0009.5


In [103]:
#以元组的形式格式化
import math
itemname = 'circumference'
radius = 3
print('the %s of a circle with radius %f is %0.3f'%(itemname,radius,math.pi*radius*2))

the circumference of a circle with radius 3.000000 is 18.850


In [104]:
#以字典的形式格式化
itemdict = {'itemname':'circumference','radius':3,'value':math.pi*radius*2}
print("the %(itemname)s of a circle with radius %(radius)f is %(value)0.3f"%itemdict)

the circumference of a circle with radius 3.000000 is 18.850


.format操作符的几种常见用法

In [105]:
#使用位置符号
print("The number {0:,} in hex is : {0:#x},the number {1} in oct is {1:#o}".format(4746,45))

The number 4,746 in hex is : 0x128a,the number 45 in oct is 0o55


In [106]:
#使用名称
print("the max number is {max},the min number is {min},the average number is {average:0.3f}".format(max = 189,min = 12.6,average = 23.5))

the max number is 189,the min number is 12.6,the average number is 23.500


In [108]:
#通过属性
class Customer(object):
    def __init__(self,name,gender,phone):
        self.name = name
        self.gender = gender
        self.phone = phone
    def __str__(self):
        return 'Customer({self.name},{self.gender},{self.phone})'.format(self = self)

str(Customer('Lisa','Female','67889'))

'Customer(Lisa,Female,67889)'

In [107]:
#格式化元组具体项
point = (1,3)
"x:{0[0]},y:{0[1]}".format(point)

'x:1,y:3'

理由一：format方式在使用上较%操作符更为灵活；  
理由二：format方式可以方便地作为参数传递；  
理由三：%最终会被.format方式所代替；  
理由四：%在某些情况下使用需要小心，例如：如果字符是一个元组,需要加一个逗号

In [109]:
itemname = ('mouse','mobilephone','cup')
print("itemlist are %s"%itemname)

TypeError: not all arguments converted during string formatting

In [110]:
itemname = ('mouse','mobilephone','cup')
print("itemlist are %s"%(itemname,))

itemlist are ('mouse', 'mobilephone', 'cup')


#### 建议29.区别对待可变对象和不可变对象

数字、字符串、元组属于不可变对象；  
字典、列表、字节数组属于可变对象。  

深拷贝和浅拷贝

In [111]:
list1 = list2 = ['a','b','c']

In [112]:
list1.append('d')

In [113]:
list2

['a', 'b', 'c', 'd']

In [114]:
#切片操作实际会重新生成一个对象
list3 = list1[:]

In [115]:
list3.remove('a')

In [116]:
list3

['b', 'c', 'd']

In [117]:
list1

['a', 'b', 'c', 'd']

#### 建议30.[]、（）和{}：一致的容器初始化形式

利用列表表达式来简化代码,以下两段代码意义是一样的

In [118]:
words = [' Are',' abandon','Passion','Business',' fruit','quit']

size = len(words)
newlist = []
for i in range(size):
    if words[i].strip().istitle():
        newlist.append(words[i])
print(newlist)

[' Are', 'Passion', 'Business']


In [119]:
[i for i in words if i.strip().istitle()]

[' Are', 'Passion', 'Business']

#### 建议31.记住函数传参既不是传值也不是传应用

对于Python函数传参，既不是传参也不是传引用。正确的叫法应该是传对象或者说传对象的引用。

#### 建议32.警惕默认参数潜在的问题

#### 建议33.慎用变长参数

Python支持可变长度的参数列表

In [121]:
#使用*args来实现可变参数列表

def SumFun(*args):
    result = 0
    for x in args[0:]:
        result += x
    return result    

In [122]:
print(SumFun(2,3,))

5


In [123]:
print(SumFun(2,3,4))

9


In [124]:
print(SumFun())

0


In [125]:
#实用**kwargs接受字典形式的关键词参数列表

def category_table(**kwargs):
    for name,value in kwargs.items():
        print("{0} is a kind of {1}".format(name,value))

In [126]:
category_table(apple ='fruit',carrot = 'vegetable',Python = 'programming language')

apple is a kind of fruit
carrot is a kind of vegetable
Python is a kind of programming language


慎用可变长度参数的原因是：  
1.使用过于灵活；    
2.如果一个函数的参数列表很长，可以通过使用*args和*kwargs来简化函数，通常意味着这个函数有更好的实现方式；    

可变长参数适合在下列情况使用（不仅限于下列场景）：  
1.为函数添加一个装饰器；  
2.如果参数数目不确定，可以考虑使用变长参数；  
3.用来实现函数的多态或者在继承情况下子类需要调用父类的某些方法的时候。  

#### 建议34.深入理解str()和repr()的区别

repr和str对于大多数数据类型的输出基本一致，但是他们也存在一些区别：  
1.两者间的目标不同：str()主要面向用户，其目的是可读性；而repr()面向的是Python解释器，或者是开发人员；  
2.在解释器中直接输入a时，默认调用repr()函数，而print a则调用str()函数；  
3.repr()的返回值一般可以用eval()函数来还原对象：  
obj == eval(repr(obj))  
而str()则不行：obj != eval(str(obj))  
4.两个方法分别调用内建的__str__()和__repr__().一般来说在类中都应该定义__repr__()方法，而__str__()方法则为可选，  
当可读性比准确性更重要的时候应该考虑定义__str()__  

#### 建议35.分清statismethod和classmethod的使用场景

静态方法和类方法都可以通过类名.方法名的形式来访问。  
静态方法没有常规方法的特殊行为，如绑定、非绑定、隐式参数等规则。  
类方法的调用使得类本身作为其`隐含参数`，但调用本身并不需要显示提供该参数。  

In [135]:
class Fruit(object):
    total = 0
    @classmethod
    def print_total(cls):
        print(cls.total)
    @classmethod
    def set(cls,value):
        print("classing class_method(%s,%s)"%(cls,value))
        cls.total = value

class Apple(Fruit):
    pass

class Orange(Fruit):
    pass

In [136]:
app1 =Apple()
app1.set(200)
app2 = Apple()
org1 =Orange()
org1.set(300)
org2 = Orange()

classing class_method(<class '__main__.Apple'>,200)
classing class_method(<class '__main__.Orange'>,300)


In [137]:
app1.print_total()

200


In [138]:
app2.print_total()

200


In [139]:
org1.print_total()

300


In [140]:
org2.print_total()

300


## 第4章 库

#### 建议36.掌握字符串的基本用法

Python遇到未闭合的小括号时会自动将多行代码拼接为一行和把相邻的两个字符串字面量拼接在一起

In [143]:
s = ('SELECT * '
    'FROM atable '
    'WHERE afield="value"')

In [144]:
s

'SELECT * FROM atable WHERE afield="value"'

判断一个变量是不是字符串应该使用basestring，它是str和unicode的基类。  
但python3 里已经没有basestring 类型，用str代替了basestring

In [145]:
a,b = 'Hi',u'Hi'

In [147]:
isinstance(a,str)

True

In [150]:
isinstance(b,str)

True

split(sep)  
当忽略sep参数或sep参数为None时与明确给sep赋予字符串值时，split()采用两种不同的算法。  
前者，split()先去除字符串两端的空白符，然后以任意长度的空白符串作为界定符分切字符串。  
后者，则认为两个连续的sep之间存在一个空字符串。  

In [151]:
' hello world'.split()

['hello', 'world']

In [152]:
' hello world'.split(' ')

['', 'hello', 'world']

title()  
将一个单词的首字母大写，非首字母转化成小写

In [153]:
'hello wOrld!'.title()

'Hello World!'

#### 建议37.按需选择sort()或者sorted()

相比于sort(),sorted()使用范围更加广泛。  
sorted()作用于任意可迭代的对象，而sort()一般作用于列表

In [16]:
a = [1,2,4,3,5]

In [17]:
a.sort()

In [18]:
a

[1, 2, 3, 4, 5]

In [19]:
sorted(a)

[1, 2, 3, 4, 5]

In [20]:
b = a.sort()
c = sorted(a)

In [9]:
#b返回的是空值
b

In [10]:
#c返回排序过的列表
c

[1, 2, 3, 4, 5]

如果a是一个元组，则无法用sort()进行排序

In [21]:
(1,3,2,5,4).sort()

AttributeError: 'tuple' object has no attribute 'sort'

sorted还可以对不同的数据结构进行排序：

In [26]:
from operator import itemgetter

In [24]:
#对字典进行排序
#python3.5后，将 'iteritems'改成了'items'
phonebook = {"Linda":'7750',"Bob":'9345',"Carol":'5834'}

sorted_pb = sorted(phonebook.items(),key = itemgetter(1))

sorted_pb

[('Carol', '5834'), ('Linda', '7750'), ('Bob', '9345')]

In [29]:
#多维list排序

gameresult = [['Bob',95,'A'],['Alan',86,'C'],['Mandy',82.5,'A'],['Rob',86,'E']]

sorted(gameresult,key = itemgetter(2,1))

[['Mandy', 82.5, 'A'], ['Bob', 95, 'A'], ['Alan', 86, 'C'], ['Rob', 86, 'E']]

In [42]:
#字典中混合list排序
mydict = {"Li":['M',7],
          "Zhang":['E',2],
          "Wang":['P',3],
          "Du":['C',2],
          "Ma":['C',9],
          "Zhe":['H',7]
}

In [43]:
sorted(mydict.items(), key=lambda (k,v): operator.itemgetter(1)(v))

SyntaxError: invalid syntax (<ipython-input-43-745070fd1daa>, line 1)

In [35]:
#List 中混合字典排序
gameresult = [{ "name":"Bob", "wins":10, "losses":3, "rating":75.00 },
{ "name":"David", "wins":3, "losses":5, "rating":57.00 },
{ "name":"Carol", "wins":4, "losses":5, "rating":57.00 },
{ "name":"Patty", "wins":9, "losses":3, "rating": 71.48 }]

#针对list 中的字典元素按照rating 和name进行排序的实现方法。
sorted(gameresult , key=itemgetter("rating","name"))

[{'name': 'Carol', 'wins': 4, 'losses': 5, 'rating': 57.0},
 {'name': 'David', 'wins': 3, 'losses': 5, 'rating': 57.0},
 {'name': 'Patty', 'wins': 9, 'losses': 3, 'rating': 71.48},
 {'name': 'Bob', 'wins': 10, 'losses': 3, 'rating': 75.0}]

#### 建议38.使用copy模块深拷贝对象

In [1]:
import copy

In [2]:
a=[1,2,3,4,5,['a','b']]

In [6]:
b = a
#浅拷贝
c=copy.copy(a)
#深拷贝
d=copy.deepcopy(a)

In [8]:
print("a=",a,"    id(a)=",id(a),"id(a[5])=",id(a[5]))
print("b=",b,"    id(b)=",id(b),"id(b[5])=",id(b[5]))
print("c=",c,"    id(c)=",id(c),"id(c[5])=",id(c[5]))
print("d=",d,"    id(d)=",id(d),"id(d[5])=",id(d[5]))

a= [1, 2, 3, 4, 5, ['a', 'b']]     id(a)= 2146257876488 id(a[5])= 2146289220552
b= [1, 2, 3, 4, 5, ['a', 'b']]     id(b)= 2146257876488 id(b[5])= 2146289220552
c= [1, 2, 3, 4, 5, ['a', 'b']]     id(c)= 2146289269320 id(c[5])= 2146289220552
d= [1, 2, 3, 4, 5, ['a', 'b']]     id(d)= 2146290430792 id(d[5])= 2146290430920


In [9]:
c[5].append("c")

In [10]:
a

[1, 2, 3, 4, 5, ['a', 'b', 'c']]

In [11]:
b

[1, 2, 3, 4, 5, ['a', 'b', 'c']]

In [12]:
c

[1, 2, 3, 4, 5, ['a', 'b', 'c']]

In [13]:
d

[1, 2, 3, 4, 5, ['a', 'b']]

copy.copy()得到的customer2是customer1的一个浅拷贝，它仅仅拷贝了被拷贝对象的地址，而不是对应地址的具体内容。  
如上b,c都只是浅拷贝的两种方式，它们的内容和a是一模一样的。  

而d是深拷贝，深拷贝不仅拷贝引用，也拷贝引用所指的对象，因此深拷贝的对象和原对象是相互独立的。

#### 建议39.使用Counter进行计数统计

使用collections.Counter来进行计数，一种pythonic的方法。

In [14]:
from collections import Counter

In [15]:
some_data = ['a','2',2,4,5,'2','b',4,7,'a',5,'d','a','z']

In [16]:
Counter(some_data)

Counter({'a': 3, '2': 2, 2: 1, 4: 2, 5: 2, 'b': 1, 7: 1, 'd': 1, 'z': 1})

In [17]:
Counter("success")

Counter({'s': 3, 'u': 1, 'c': 2, 'e': 1})

In [19]:
list(Counter("success").elements())

['s', 's', 's', 'u', 'c', 'c', 'e']

In [20]:
Counter("success").most_common(2)

[('s', 3), ('c', 2)]

In [22]:
#当访问不存在的元素时，默认返回0而不是异常
Counter("success")['a']

0

update()方法用于被统计对象元素的更新，原有Counter计数器与新增元素的统计值相加而不是替换

In [26]:
c = Counter("success")

In [27]:
c

Counter({'s': 3, 'u': 1, 'c': 2, 'e': 1})

In [28]:
c.update('successfully')

In [29]:
c

Counter({'s': 6, 'u': 3, 'c': 4, 'e': 2, 'f': 1, 'l': 2, 'y': 1})

In [31]:
c.subtract("successfully")

In [32]:
c

Counter({'s': 3, 'u': 1, 'c': 2, 'e': 1, 'f': 0, 'l': 0, 'y': 0})

#### 建议40.深入掌握ConfigParser

#### 建议41.使用argparse处理命令行参数

以上两建议暂时不理解

#### 建议42.使用pandas处理大型csv文件

直接调用csv模块的话，读取较大的文件会出错。（import csv）  
csv模块处理大型csv文件无能为力

使用pandas模块有如下优点:  
1.指定读取部分列和文件的行数；    
2.设置csv文件与excel兼容；  

3.对文件进行分开处理并返回一个可迭代对象。例如，设置chunksize=10，iterator=True时，每次输出为包含10个记录的块

import pandas as pd  
reader = pd.read_csv("name.csv",chunksize =10,iterator = True)

iter(reader).next() #每次读入10行

4.当文件格式相似的时候，支持多个文件合并处理

file = ['a.csv','b.csv','c.csv']

dfs = [pd.read_csv(f) for f in file]

total_df = pd.concat(dfs)

#### 建议43.一般情况下使用ElementTree解析XML

#### 建议44.理解模块pickle优劣

Python中有很多支持序列化的模块，如pickle、json、Marshall和shelve等。  
最广为人知的为pickle，最通用的序列化模块。  
pickle最主要的两个函数对为pickle.dump():序列化数据到一个文件描述符；  
pickle.load()表示把文件中的对象恢复为原来的对象。  

In [5]:
import pickle
my_data = {"name":"Python","type":"Language","version":"2.7.5"}

In [6]:
#打开要写入的文件
with open("picklefile.dat","wb") as fp:
    #使用dump进行序列化
    pickle.dump(my_data,fp)

In [8]:
#反序列化
with open("picklefile.dat","rb") as fp:
    out = pickle.load(fp)
    print(out)

{'name': 'Python', 'type': 'Language', 'version': '2.7.5'}


pickle能形成通用的序列化模块，与其良好的特性分不开，总结为如下几点：

1.接口简单，容易使用。dump()和load()可以轻易实现序列化和反序列化。

2.pickle的存储格式具有通用性。能够在不同平台的Python解析器共享。

3.支持的数据类型广泛。如数字、布尔值、字符串，只包含可序列化对象的元组、字典、列表等，  
非嵌套的函数、类及通过类的__dict__或者__getstate__()可以返回序列化对象的实例等。

4.pickle模块是可以扩展的。  
5.能够自动维护对象间的引用，如果一个对象上存在多个引用，pickle后不会改变对象间的引用，并且能够自动处理循环和递归引用。

In [9]:
a = ['a','b']

In [10]:
b = a

In [11]:
b.append('c')

In [12]:
p = pickle.dumps((a,b))

In [13]:
a1,b1 = pickle.loads(p)

In [14]:
print(a1,"\n",b1)

['a', 'b', 'c'] 
 ['a', 'b', 'c']


In [15]:
a1.append('d')

In [16]:
b1

['a', 'b', 'c', 'd']

pickle也存在一些限制:

1.pickle不能保证操作的原子性。就是说，如果发生异常，可能部分数据已经被保存，另外对象处于深递归状态，那么可能超出Python的最大递归深度。  
2.pickle存在安全性问题。Python文档清晰地表明，它不提供安全性保证，因此对于一个从不可信的数据源接受的数据不要轻易的进行反序列化。  
3.pickle协议是python特定的，不同语言之间的兼容性难以保障。  

#### 建议45.序列化的另一个不错的选择——JSON

相比上面的pickle，json具有以下优势:

1.使用简单，支持多种数据类型。
1)使用简单，支持多种数据类型；  
2)值的有序列表。  
2.存储格式可读性更为友好，容易修改。  
相比pickle来说，json格式更加接近程序员思维，修改和阅读上要容易的多。  
3.json支持跨平台跨语言操作，能轻易被其他语言解析。  
4.具有较强的扩展性。  
5.json在序列化datetime的时候会抛出TypeError异常，因为json模块本身不支持datetime的序列化，因此要对json本身的JSONEncoder进行扩展。

最后，要注意Python标准模块中json的性能稍逊于pickle，而pickle稍逊于cPickle。  
如果对序列化性能要求非常高的场景，可以选择cPickle模块。  

#### 建议46.使用trackback获取栈信息

当有异常发生的时候，我们会用try...except...来进行显示错误信息。  
但是，我们需要定位到错误信息在哪里的时候怎么处理呢？  
逐行检查显然不合适吧？

In [1]:
gList = ['a','b','c','d','e','f','g']

def f():
    gList[5]
    return g()

def g():
    return h()

def h():
    del gList[2]
    return i()

def i():
    gList.append('i')
    print (gList[7])

以下信息虽然有异常产生但是没有办法快速知道错误在哪里

In [2]:
try:
    f()
except IndexError as ex:
    print("Sorry,Exception occured,you accessed an element out of range")
    print(ex)

Sorry,Exception occured,you accessed an element out of range
list index out of range


加入traceback后，程序会输出异常发生时候的完整栈信息，包括调用顺序、异常发生语句、错误类型等等

In [4]:
import traceback

In [5]:
try:
    f()
except IndexError as ex:
    print("Sorry,Exception occured,you accessed an element out of range")
    print(ex)
    traceback.print_exc()

Sorry,Exception occured,you accessed an element out of range
list index out of range


Traceback (most recent call last):
  File "<ipython-input-5-941332a2cdef>", line 2, in <module>
    f()
  File "<ipython-input-1-758086f8ec81>", line 5, in f
    return g()
  File "<ipython-input-1-758086f8ec81>", line 8, in g
    return h()
  File "<ipython-input-1-758086f8ec81>", line 12, in h
    return i()
  File "<ipython-input-1-758086f8ec81>", line 16, in i
    print (gList[7])
IndexError: list index out of range


`traceback.print_exc()` 方法打印出的信息包括 3 部分：错误类型（IndexError）、错误对应的值（list index out of range）以及具体的 trace 信息，包括文件名、具体的行号、函数名以及对应的源代码。`Traceback` 模块提供了一系列方法来获取和显示异常发生时候的 trace 相关信息：

* `traceback.print_exception(type, value, traceback[, limit[, file]])`，根据 limit 的设置打印栈信息，file 为 None 的情况下定位到 `sys.stderr`，否则则写入文件；其中 type、value、traceback 这 3 个参数对应的值可以从 `sys.exc_info()` 中获取。
* `traceback.print_exc([limit[, file]])`，为 `print_exception()` 函数的缩写，不需要传入 type、value、traceback 这 3 个参数。
* `traceback.format_exc([limit])`，与 `print_exec()` 类似，区别在于返回形式为字符串。
* `traceback.extract_stack([file, [limit]])`，从当前栈帧中提取 trace 信息。

#### 建议47.使用logging记录日志信息

仅仅将信息输出到控制台是远远不够的，更为常见的是使用日志保存程序运行过程中的相关信息，如运行时间、描述信息以及错误或者异常发生时候的特定上下文信息。

#### 建议48.使用 threading 模块编写多线程程序

GIL(Global Interpreter Lock，即全局解释锁的缩写，保证了了同一时刻只有一个线程在一个CPU上执行字节码，无法将多个线程映射到多个CPU上)   
的存在使得 Python 多线程编程暂时无法充分利用多处理器的优势，这种限制并不意味着我们需要放弃多线程。的确，对于只含纯 Python 的代码也许使用多线程并不能提高运行速率，但在以下几种情况，如等待外部资源返回，或者为了提高用户体验而建立反应灵活的用户界面，或者多用户应用程序中，多线程仍然是一个比较好的解决方案。Python 为多线程编程提供了两个非常简单明了的模块：thread 和 threading。

应该要说明的是:Python3 中已经不存在 thread 模块。thread 模块在 Python3 中被命名为 _thread

很多情况下我们可能希望主线程能够等待所有子线程都完成时才退出，这时应该使用 threading 模块，它支持守护线程，可以通过 `setDaemon()` 函数来设定线程的 daemon 属性。当 daemon 属性设置为 True 的时候表明主线程的退出可以不用等待子线程完成。默认情况下，daemon 标志为 False，所有的非守护线程结束后主线程才会结束。

In [7]:
import threading
import time
def myfunc(a, delay):
    print("I will calculate square of {} after delay for {}".format(a, delay))
    time.sleep(delay)
    print("calculate begins...")
    result = a * a
    print(result)
    return result

t1 = threading.Thread(target=myfunc, args=(2, 5))
t2 = threading.Thread(target=myfunc, args=(6, 8))
print(t1.isDaemon())
print(t2.isDaemon())
t2.setDaemon(True)
t1.start()
t2.start()

False
False
I will calculate square of 2 after delay for 5
I will calculate square of 6 after delay for 8
calculate begins...
4
calculate begins...
36


#### 建议49.使用 Queue 使多线程编程更安全

## 第5章 设计模式

#### 建议50.利用模块实现单例模式

#### 建议51.用mixin模式让程序更加灵活

#### 建议52.用发布订阅模式实现松耦合

#### 建议53.用发布订阅模式实现松耦合

## 第6章 内部机制

#### 建议54.理解build-in objects

#### 建议55.__init__（）不是构造方法

#### 建议56.理解名字的查找机制

在 Python 中，所有所谓的变量，其实都是名字，这些名字指向一个或多个 Python 对象。

所有的这些名字，都存在于一个表里（又称为命名空间），一般情况下，我们称之为局部变量（locals），可以通过 `locals()` 函数调用看到。

In [1]:
a = 1
b = a
c = 'china'

In [2]:
id(a) == id(b)

True

In [3]:
id(a) == id(c)

False

在一个 `globals()` 的表里可以看到全局变量，注意如果是在 Python shell 中执行  `locals()`，也可以看到全局的变量。  
如果在一个函数里面定义这些变量，情况就会有所不同。

In [4]:
locals()

{'__name__': '__main__',
 '__doc__': 'Automatically created module for IPython interactive environment',
 '__package__': None,
 '__loader__': None,
 '__spec__': None,
 '__builtin__': <module 'builtins' (built-in)>,
 '__builtins__': <module 'builtins' (built-in)>,
 '_ih': ['',
  "a = 1\nb = a\nc = 'china'",
  'id(a) == id(b)',
  'id(a) == id(c)',
  'locals()'],
 '_oh': {2: True, 3: False},
 '_dh': ['E:\\Jupyter'],
 'In': ['',
  "a = 1\nb = a\nc = 'china'",
  'id(a) == id(b)',
  'id(a) == id(c)',
  'locals()'],
 'Out': {2: True, 3: False},
 'get_ipython': <bound method InteractiveShell.get_ipython of <ipykernel.zmqshell.ZMQInteractiveShell object at 0x00000284F78B02C8>>,
 'exit': <IPython.core.autocall.ZMQExitAutocall at 0x284f7971408>,
 'quit': <IPython.core.autocall.ZMQExitAutocall at 0x284f7971408>,
 '_': False,
 '__': True,
 '___': '',
 '_i': 'id(a) == id(c)',
 '_ii': 'id(a) == id(b)',
 '_iii': "a = 1\nb = a\nc = 'china'",
 '_i1': "a = 1\nb = a\nc = 'china'",
 'a': 1,
 'b': 1,
 'c': 

In [5]:
globals()

{'__name__': '__main__',
 '__doc__': 'Automatically created module for IPython interactive environment',
 '__package__': None,
 '__loader__': None,
 '__spec__': None,
 '__builtin__': <module 'builtins' (built-in)>,
 '__builtins__': <module 'builtins' (built-in)>,
 '_ih': ['',
  "a = 1\nb = a\nc = 'china'",
  'id(a) == id(b)',
  'id(a) == id(c)',
  'locals()',
  'globals()'],
 '_oh': {2: True, 3: False, 4: {...}},
 '_dh': ['E:\\Jupyter'],
 'In': ['',
  "a = 1\nb = a\nc = 'china'",
  'id(a) == id(b)',
  'id(a) == id(c)',
  'locals()',
  'globals()'],
 'Out': {2: True, 3: False, 4: {...}},
 'get_ipython': <bound method InteractiveShell.get_ipython of <ipykernel.zmqshell.ZMQInteractiveShell object at 0x00000284F78B02C8>>,
 'exit': <IPython.core.autocall.ZMQExitAutocall at 0x284f7971408>,
 'quit': <IPython.core.autocall.ZMQExitAutocall at 0x284f7971408>,
 '_': {...},
 '__': False,
 '___': True,
 '_i': 'locals()',
 '_ii': 'id(a) == id(c)',
 '_iii': 'id(a) == id(b)',
 '_i1': "a = 1\nb = a\nc 

在 CPython 的实现中，只要出现了赋值语句（或者称为名字绑定），那么这个名字就被当做局部变量来对待。  
需要改变全局变量时，使用 global 关键字。

运行一下函数可见，在bar()中 `b = a * 2` 先执行，而此时局部变量 a 尚不存在，所以就产生了一个异常

In [14]:
def foo():
	a = 1
	def bar():
		b = a * 2
		a = b + 1
		print(a)
	return bar

In [15]:
foo()()

UnboundLocalError: local variable 'a' referenced before assignment

为了确保函数执行成功，我们需要在函数中利用global将a声明为全局变量

In [9]:
a = 1
def foo(x):
        global a
        a = a * x
        def bar():
            global a
            b = a * 2
            a = b + 1
            print(a)
        return bar

In [10]:
foo(1)()

3


编程语言并不提倡全局变量，而且这种写法有时候还影响业务逻辑。  
此外，还有把 a 作为容器的一个元素来对待的方案，但也都相当复杂。  
真正的解决方案是 Python3 引入的 `nonlocal` 关键字：

In [17]:
def foo(x):
	a = x
	def bar():
		nonlocal a
		b = a * 2
		a = b + 1
		print(a)
	return bar

In [20]:
foo(1)()

3


#### 建议57.为什么需要 self 参数

在类中当定义实例方法的时候需要将第一个参数显式声明为 self，而调用的时候并不需要传入该参数。

self 表示的就是实例对象本身，即类的对象在内存中的地址。self 是对对象本身的引用。

#### 建议58.理解 MRO 与多继承

Python 也支持多继承，语法：

`class DerivedClassName(Base1, Base2, Base3)`

古典类和新式类之间所采用的 MRO（Method Resolution Order，方法解析顺序）实现方式存在差异。

在古典类中，MRO 搜索采用简单的自左向右的深度优先方法，即按照多继承申明的顺序形成继承树结构，自顶向下采用深度优先(DFS)的搜索顺序，当找到所需要的属性或者方法的时候就停止搜索。

举例来说

In [2]:
class A():
    def getvalue(self):
        print("return value of A")
    def show(self):
        print("I can show the information of A")

class B(A):
    def getvalue(self):
        print("return value of B")

class C(A):
    def getvalue(self):
        print("return value of C")
    
    def show(self):
        print("I can show the information of C")

class D(B,C):
    pass

In [3]:
d = D()

In [4]:
d.getvalue()

return value of B


In [5]:
d.show()

I can show the information of C


以上例子说明，如果是古典类的话，虽然返回的d.getvalue()相同。  
但是d.show()的返回值应该进一步由B向下挖掘，得到`I can show the information of A`    
而实际案例是新式类，返回的是`I can show the information of C`

#### 建议59.理解描述符机制

除了在不同的局部变量、全局变量中查找名字，还有一个相似的场景，那就是查找对象的属性。  
在 Python 中，一切皆是对象，所以类也是对象，类的实例也是对象。

如我们可以通过`__dict__`来获得list的方法

In [7]:
list.__dict__

mappingproxy({'__repr__': <slot wrapper '__repr__' of 'list' objects>,
              '__hash__': None,
              '__getattribute__': <slot wrapper '__getattribute__' of 'list' objects>,
              '__lt__': <slot wrapper '__lt__' of 'list' objects>,
              '__le__': <slot wrapper '__le__' of 'list' objects>,
              '__eq__': <slot wrapper '__eq__' of 'list' objects>,
              '__ne__': <slot wrapper '__ne__' of 'list' objects>,
              '__gt__': <slot wrapper '__gt__' of 'list' objects>,
              '__ge__': <slot wrapper '__ge__' of 'list' objects>,
              '__iter__': <slot wrapper '__iter__' of 'list' objects>,
              '__init__': <slot wrapper '__init__' of 'list' objects>,
              '__len__': <slot wrapper '__len__' of 'list' objects>,
              '__getitem__': <method '__getitem__' of 'list' objects>,
              '__setitem__': <slot wrapper '__setitem__' of 'list' objects>,
              '__delitem__': <slot wrapper '__del

描述符机制有什么作用？其实它的作用编写一般程序的话还真用不上，但对于编写程序库的读者来说就有用了，比如已绑定方法和未绑定方法。

#### 建议60.区别 `__getattr__()` 和 `__getattribute__()` 方法

#### 建议65.熟悉Python的迭代器

In [2]:
import itertools as it

In [3]:
[k for k, g in it.groupby("AAAABBBCCDAABB")]

['A', 'B', 'C', 'D', 'A', 'B']

In [4]:
[list(g) for k, g in it.groupby("AAAABBBCCD")]

[['A', 'A', 'A', 'A'], ['B', 'B', 'B'], ['C', 'C'], ['D']]

In [5]:
#产生笛卡尔积
list(it.product("ABCD", repeat=2))

[('A', 'A'),
 ('A', 'B'),
 ('A', 'C'),
 ('A', 'D'),
 ('B', 'A'),
 ('B', 'B'),
 ('B', 'C'),
 ('B', 'D'),
 ('C', 'A'),
 ('C', 'B'),
 ('C', 'C'),
 ('C', 'D'),
 ('D', 'A'),
 ('D', 'B'),
 ('D', 'C'),
 ('D', 'D')]

In [6]:
#产生全排列
list(it.permutations("ABCD", 2))

[('A', 'B'),
 ('A', 'C'),
 ('A', 'D'),
 ('B', 'A'),
 ('B', 'C'),
 ('B', 'D'),
 ('C', 'A'),
 ('C', 'B'),
 ('C', 'D'),
 ('D', 'A'),
 ('D', 'B'),
 ('D', 'C')]

In [8]:
#产生无重复元素组合
list(it.combinations("ABCD", 2))

[('A', 'B'), ('A', 'C'), ('A', 'D'), ('B', 'C'), ('B', 'D'), ('C', 'D')]

In [9]:
#产生有重复元素组合
list(it.combinations_with_replacement("ABCD", 2))

[('A', 'A'),
 ('A', 'B'),
 ('A', 'C'),
 ('A', 'D'),
 ('B', 'B'),
 ('B', 'C'),
 ('B', 'D'),
 ('C', 'C'),
 ('C', 'D'),
 ('D', 'D')]

#### 建议66.熟悉Python的生成器

#### 建议67.基于生成器的协程及 greenlet

#### 建议68.理解GIL的局限性

#### 建议69.对象的管理和垃圾回收

In [8]:
import gc

In [9]:
print(gc.isenabled())
print(gc.get_threshold())

True
(700, 10, 10)


In [11]:
class Leak(object):
    def __init__(self):
        print("object with id %d was born"%id(self))

In [13]:
collected = gc.collect()
print("Garbage collector before running: collected {} objects.".format(collected))
print("Creating reference cycles...")
A = Leak()
B = Leak()
A.b = B
B.a = A
A = None
B = None
collected = gc.collect()
#print(gc.garbage)
print("Garbage collector after running: collected {} objects".format(collected))

Garbage collector before running: collected 20 objects.
Creating reference cycles...
object with id 2185219582536 was born
object with id 2185219582792 was born
Garbage collector after running: collected 4 objects


In [14]:
collected = gc.collect()
print("Garbage collector before running: collected {} objects.".format(collected))
print("Creating reference cycles...")
A = Leak()
B = Leak()
A.b = B
B.a = A
A = None
B = None
collected = gc.collect()
print(gc.garbage)
print("Garbage collector after running: collected {} objects".format(collected))

Garbage collector before running: collected 20 objects.
Creating reference cycles...
object with id 2185219672968 was born
object with id 2185219674056 was born
[]
Garbage collector after running: collected 4 objects


## 第7章 使用工具辅助开发

如果不涉及Python模块的开发，这部分可以先不看的

#### 建议70.从 PyPI 安装包建议

#### 建议71.使用 pip 和 yolk 安装、管理包

#### 建议72.做 paster 创建包

#### 建议73.理解单元测试的概念

#### 建议74.为包编写单元测试

#### 建议75.利用测试驱动开发提高代码的可测性

#### 建议76.使用 Pylint 检查代码风格

#### 建议77.进行高效的代码审查

#### 建议 78：将包发布到 PyPI

## 第8章 使用工具辅助开发

#### 建议 79：了解代码优化的基本原则

#### 建议 80：借助性能优化工具

#### 建议 81：利用cProfile定位性能瓶颈

In [2]:
import cProfile

In [3]:
import cProfile
def foo():
    sum = 0
    for i in range(100):
        sum += i
    return sum

In [4]:
cProfile.run("foo()")

         4 function calls in 0.000 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.000    0.000 <ipython-input-3-5f3d333aa6f1>:1(foo)
        1    0.000    0.000    0.000    0.000 <string>:1(<module>)
        1    0.000    0.000    0.000    0.000 {built-in method builtins.exec}
        1    0.000    0.000    0.000    0.000 {method 'disable' of '_lsprof.Profiler' objects}




In [5]:
import timeit

In [8]:
%timeit foo()

4.75 µs ± 122 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [9]:
%timeit [i for i in range(100) if i%2 == 0]

6.38 µs ± 118 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


#### 建议 82：使用memory_profiler和objgraph剖析内存使用

In [14]:
import memory_profiler
import time

In [15]:
def profile():
    bgn = time.time()
    for i in range(100000):
        [].append(1)
    return time.time()-bgn

In [7]:
import objgraph

In [8]:
objgraph.show_most_common_types(limit=3)

function 12465
dict     7820
tuple    5974


#### 建议 83：努力降低算法复杂度

算法复杂度比较

`O(1) < O(log * n) < O(n) < O(n log n) < O(n^2) < O(c^n) < O(n!) < O(n^n)`

#### 建议 84：掌握循环优化的基本技巧

In [14]:
import timeit
import math

#### 1.减少循环内部的计算

将没有必要的计算函数放在循环的外侧进行计算

In [21]:
def func1():
    j = 0
    for i in range(100):  
        d = math.sqrt(9)  
        j += i*d  

In [22]:
def func2():
    j = 0
    d = math.sqrt(9)
    for i in range(100):   
        j += i*d  

In [23]:
%timeit func1()

24.3 µs ± 838 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [24]:
%timeit func2()

7.63 µs ± 90.8 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


显然方法二要明显快于方法一

#### 2.将显式循环改成隐式循环

例如从1到100写for循环进行累加，和用求和公式进行计算。

当然这可能会带来另一个负面影响：牺牲了代码的可读性。因此这种情况下清晰、恰当的注释是非常必要的

#### 3.循环中尽量引用局部变量

在命名空间中局部变量优先搜索，因此局部变量的查询会比全局变量要快。  
当在循环中需要多次引用某一个变量的时候，尽量将其转换为局部变量，比如下面第二个循环就优于第一个循环

In [11]:
# 较慢
x = [10, 34, 56, 78]
def f(x):
    for i in range(len(x)):
        x[i] = math.sin(x[i])
    return x

# 较快
def g(x):
    loc_sin = math.sin
    for i in range(len(x)):
        x[i] = loc_sin(x[i])
    return x

In [15]:
%timeit f(x)

1.26 µs ± 21.3 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [16]:
%timeit g(x)

1.1 µs ± 16.8 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


#### 4.关注内层嵌套循环

显然，对于同一个i，v1[i]在第二重循环中的值是不变的。因此没必要在每一次循环中都进行计算

# 较慢
for i in range(len(v1)):
    for j in range(len(v2)):
        x = v1[i] + v2[j]
        
# 较快
for i in range(len(v1)):
    v1i = v1[i]
    for j in range(len(v2)):
        x = v1i + v2[j]

#### 建议 85：使用生成器提高效率

生成器的概念是，如果一个函数体中包含有 yield 语句，则称为生成器（generator），它是一种特殊的迭代器（iterator），也可以称为可迭代对象（iterable）。

实际上当需要在循环过程中依次处理一个序列中的元素的时候，就应该考虑生成器。yield 语句与 return 语句相似，当解释器执行遇到 yield 的时候，函数会自动返回 yield 语句之后的表达式的值。  
不过与 return 不同的是，`yield 语句在返回的同时会保存所有的局部变量以及现场信息，以便在迭代器调用 `next()` 或 `send()` 方法的时候还原，而不是直接交给垃圾回收器`（`return()` 方法返回后这些信息会被垃圾回收器处理）。  
这样就能够保证对生成器的每一次迭代都会返回一个元素，而不是一次性在内存中生成所有的元素。自 Python2.5 开始，yield 语句变为表达式，可以直接将其值赋给其他变量。

In [25]:
def fib(n):
    a = b = 1
    for i in range(n):
        yield a
        a,b = b,a+b

In [33]:
for i in fib(10):
    print(i,end = " ")

1 1 2 3 5 8 13 21 34 55 

#### 建议 86：使用不同的数据结构优化性能

理解并会使用deque、bisect、heapq(堆)结构

#### 建议 87：充分利用 set 的优势

Python 中集合是通过 Hash 算法实现的无序不重复的元素集。

集合中常见的操作及其对应的时间复杂度如下：

* `s.union(t)`：
  * s 和 t 的并集，平均时间复杂度为：`O(len(s) + len(t))`
* `s.intersection(t)`：
  * s 和 t 的交集，平均时间复杂度为：`O(min(left(s) + len(t)))`，最差为：`O(len(s) * len(t))`
* `s.difference(t)`：
  * s 和 t 的差集，s-t，在 s 中存在但在 t 中不存在的元素组成的集合，平均时间复杂度为：`O(len(s))`
* `s.symmetric_difference(t)`：
  * s ^t，s 和 t 的并集减去 s 和 t 的交集，平均时间复杂度：`O(len(s))`，最差时间复杂度：`O(len(s) * len(t))`

#### 建议 88：使用 `multiprocess` 克服 GIL 的缺陷

#### 建议 89：使用线程池提高效率

#### 建议 90：使用 C/C++ 模块扩展高性能

#### 建议 91：使用 Cython 编写扩展模块