# 编写高质量代码

## 1 代码风格

+ 相对完整的代码风格指南（pep8和pep20）
+ Pythonic风格

### PEP8

一味遵循PEP可能会破坏代码的可读性和易懂性.是否遵循风格指南需要自己判断.和项目中的其他代码及已有的约定保持一致比PEP8更重要.

PEP8是Python代码风格事实上的标准指南，命名约定、代码结构、空白，以及其他代码风格的知识点.**必须读一读PEP8**

```python
pep8 xx.py
```

atuopep8可以把代码自动重新格式化为PEP8风格.
```python
autopep8 --in-place xx.py
```

`--aggressive`参数将执行更多的实质性修改，多次使用效果更佳.

### PEP20

PEP20是编写Python程序的指导准则.Hunter Blank的*PEP8 20 (The Zen of Python) by Example*

In [1]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


### 一些建议

**Explicit is better than implicit.明确胜于隐晦**

```python
# 糟糕的写法
def make_dict(*args):
    x, y = args
    return dict(**locals())
```

```python
# 优雅的写法
def make_dict(x, y):
    return {'x': x, 'y': y}
```

一个判断准则：其他人是否能只阅读函数的首行和末行就能理解函数的作用.

**Sparse is better than dense.留白胜于紧致**

```python
# 糟糕的写法
print('one');print('two')

if x == 1: print('one')

if (<complex comparsion> and <other complex comparsion>):
    pass
```

```python
# 优雅的写法
print('one')
print('two')

if x == 1:
    print('one')

    
cond1 = <complex comparsion>
cond2 = <other complex comparsion>
if (cond1 and cond2):
    pass
```

**Errors should never pass silently.**

不让错误默默地被忽略：始终明确地指定要捕捉什么异常，然后仅仅处理这些异常.

**函数参数使用起来符合直觉**

```python
def func(positional, keyword=value, *args, **kwargs):
    pass
```

1. **位置参数是强制性地，且没有默认值.**  
如果函数参数不多，且是函数完整含义的一部分，就用这种，参数顺序遵循语义顺序.调用时，可以使用参数名称，同时可以改变参数顺序，但这样可能会降低可读性，增加了不必要的冗余.
2. **关键字参数是可选地，有默认值.**  
参数不止两三个，且难记，使用这个.调用时使用接近函数定义的形式（即调用时和定义时参数顺序一致）
3. **任意数量地参数列表是可选的，没有默认值.**  
`*args`任意数量的参数，函数体中它是一个元组，包含所有额外传入的位置参数.如果函数接收的是一系列性质相同的参数，那么使用列表或其他任何序列结构作为参数，语义更加明确.
4. **任意数量关键字参数字典是可选的，没有默认值.**  

**Python使用约定来表明某些代码元素不应该被直接访问，为所有内部变量名称加`_`前缀.**

**尽量在一处返回函数结果.**

代码意图清晰，维持可读性，函数体中返回点越少越好，且返回值意义要明确.

函数退出的两种情况：
1. 出现错误.
2. 函数正常执行结束返回结果.

当函数不能正确执行时，最好返回`None`或`False`.在检测到错误时最好尽早从函数中返回，因错误而返回语句后的所有代码均是假设当前已满足后续计算函数结果的条件.


在调试函数时，多个返回点很难分清哪个是当前结果的返回点.多个退出点可能暗示了这里需要重构.

```python
def select_ad(third_party_ads, user_preferences):
    if not third_party_ads:
        return None   # 抛出一个异常可能更好
    if not user_preferences:
        return None   # 抛出一个异常可能更好
    # 一些复杂代码，给定一些广告候选项和个人偏好
    # 计算出最佳广告
    # 抵住诱惑，不要在此处判断已成功获取最佳广告并返回
    if not best_ad:
        # 计算最佳广告的B的计划
    return best_ad
```

### 一些约定

+ **检查相等性的替代方法**

当不必明确将一个值与`True`、`None`或0作比较时，可以将这个值直接应用到`if`语句中.

```python
# 糟糕写法
if attr == True:
    print("True")

if attr == None:
    print('None')
```

```python
# 优雅写法
if attr:   # 直接检查值
    print('True')

if not attr:   # 检查条件相反
    print('False')

if attr is True:  # 只想值为True
    print('True')

if attr is None:  # 显示检查值为None
    print("None")
```

+ **访问字典元素**

使用`x in d`而不是`dict.has_key`方法，或者`dict.get()`.

```python
# 糟糕写法
d = {'hello': 'world'}
if d.has_key('hello'):
    print(d['hello'])
else:
    print('default value')
```

```python
# 优雅写法
d = {'hello': 'world'}
print(d.get('hello', 'default value'))

# 或者
if 'hello' in d:
    print(d['hello'])
```

+ **操作列表**

In [2]:
# 糟糕写法
# 过滤出大于4的元素
a = [3, 4, 5]
b = []
for i in a:
    if i > 4:
        b.append(i)

In [3]:
b

[5]

In [4]:
# 列表解析
a = [3, 4, 5]
b = [i for i in a if i > 4]
b

[5]

In [5]:
# filter
a = [3, 4, 5]
b = filter(lambda i: i > 4, a)
list(b)

[5]

In [6]:
# 列表所有值+3
a = [3, 4, 5]
for i in range(len(a)):
    a[i] += 3
a

[6, 7, 8]

In [7]:
a = [3, 4, 5]
[i + 3 for i in a]

[6, 7, 8]

In [8]:
list(map(lambda i: i+3, a))

[6, 7, 8]

+ **代码续行**

在Vi中，考虑到行号，行的长度限制一般为75-77个字符。

反斜线加空白符可能会破坏代码，产生不可预料的后果，所以通常避免使用。

**更好的方法是将代码元素包含在`()`内。**左侧以一个未闭合的(开头，Python解释器会将接下来的所有行连接在一起，直到遇到闭合)。

In [12]:
# 糟糕写法
french_insult = \
"lllllllllllllllllllllllllllllllllll, and\
uyuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu"

In [13]:
french_insult

'lllllllllllllllllllllllllllllllllll, anduyuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu'

In [14]:
french_insult = (
    "lllllllllllllllllllllllllllllllllll, and"
    "uyuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu"
)
french_insult

'lllllllllllllllllllllllllllllllllll, anduyuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu'

```python
# 糟糕写法
from some.deep_module.in.a.module \
    import a_nice_func,\
        another_nice_func,\
        yet_another_nice_func
```

```python
# 优雅写法
from some.deep_module.in.a.module import (
    a_nice_func,
    another_nice_func,
    yet_another_nice_func
)
```

通常分割长逻辑行意味着此行代码做了太多事，这可能会降低可读性。

### 习语

+ **解包**

如果知道一个list或tuple的长度，可以利用解包来为其中的元素分配名称.

In [16]:
filename, ext = 'my_photo.orig.pnd'.split('.', 1)
print(filename, '\n', ext)

my_photo 
 orig.pnd


```python
a, b = b, a
```

```python
# 嵌套解包
a, (b, c) = 1, (2, 3)
```

In [17]:
a, *rest = [1, 2, 3]
a

1

In [18]:
rest

[2, 3]

In [19]:
a, *middle, c = [1, 2, 3, 4]

In [20]:
a

1

In [21]:
middle

[2, 3]

In [22]:
c

4

In [23]:
a, *middle, c = (1, 2, 3, 4)

In [24]:
middle

[2, 3]

+ **忽略一个值**

In [25]:
filename = 'foobar.txt'
basename, _, ext = filename.rpartition('.')

In [26]:
basename

'foobar'

In [27]:
ext

'txt'

`_`和`__`都可以。但`_`的问题在于它通常被用作`gettext.gettext()`函数的别名，同时在交互模式下用来保存上一次操作的值。`__`避免了任何情况下意味`_`造成的风险.

+ **创建一个包含N个相同对象的列表**

使用Python列表的额`*`操作符来创建一个包含相同不可变元素的列表.

In [30]:
four_nones = [None] * 4
four_nones

[None, None, None, None]

列表是可修改的，`*`将创建一个包含N个指向同一列表的列表。

In [33]:
# 糟糕的写法
four_lists = [[]] * 4   # four_lists = [[], [], [], []]
four_lists[0].append('Ni')
four_lists

[['Ni'], ['Ni'], ['Ni'], ['Ni']]

In [35]:
# 优雅的写法
four_lists = [[] for __ in range(4)]  # [[], [], [], []]
four_lists[0].append('Ni')
four_lists

[['Ni'], [], [], []]

+ **创建字符串的一种习惯用法是在空字符串上使用`str.join()`，这可同样适用于列表和元组**。

In [36]:
letters = ['s', 'p', 'a', 'm']
word = ''.join(letters)
word

'spam'

+ **通过数据查找**

In [37]:
x = list(('foo', 'foo', 'bar', 'baz'))
x

['foo', 'foo', 'bar', 'baz']

In [38]:
y = set(('foo', 'foo', 'bar', 'baz'))
y

{'bar', 'baz', 'foo'}

In [39]:
'foo' in x

True

In [40]:
'foo' in y

True

`'foo' in y`借助了哈希表特性（python中字典和集合以哈希表实现），上面这两个查找性能是不同的。对于list，Python将逐个遍历匹配其中的元素，非常耗时（时间与列表长度呈正比），而set使用哈希查询可以很快找到。

+ **异常安全的上下文**

在异常可能出现时，通常使用`try/finally`语句管理资源，比如文件或者线程锁。pep343引入了`with`语句和上下文管理协议来代替`try/finally`，这样代码可读性更高。

该协议包含两个方法：`__enter__()`和`__exit__()`，如果一个对象实现了这两个方法，就能用在`with`语句中。

In [41]:
import threading
some_lock = threading.Lock()

In [42]:
with some_lock:
    print(
        'Look at me: I design coastlines.\n'
        'I got an award for Norway.'
    )

Look at me: I design coastlines.
I got an award for Norway.


没有`with`语句时应该如下写：

In [43]:
import threading
some_lock = threading.Lock()
some_lock.acquire()

True

In [44]:
try:
    print(
        'Look at me: I design coastlines.\n'
        'I got an award for Norway.'
    )
finally:
    some_lock.release()

Look at me: I design coastlines.
I got an award for Norway.


标准模块库contextlib提供了额外的工具来帮助将函数变成上下文管理器，强制执行对象的`close()`方法，抑制异常，重定向标准输出和错误流。

In [45]:
from contextlib import closing
with closing(open('outfile.txt', 'w')) as output:
    output.write('Well, hhhhhhhhhh')

因为处理文件I/O的对象已经定义了`__enter__()`和`__exit__()`方法，所以可以直接用在`with`语句中，不需要`closing`。

In [47]:
with open('outfile.txt', 'w') as output:
    output.write('dddddddddddddddddddddddddddd')

### 常见陷进

+ **可变的默认参数**

In [1]:
def append_to(ele, to=[]):
    to.append(ele)
    return to

In [4]:
my_list = append_to(12)
print(my_list)

my_other_list = append_to(42)
print(my_other_list)

[12]
[42]


> 结果并不是[12]和[42]。

新列表仅在函数定义时被创建一次，后续每次函数调用都使用同一个列表。在函数被定义时而不是在函数每次被调用时，就会计算Python的默认参数。这意味着如果使用一个可变默认参数并修改它，那么也修改了后续调用该函数时使用的那个对象。

In [5]:
def append_to(ele, to=None):
    if to is None:
        to = []
    to.append(ele)
    return to

In [6]:
my_list = append_to(12)
print(my_list)

my_other_list = append_to(42)
print(my_other_list)

[12]
[42]


有时可以利用这个行为在多次函数调用之间维持状态，这个行为通常用在编写缓存函数时（将结果保存在内存中），如

```python
def time_consuming_func(x, y, cache={}):
    args = (x, y)
    if args in cache:
        return cache[args]
    # 否则是首次出现这些参数
    # 做一些耗时的操作，然后缓存结果
    cache[args] = result
    return result
```

+ **延迟绑定的闭包**

In [8]:
def create_multipliers():
    return [lambda x: i * x for i in range(5)]

In [11]:
for multiplier in create_multipliers():
    print(multiplier(2), end=' ... ')
print()

8 ... 8 ... 8 ... 8 ... 8 ... 


> 结果并不是0 ... 2 ... 4 ... 6 ... 8 ... 

**这是Python的闭包是延迟绑定的。这意味着闭包中用到变量值是在函数被调用时才查找获得的。**

不论返回的任一函数何时被调用，`i`的值都是调用时在外部作用域中查找获得的。那时，循环已经完成，i的最终值是4.

In [12]:
len(create_multipliers())

5

In [13]:
create_multipliers()[3](5)

20

In [14]:
create_multipliers()[2](5)

20

这个行为和`lambda`函数无关：

In [15]:
def create_multipliers():
    multipliers = []
    
    for i in range(5):
        def multiplier(x):
            return i * x
        multipliers.append(multiplier)
    
    return multipliers

In [16]:
for multiplier in create_multipliers():
    print(multiplier(2), end=' ... ')
print()

8 ... 8 ... 8 ... 8 ... 8 ... 


可以在创建闭包时，使用默认参数值来绑定参数：

In [17]:
def create_multipliers():
    return [lambda x, i=i: i * x for i in range(5)]

for multiplier in create_multipliers():
    print(multiplier(2), end=' ... ')
print()

0 ... 2 ... 4 ... 6 ... 8 ... 


In [18]:
# 或者
from functools import partial
from operator import mul


def create_multipliers():
    return [partial(mul, i) for i in range(5)]

for multiplier in create_multipliers():
    print(multiplier(2), end=' ... ')
print()

0 ... 2 ... 4 ... 6 ... 8 ... 


## 2 组织好项目结构

### 模块

`import module`语句会在调用者所在的当前目录下查找module.py文件，如果存在则直接调用它。如果不存在，那么Python解释器将在Python搜索路径中递归查找该文件，若仍然没有找到，则抛出ImportError异常。

搜索路径和平台无关，包含环境变量$PYTHONPATH（windows中的%PYTHONPATH%）中用户或者系统定义的任意文件目录，可以在Python会话中检查或者修改搜索路径。

In [1]:
import sys

In [2]:
sys.path

['C:\\Users\\bing\\Anaconda3\\envs\\tf\\python36.zip',
 'C:\\Users\\bing\\Anaconda3\\envs\\tf\\DLLs',
 'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib',
 'C:\\Users\\bing\\Anaconda3\\envs\\tf',
 '',
 'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages',
 'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages\\win32',
 'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages\\win32\\lib',
 'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages\\Pythonwin',
 'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages\\IPython\\extensions',
 'C:\\Users\\bing\\.ipython']

一旦找到module.py文件，Python解释器将在隔离作用域执行这个模块。module.py中的所有顶层语句都会被执行，包括可能存在的其他模块导入。函数和类的定义保存在模块字典中。

模块的变量、函数和类都将通过模块的命名空间提供给调用者。namespace提供一个作用域，作用域之内的命名属性彼此可见，但在namespace之外不能直接访问它。

许多编程语言中，预处理器会按照文件包含指令高效地把被包含文件的内容复制到调用者的代码中。但在Python并非如此：被包含的代码会被隔离放在模块namespace中。`import module`语句将在全局空间里引入一个名为module的模块对象，然后可以通过`.`来访问模块内定义的属性，如`module.sqrt`即是定义在module.py中的`sqrt`对象。通常不必担心导入的代码会有什么负面效果。

In [3]:
def func():
    a = 3
    b = 5
    c =8
    return a, b, c

In [4]:
dir(func)

['__annotations__',
 '__call__',
 '__class__',
 '__closure__',
 '__code__',
 '__defaults__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__get__',
 '__getattribute__',
 '__globals__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__kwdefaults__',
 '__le__',
 '__lt__',
 '__module__',
 '__name__',
 '__ne__',
 '__new__',
 '__qualname__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__']

+ `dir(object)`：返回通过该对象可以获取到的属性的一个列表
+ `globals()`：返回全局namespace中当前存在的属性的一个字典，包含对应的属性值
+ `locals()`：返回当前全局变量namespace（比如在一个函数内）存在的属性的一个字典，包含对应的属性值

In [5]:
globals()

{'__name__': '__main__',
 '__doc__': 'Automatically created module for IPython interactive environment',
 '__package__': None,
 '__loader__': None,
 '__spec__': None,
 '__builtin__': <module 'builtins' (built-in)>,
 '__builtins__': <module 'builtins' (built-in)>,
 '_ih': ['',
  'import sys',
  'sys.path',
  'def func():\n    a = 3\n    b = 5\n    c =8\n    return a, b, c',
  'dir(func)',
  'globals()'],
 '_oh': {2: ['C:\\Users\\bing\\Anaconda3\\envs\\tf\\python36.zip',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf\\DLLs',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf',
   '',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages\\win32',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages\\win32\\lib',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages\\Pythonwin',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages\\IPython\\extensions',
   'C:\\Users

In [6]:
locals()

{'__name__': '__main__',
 '__doc__': 'Automatically created module for IPython interactive environment',
 '__package__': None,
 '__loader__': None,
 '__spec__': None,
 '__builtin__': <module 'builtins' (built-in)>,
 '__builtins__': <module 'builtins' (built-in)>,
 '_ih': ['',
  'import sys',
  'sys.path',
  'def func():\n    a = 3\n    b = 5\n    c =8\n    return a, b, c',
  'dir(func)',
  'globals()',
  'locals()'],
 '_oh': {2: ['C:\\Users\\bing\\Anaconda3\\envs\\tf\\python36.zip',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf\\DLLs',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf',
   '',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages\\win32',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages\\win32\\lib',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages\\Pythonwin',
   'C:\\Users\\bing\\Anaconda3\\envs\\tf\\lib\\site-packages\\IPython\\extensions',

### 包

任何包含`__init__.py`的文件的目录都会被视作一个Python包。包含`__init__.py`的顶级目录是根包（root package）。导入包里的各个模块和导入普通模块的方式类似，不过`__init__.py`文件用于收集所有包范围（package-wide）的定义。

pack目录下的module.py文件可以通过`import pack.module`语句导入。首先，解释器会在pack目录下查找`__init__.py`并执行其中的所有顶级语句。然后，查找文件pack/module.py并执行其中的所有顶级语句。这些操作执行后，module.py中定义的任何变量、函数或类都能在`pack.module`namespace中找到。

从多层子包中导入文件需要执行目录树，遍历过程中遇到的所有`__init__.py`文件。如果包内的模块和子包不需要共享任何代码，那么`__init__.py`留空一个最佳实践。

### 装饰器

装饰器是一个函数或类的方法，用来包装或者修饰另一个函数或方法，被装饰的函数或方法将会替代原来的函数或方法。

详见另外的笔记。

### 动态类型

变量没有一个固定的类型。因此，避免为不同事物使用相同的变量名。

```python
# NO!
items = 'a b c d'
items = items.split(' ')
items = set(items)

# Yes!
items_string = 'a b c d'
items_list = items.split(' ')
items_set = set(items)
```

### 可变类型和不可变类型

In [1]:
# 可变列表
my_list = [1, 2, 3]
my_list[0] = 100
my_list

[100, 2, 3]

In [3]:
# 整数不可变
x = 6
x += 1  # 这是一个新的x，占据了一个不同的内存位置
x

7

+ **可变类型**：可以inplace修改
+ **不可变类型**：不提供修改自身内容的方法

可变类型不可作为字典的键。因为值一旦改变，就不能哈希到相同的值，字典在键存储时使用了哈希。

对希望修改的对象使用恰当的可变类型，对希望有固定值的对象使用不可变类型，以此向其他开发者明确地表明代码的意图。

**字符串是不可变类型。**

In [4]:
s = 'libing'
s[1:4] = 'hah'

TypeError: 'str' object does not support item assignment

从多个部分构造出一个string时，先将各部分聚集到一个list中，然后将列表元素拼接成一个完整的字符串。

In [5]:
''.join(['join', 'aa', 'bb'])

'joinaabb'

> 这种拼接字符串方式更快。