<a href="https://colab.research.google.com/github/yuecao1997/notebooks/blob/main/effective_python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**EFFECTIVE PYTHON 阅读笔记**

# 第一章：培养Pythonic思维

## 1. 查询python版本

In [7]:
!python --version
!python3 --version
import sys
sys.version_info
sys.version

/bin/bash: /home/io004/anaconda3/lib/libtinfo.so.6: no version information available (required by /bin/bash)
Python 3.9.17
/bin/bash: /home/io004/anaconda3/lib/libtinfo.so.6: no version information available (required by /bin/bash)
Python 3.9.17


'3.9.17 (main, Jul  5 2023, 20:41:20) \n[GCC 11.2.0]'

## 2. 遵循PEP8 风格指南
**与空格有关：**
1. 使用空格来表示缩进，而不要用制表符
2. 和语法相关的每一层缩进都用4个空格来表示
3. 每行的字符数不要超过79
4. 对于占据多行的长表达式来说，除了首行之外的其余各行都应该在通常的缩进级别上再加上4个空格
5. 同一份文件中，函数和类之间应该用两个空行隔开
6. 同一个类中，方法与方法之间应该用一个空行隔开
7. 使用字典时，键与冒号之间不加空格，写在同一行的冒号和值之间应该加上一个空格
8. 给变量赋值时,赋值符号的左边和右边各加一个空格,并且只加一个空格就好
9. 给变量的类型做注解(annotation)时,不要把变量名和冒号隔开,但在类型信息前应该有一个空格


**与命名有关的建议:**
1. 函数、变量及属性用小写字母来拼写,各单词之间用下划到线相连,例如: lowercase_underscore。
2. 受保护的实例属性,用一个下划线开头,例如:`_leading_underrscore`私有的实例属性,用两个下划线开头,例如`__double_leading_underscore`
3. 类(包括异常)命名时,每个单词的首字母均大写,例如: `CapitalizedWord`
4. 模块级别的常量,所有字母都大写,各单词之间用下划线相连,例如: `ALL_CAPS`
5. 类中的实例方法,应该把第一个参数命名为`self`,用来表示该对象本身。类方法的第一个参数,应该命名为`cls`,用来表示这个类本身

**与表达式和语句有关的建议**
1. 采用行内否定,即把否定词直接写在要否定的内容前面,而不要放在整个表达式的前面,例如应该写`if a is not b`,而不是`if not a is b`
2. 不要通过长度判断容器或序列是不是空的,例如不要通过`if len(somelist) == 0`判断`somelist`是否为`[]`或`"`等空值,而是应该采用`if not somelist`这样的写法来判断,因为Python会把空值自动评估为False
3. 如果要判断容器或序列里面有没有内容(比如要判断`somelist`是否为`[1]`或`'hi'`这样非空的值),也不应该通过长度来判断,而是应该采用`if somelist`语句,因为Python会把非空的值自动判定为True
4. 不要把if语句、for循环、while循环及except复合语句挤在三行。应该把这些语句分成多行来写,这样更加清晰
5. 如果表达式一行写不下,可以用括号将其括起来,而且要适当地添加换行与缩进以便于阅读
6. 多行的表达式,应该用括号括起来,而不要用`\`符号续行

**与引入有关的建议**
1. `import`语句(含`from × import y`)总是应该放在文件开头。
2. 引入模块时,总是应该使用绝对名称,而不应该根据当前模块路径来使用相对名称。例如,要引入bar包中的foo模块,应该完整地写出`from bar import foo`,即便当前路径为bar包里,也不应该简写为import foo。
3. 如果一定要用相对名称来编写import语句,那就应该明确地写成:`from. import foo`.
4. 文件中的import语句应该按顺序划分成三个部分:首先引入标准库里的模块,然后引入第三方模块,最后引入自己的模块。属于同一个部分的import语句按字母顺序排列。

**可以在IDE中使用如Pylint等工具来检查代码是否符合PEP8规范**

## 3. 了解bytes与str的区别
python有两种类型可以表示字符序列
1. bytes， bytes包含的是原始的8位无符号值（ASCII）
2. str，str包含的是Unicode字符

可以使用bytes的decode方法，将二进制数据转换为Unicode数据，也可以使用str的encode方法，将Unicode数据转换为二进制数据

In [12]:
bytes_string = b'h\x65llo'
print(list(bytes_string))
print(bytes_string)
str_string = 'a\u0300 propos'
print(list(str_string))
print(str_string)

print(bytes_string.decode('UTF-8'))
print(str_string.encode('UTF-8'))

[104, 101, 108, 108, 111]
b'hello'
['a', '̀', ' ', 'p', 'r', 'o', 'p', 'o', 's']
à propos
hello
b'a\xcc\x80 propos'


## 4. 用`f-string`取代`str.format`

In [13]:
key = 'my_var'
value = 1.234
formatted = f'{key} = {value}'
print(formatted)
formatted = f'{key!r:<10} = {value:.2f}'
print(formatted)
places = 3
number = 1.23456    
print(f'My number is {number:.{places}f}')

my_var = 1.234
'my_var'   = 1.23
My number is 1.235


## 5. 用辅助函数取代复杂的表达式
不要把复杂的意思挤到同一行

尤其是需要重复使用的复杂表达式，应该写到辅助函数里面

用if/else结构写成的表达式，要比用or与and写成的Boolean表达式更容易理解

## 6. 把数据结构直接拆分到多个变量里，不要专门通过下标访问

例如：`for key, val in dt.items()`

In [1]:
# 通过unpacking原地交换两个变量的值
def bubble_sort(a):
    for _ in range(len(a)):
        for i in range(1, len(a)):
            if a[i] < a[i-1]:
                a[i-1], a[i] = a[i], a[i-1]
                
names =[ 'pretzels', 'carrots', 'arugula', 'bacon']
bubble_sort(names)
print(names)

['arugula', 'bacon', 'carrots', 'pretzels']


## 7. 用enumerate取代range

enumerate可以将任何一种迭代器封装成惰性生成器。这样的话，每次循环的时候只需从迭代器里面取出下一个元素即可，同时还会给出本轮循环的序号，即生成器每次产生的一对输出值。

还可以通过enumerate的第二个参数来指定序号的起始值

In [3]:
flavor_list = ['vanilla', 'chocolate', 'pecan', 'strawberry']
for i, flavor in enumerate(flavor_list):
    print(f'{i+1}: {flavor}')
print('----------------')
for i, flavor in enumerate(flavor_list, 1):
    print(f'{i}: {flavor}')

1: vanilla
2: chocolate
3: pecan
4: strawberry
----------------
1: vanilla
2: chocolate
3: pecan
4: strawberry


## 8. 用zip函数同时遍历两个迭代器
`zip`能够把两个或更多的迭代器封装成惰性生成器，每次循环时，他会分别从各个迭代器里面取出下一个元素，然后将这些元素组合成一个元组。

`zip`每次只从他封装的那些迭代器中各自取出一个元素，所以即使源列表很长，程序也不会因为占用过多资源而崩溃。

如果传入的迭代器长度不一，那么`zip`会在最短的那个迭代器耗尽时停止生成元组。

如果不确定所有列表的长度，就不要把他们传给`zip`，而是应该使用`itertools.zip_longest`函数来代替。

In [4]:
names = ['Cecilia', 'Lise', 'Marie']
counts = [len(n) for n in names]
for name, count in zip(names, counts):
    print(f'{name} has {count} letters')
print('----------------')
names.append('Rosalind')
for name, count in zip(names, counts):
    print(f'{name} has {count} letters')
print('----------------')
import itertools    
for name, count in itertools.zip_longest(names, counts):
    print(f'{name} has {count} letters')

Cecilia has 7 letters
Lise has 4 letters
Marie has 5 letters
----------------
Cecilia has 7 letters
Lise has 4 letters
Marie has 5 letters
----------------
Cecilia has 7 letters
Lise has 4 letters
Marie has 5 letters
Rosalind has None letters


## 9. 不要在for与while循环后写else块

在python中，支持`for/else` 和 `while/else`结构，在执行完循环体之后，如果没有遇到`break`语句，就会执行`else`块。

但是这两种结构都很少用到，而且容易误用。应避免使用!

In [8]:
for i in (range(3)):
    print(i)
else:
    print('done')    
print('----------------')

for i in (range(3)):
    print(i)
    if i==2:
        break
else:
    print('done')    
print('----------------')

while []:
    print('in while')
else:
    print('done while ')



0
1
2
done
----------------
0
1
2
----------------
done while 


## 10. 用赋值表达式减少重复代码
赋值表达式是python3.8新引入的语法，会用到海象运算符`:=`，`a:=b`读做a walrus b。这个运算符可以在表达式内部为变量赋值，解决持续已久的代码重复问题。

也对需要用到python中不具备的`switch/case` 或 `do/while`语句的场景提供了一种替代方案。

In [15]:
fresh_fruit = { 'apple':10, 'banana':8, 'lemon':5 }
if count := fresh_fruit.get('apple', 0):
    print(f'apple count: {count}')
if (count := fresh_fruit.get('lemon', 0))>5:
    print(f'lemon count is more than 5')
else:
    print(f'lemon count is less than or euqal to 5')
print('----------------')
def pick_fruit():
    pass
def make_juice(fruit, count):
    pass
bottles = []
while fresh_fruit := pick_fruit():
    for fruit, count in fresh_fruit.items():
        batch = make_juice(fruit, count)
        bottles.extend(batch)


apple count: 10
lemon count is less than or euqal to 5
----------------


# 第二章：列表与字典

## 11. 学会对序列做切片
凡是实现了`__getitem__`与`__setitem__`方法的类都可以进行切片操作

`somelist[start:end]`

如果起点和终点所确定的范围超过了列表的边界，那么系统会自动忽略不存在的元素。注意：切割时的索引可以越界，但是访问时不可以，这会让程序抛出异常。

切割后的列表是一个全新的列表，与原列表没有任何关系。`b=a[:]`，b为浅拷贝，系统会为b分配新的内存，b与a身份不同，`b=a`为直接赋值，b是对a的引用，b与a身份相同，修改b会影响a。

In [18]:
a = [1,2,3]
b = a[:]
a[0] = 10
print(a)
print(b)
b[1] = 20
print(a)
print(b)
print('----------------')
a = [1,2,3]
c = a
a[0] = 10
print(a)
print(c)
c[1] = 20
print(a)
print(c)

[10, 2, 3]
[1, 2, 3]
[10, 2, 3]
[1, 20, 3]
----------------
[10, 2, 3]
[10, 2, 3]
[10, 20, 3]
[10, 20, 3]


## 12. 不要在切片里同时指定起点、终点和步长

`somelist[start:end:stride]`，stride为步长，可以为负数，表示从右往左取值。

同时使用起点、终点和步长时，会让代码变得难以阅读，应该尽量避免。同时应尽量避免使用负数步长。

为了避免这种情况，可以分两步进行，同时由于切片会产生新分配的内存，因此应将能够最大程度减小列表长度的操作（使用步长）放在前面：

`b = a[::stride]`

`c = b[start:end]`

如果程序没有时间或内存分为两步操作，可以使用itertools模块的islice函数来代替切片操作，它的起止位置和步长都不能为负数。


In [16]:
a =list(range(10))
# 取偶数元素：
b = a[::2]
print(b)
# 取奇数元素：
c = a[1::2]
print(c)
# 反转列表：
d = a[::-1]
print(d)


[0, 2, 4, 6, 8]
[1, 3, 5, 7, 9]
[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]


## 13. 通过带星号的unpacking操作来捕获多个元素，不要用切片
在使用`*`时，需要至少有一个普通变量和其搭配。

对于单层结构，同一级最多只能出现一次带星号的unpacking操作，否则会抛出异常。错误举例：

`a = [1, 2, 3, 4, 5, 6, 7, 8, 9]`

**!wrong!**

`first, *middle, *second, last = a`   

In [20]:
car_ages = [0, 9, 4, 3, 7, 2, 5, 1, 6, 8]
car_ages_descending = sorted(car_ages, reverse=True)
oldest, second_oldest,*others = car_ages_descending
print(oldest, second_oldest, others)
*others, second_youngest, youngest = car_ages_descending
print(youngest, second_youngest, others)

9 8 [7, 6, 5, 4, 3, 2, 1, 0]
0 1 [9, 8, 7, 6, 5, 4, 3, 2]


## 14. 用sort方法的key参数来表示复杂的排序逻辑
内置列表的sort方法支持对有自然顺序的内置类型进行排序，但是对于自定义类型，需要通过key参数来指定排序的逻辑。

对于有多种排序指标，且升降方向可能不同的情况，都可以倒着按照排序指标的重要性依次进行排序（最重要的放在最后），在每次排序内使用相应的reverse值，这样就可以得到想要的结果。

In [24]:
class Tool:
    def __init__(self, name, weight):
        self.name = name
        self.weight = weight
    def __repr__(self):
        return f'Tool({self.name!r}, {self.weight})'
tools = [ Tool('level', 3.5), Tool('hammer', 1.25), Tool('screwdriver', 0.5), Tool('chisel', 0.25) ]
tools.sort(key = lambda x: x.weight)
print(tools)
power_tools = [Tool('drill', 4), Tool('circular saw', 5), Tool('jackhammer', 40), Tool('sander', 4)]
# 首要比较元素是重量，次要是名字，在重量相同时，名字按字母顺序排序
power_tools.sort(key = lambda x: (x.weight, x.name))
print(power_tools)
# 重量降序，名字升序
power_tools.sort(key = lambda x: x.name)
power_tools.sort(key = lambda x: x.weight, reverse=True)
print(power_tools)

[Tool('chisel', 0.25), Tool('screwdriver', 0.5), Tool('hammer', 1.25), Tool('level', 3.5)]
[Tool('drill', 4), Tool('sander', 4), Tool('circular saw', 5), Tool('jackhammer', 40)]
[Tool('jackhammer', 40), Tool('circular saw', 5), Tool('drill', 4), Tool('sander', 4)]


## 15. 不要过分依赖给字典添加条目时所用的顺序

在python3.5之前，字典的顺序是随机的

但是自python3.6起，字典会保留键值对添加时的顺序！

## 16. 用get处理键不在字典中的情况，不要使用in与KeyError

`dt.get(key, default_val)`方法：

如果key在字典中，则返回相应的值，

如果key不在字典中，会返回default_val值，

如果不指定default_val值，则返回None。

In [None]:
counters ={'pumpernickel':2, 'sourdough':1}
# 如果键不存在，创建键，值为0,否则，之前的值加1
# 要这样：
count = counters.get('wheat', 0)
counters['wheat'] = count + 1
# 不要这样：
if key in counters:
    counters[key] += 1
else:
    counters[key] = 1

try:
    counters[key] += 1
except KeyError:
    counters[key] = 1

## 17. 用defaultdict处理缺失的键，不要用setdefault

python内置的`collection`类提供了`defaultdict`类，在访问键时，它会在键缺失的情况下，自动添加这个键以及相应的默认值，并返回这个默认值。

我们只需要在构造这种字典时，提供一个用来生成默认值的函数即可，每次发现键缺失时，这个函数就会被调用。

In [None]:
from collections import defaultdict
class Visits:
    def __init__(self):
        # 传入的函数用于创建默认值，当试图访问键不存在时，默认值为{}，key:{}这个键值对会被添加到字典中
        self.data = defaultdict(set)
    def add(self, country, city):
        # 若country不在字典中，self.data[country]会将country:{}添加到字典中，并且返回一个空集合，之后就可以调用集合的add方法了
        self.data[country].add(city)
visits = Visits()
visits.add('England', 'Bath')
visits.add('England', 'London')
print(visits.data)

## 18. 学会利用__missing__构造依赖键的默认值

构造defaultdict时，需要提供的用来生成默认值的函数必须是不需要参数的函数，所以无法创造出需要依赖键名的默认值。

对此可以通过继承`dict`类，并重写`__missing__`方法来实现。

如果访问的键不在字典中，`__missing__`方法将会被调用，将访问的键作为参数传入，据此返回相应的默认值

In [None]:
def open_picture(path):
    # 省略
    return path
class Pictures(dict):
    def __missing__(self, key):
        value = open_picture(key)
        self[key] = value
        return value

# 第三章：函数

## 19. 