# Python高级特性

## 切片

对于取指定索引范围的操作，用循环十分繁琐，为此Python提供了切片（Slice）操作符。  
L[0:3]表示，从索引0开始取到索引3为止，不包括索引3，索引是0其实可以省略不写。  
Python支持用L[-1]取倒数第一个元素，自然支持倒数切片，索引是-1同样可以省略不写。  
事实上，什么索引都不写，只写[:]，可以原样复制该list。

In [1]:
L = ['Michael', 'Sarah', 'Tracy', 'Bob', 'Jack']
print(L[:3])
print(L[-2:])
print(L[:])

['Michael', 'Sarah', 'Tracy']
['Bob', 'Jack']
['Michael', 'Sarah', 'Tracy', 'Bob', 'Jack']


扩展切片形如a[start:stop:step]，其中step是一个非零整数，具体行为是从start出发，  
以step为步长取元素，直至越过stop，且不包括stop。（简单切片就是step=1的扩展切片）

tuple相较于list，区别是tuple不可变，但是也可以用切片操作，操作的结果仍是tuple。  
字符串可以看成list，一个字符就是一个元素，也可以用切片操作，操作结果仍是字符串。

In [2]:
(0, 1, 2, 3, 4, 5)[:3]

(0, 1, 2)

In [3]:
'ABCDEFG'[::2]

'ACEG'

## 迭代

给定一个list或tuple，可以通过for循环来遍历它，称为迭代（Iteration）。  
Python的for循环抽象程度较高，因此不限于上面提到的两种数据类型，  
而是可以作用于任何可迭代对象，包括我们自定义的数据类型。

In [4]:
for ch in 'ABC':
    print(ch)

A
B
C


In [5]:
d = {'a': 1, 'b': 2, 'c': 3}
for key in d:
    print(key)

a
b
c


需要说明的是，dict的存储不同于list的顺序排列，迭代结果的顺序有可能不一样。  
dict默认迭代key，迭代value可以用`for value in d.values()`，  
同时迭代key和value可以用`for k, v in d.items()`。

In [6]:
# Python中for循环可以同时引用两个变量
for x, y in [(1, 1), (2, 4), (3, 9)]:
    print(x, y)

1 1
2 4
3 9


判断一个对象是否为可迭代对象，可以使用`collections`模块的`Iterable`类型：

In [7]:
# 这里测试一下整数123能不能迭代
# 旧版本为collection，高版本需要使用collection.abc
from collections.abc import Iterable
isinstance(123, Iterable)

False

## 列表生成式

`List Comprehensions`是Python内置的生成式，用于创建list。

In [8]:
# 欲生成[1x1, 2x2, 3x3, ..., 10x10]，可以依靠循环
L = []
for x in range(1, 11):
    L.append(x * x)
L

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

In [9]:
# 循环太繁琐，使用列表生成式可以用一行语句代替它
# 把要生成的元素x*x放到前面，后面跟for循环，就可以把list创建出来
[x * x for x in range(1, 11)]

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

In [10]:
# for循环后面还可以加上if判断，这样可以筛选出仅偶数的平方
[x * x for x in range(1, 11) if x % 2 == 0]

[4, 16, 36, 64, 100]

In [11]:
# 可以使用两层循环，但是三层及以上的循环就很少用到了
[m + n for m in 'ABC' for n in 'XYZ']

['AX', 'AY', 'AZ', 'BX', 'BY', 'BZ', 'CX', 'CY', 'CZ']

In [12]:
# for循环可以使用两个或多个变量，因此列表生成式也可以使用两个变量
d = {'x': 'A', 'y': 'B', 'z': 'C' }
[k + '=' + v for k, v in d.items()]

['x=A', 'y=B', 'z=C']

In [13]:
# 运用列表生成式，还可以快速通过一个list推导出另一个list
# 把一个由字符串组成的list中的所有字符串变成小写
L = ['Hello', 'World', 'IBM', 'Apple']
[s.lower() for s in L]

['hello', 'world', 'ibm', 'apple']

## 生成器

列表生成式可以创建列表，受内存限制，列表容量是有限的。  
假设仅需访问前面几个元素，后面元素占用的空间就浪费了。  
如果列表元素可以按照某种算法推算出来，边循环边推算出后续元素，  
就不必创建完整的list，从而节省大量的空间，这种机制称为生成器（Generator)。  
直接把列表生成式的[]改成()，就可以创建一个生成器。  
如果推算的算法比较复杂，用类似列表生成式的for循环无法实现时，可以用函数来实现。

In [14]:
g = (x * x for x in range(10))
g

<generator object <genexpr> at 0x000001629F732500>

In [15]:
# 如果要逐个打印出生成器的元素，可以通过`next()`获得生成器的下一个返回值
print(next(g))
print(next(g))
print(next(g))
print(next(g))
print(next(g))
print(next(g))
print(next(g))
print(next(g))
print(next(g))
print(next(g))

0
1
4
9
16
25
36
49
64
81


In [16]:
# 上面的做法实属麻烦，正确方法是for循环，因为generator本身也是可迭代对象
g = (x * x for x in range(10))
for n in g:
    print(n)

0
1
4
9
16
25
36
49
64
81


斐波拉契数列中，除第一、第二个数外，任意一个数都可由前两个数相加得到，  
斐波拉契数列的前n个数用列表生成式写不出来，用函数把它打印出来却很容易：

In [17]:
def fib(max):
    n, a, b = 0, 0, 1
    while n < max:
        print(b)
        a, b = b, a + b
        n = n + 1
    return 'Done'
fib(6)

1
1
2
3
5
8


'Done'

fib()定义了斐波拉契数列的推算规则，从第一个元素开始推算出后续元素，这种逻辑类似于生成器。  
事实上，要把fib()变成生成器，把print(b)改为yield b即可，这就是定义生成器的另一种方法。  
换言之，如果一个函数定义中包含`yield`关键字，那么它就不再是一个普通函数，而是一个生成器。

In [18]:
def fib(max):
    n, a, b = 0, 0, 1
    while n < max:
        yield b
        a, b = b, a + b
        n = n + 1
    return 'Done'
f = fib(6)
f

<generator object fib at 0x000001629F732F80>

In [19]:
# 变成生成器的函数，在调用next()时执行，遇到yield语句就返回，下次执行时从上次返回的yield语句处继续
def odd():
    print('step 1')
    yield 1
    print('step 2')
    yield 2
    print('step 3')
    yield 3
o = odd()
print(next(o))
print(next(o))
print(next(o))
# 上面的生成器执行三次yield后，已经没有yield可以执行了，如果第四次调用next(o)将会报错StopIteration

step 1
1
step 2
2
step 3
3


In [20]:
# 同样的，把函数改成生成器后，没必要用next()来获取下一个返回值，而是直接用for循环来迭代
for n in fib(6):
    print(n)

1
1
2
3
5
8


但是用for循环迭代由函数变成的生成器，会拿不到return语句的返回值。  
想要拿到返回值，必须捕获StopIteration错误，返回值包含在其value中。

In [21]:
g = fib(6)
while True:
    try:
        x = next(g)
        print(x)
    except StopIteration as e:
        print(e.value)
        break

1
1
2
3
5
8
Done


## 迭代器

可直接作用于for循环的对象是可迭代对象（Iterable），可作用于next()的对象则称为迭代器（Iterator）。  
Iterator是一个惰性计算的序列，可以使用`isinstance()`判断一个对象是否是Iterator对象。

Iterator表示一个数据流，可以把它看做有序序列，但不能提前知道序列长度。  
Iterator可以被next()调用并不断返回下一个数据，直到没有数据时抛出StopIteration。    
Iterator的计算是惰性的，只在需要返回下一个数据时才会计算。  
Iterator可以用于表示无限大的数据流，例如全体自然数，而用list是绝不可能存储全体自然数的。

In [22]:
# 生成器都是Iterator
from collections.abc import Iterator
isinstance((x for x in range(10)), Iterator)

True

In [23]:
# list、dict、str等只是Iterable，不是Iterator
# 可以用iter()将Iterable变为Iterator
isinstance(iter([]), Iterator)

True