# 数据结构

## 元组

占位符：

In [1]:
a, _ = (3, 4)
a

3

使用 \* 处理剩下元素：

In [2]:
a, b, *rest = range(5)
rest

[2, 3, 4]

In [3]:
a, b, *rest = range(3)
rest

[2]

In [4]:
a, b, *rest = range(2)
rest

[]

\* 前缀只能用在一个变量名前，但是这个变量可以出现在赋值表达式的任意位置：

In [5]:
a, *body, c, d = range(5)
body

[1, 2]

In [6]:
*head, b, c, d = range(5)
head

[0, 1]

嵌套元组拆包：

In [7]:
name, cc, pop, (latitude, longitude) = ('Tokyo', 'JP', 36.933, (35.689722, 139.691667))
name, cc, pop, latitude, longitude

('Tokyo', 'JP', 36.933, 35.689722, 139.691667)

## 具名元组

In [8]:
from collections import namedtuple
Point = namedtuple('Point', ['x', 'y'])
p = Point(1, 2)
"x: {}, y: {}".format(p.x, p.y)

'x: 1, y: 2'

除了从普通元组继承来的属性之外，具名元祖还有一些自己专用的属性：

In [9]:
Point._fields  # _fields 属性包含这个类所有字段名称的元组

('x', 'y')

In [10]:
data = (3, 4)
pt = Point._make(data)  # 作用等效于 Point(*data)
pt._asdict()

OrderedDict([('x', 3), ('y', 4)])

## 列表

切片操作里不包含区间范围的最后一个元素是 Python 的风格，这个习惯带来的好处如下：
- 当只有最后一个位置信息时，可以快速看出有几个元素：`range(3)` 和 `my_list[:3]` 都返回 3 个元素
- 当起止位置信息都可见时，可以快速计算出区间长度，即 `stop - start`
- 可以利用任意一个下标把序列分割成不重叠的两部分，只需写成：`my_list[:3]` 和 `my_list[3:]`

In [11]:
s = 'bicycle'
s[::3]

'bye'

In [12]:
s[::-1]  # 反序

'elcycib'

In [13]:
s[:]     # 复制序列

'bicycle'

切片赋值：

In [14]:
l = list(range(10))
l

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [15]:
l[2:5] = [20, 30]
l

[0, 1, 20, 30, 5, 6, 7, 8, 9]

In [16]:
del l[5:7]
l

[0, 1, 20, 30, 5, 8, 9]

In [17]:
l[3::2] = [11, 22]
l

[0, 1, 20, 11, 5, 22, 9]

In [18]:
try:
    l[2:5] = 100
except Exception as e:
    print(e)

can only assign an iterable


In [19]:
l[2:5] = [100]
l

[0, 1, 100, 22, 9]

## bisect

使用 `bisect` 来搜索：

In [20]:
import bisect
def grade(score, breakpoints=[60, 70, 80, 90], grades='FDCBA'):
    i = bisect.bisect(breakpoints, score)
    return grades[i]

[grade(score) for score in [33, 99, 77, 70, 89, 90, 100]]

['F', 'A', 'C', 'C', 'B', 'A', 'A']

使用 `bisect` 插入新元素：

In [21]:
import bisect
import random
random.seed(1729)
SIZE = 20
my_list = []
for i in range(SIZE):
    new_value = random.randrange(SIZE*2)
    bisect.insort(my_list, new_value)
    
my_list    

[0, 2, 3, 9, 10, 11, 13, 18, 18, 23, 23, 25, 26, 29, 29, 31, 32, 33, 35, 39]

## 数组

如果需要一个只包含数字的列表，使用 `array.array` 比 `list` 更高效。

创建数组需要一个类型码，用来表示底层的 C 语言应存放怎样的数据类型。

In [22]:
from array import array
from random import random
floats = array('d', (random() for i in range(1000)))  # 'd' 表示双精度浮点
floats[-1]

0.970088201571867

## 内存视图

memoryview 是一个内置类，能让用户在不复制内容的情况下，在数据结构之间共享内存，这个功能在处理大型数据集合时非常重要。

In [23]:
# 通过改变数组中的一个字节来更新数组里某个元素的值
import array
numbers = array.array('h', [-2, -1, 0, 1, 2])  # 'h' 表示 16 位二进制整数
memv = memoryview(numbers)

# memoryview.cast 会把同一块内存里的内容打包成一个全新的 memoryview
memv_oct = memv.cast('B')   # 'B' 表示无符号字符
memv_oct[5] = 4
numbers

array('h', [-2, -1, 1024, 1, 2])

## 双向队列

collection.deque 是一个线程安全，可以快速从两端添加或删除元素的数据类型。

使用 list 存储数据时，按索引访问元素很快，但是插入和删除元素就很慢了，因为 list 是线性存储，数据量大的时候，插入和删除效率很低。 
deque 是为了高效实现插入和删除操作的双向列表，适合用于队列和栈。

如果想要一种数据结构来存放“最近用到的几个元素”，deque 是一个很好的选择。

In [24]:
from collections import deque
dq = deque(range(10), maxlen=10)
dq

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [25]:
dq.rotate(3)
dq

deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6])

In [26]:
dq.rotate(-4)
dq

deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0])

In [27]:
dq.appendleft(-1)
dq

deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [28]:
dq.extend([11, 22, 33])
dq

deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33])

## 生成器

生成器保存的是算法，每次调用 `next(g)` ，就计算出 g 的下一个元素的值，直到计算到最后一个元素，没有更多的元素时，抛出 StopIteration 异常。

### 生成器函数

当 Python 函数定义体中有 yield 关键字，该函数就是生成器函数。调用生成器函数时，会返回一个生成器对象。也就是说生成器函数是生成器工厂，而生成器表达式是生成器函数的语法糖。

### 标准库中的生成器函数

#### 用于过滤的生成器函数

##### `itertools.compress(it, selector_it)`

并行处理两个可迭代对象：如果 selector_it 中的元素是真值，产出 it 中对应的元素。

In [29]:
import itertools
def vowel(c):
    return c.lower() in 'aeiou'

list(itertools.compress('Aardvark', (1, 0, 1, 1, 0, 1)))

['A', 'r', 'd', 'a']

##### `itertools.dropwhile(predicate, it)`

处理 it ，跳过 predicate 计算结果为真值的元素，产出剩下的元素。

In [30]:
list(itertools.dropwhile(vowel, 'Aardvark'))

['r', 'd', 'v', 'a', 'r', 'k']

##### `builtin.filter(predicate, it)`

如果 predicate(item) 返回真值，产出对应的元素，如果 predicate 是 None ，则只产出真值元素。

In [31]:
list(filter(vowel, 'Aardvark'))

['A', 'a', 'a']

##### `itertools.filterfalse(predicate, it)`

如果 predicate(item) 返回假值，产出对应的元素。

In [32]:
list(itertools.filterfalse(vowel, 'Aardvark'))

['r', 'd', 'v', 'r', 'k']

##### `itertools.islice(it, [start], stop, step=1)`

产出 it 的切片，类似于 `s[:stop]` 或 `s[start:stop:step]` 。

In [33]:
list(itertools.islice('Aardvark', 4))

['A', 'a', 'r', 'd']

In [34]:
list(itertools.islice('Aardvark', 4, 7))

['v', 'a', 'r']

In [35]:
list(itertools.islice('Aardvark', 1, 7, 2))

['a', 'd', 'a']

##### `itertools.takewhile(predicate, it)`

如果 predicate(item) 返回真值，产出对应的元素，然后停止。

In [36]:
list(itertools.takewhile(vowel, 'Aardvark'))

['A', 'a']

#### 用于映射的生成器函数

##### `itertools.accumulate(it, [func])`

产出累计值，默认为求和；如果提供了 func ，则把前面两个元素传个 func ，然后把计算结果和下一个元素传给它，以此类推，最后产出结果。

In [37]:
sample = [5, 4, 2, 8, 7, 6, 3, 0, 9, 1]
list(itertools.accumulate(sample))

[5, 9, 11, 19, 26, 32, 35, 35, 44, 45]

In [38]:
list(itertools.accumulate(sample, min))

[5, 4, 2, 2, 2, 2, 2, 0, 0, 0]

In [39]:
from operator import mul
list(itertools.accumulate(sample, mul))

[5, 20, 40, 320, 2240, 13440, 40320, 0, 0, 0]

##### `builtin.enumerate(it, start=0)`

产出有两个元素组成的元组，结构是 (index, item) ，其中 index 从 start 开始计数，item 则从 iterable 中获取。

##### `builtin.map(func, it1, [it2, ..., itN])`

如果传入 N 个 可迭代对象，则 func 必须能接受 N 个参数。

##### `itertools.starmap(func, it)`

把 it 中各个元素传给 func ，产出结果。

In [40]:
list(itertools.starmap(mul, enumerate('albatroz', 1)))

['a', 'll', 'bbb', 'aaaa', 'ttttt', 'rrrrrr', 'ooooooo', 'zzzzzzzz']

In [41]:
list(itertools.starmap(lambda a, b: b/a, enumerate(itertools.accumulate(sample), 1)))

[5.0,
 4.5,
 3.6666666666666665,
 4.75,
 5.2,
 5.333333333333333,
 5.0,
 4.375,
 4.888888888888889,
 4.5]

#### 用于合并可迭代对象的生成器函数

##### `itertools.chain(it1, ..., itN)`

无缝连接多个可迭代对象。

In [42]:
list(itertools.chain('ABC', range(3)))

['A', 'B', 'C', 0, 1, 2]

##### `itertools.chain.from_iterable(it)`

产出 it 生成的各个可迭代对象中的元素，无缝连接在一起。

In [43]:
list(itertools.chain.from_iterable(enumerate('ABC')))

[0, 'A', 1, 'B', 2, 'C']

##### `itertaools.product(it1, ..., itN, repeat=1)`

计算笛卡尔积，合并成由 N 个元素组成的元组。repeat 关键字参数告诉 product 函数重复 N 次处理输入的各个可迭代对象。

In [44]:
list(itertools.product('ABC', range(2)))

[('A', 0), ('A', 1), ('B', 0), ('B', 1), ('C', 0), ('C', 1)]

In [45]:
list(itertools.product('ABC', repeat=2))  # list(itertools.product('ABC', 'ABC'))

[('A', 'A'),
 ('A', 'B'),
 ('A', 'C'),
 ('B', 'A'),
 ('B', 'B'),
 ('B', 'C'),
 ('C', 'A'),
 ('C', 'B'),
 ('C', 'C')]

##### `builtin.zip(it1, .., itN)`

产出由 N 个元素组成的元组，只要有一个可迭代对象到头了，即停止。

In [46]:
list(zip('ABC', range(5), [10, 20, 30, 40, 50, 60]))

[('A', 0, 10), ('B', 1, 20), ('C', 2, 30)]

##### `itertools.zip_longest(it1, ..., itN, fillvalue=None)`

产出由 N 个元素组成的元组，等到最长的可迭代对象到头了，即停止。

In [47]:
list(itertools.zip_longest('ABC', range(5), [10, 20, 30, 40, 50, 60], fillvalue='?'))

[('A', 0, 10),
 ('B', 1, 20),
 ('C', 2, 30),
 ('?', 3, 40),
 ('?', 4, 50),
 ('?', '?', 60)]

#### 用于扩展输出元素的生成器函数

##### `itertools.combinations(it, out_len)`

把 it 产出的 out_len 个元素组合在一起，然后产出。

In [48]:
list(itertools.combinations('ABC', 2))

[('A', 'B'), ('A', 'C'), ('B', 'C')]

##### `itertools.combinations_with_replacement(it, out_len)`

把 it 产出的 out_len 个元素组合在一起，然后产出，包含相同元素的组合。

In [49]:
list(itertools.combinations_with_replacement('ABC', 2))

[('A', 'A'), ('A', 'B'), ('A', 'C'), ('B', 'B'), ('B', 'C'), ('C', 'C')]

##### `itertools.permutation(it, out_len=None)`

把 out_len 个 it 产出元素排列在一起，然后产出这些排列；out_len 的默认值等于 `len(list(it))` 。

In [50]:
list(itertools.permutations('ABC', 2))

[('A', 'B'), ('A', 'C'), ('B', 'A'), ('B', 'C'), ('C', 'A'), ('C', 'B')]

##### `itertools.count(start=0, step=1)`

从 start 开支不断产出数字，按 step 步幅增加。

In [51]:
list(itertools.islice(itertools.count(1, .3), 3))

[1, 1.3, 1.6]

##### `itertools.cycle(it)`

从 it 中产出元素，存储各个元素的 **副本** ，然后按顺序重复不断地产出各个元素。

In [52]:
list(itertools.islice(itertools.cycle('ABC'), 7))

['A', 'B', 'C', 'A', 'B', 'C', 'A']

##### `itertools.repeat(item, [times])`

不断产出指定元素，除非指定次数。常见用途，为 map 函数提供固定参数：

In [53]:
list(map(mul, range(11), itertools.repeat(5)))

[0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50]

##### `builtin.iter(callable, sentinel)`

第一个参数是一个没有参数的可调用对象，用于不断调用，产出各个值；第二个值是哨符，当可调用对象返回这个值时，迭代结束 (不产出哨符) 。

iter 的 [文档](https://docs.python.org/3/library/functions.html#iter) 中有个实用的例子，这段代码逐行读取文件，直到遇到空行或到达文件末尾为止：

``` python
with open('mydata.txt') as fp:
    for line in iter(fp.readline, ''):
        process_line(line)
```

#### 用于重新排列元素的生成器函数

##### `itertools.groupby(it, key=None)`

产出由两个元素组成的元组，形式为 (key, group) ，其中 key 是分组标准，group 是生成器，用于产出分组里的元素。

注意，`itertool.groupby` 假定输入的可迭代对象已使用指定的 key 分组了各个元素。

In [54]:
list(itertools.groupby('LLLAAGGG'))

[('L', <itertools._grouper at 0x104b52550>),
 ('A', <itertools._grouper at 0x104b526d8>),
 ('G', <itertools._grouper at 0x104b529e8>)]

In [55]:
list(itertools.groupby('LLAALAAGGG'))

[('L', <itertools._grouper at 0x104b52588>),
 ('A', <itertools._grouper at 0x104b523c8>),
 ('L', <itertools._grouper at 0x104b52898>),
 ('A', <itertools._grouper at 0x104b52b00>),
 ('G', <itertools._grouper at 0x104b52470>)]

In [56]:
animals = ['duck', 'eagle', 'rat', 'giraffe', 'bear', 'bat', 'dolphin', 'shark', 'lion']
animals.sort(key=len)
for length, group in itertools.groupby(animals, len):
    print(length, '->', list(group))

3 -> ['rat', 'bat']
4 -> ['duck', 'bear', 'lion']
5 -> ['eagle', 'shark']
7 -> ['giraffe', 'dolphin']


##### `builtin.reversed(seq)`

seq 必须是序列，或是实现了 `__reversed__` 特殊方法的对象。

##### `itertools.tee(it, n=2)`

产出一个由 n 个生成器组成的元组，每个生成器用于单独产出输入的可迭代对象中的元素。

In [57]:
list(zip(*itertools.tee('ABC')))

[('A', 'A'), ('B', 'B'), ('C', 'C')]

### `yield from` 语法

这个语句的作用是把不同的生成器结合在一起使用。

In [62]:
def chain(*iterables):
    for it in iterables:
        for i in it:
            yield i

list(chain('ABC', range(3)))            

['A', 'B', 'C', 0, 1, 2]

等效于：

In [63]:
def chain(*iterables):
    for i in iterables:
        yield from i

list(chain('ABC', range(3)))        

['A', 'B', 'C', 0, 1, 2]

### 把生成器当成协程

[PEP 342](https://www.python.org/dev/peps/pep-0342/) 为生成器对象添加了 `send()` 方法，该方法使得生成器前进到下一个 yield 语句。

`send()` 方法还允许使用生成器的客户把数据发给自己，传给 `send()` 方法的参数，会成为生成器函数定义体中对应 yield 表达式的值。也就是说，`send()` 方法允许在客户代码和生成器之间双向交换数据。

**生成器用于生成供迭代的数据，而协程是数据的消费者，协程与迭代无关。**