<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#第一章：数据结构和算法" data-toc-modified-id="第一章：数据结构和算法-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>第一章：数据结构和算法</a></span><ul class="toc-item"><li><span><a href="#1.1-解压序列赋值给多个变量" data-toc-modified-id="1.1-解压序列赋值给多个变量-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>1.1 解压序列赋值给多个变量</a></span></li><li><span><a href="#1.2-解压可迭代对象赋值给多个变量" data-toc-modified-id="1.2-解压可迭代对象赋值给多个变量-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>1.2 解压可迭代对象赋值给多个变量</a></span></li><li><span><a href="#1.3-保留最后-N-个元素" data-toc-modified-id="1.3-保留最后-N-个元素-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>1.3 保留最后 N 个元素</a></span></li><li><span><a href="#1.4-查找最大或最小的-N-个元素" data-toc-modified-id="1.4-查找最大或最小的-N-个元素-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>1.4 查找最大或最小的 N 个元素</a></span></li><li><span><a href="#1.5-实现一个优先级队列" data-toc-modified-id="1.5-实现一个优先级队列-1.5"><span class="toc-item-num">1.5&nbsp;&nbsp;</span>1.5 实现一个优先级队列</a></span></li></ul></li></ul></div>

# 第一章：数据结构和算法 

## 1.1 解压序列赋值给多个变量
问题  
怎样从一个集合中获得最大或者最小的 N 个元素列表？

解决方案  
heapq 模块有两个函数：nlargest() 和 nsmallest() 可以完美解决这个问题。

In [3]:
data = [ 'ACME', 50, 91.1, (2012, 12, 21) ]
name, shares, price, date = data

In [4]:
name, shares, price, (year, mon, day) = data

In [5]:
s = 'Hello'
a, b, c, d, e = s

In [6]:
data = [ 'ACME', 50, 91.1, (2012, 12, 21) ]
_, shares, price, _ = data

## 1.2 解压可迭代对象赋值给多个变量
问题  
如果一个可迭代对象的元素个数超过变量个数时，会抛出一个 ValueError 。 那么怎样才能从这个可迭代对象中解压出 N 个元素出来？

解决方案  
Python 的星号表达式可以用来解决这个问题。比如，你在学习一门课程，在学期末的时候， 你想统计下家庭作业的平均成绩，但是排除掉第一个和最后一个分数。如果只有四个分数，你可能就直接去简单的手动赋值， 但如果有 24 个呢？这时候星号表达式就派上用场了：

In [7]:
record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212')
name, email, *phone_numbers = record

In [8]:
phone_numbers

['773-555-1212', '847-555-1212']

In [9]:
records = [
    ('foo', 1, 2),
    ('bar', 'hello'),
    ('foo', 3, 4),
]

def do_foo(x, y):
    print('foo', x, y)

def do_bar(s):
    print('bar', s)

for tag, *args in records:
    if tag == 'foo':
        do_foo(*args)
    elif tag == 'bar':
        do_bar(*args)

foo 1 2
bar hello
foo 3 4


In [10]:
line = 'nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false'
uname, *fields, homedir, sh = line.split(':')

In [11]:
uname

'nobody'

In [12]:
homedir

'/var/empty'

In [13]:
sh

'/usr/bin/false'

有时候，你想解压一些元素后丢弃它们，你不能简单就使用 * ， 但是你可以使用一个普通的废弃名称，比如 _ 或者 ign （ignore）。

In [14]:
record = ('ACME', 50, 123.45, (12, 18, 2012))
name, *_, (*_, year) = record

In [15]:
name

'ACME'

In [16]:
year

2012

在很多函数式语言中，星号解压语法跟列表处理有许多相似之处。比如，如果你有一个列表， 你可以很容易的将它分割成前后两部分：

In [17]:
items = [1, 10, 7, 4, 5, 9]
head, *tail = items

In [19]:
head

1

In [18]:
tail

[10, 7, 4, 5, 9]

如果你够聪明的话，还能用这种分割语法去巧妙的实现递归算法。比如：

In [20]:
def sum(items):
    head, *tail = items
    return head + sum(tail) if tail else head

In [21]:
sum(items)

36

## 1.3 保留最后 N 个元素
问题  
在迭代操作或者其他操作的时候，怎样只保留最后有限几个元素的历史记录？  

解决方案  
保留有限历史记录正是 collections.deque 大显身手的时候。比如，下面的代码在多行上面做简单的文本匹配， 并返回匹配所在行的最后N行：

In [26]:
from collections import deque

def search(lines, pattern, history=5):
    previous_lines = deque(maxlen=history)
    for line in lines:
        if pattern in line:
            yield line, previous_lines
        previous_lines.append(line)

# Example use on a file
if __name__ == '__main__':
    with open(r'data/somefile.txt') as f:
        for line, prevlines in search(f, 'python', 5):
            for pline in prevlines:
                print(pline, end='')
            print(line, end='')
            print('-' * 20)

wsww
waddaw dfpythonpythonpython
--------------------
wsww
waddaw dfpythonpythonpython
awdawdaw
wadawdfpythonpythonpython
--------------------
waddaw dfpythonpythonpython
awdawdaw
wadawdfpythonpythonpython
awdawdawd
awda
wdapythonpythonpythonpython
--------------------
awda
wdapythonpythonpythonpython
wda
wd
awd
awpythonpython
--------------------
da
wf
fg
wef
wf
pythonpythonpythonpythonpythonpythonpython--------------------


我们在写查询元素的代码时，通常会使用包含 yield 表达式的生成器函数，也就是我们上面示例代码中的那样。 这样可以将搜索过程代码和使用搜索结果代码解耦。如果你还不清楚什么是生成器，请参看 4.3 节。

使用 deque(maxlen=N) 构造函数会新建一个固定大小的队列。当新的元素加入并且这个队列已满的时候， 最老的元素会自动被移除掉。

In [27]:
q = deque(maxlen=3)
q.append(1)
q.append(2)
q.append(3)

In [28]:
q

deque([1, 2, 3])

In [29]:
q.append(4)

In [31]:
q

deque([2, 3, 4])

尽管你也可以手动在一个列表上实现这一的操作（比如增加、删除等等）。但是这里的队列方案会更加优雅并且运行得更快些。

更一般的， deque 类可以被用在任何你只需要一个简单队列数据结构的场合。 如果你不设置最大队列大小，那么就会得到一个无限大小队列，你可以在队列的两端执行添加和弹出元素的操作。

In [32]:
q = deque()
q.append(1)
q.append(2)
q.append(3)
q

deque([1, 2, 3])

In [33]:
q.appendleft(4)

In [34]:
q

deque([4, 1, 2, 3])

In [35]:
q.pop()

3

In [36]:
q

deque([4, 1, 2])

In [37]:
q.popleft()

4

In [38]:
q

deque([1, 2])

在队列两端插入或删除元素时间复杂度都是 O(1) ，区别于列表，在列表的开头插入或删除元素的时间复杂度为 O(N) 。

## 1.4 查找最大或最小的 N 个元素

问题  
怎样从一个集合中获得最大或者最小的 N 个元素列表？

解决方案  
heapq 模块有两个函数：nlargest() 和 nsmallest() 可以完美解决这个问题。

In [39]:
import heapq
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
print(heapq.nlargest(3, nums)) # Prints [42, 37, 23]
print(heapq.nsmallest(3, nums)) # Prints [-4, 1, 2]

[42, 37, 23]
[-4, 1, 2]


两个函数都能接受一个关键字参数，用于更复杂的数据结构中：

In [41]:
portfolio = [
    {'name': 'IBM', 'shares': 100, 'price': 91.1},
    {'name': 'AAPL', 'shares': 50, 'price': 543.22},
    {'name': 'FB', 'shares': 200, 'price': 21.09},
    {'name': 'HPQ', 'shares': 35, 'price': 31.75},
    {'name': 'YHOO', 'shares': 45, 'price': 16.35},
    {'name': 'ACME', 'shares': 75, 'price': 115.65}
]
cheap = heapq.nsmallest(3, portfolio, key=lambda s: s['price'])
expensive = heapq.nlargest(3, portfolio, key=lambda s: s['price'])

#上面代码在对每个元素进行对比的时候，会以 price 的值进行比较。

In [42]:
cheap

[{'name': 'YHOO', 'shares': 45, 'price': 16.35},
 {'name': 'FB', 'shares': 200, 'price': 21.09},
 {'name': 'HPQ', 'shares': 35, 'price': 31.75}]

In [43]:
expensive

[{'name': 'AAPL', 'shares': 50, 'price': 543.22},
 {'name': 'ACME', 'shares': 75, 'price': 115.65},
 {'name': 'IBM', 'shares': 100, 'price': 91.1}]

讨论  
如果你想在一个集合中查找最小或最大的 N 个元素，并且 N 小于集合元素数量，那么这些函数提供了很好的性能。 因为在底层实现里面，首先会先将集合数据进行堆排序后放入一个列表中：

In [48]:
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
import heapq
heap = list(nums)
heapq.heapify(heap)
heap

[-4, 2, 1, 23, 7, 2, 18, 23, 42, 37, 8]

堆数据结构最重要的特征是 heap[0] 永远是最小的元素。并且剩余的元素可以很容易的通过调用 heapq.heappop() 方法得到， 该方法会先将第一个元素弹出来，然后用下一个最小的元素来取代被弹出元素（这种操作时间复杂度仅仅是 O(log N)，N 是堆大小）。 比如，如果想要查找最小的 3 个元素，你可以这样做：

In [49]:
heapq.heappop(heap)

-4

In [50]:
heapq.heappop(heap)

1

In [51]:
heapq.heappop(heap)

2

当要查找的元素个数相对比较小的时候，函数 nlargest() 和 nsmallest() 是很合适的。 如果你仅仅想查找唯一的最小或最大（N=1）的元素的话，那么使用 min() 和 max() 函数会更快些。 类似的，如果 N 的大小和集合大小接近的时候，通常先排序这个集合然后再使用切片操作会更快点 （ sorted(items)[:N] 或者是 sorted(items)[-N:] ）。 需要在正确场合使用函数 nlargest() 和 nsmallest() 才能发挥它们的优势 （如果 N 快接近集合大小了，那么使用排序操作会更好些）。  

尽管你没有必要一定使用这里的方法，但是堆数据结构的实现是一个很有趣并且值得你深入学习的东西。 基本上只要是数据结构和算法书籍里面都会有提及到。 heapq 模块的官方文档里面也详细的介绍了堆数据结构底层的实现细节。

## 1.5 实现一个优先级队列
问题  
怎样实现一个按优先级排序的队列？ 并且在这个队列上面每次 pop 操作总是返回优先级最高的那个元素

解决方案  
下面的类利用 heapq 模块实现了一个简单的优先级队列：



In [52]:
import heapq

class PriorityQueue:
    def __init__(self):
        self._queue = []
        self._index = 0

    def push(self, item, priority):
        heapq.heappush(self._queue, (-priority, self._index, item))
        self._index += 1

    def pop(self):
        return heapq.heappop(self._queue)[-1]