# 第一章 数据结构和算法(1)

`Python` 提供了大量的内置数据结构，包括列表，集合以及字典。大多数情况下使
用这些数据结构是很简单的。但是，我们也会经常碰到到诸如查询，排序和过滤等等
这些普遍存在的问题。因此，这一章的目的就是讨论这些比较常见的问题和算法。另
外，我们也会给出在集合模块 collections 当中操作这些数据结构的方法

### 1.1 解压序列赋值给多个变量

**现在有一个包含 N 个元素的元组或者是序列，怎样将它里面的值解压后同时赋值
给 N 个变量？**


任何的序列 (或者是可迭代对象) 可以通过一个简单的赋值语句解压并赋值给多个
变量。唯一的前提就是变量的数量必须跟序列元素的数量是一样的

In [3]:
a = [1, 2, 3, 4]
b, c, d, e = a 
print(b, c, d, e)

1 2 3 4


In [5]:
# 如果变量个数和序列元素的个数不匹配，会产生一个异常。
s, w = a

ValueError: too many values to unpack (expected 2)

In [6]:
# 有时候，你可能只想解压一部分，丢弃其他的值。对于这种情况 Python 并没有提
# 供特殊的语法。但是你可以使用任意变量名去占位，到时候丢掉这些变量就行了。
data = [ 'ACME', 50, 91.1, (2012, 12, 21) ]
_, shares, price, _ = data
shares

50

### 1.2 解压可迭代对象赋值给多个变量

**如果一个可迭代对象的元素个数超过变量个数时，会抛出一个 ValueError 。那么
怎样才能从这个可迭代对象中解压出 N 个元素出来？**

In [7]:
# 星号的使用 

a = [1, 2, 3, 4]
b, *c, d = a
c

[2, 3]

In [11]:
record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212')
name, email, *phone_numbers = record
print(name, email, phone_numbers)

Dave dave@example.com ['773-555-1212', '847-555-1212']


*通过星号解压出的变量都是列表类型*

In [13]:
# 星号表达式用在开头

*a, b = record
print(a)
print(b)

['Dave', 'dave@example.com', '773-555-1212']
847-555-1212


扩展的迭代解压语法是专门为解压不确定个数或任意个数元素的可迭代对象而设计
的。
值得注意的是，星号表达式在迭代元素为可变长元组的序列时是很有用的。

In [15]:
# 下面是一个带有标签的元组序列

a = [('foo', 1, 2), ('bar', 'hello'), ('foo', 3, 4)]
for i , *args in a:
    print(i, args)

foo [1, 2]
bar ['hello']
foo [3, 4]


In [16]:
# 星号解压语法在字符串操作的时候也会很有用，比如字符串的分割。

line = 'nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false'
uname, *fields, homedir, sh = line.split(':')
print(uname)
print(homedir)
print(sh)

nobody
/var/empty
/usr/bin/false


In [17]:
# 有时候，你想解压一些元素后丢弃它们，你不能简单就使用 * ，
# 但是你可以使用一个普通的废弃名称，比如 或者 ign 。 

a = ['hehe', 1, 3, 5]
name, *_ = a 
name

'hehe'

### 1.3 保留最后 N 个元素

**在迭代操作或者其他操作的时候，怎样只保留最后有限几个元素的历史记录？**

保留有限历史记录正是 collections.deque 大显身手的时候。

In [21]:
# 下面的代码在多行上面做简单的文本匹配，并返回匹配所在行的前 N 行

from collections import deque


def search(lines, pattern, history=5):
    pre_lines = deque(maxlen=history) 
    for i in lines:
        if pattern in i:
            yield i, pre_lines
        
        pre_lines.append(i) 

if __name__ == 'main':
    with open('song.txt', 'r') as f:
        for line, pre in Search(f, '李', 5):
            for pline in pre:
                print(pline, end='') 
            
            print(line, end='')
            print('-' * 20) 

* 使用 deque(maxlen=N) 构造函数会新建一个固定大小的队列。当新的元素加入并
且这个队列已满的时候，最老的元素会自动被移除掉。


In [23]:
q = deque(maxlen=3)
q.append(1)
q.append(2)
q.append(3)
q

deque([1, 2, 3])

In [24]:
q.append(4)
q

deque([2, 3, 4])

* deque 类可以被用在任何你只需要一个简单队列数据结构的场合。如
果你不设置最大队列大小，那么就会得到一个无限大小队列，你可以在队列的两端执
行添加和弹出元素的操作

In [25]:
q = deque()
q.append(1)
q.append(2)
q.append(3)
q

deque([1, 2, 3])

In [26]:
q.appendleft(4)
q

deque([4, 1, 2, 3])

In [27]:
q.pop()

3

In [28]:
q.popleft()

4

**在队列两端插入或删除元素时间复杂度都是 O(1) ，而在列表的开头插入或删除元
素的时间复杂度为 O(N) **

### 1.4 查找最大或最小的 N 个元素

**怎样从一个集合中获得最大或者最小的 N 个元素列表？**

*heapq 模块有两个函数：nlargest() 和 nsmallest() 可以完美解决这个问题*

In [29]:
import heapq 


nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2] 
print(heapq.nlargest(3, nums))
print(heapq.nsmallest(3, nums)) 

[42, 37, 23]
[-4, 1, 2]


In [30]:
# 两个函数都能接受一个关键字参数，用于更复杂的数据结构中

portfolio = [
{'name': 'IBM', 'shares': 100, 'price': 91.1},
{'name': 'AAPL', 'shares': 50, 'price': 543.22},
{'name': 'FB', 'shares': 200, 'price': 21.09},
{'name': 'HPQ', 'shares': 35, 'price': 31.75},
{'name': 'YHOO', 'shares': 45, 'price': 16.35},
{'name': 'ACME', 'shares': 75, 'price': 115.65}
] 

# 以 price 的值进行比较
cheap = heapq.nsmallest(3, portfolio, key=lambda s: s['price'])
expensive = heapq.nlargest(3, portfolio, key=lambda s: s['price'])
print(cheap)
print(expensive)

[{'name': 'YHOO', 'shares': 45, 'price': 16.35}, {'name': 'FB', 'shares': 200, 'price': 21.09}, {'name': 'HPQ', 'shares': 35, 'price': 31.75}]
[{'name': 'AAPL', 'shares': 50, 'price': 543.22}, {'name': 'ACME', 'shares': 75, 'price': 115.65}, {'name': 'IBM', 'shares': 100, 'price': 91.1}]


**如果你想在一个集合中查找最小或最大的 N 个元素，并且 N 小于集合元素数量，
那么这些函数提供了很好的性能。因为在底层实现里面，首先会先将集合数据进行堆
排序后放入一个列表中**

In [31]:
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2] 
import heapq 
heapq.heapify(nums)
nums

[-4, 2, 1, 23, 7, 2, 18, 23, 42, 37, 8]

**堆数据结构最重要的特征是 heap[0] 永远是最小的元素。并且剩余的元素可以很
容易的通过调用 heapq.heappop() 方法得到，该方法会先将第一个元素弹出来，然后
用下一个最小的元素来取代被弹出元素 (这种操作时间复杂度仅仅是 O(log N)，N 是
堆大小)。比如，如果想要查找最小的 3 个元素，你可以这样做**

In [32]:
heapq.heappop(nums)

-4

In [33]:
heapq.heappop(nums)

1

**当要查找的元素个数相对比较小的时候，函数 nlargest() 和 nsmallest() 是很
合适的。如果你仅仅想查找唯一的最小或最大 (N=1) 的元素的话，那么使用 min() 和
max() 函数会更快些。类似的，如果 N 的大小和集合大小接近的时候，通常先排序这
个集合然后再使用切片操作会更快点 ( sorted(items)[:N] 或者是 sorted(items)[-
N:] )。需要在正确场合使用函数 nlargest() 和 nsmallest() 才能发挥它们的优势 (如果
N 快接近集合大小了，那么使用排序操作会更好些)。**