# 第一章 数据结构与算法

## 1.1 将序列分解为单独的变量

问题：将包含N个元素的元组或序列分解为N个单独的变量。

解决方案：任何序列（或可迭代的对象）都可以通过一个简单的赋值操作来分解为单独的变量。变量的总数、结构要和序列吻合。如果元素数量不匹配会报错。

可迭代对象都可进行分解操作，如字符串、文件、迭代器、生成器。

在分解操作时，若想丢弃某些特殊值，可以用`_`作为占位符

例：


In [2]:
p = (4, 5,6)
x, y,_ = p
print(x,y)

4 5


## 1.2 从任意长度的可迭代对象中分解元素

问题：需要从某个可迭代的选项中分解出N个元素，但这个可迭代对象长度可能超过N，会导致“分解的值过多”的异常。

解决方案：用“\*表达式”。

例：

In [4]:
# 未知grades包含多少个元素
def drop_first_last(grades):
    first, *middle, last = grades
    return avg(m)

In [7]:
*trailing, current = range(10)
print("trailing:",trailing)

trailing: [0, 1, 2, 3, 4, 5, 6, 7, 8]


## 1.3保存最后N个元素

问题：保存有限的历史记录。

解决方案：使用`collections.deque`。

deque(maxlen=N)创建了一个固定长度的队列。有`append()``pop()``appendleft()``popleft()`等方法。

**复杂度分析：**从列队两端添加或弹出元素的复杂度都是O(1)，而列表从头部插入或移出元素时复杂度是O(N)。


In [None]:
from collections import deque

def search(lines, pattern, history=5):
    previous_lines = deque(maxlen=history)
    for line in lines:
        if pattern in line:
            yield line,previous_lines
        previous_lines.append(line)
        

# Example use on a file
if __name__ == "__main__":
    with open('test.txt',w) as f:
        for line,prevlines in search(f, 'python', 5):
            for pline in prevlines:
                print(pline,end='')
            print(line,end='')
            print('-'*20)

## 1.4 找到最大或最小的N个元素

解决方案：heapq模块中有两个函数`nlargest()`和`nsmallest()`。

两个函数都可以接受一个参数key。

注：可以通过`help(heapq)`查看文档。

In [19]:
import heapq

nums = range(10)
print(heapq.nlargest(3,nums))
print(heapq.nsmallest(3,nums))

portfolio = [
    {'name':'IBM','shares':100,'price':91.1},
    {'name':'IBM','shares':100,'price':91.1},
    {'name':'IBM','shares':100,'price':91.1},
    {'name':'IBM','shares':100,'price':91.1},
    {'name':'IBM','shares':100,'price':91.1}
]
print(heapq.nlargest(3, portfolio, key=lambda s:s['price']))

[9, 8, 7]
[0, 1, 2]
[{'name': 'IBM', 'shares': 100, 'price': 91.1}, {'name': 'IBM', 'shares': 100, 'price': 91.1}, {'name': 'IBM', 'shares': 100, 'price': 91.1}]


如果在寻找最大或最小的N个元素，且同集合中元素的总数相比，N很小，那么以下函数可以提供更好的性能。

这些函数首先在底层将数据转化成列表，并且元素会以堆的顺序排列。如：

堆最重要的性质是heap[0]总是最小的那个元素。接下来的元素可依次通过`heapq.heappop()`方法找到。

当所要找的元素数量相对较小时，函数`nlargest()`和`nsmallest()`才是最适用的，如果只是想找到最大或最小元素

In [23]:
nums= [1,8,2,23,7,-4,18,23,42,37,2,[1,1]]
print(type(nums))
heap = list(nums)  # 浅复制，只复制对象中的引用
heap2 = nums       # 引用
print(heap,'\n',heap2)
nums[0]=11
print(heap,'\n',heap2)
nums[-1][0]=11
print(heap,'\n',heap2)


<class 'list'>
[1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2, [1, 1]] 
 [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2, [1, 1]]
[1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2, [1, 1]] 
 [11, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2, [1, 1]]
[1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2, [11, 1]] 
 [11, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2, [11, 1]]


In [28]:
nums= [1,8,2,23,7,-4,18,23,42,37,2]
heap = list(nums)
heapq.heapify(heap)
heap

[-4, 2, 1, 23, 7, 2, 18, 23, 42, 37, 8]

## 1.5 实现优先级队列

优先级队列：想实现一个以给定优先级对元素排序的队列，并且每次pop操作都会返回优先级最高的那个元素。

解决方案：


In [None]:
import heapq
class PriorityQueue:
    
    def __init__(self):
        self._queue = []
        self._index = 0
        
    def push(self, item, priority):
        # 队列以元组(-priority,index,item)的形式组成。priority是为了使不同优先级的元素排序，
        # 变量index是为了将由相同优先级的元素以适当的顺序来排列
        heapq.heappush(self._queue, (-priority, self._index, item ))
        self._index += 1
        
    def pop(self):
        return heapq.heappop(self._queue)[-1]

## 1.6 在字典中将键映射到多个值上

问题：想要一个 一键多值字典[multidict]。

解决方案：字典是一种关联容器，每个键都映射到一个单独的值上。如果想让键映射到多个值，需要将这多个值保存到另一个容器如列表或者集合中。如果希望保留元素插入顺序，就用列表，如果希望消除重复元素，并且不在意他们的顺序，就用集合。例如：


In [None]:
d = {
    'a' : [1, 2, 3]
    'c' : [3, 5]
}

e = {
    'b' : [4, 5]
    'a' : [1, 8]
}

为能方便地创建这样的字典，可以利用collections模块中的defaultdict类。`defaultdict`的一个特点是它会自动初始化第一个值，这样只需关注添加元素即可。

In [43]:
from collections import defaultdict

In [47]:
d = defaultdict(list)
d['a'].append(1)
d['a'].append(2)


d_set = defaultdict(set)
d['a'].append(1)
d['a'].append(1)
d['a'].append(2)

`defaultdict`会自动创建字典表项以待稍后访问（即使这些表项在当前字典中还没有找到）。如果不想要这个功能，可以在普通字典上调用`setdefault()`方法取代。如：

存在问题：每次调用时都会创建一个初始值的新实例（例子中的空列表[]）。

In [None]:
d = dict() # A regular dictionary
d.setdefault('a',[]).append(1)

代码对比：

In [None]:
d = dict()
for key, value in pairs:
    if key not in d:
        d[key] = []
    d[key].append(value)

In [None]:
d = defaultdict([])
for key, value in pairs:
    d[key].append(value)

## 1.7 让字典保持有序

问题：想创建一个字典，同时在对字典做迭代或序列化操作时，能控制其中元素的顺序。

解决方案：**要严格控制字典中元素的顺序**，可以使用`collections`模块中的`OrderedDict`类。当对字典做迭代时，会严格按照元素**初始添加的顺序**进行。例如：

用途：想构建一个映射结构以便稍后对其做序列化或编码成另一种格式。例如，想在进行JSON编码时精确控制各字段的顺序，只要首先在`OrderedDict`中构建数据就可以了。

`OrderedDict`内部维护了一个**双向链表**，会根据元素加入的顺序来排列键的位置。第一个新加入的元素被放置在链表的末尾，接下来对已存在的键做重新赋值不会改变键的顺序。

注意：`OrderedDict`的大小是普通字典的2倍多，这是由于它额外创建的链表导致的。因此，如果打算构建一个涉及大量`OrderedDict`实例的数据结构，如从CSV文件中读取1000,000行内容到`OrderedDict`列表中，需要对其带来的好处和额外的内存开销进行权衡。

In [51]:
from collections import OrderedDict

d = OrderedDict()
d['k1'] = 1
d['k2'] = 2
d['k3'] = 3
d['k4'] = 4

for key in d:
    print(d[key])

1
2
3
4


与`dict()`对比：

In [53]:
d = dict()
d['k1'] = 1
d['k2'] = 2
d['k3'] = 3
d['k4'] = 4

for key in d:
    print(d[key])

1
2
3
4


## 1.8 与字典有关的计算问题

问题：我们想在字典上对数据执行各种各样的计算（如求最大、最小值，排序等）。

解决方案：为对字典内容做些有用的计算，通常会利用`zip()`将字典的键和值反过来。

注意：`zip()`创建了一个迭代器，它的内容只能被使用一次。

注意：如果尝试在字典上执行常见的数据操作，将会发现它们只会处理键，不会处理值。

In [61]:
# 假设有一个字典在股票名称和对应价格间做了映射：

prices = {
    'ACME': 45,
    'AAPL': 33,
    'IBM': 22,
    'HPQ': 11
}

In [64]:
# 如何找出价格最低和最高的股票

min_price = min(zip(prices.values(), prices.keys()))
print("min_price is:",min_price)

max_price = max(zip(prices.values(), prices.keys()))
print("max_price is:",max_price)

min_price is: (11, 'HPQ')
max_price is: (45, 'ACME')


In [65]:
# 对数据进行排列

prices_sorted = sorted(zip(prices.values(), prices.keys()))
print("prices after sort:", prices_sorted)

prices after sort: [(11, 'HPQ'), (22, 'IBM'), (33, 'AAPL'), (45, 'ACME')]


In [67]:
# 错误，多次使用 zip() 返回的迭代器

prices_and_names = zip(prices.values(), prices.keys())
print(min(prices_and_names))
print(max(prices_and_names))

(11, 'HPQ')


ValueError: max() arg is an empty sequence

In [73]:
# 只处理键，不处理值
print("min prices:", min(prices))
print("max prices:", max(prices))

# 如果想处理值，可以利用字典的 values() 方法
print("min prices:", min(prices.values()))
print("max prices:", max(prices.values()))

# 如果想知道相应的键与关联的信息，可提供一个key参数传递给 min()和 max()
print(min(prices, key=lambda k: prices[k]))
print(max(prices, key=lambda k: prices[k]))

# 想找到最小值还得再执行一次查找
min_value = prices[min(prices, key=lambda k: prices[k])]
print(min_value)

min prices: AAPL
max prices: IBM
min prices: 11
max prices: 45
HPQ
ACME
11


In [75]:
# 利用 zip()通过将字典的键值对“反转”为值-键对序列来解决问题。

# 当涉及（value, key）对的比较时，如果碰巧多个条目有相同的value值，那么此时key将用来作为判定结果的依据。例如：

prices2 = {"AAA":11, "zzz": 11}
min(zip(prices2.values(), prices2.keys()))
max(zip(prices2.values(), prices2.keys()))

(11, 'zzz')

## 1.9 在两个字典中寻找相同点

问题：想找出两个字典中相等的键或相等的值。

tips：字典的keys()方法会返回key-view对象，其中暴露了所有的键，并支持常见的集合操作，比如求交、差、并集，不必先将其转化为集合。

tips：字典的items()方法返回由(key, value)组成的item-view对象，这个对象支持类似集合操作，可用来完成找出两个字典间有哪些键值对相同的操作。

tips: 字典的values()方法不支持集合操作。因为在字典中键和值是不同的。如果想对值实现特定集合操作，需先将值转化为集合。

解决方案：

In [82]:
# 考虑如下两个字典：

a = {'x': 1, 'y': 2, 'c': 3}
b = {'x': 1, 'b': 3, 'd':3}

# 可通过keys()方法或items()方法执行常见集合操作找出a与b相同的key或value：

print("Key in common:", a.keys() & b.keys())
print("Key in a but not in b:", a.keys() - b.keys())
print("(key,value) in common:", a.items() & b.items())

Key in common: {'x'}
Key in a but not in b: {'c', 'y'}
(key,value) in common: {('x', 1)}


## 1.10 从序列中移出重复项并且保持元素间顺序不变

问题：想去除序列中重复出现的元素，并保持剩下的元素顺序不发生变化。

解决方案：如果序列中的值是可哈希（hashable）的，那可以通过使用集合和生成器解决。如下：

注：如果一个对象是可哈希的，那么在它的生存期内必须是不可变的，而且它需要有一个\_\_hash\_\_()方法。整数、浮点数、字符串、元组都是不可变的。

In [None]:
# 当序列中元素是hashable时，可以进行以下操作。

def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)
            
# 对于不可hash对象，不能进行上述操作， 修改如下。
# key用于指定一个函数来将序列中的元素转换为可哈希类型，这么做是为了检测重复项

def dedupe(items, key=None):
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)

tips: 如果只是想去除重复项，可以通过构建集合的方式，但这种方式不能保证元素间顺序不变，得到的结果会被打乱。

In [83]:
a = [1, 1, 1, 2, 2, 2, 3]
set(a)

{1, 2, 3}