[TOC]

## chapter1-数据结构和算法


### 1.1 将序列分解为单独的变量

In [3]:
a, b = ["a_variable", "n_re"]
a

'a_variable'

In [5]:
b

'n_re'

In [None]:
### 1.2 解压可迭代对象赋值给多个变量

In [6]:
record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212')
name, email, *phone_numbers = record

In [7]:
name

'Dave'

In [8]:
email, phone_numbers

('dave@example.com', ['773-555-1212', '847-555-1212'])

可以使用`_`，来丢弃不需要的元素

In [10]:
record = ('ACME', 50, 123.45, (12, 18, 2012))
name, *_, (*_, year) = record
name

'ACME'

In [11]:
year

2012

In [16]:
name, *_, (_, _, year) = record
year

2012

### 1.3 保留最后N个元素

利用`collections.deque`可以实现一个队列，从队列两端进行插入和删除的复杂度都是`O(1)`.而使用列表，在列表的开头插入或删除元素的时间复杂度为`O(N)`.


In [22]:
from collections import deque
d = deque(maxlen=3)

In [23]:
d.append(1)
d.append(2)
d.append(3)

In [24]:
d

deque([1, 2, 3])

In [25]:
d

deque([1, 2, 3])

In [26]:
d.append(4)
d

deque([2, 3, 4])

### 1.4 查找最大或最小的N个元素

heapq模块有两个函数 `nlargest()`和`nsmallest`可以解决这个问题。底层实现中，数据进行了堆排序后放入一个列表中。

In [1]:
import heapq
nums = [1,8,2,23,7,-4,-18,23,42,37,2]
heapq.nlargest(3, nums)

[42, 37, 23]

In [3]:
heapq.nsmallest(3, nums)

[-18, -4, 1]

In [4]:
portfolio = [
    {'name': 'IBM', 'shares': 100, 'price': 91.1},
    {'name': 'AAPL', 'shares': 50, 'price': 543.22},
    {'name': 'FB', 'shares': 200, 'price': 21.09},
    {'name': 'HPQ', 'shares': 35, 'price': 31.75},
    {'name': 'YHOO', 'shares': 45, 'price': 16.35},
    {'name': 'ACME', 'shares': 75, 'price': 115.65}
]

cheap = heapq.nsmallest(3, portfolio, key=lambda s: s['price'])
expensive = heapq.nlargest(3, portfolio, key=lambda s: s['price'])
cheap

[{'name': 'YHOO', 'shares': 45, 'price': 16.35},
 {'name': 'FB', 'shares': 200, 'price': 21.09},
 {'name': 'HPQ', 'shares': 35, 'price': 31.75}]

In [5]:
expensive

[{'name': 'AAPL', 'shares': 50, 'price': 543.22},
 {'name': 'ACME', 'shares': 75, 'price': 115.65},
 {'name': 'IBM', 'shares': 100, 'price': 91.1}]

In [8]:
# 将一个list转化为heap

heap = list(nums)
heapq.heapify(heap)
heap

[-18, 2, -4, 23, 7, 1, 2, 23, 42, 37, 8]

In [9]:
heapq.heappop(heap)

-18

In [10]:
heapq.heappop(heap)

-4

In [11]:
heapq.heappop(heap)

1

In [12]:
heap

[2, 2, 8, 23, 7, 42, 37, 23]

当要查找的元素个数相对比较小的时候，函数 `nlargest()` 和 `nsmallest()` 是很合适的。 如果你仅仅想查找唯一的最小或最大`（N=1）`的元素的话，那么使用 `min()` 和 `max()` 函数会更快些。 类似的，如果 N 的大小和集合大小接近的时候，通常先排序这个集合然后再使用切片操作会更快点 （` sorted(items)[:N]` 或者是 `sorted(items)[-N:]` ）。 需要在正确场合使用函数 `nlargest()` 和 `nsmallest()` 才能发挥它们的优势 （如果 `N` 快接近集合大小了，那么使用排序操作会更好些）

### 1.5 实现一个优先级队列



In [13]:
import heapq

class PriorityQueue:
    def __init__(self):
        self._queue = []
        self._index = 0

    def push(self, item, priority):
        heapq.heappush(self._queue, (-priority, self._index, item))
        self._index += 1

    def pop(self):
        return heapq.heappop(self._queue)[-1]

In [14]:
class Item:
    def __init__(self, name):
        self.name = name

    def __repr__(self):
        return 'Item({!r})'.format(self.name)

In [15]:
q = PriorityQueue()
q.push(Item('foo'), 1)
q.push(Item('bar'), 5)
q.push(Item('spam'), 4)
q.push(Item('grok'), 1)
q.pop()

Item('bar')

In [16]:
q.pop()

Item('spam')

In [17]:
q.pop()

Item('foo')

In [18]:
q.pop()

Item('grok')

index变量的作用的保证同等优先级元素的正确顺序。通过保存一个不断增加的`index`下标变量，可以确保元素按照他们插入的顺序排序。

In [21]:
a = Item('foo')
b = Item('brok')
a < b

TypeError: '<' not supported between instances of 'Item' and 'Item'

In [24]:
a = (1, Item('foo'))
b = (1, Item('brok'))
a < b


TypeError: '<' not supported between instances of 'Item' and 'Item'

In [25]:
c = (5, Item('brok'))
a < c

True

In [26]:
a = (1, 0, Item('foo'))
b = (5, 1, Item('bar'))
c = (1, 2, Item('grok'))
a<b, a<c

(True, True)

### 1.6 字典中的键映射多个值

怎么实现一个key对应多个值的字典.

In [28]:
d = {
    'a':[1,3,4],
    'b':[5,6,7]
}

# 集合（会去重)
e = {
    'a':{1,2,4,2},
    'b':{3,3,4,1}
}

d,e

({'a': [1, 3, 4], 'b': [5, 6, 7]}, {'a': {1, 2, 4}, 'b': {1, 3, 4}})

In [29]:
from collections import defaultdict
d = defaultdict(list)
d

defaultdict(list, {})

In [30]:
d['a'].append(1)
d['a'].append(2)
d['b'].append(4)
d

defaultdict(list, {'a': [1, 2], 'b': [4]})

In [31]:
d = defaultdict(set)
d

defaultdict(set, {})

In [32]:
d['a'].add(1)
d['a'].add(2)
d['b'].add(4)
d

defaultdict(set, {'a': {1, 2}, 'b': {4}})

创建一个多值映射字典是很简单。但是如果自己实现，对于值的初始化可能有点麻烦，需要:

```python
d = {}
for key, value in pairs:
    if key not in d:
        d[key] = []
    d[key].append(value)
```

但使用`defaultdict`则比较容易

In [34]:
d = defaultdict(list)
for key, value in [("a", 1), ("a", 2), ("c", 4)]:
    d[key].append(value)

In [35]:
d

defaultdict(list, {'a': [1, 2], 'c': [4]})

### 1.7 字典排序

利用`OrderedDict`来保证字典中元素的顺序

In [44]:
from collections import OrderedDict

d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4
d

OrderedDict([('foo', 1), ('bar', 2), ('spam', 3), ('grok', 4)])

In [45]:
for key in d:
    print(key, d[key])

foo 1
bar 2
spam 3
grok 4


In [46]:
# 比较适合，后续需要编码，或者序列化的场景。
# 比如需要精确控制以json编码后字段的顺序

import json
json.dumps(d)

'{"foo": 1, "bar": 2, "spam": 3, "grok": 4}'

In [53]:
d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4
d

OrderedDict([('foo', 1), ('bar', 2), ('spam', 3), ('grok', 4)])

In [63]:
sorted(d.items(), key=lambda x:x[0][2])

[('spam', 3), ('foo', 1), ('grok', 4), ('bar', 2)]

In [64]:
d2 = OrderedDict(sorted(d.items(), key=lambda x:x[0][2]))
d2

OrderedDict([('spam', 3), ('foo', 1), ('grok', 4), ('bar', 2)])

In [65]:
json.dumps(d2)

'{"spam": 3, "foo": 1, "grok": 4, "bar": 2}'

OrderedDict 内部维护着一个根据键插入顺序排序的双向链表。每次当一个新的元素插入进来的时候， 它会被放到链表的尾部。对于一个已经存在的键的重复赋值不会改变键的顺序。

需要注意的是，一个 OrderedDict 的大小是一个普通字典的两倍，因为它内部维护着另外一个链表。 所以如果你要构建一个需要大量 OrderedDict 实例的数据结构的时候（比如读取 100,000 行 CSV 数据到一个 OrderedDict 列表中去）， 那么你就得仔细权衡一下是否使用 OrderedDict 带来的好处要大过额外内存消耗的影响。

### 1.8 字典的运算

In [67]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}

min_price = min(zip(prices.values(), prices.keys()))
min_price

(10.75, 'FB')

In [68]:
max_price = max(zip(prices.values(), prices.keys()))
max_price

(612.78, 'AAPL')

In [69]:
prices_sorted = sorted(zip(prices.values(), prices.keys()))
prices_sorted

[(10.75, 'FB'),
 (37.2, 'HPQ'),
 (45.23, 'ACME'),
 (205.55, 'IBM'),
 (612.78, 'AAPL')]

In [70]:
# zip函数只能访问一次的迭代器
prices_and_names = zip(prices.values(), prices.keys())
print(min(prices_and_names)) # OK
print(max(prices_and_names)) # ValueError: max() arg is an empty sequence

(10.75, 'FB')


ValueError: max() arg is an empty sequence

In [71]:
min(prices)

'AAPL'

在字典上的数学运算，仅仅作用于键，不是值。

但当多个key拥有相同的值时，会根据key返回唯一一个结果.

In [73]:
prices = { 'AAA' : 45.23, 'ZZZ': 45.23 }
min(zip(prices.values(), prices.keys()))


(45.23, 'AAA')