### Python解包

1. 解包前后的变量数目应该是一致的，否则会抛出ValueError
2. Python不支持部分解包，只能用某一变量占位，之后丢弃
3. 前面带\*的变量会把余下的元素解包为一个列表，哪怕是0个变量返回一个空列表

In [2]:
#利用解包实现的递归求和
def sum_(items):
    head, *tail = items
    return head + sum(tail) if tail else head

### collections.deque

In [4]:
#保留有限历史记录
#生成器有利于将搜索过程代码和使用搜索结果的代码解耦
from collections import deque

def search(lines, pattern, history = 5):
    #生成一个定长队列，队列满时，加入新元素会移除旧元素
    previous_lines = deque(maxlen = history)
    for line in lines:
        if pattern in line:
            yield line,previous_lines
        previous_lines.append(line)

### heapq

In [11]:
#N个最大最小，用堆比较好
import heapq

nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]

print(heapq.nlargest(3,nums))
print(heapq.nsmallest(3,nums))

[42, 37, 23]
[-4, 1, 2]


In [12]:
#基于堆实现的优先级队列
class PriorityQueue:
    def __init__(self):
        self._queue = []
        self._index = 0
        
    def push(self, item, priority):
        heapq.heappush(self._queue, (-priority, self._index, item))
        self._index += 1
        
    #index保证，优先级一致时，根据插入顺序输出
    #基于Python的元组比较，从左到右依此比较，如果已经比较出结果，后面的就不进行了
    def pop(self):
        return heapq.heappop(self._queue)[-1]

In [7]:
class Item:
    def __init__(self, name):
        self.name = name
        
    def __repr__(self):
        return 'Item({!r})'.format(self.name)

In [13]:
q = PriorityQueue()
q.push(Item('foo'), 1)
q.push(Item('bar'), 5)
q.push(Item('spam'), 4)
q.push(Item('grok'), 1)

In [16]:
q._queue

[(-5, 1, Item('bar')),
 (-1, 0, Item('foo')),
 (-4, 2, Item('spam')),
 (-1, 3, Item('grok'))]

In [17]:
q.pop()

Item('bar')

### 基于collections.defaultdict构造多值字典

In [18]:
from collections import defaultdict
#指定字典值的类型

In [25]:
d = defaultdict(list)
d['a'].append(1)
d['a'].append(2)
print(d)

defaultdict(<class 'list'>, {'a': [1, 2]})


In [23]:
e = defaultdict(set)
e['a'].add(1)
e['a'].add(2)
print(e)

defaultdict(<class 'set'>, {'a': {1, 2}})


In [28]:
#也可以利用setdefault来实现
f = {}
f.setdefault('a', []).append(1)
f.setdefault('a', []).append(2)
print(f)

{'a': [1, 2]}


### collections.OrderDict

由于内部维护着两个链表，其大小时普通字典的两倍

In [33]:
#利用zip实现字典键值反转
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}

#注意zip返回的是一个只能访问一次的迭代器
prices_vk = zip(prices.values(), prices.keys())
print(dict(prices_vk))

#如果仅需要进行值的比较，直接zip后的结果比较即可。比较时会较结果视作元组

{45.23: 'ACME', 612.78: 'AAPL', 205.55: 'IBM', 37.2: 'HPQ', 10.75: 'FB'}


In [43]:
#获取字典中相同的键，可以直接堆.keys()的结果进行&运算；也支持-求差集
#即进行集合操作
#values()不支持集合操作（可能会出现重复值）
a = {
    'x' : 1,
    'y' : 2,
    'z' : 3
}

b = {
    'w' : 10,
    'x' : 11,
    'y' : 2
}

In [40]:
a.keys() & b.keys()

{'x', 'y'}

In [41]:
a.keys() - b.keys()

{'z'}

In [42]:
a.items() & b.items()

{('y', 2)}

In [51]:
#删除序列相同元素并保持顺序
#直接使用set会使得顺序被打乱
def dedupe(items):
    seen = set()
    for item in items:
        #要求元素必须时可哈希的
        if item not in seen:
            yield item
            seen.add(item)

In [45]:
a = [1, 5, 2, 1, 9, 1, 5, 10]
list(dedupe(a))

[1, 5, 2, 9, 10]

In [49]:
def dedupe(items, key=None):
    seen = set()
    for item in items:
        #针对不可hash的元素的处理，这里的key可以利用lambda表达式来进行一定的处理
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)

In [50]:
a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]
list(dedupe(a, key=lambda d: (d['x'],d['y'])))

[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]

In [58]:
#slice 创建一个切片
a = slice(1,3)
#通过给切片一个更好理解的名字提升代码的可读性
b = [1,2,3,4,5]
b[a]

[2, 3]

In [64]:
a = slice(5, 50, 2)

In [67]:
s = 'HelloWorld'
#直接输出 start stop step,解包的结果则时slice的所有的下标，会根据给出序列的长度进行一定的映射
#使得适合xue'li'e'de
print(a.indices(len(s)))
for i in range(*a.indices(len(s))):
    print(s[i],i)

(5, 10, 2)
W 5
r 7
d 9


In [1]:
from collections import Counter

### collections.Counter

#### 可以接受任意的可哈希元素组成的序列对象
1. most_common()
2. update(),向一个已有的Counter中引入新的数据
3. Counter之间可以进行集合运算

### operator的itemgetter函数

#### 获取某个key对应的值，可以同时获取多个key；也可以用lambda来实现，不过itemgetter要快一些

In [2]:
rows = [
    {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
    {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
    {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
    {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
]

In [3]:
from operator import itemgetter
rows_by_fname = sorted(rows, key=itemgetter('fname'))
rows_by_uid = sorted(rows, key=itemgetter('uid'))
print(rows_by_fname)
print(rows_by_uid)

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]
[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]


### itertools.groupby()

* 扫描整个序列并且查找连续相同值,所以使用的时候要先排序

In [8]:
rows = [
    {'address': '5412 N CLARK', 'date': '07/01/2012'},
    {'address': '5148 N CLARK', 'date': '07/04/2012'},
    {'address': '5800 E 58TH', 'date': '07/02/2012'},
    {'address': '2122 N CLARK', 'date': '07/03/2012'},
    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
    {'address': '1060 W ADDISON', 'date': '07/02/2012'},
    {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]

In [5]:
from operator import itemgetter
from itertools import groupby

# Sort by the desired field first
rows.sort(key=itemgetter('date'))
# Iterate in groups
#它会返回一个值和一个迭代器对象， 这个迭代器对象可以生成元素值全部等于上面那个值的组中所有对象。
for date, items in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in items:
        print(' ', i)

07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
  {'address': '5800 E 58TH', 'date': '07/02/2012'}
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
  {'address': '5148 N CLARK', 'date': '07/04/2012'}
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


In [7]:
dict(groupby(rows, key=itemgetter('date')))

{'07/01/2012': <itertools._grouper at 0x233e4dafd30>,
 '07/02/2012': <itertools._grouper at 0x233e4dafef0>,
 '07/03/2012': <itertools._grouper at 0x233e4daff60>,
 '07/04/2012': <itertools._grouper at 0x233e4daf7b8>}

* 对于列表表达式，如果把方括号换成一般的括号，会生成一个对应的生成器

### itertools.compress()

它以一个 iterable 对象和一个相对应的 Boolean 选择器序列作为输入参数。 然后输出 iterable 对象中对应选择器为 True 的元素。

In [9]:
addresses = [
    '5412 N CLARK',
    '5148 N CLARK',
    '5800 E 58TH',
    '2122 N CLARK',
    '5645 N RAVENSWOOD',
    '1060 W ADDISON',
    '4801 N BROADWAY',
    '1039 W GRANVILLE',
]
counts = [ 0, 3, 10, 4, 1, 7, 6, 1]

In [13]:
from itertools import compress
more5 = [n > 5 for n in counts]
print(more5)
list(compress(addresses, more5))

[False, False, True, False, False, True, True, False]


['5800 E 58TH', '1060 W ADDISON', '4801 N BROADWAY']

### collections.ChainMap 实现多个字典或映射的合并

* 只是逻辑上的合并
* 相较于直接update实现真正的合并，这样做可式使得当原始的对象发生改变时能直接反映在合并结果中

In [15]:
from collections import ChainMap

In [16]:
a = {'x':1,'z':3}
b = {'z':2,'y':4}

In [17]:
c = ChainMap(a,b)
print(c)

ChainMap({'x': 1, 'z': 3}, {'z': 2, 'y': 4})


In [19]:
#先在第一个数组中查找，找不到再去第二个里面查找
c['z']

3