# 第一章：数据结构和算法

Python提供了大量的内置数据结构，包括列表，集合已经字典。大多数情况下使用这些数据结构是很简单的。但是，我们也会经常碰到诸多查询，排序和过滤等待这些普通存在的问题。因此，这一章的目的就是讨论这些比较常见的问题和算法。另外，我们也会给出在集合模块 collections 当中操作这些数据结构的方法。

## 1、解压序列赋值给多个变量

**问题**

    现在有一个包括 N 个元素的元组或者序列，怎样将它里面的值解压后同时复制给 N 个变量？
    
**解决方案**

    任何的序列（或者是可迭代对象）可以通过一个简单的赋值语句解压并赋值给多个变量。唯一的前提就是变量的数据必须跟序列元素的数量是一样的。
    
    代码示例：

In [33]:
p = (4, 5)
x, y = p
print(x, y)

4 5


    如果变量个数和序列元素的个数不匹配，会产生一个异常。

In [34]:
>>> p =(4, 5)
>>> x, y, z = p

ValueError: not enough values to unpack (expected 3, got 2)

**讨论**
    
    实际上，这种解压复制可以用在任何可迭代对象上面，而不仅仅是列表或者元组。包括字符串，文件对象，迭代器和生成器。
    
    代码示例：

In [36]:
>>> s = 'Hello'
>>> a, b, c, d, e = s
>>> a

'H'

    有时候，你可能只想解压一部分，丢弃其他的值。可以使用任意变量名去占位，到时候丢弃这些变量就行了。

In [37]:
>>> data = ['ACME', 50, 91.1, (2012, 12, 21) ]
>>> _, shares, price, _ = data
>>> shares

50

## 2、解压可迭代对象赋值给多个变量

**问题**

    如果一个可迭代对象的元素个数超过变量个数时，会抛出 ValueError。那么怎么从这个可迭代对象中解压出 N 个元素出来？
    
**解决方案**

    Python 的星号表达式可以用来解决这个问题。比如，你在学习一门课程，在学期末的时候，你想统计下家庭作业的平均成绩，但是排除掉第一个和最后一个分数。如果只有四个分数，你可能就直接去简单的手动赋值，但如果有 24 个呢？这时候星号表达式就派上用场了：

In [38]:
def drop_first_last(grades):
    first, *middle, last = grades
    return avg(middle)

    另外一种情况，假设你现在有一些用户的记录列表，每条记录包含一个名字、邮件，接着就是不确定数量的电话号码。你可以像下面这样分解这些记录：

In [40]:
>>> record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212')
>>> name, email, *phone_numbers = record
>>> phone_numbers

['773-555-1212', '847-555-1212']

    值得注意的是上面解压出的 phone_numbers 变量永远都是列表类型，不管解压的电话号码数量是多少（包括 0 个）。所以，任何使用到 phone_numbers 变量的代码就不需要做多余的类型检查去确认它是否是列表类型了

In [1]:
from collections import deque

def search(lines, pattern, history=5): 
    previous_lines = deque(maxlen=history) 
    for line in lines: 
        if pattern in line: 
            yield line, previous_lines 
        previous_lines.append(line)
        
# Example use on a file 
if __name__ == '__main__': 
    with open(r'./somefile.txt') as f: 
        for line, prevlines in search(f, 'python', 2): 
            for pline in prevlines: 
                print(pline, end='')
                print(line, end='') 
                print('-' * 20)

1 python 11
2 python 22
--------------------
1 python 11
3 python 33
--------------------
2 python 22
3 python 33
--------------------
2 python 22
4 python 44
--------------------
3 python 33
4 python 44
--------------------
3 python 33
5 python 55
--------------------
4 python 44
5 python 55
--------------------


In [2]:
>>> q = deque() 
>>> q.append(1) 
>>> q.append(2) 
>>> q.append(3) 

>>> q

deque([1, 2, 3])

In [3]:
>>> q.appendleft(4) 
>>> q

deque([4, 1, 2, 3])

In [4]:
>>> q.pop() 
>>> q 

deque([4, 1, 2])

## 查询最大或最小的N个元素

heapq 模块有两个函数：nlargest() 和 nsmallest() 可以完美解决这个问题

In [5]:
import heapq 
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2] 
print(heapq.nlargest(3, nums)) # Prints [42, 37, 23] 
print(heapq.nsmallest(3, nums)) # Prints [-4, 1, 2]

[42, 37, 23]
[-4, 1, 2]


In [6]:
portfolio = [ {'name': 'IBM', 'shares': 100, 'price': 91.1}, 
             {'name': 'AAPL', 'shares': 50, 'price': 543.22}, 
             {'name': 'FB', 'shares': 200, 'price': 21.09}, 
             {'name': 'HPQ', 'shares': 35, 'price': 31.75}, 
             {'name': 'YHOO', 'shares': 45, 'price': 16.35}, 
             {'name': 'ACME', 'shares': 75, 'price': 115.65}
]

cheap = heapq.nsmallest(3, portfolio, key=lambda s:s['price'])
expensive = heapq.nlargest(3, portfolio, key=lambda s:s['price'])

print(cheap)
print(expensive)

[{'name': 'YHOO', 'shares': 45, 'price': 16.35}, {'name': 'FB', 'shares': 200, 'price': 21.09}, {'name': 'HPQ', 'shares': 35, 'price': 31.75}]
[{'name': 'AAPL', 'shares': 50, 'price': 543.22}, {'name': 'ACME', 'shares': 75, 'price': 115.65}, {'name': 'IBM', 'shares': 100, 'price': 91.1}]


如果你想在一个集合中查找最小或最大的 N 个元素，并且 N 小于集合元素数量， 那么这些函数提供了很好的性能。因为在底层实现里面，首先会先将集合数据进行堆排 序后放入一个列表中(https://docs.python.org/zh-cn/3/library/heapq.html)

In [7]:
>>> nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2] 
>>> import heapq 
>>> heap = list(nums) 
>>> heapq.heapify(heap) 
(https://docs.python.org/zh-cn/3/library/heapq.html)>>> heap

[-4, 2, 1, 23, 7, 2, 18, 23, 42, 37, 8]

并且剩余的元素可以很
容易的通过调用 heapq.heappop() 方法得到，该方法会先将第一个元素弹出来

In [8]:
>>> heapq.heappop(heap) 

-4

当要查找的元素**个数相对比较小**的时候，函数 nlargest() 和 nsmallest() 是很
合适的。

如果你仅仅想查找**唯一的**最小或最大（N=1）的元素的话，那么使用 **min()和max()函数**会更快些。

类似的，如果 **N 的大小和集合大小接近**的时候，通常先排序这个 集合然后再使用切片操作会更快点（sorted(items)\[:N] 或者是 sorted(items)[-N:] ）

需要在正确场合使用函数 nlargest() 和 nsmallest() 才能发挥它们的优势

## 实现一个优先级队列
怎样实现一个按优先级排序的队列？并且在这个队列上面每次 pop 操作总是返回 优先级最高的那个元素

In [11]:
import heapq

class PriorityQueue:
    def __init__(self):
        self._queue = []
        self._index = 0 # _index的引入是为了排序稳定性
    
    def push(self, item, priority):
        heapq.heappush(self._queue, (-priority, self._index, item))
        self._index += 1
    
    def pop(self):
        return heapq.heappop(self._queue)[-1]
    
class Item:
    def __init__(self, name):
        self.name = name
    def __repr__(self):
        return 'Item({!r})'.format(self.name)

排序稳定性：https://docs.python.org/zh-cn/3/library/heapq.html#priority-queue-implementation-notes

push 和 pop 操作时间复杂度为 O(log N)，其中 N 是堆的大小，因此就算是 N 很大的时候它们运行 速度也依旧很快

在上面代码中，队列包含了一个 (-priority, index, item) 的元组。优先级为负
数的目的是使得元素按照优先级从高到低排序。这个跟普通的按优先级从低到高排序 的堆排序恰巧相反。

index 变量的作用是保证同等优先级元素的正确排序。通过保存一个不断增加的
index 下标变量，可以确保元素按照它们插入的顺序排序。而且，index 变量也在相同 优先级元素比较的时候起到重要作用

In [12]:
>>> q = PriorityQueue()
>>> q.push(Item('foo'), 1)
>>> q.push(Item('bar'), 5)
>>> q.push(Item('spam'), 4)
>>> q.push(Item('grok'), 1)
>>> q.pop()

Item('bar')

## 字典的键映射多个值
怎样实现一个键对应多个值的字典（也叫 multidict）？

一个字典就是一个键对应一个单值的映射。如果你想要一个键映射多个值，那么你就需要将这多个值放到另外的容器中，比如列表或者集合里面。

你可以很方便的使用 collections 模块中的 defaultdict 来构造这样的字典

In [14]:
from collections import defaultdict

d = defaultdict(list)
d['a'].append(1)
d['a'].append(2)
d['a'].append(4)

d = defaultdict(set)
d['a'].add(1)
d['a'].add(2)
d['a'].add(4)


## 字典排序

可以使用 colletions 模块中的OrderedDict类。在迭代操作的时候会保持元素插入时的顺序，示例如下

In [17]:
from collections import OrderedDict

d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4

for key in d:
    print(key, d[key])

foo 1
bar 2
spam 3
grok 4


当你想要构建一个将来需要序列化或编码成其他格式的映射的时候，OrderedDict
是非常有用的。比如，你想精确控制以 JSON 编码后字段的顺序，你可以先使用 OrderedDict 来构建这样的数据

In [18]:
>>> import json
>>> json.dumps(d)


'{"foo": 1, "bar": 2, "spam": 3, "grok": 4}'

## 字典的运算

怎么在字典中执行一些计算操作（比如求最小值、最大值、排序等待）

为了对字典值执行计算操作，通常需要使用 zip（） 函数先将键和值反转过来。比如，下面是查询最小和最大股票价格和股票值的代码：

In [None]:
prices = { 
    'ACME': 45.23, 
    'AAPL': 612.78, 
    'IBM': 205.55, 
    'HPQ': 37.20, 
    'FB': 10.75
}

In [None]:
min_price = min(zip(prices.values(), prices.keys()))
print(min_price)

max_price = max(zip(prices.values(), prices.keys()))
print(max_price)

In [None]:
# 类似的，可以使用 zip() 和 sorted() 函数来排列字典数据：
prices_sorted = sorted(zip(prices.values(), prices.keys()))
print(prices_sorted)

执行这些计算的时候，需要注意的是 zip() 函数创建的是一个只能访问一次的迭 代器。比如，下面的代码就会产生错误

In [None]:
prices_and_names = zip(prices.values(), prices.keys())
print(min(prices_and_names)) # 正常结果
print(min(prices_and_names)) # ValueError: max() arg is an empty sequence

### 讨论

In [29]:
# 在字典上执行普通的数学运算，你会发现它们仅仅作用于键，而不是值
print(min(prices))

# 你想要在字典的值集合上执行这些计算，尝试使用字典的 values()方法
print(min(prices.values()))

AAPL
10.75


In [32]:
>>> prices['FB']

10.75

如果想要知道对应的键的信息，比如那种股票的价格是最低的？

你可以在 min() 和 max()函数中提供 key 函数参数来获取最小值或最大值对应的键的信息。

In [36]:
print(min(prices, key=lambda k: prices[k]))
print(max(prices, key=lambda k: prices[k]))

FB
AAPL


如果你还想要得到最小值，你又得执行一次查找操作。

In [38]:
min_value = prices[min(prices, key = lambda k: prices[k])]
print(min_value)

10.75


前面的 zip() 函数方案通过将字典”反转”为 (值，键) 元组序列来解决了上述问
题。当比较两个元组的时候，值会先进行比较，然后才是键。这样的话你就能通过一条 简单的语句就能很轻松的实现在字典上的求最值和排序操作了。

需要注意的是在计算操作中使用到了 (值，键) 对。当多个实体拥有相同的值的时
候，键会决定返回结果。比如，在执行 min() 和 max() 操作的时候，如果恰巧最小或 最大值有重复的，那么拥有最小或最大键的实体会返回

In [39]:
prices = {'AAA':45, 'ZZZ':45}

min_price = min(zip(prices.values(), prices.keys()))
print(min_price)

max_price = max(zip(prices.values(), prices.keys()))
print(max_price)

(45, 'AAA')
(45, 'ZZZ')


## 查找字典的相同点

如何在两个字典中寻找相同点（比如相同的键和相同的值等）


In [40]:
a = { 'x' : 1, 'y' : 2, 'z' : 3
}
b = { 'w' : 10, 'x' : 11, 'y' : 2
}

为了寻找两个字典的相同点，可以简单的在两字典的 keys() 或者 items() 方法返 回结果上执行集合操作。比如：


In [44]:
# Find keys in common
print(a.keys() & b.keys())

# Find keys in a that are not in b
print(a.keys() - b.keys())

# Find (key,value) pairs in common
print(a.items() & b.items())

{'x', 'y'}
{'z'}
{('y', 2)}


这些操作也可以用于修改或者过滤字典元素。比如，假如你想以现有字典构造一个排除几个指定键的新字典。下面利用字典推导来这样的需求：

In [46]:
# Make a new dictionary with certain keys removed
c = {key:a[key] for key in a.keys() - {'z', 'w'}}
print(c)

{'x': 1, 'y': 2}


**讨论**

    一个字典就是一个键集合与值集合的值集合的映射关系。字典的 keys() 方法返回一个展现键集合的键视图对象。
    
    键试图的一个很少被了解的特性就是他们也支持集合操作，比如集合并、交、差运算。所以，如果你想对集合的键执行一些普通的集合操作，可以直接使用键视图对象而不用将它们转换为一个 set。
    字典的 items() 方法返回一个包含 (键，值) 对的元素视图对象。这个对象同样也支持集合操作，并且可以被用来查找两个字典有哪些相同的键值对。
    
    尽管字典的 values() 方法也是类似，但是它并不支持这里介绍的集合操作。某种程度上是因为值视图不能保证所有的值互不相同，这样会导致某些集合操作会出现问题。不过，如果你硬要在值上面执行这些集合操作的话，你可以先将值集合转换成 set，然后再执行集合运算就行了

## 删除序列相同元素并保持混徐

**问题**

    怎样在一个序列上面保持元素顺序的同时消除重复的值？

**解决方案**

    如果序列上的值都是 hashable 类型，那么可以简单的利用集合或者生成器来解决这个问题。比如：


In [47]:
def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)

a = [1, 4, 6, 2, 1, 4, 3]
print(list(dedupe(a)))

[1, 4, 6, 2, 3]


    这个方法只有在序列中元素是 hashable 的时候才管用。如果是不可哈希（比如dict）类型的序列，需要改动一下代码。

In [52]:
def dedupe(items, key=None):
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)

    这里的 key 参数指定了一个函数，经序列元素转换成 hashable 类型。下面是它的的用法示例：

In [59]:
a = [{'x':1, 'y':2},{'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]

n1 = list(dedupe(a, key=lambda d: (d['x'],d['y'])))
print('n1:', n1)

n2 = list(dedupe(a, key=lambda d: d['x']))
print('n2:', n2)

n1: [{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]
n2: [{'x': 1, 'y': 2}, {'x': 2, 'y': 4}]


    如果你想基于单个字段、属性或者某个更大的数据结构来消除重复元素，第二种方案同样可以胜任
    
    如果你仅仅就是想消除重复元素，通常可以简单的构造一个集合。比如

In [60]:
>>> a=[1, 5, 2, 1, 9, 1, 5, 10] 
>>> set(a) 

{1, 2, 5, 9, 10}

    但是这种方法不能维护元素的顺序，生成的结果中的元素位置被打乱了。而前面的方法可以避免。
    
    如果想要读取一个文件，消除重复行，可以这样：

In [None]:
with open(sonmefile, 'r') as f:
    for line in dequpu(f):
        ...

## 命令切片

**问题**

    你的程序出现一大堆已无法知识的硬编码切片下标，清理下代码。
    
**解决方案**

    假定你有一段代码要从一个记录字符串中几个固定位置提取出特定的数据字段（比如文件或类似格式）：

In [62]:
###### 0123456789012345678901234567890123456789012345678901234567890' 

record = '....................100 .......513.25 ..........' 
cost = int(record[20:23]) * float(record[31:37])

print(cost)

51325.0


    换个写法，内置的 slice() 函数创建了一个切片对象。可读性更高

In [63]:
SHARES = slice(20, 23) 
PRICE = slice(31, 37) 
cost = int(record[SHARES]) * float(record[PRICE])

## 序列中出现次数最多的元素

**问题**

    如何找出一个序列中出现次数最多的元素呢？

**解决方案**

    collections.Counter 类是专门为这类问题设计的。

In [64]:
words = [ 'look', 'into', 'my', 'eyes', 'look', 
         'into', 'my', 'eyes', 'the', 'eyes', 'the', 
         'eyes', 'the', 'eyes', 'not', 'around', 
         'the', 'eyes', "don't", 'look', 'around', 'the', 
         'eyes', 'look', 'into', 'my', 'eyes', "you're", 'under'
]

In [65]:
from collections import Counter
word_counts = Counter(words)
# 出现频率最高的 3 个单词
top_three = word_counts.most_common(3)
print(top_three)

[('eyes', 8), ('the', 5), ('look', 4)]


**讨论**

    作为输入, Counter 对象可以接受任意的可哈希（hashable）元素构成的序列对象。在底层实现上，一个Counter对象就是一个字典，将元素映射到它出现的次数上。比如：
   

In [66]:
>>> word_counts['not']

1

    如果想手动增加技术，可以简单的用加法：

In [68]:
>>> morewords = ['why', 'are', 'you', 'not', 'looking', 'in', 'my', 'eyes']
>>> for word in morewords:
    word_counts[word] += 1
>>> word_counts['eyes']

9

    或者使用 update() 方法：
    

In [71]:
>>> word_counts.update(morewords)
>>> word_counts['eyes']

11

    Counter 实例一个 鲜为人知的特性是他们可以很容易的跟数学运算操作相解化。比如：

In [73]:
a = Counter(words)
b = Counter(morewords)
c = a + b
d = a - b

print('a: ', a)
print('b: ', b)
print('c: ', c)
print('d: ', d)

a:  Counter({'eyes': 8, 'the': 5, 'look': 4, 'into': 3, 'my': 3, 'around': 2, 'not': 1, "don't": 1, "you're": 1, 'under': 1})
b:  Counter({'why': 1, 'are': 1, 'you': 1, 'not': 1, 'looking': 1, 'in': 1, 'my': 1, 'eyes': 1})
c:  Counter({'eyes': 9, 'the': 5, 'look': 4, 'my': 4, 'into': 3, 'not': 2, 'around': 2, "don't": 1, "you're": 1, 'under': 1, 'why': 1, 'are': 1, 'you': 1, 'looking': 1, 'in': 1})
d:  Counter({'eyes': 7, 'the': 5, 'look': 4, 'into': 3, 'my': 2, 'around': 2, "don't": 1, "you're": 1, 'under': 1})


Counter 对象在几乎所有需要制表或者计数数据的场合是非常有用的工具

## 通过某个关键字排序一个字典列表

**问题**

    你有一个字典列表，你想更具某个或某几个字典字段来排序这个列表。
    
**解决方案**

    通过使用 operator 模块的 itemgetter 函数。

In [6]:
rows = [ {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, 
        {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, 
        {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, 
        {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
]

from operator import itemgetter

rows_by_fname = sorted(rows, key=itemgetter('fname'))
rows_by_uid = sorted(rows, key=itemgetter('uid'))

print(rows_by_fname)
print(rows_by_uid)

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]
[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]


    itemgetter() 函数也支持多个keys。

In [7]:
rows_by_lfname = sorted(rows, key=itemgetter('lname', 'fname'))
print(rows_by_lfname)

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]


**讨论**

    在上面例子中，rows被传递给接受一个关键字参数的 sorted() 内置函数。这个参数是 callable 类型，并且从rows中接受一个单一元素，然后返回被用来排序的值。itemgetter() 函数就是负责创建这个 callable 对象的。
    
    operator.itemgetter() 函数有一个被 rows 中的记录用来查询值的索引参数。可以是一个字典键名称，一个整型值或者任何能够传入一个对象的 __getitem__() 方法的值。如果你传入多个索引参数给itemgetter()，它生成的 callable 对象会返回一个包含素有元素值的元组，并且 sorted() 函数会根据这个元组中元素顺序去排序。
    
    itemgetter(0 有时候也可以用 lambda 表达式代替，比如：


In [10]:
rows_by_fname = sorted(rows, key=lambda r:r['fname'])
rows_by_lfname = sorted(rows, key=lambda r:(r['lname'], r['fname']))
print(rows_by_fname)
print(rows_by_lfname)

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]
[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]


## 排序不支持原生比较的对象

**问题**

    你想排序类型相同的对象，但是他们不支持原生的比较操作

**解决方案**

    内置的 sorted() 函数有一个关键字参数 key，可以传入一个 callable 对象给它，这个 callable 对象对每个传入的对象返回一个值，这个值会被 sorted 用来排序这些对象。比如，如果你在应用程序中有一个 User 实例序列，并且你希望通过他们的 user_id 属性进行排序，你可以提供一个 User 实例作为输入并输出对象 user_id 值的 callable 对象。比如：

In [13]:
class User:
    def __init__(self, user_id):
        self.user_id = user_id
        
    def __repr__(self):
        return 'User({})'.format(self.user_id)
    
def sort_notcompare():
    users = [User(23), User(3), User(99)]
    print(users)
    print(sorted(users, key=lambda x: x.user_id))

sort_notcompare()

[User(23), User(3), User(99)]
[User(3), User(23), User(99)]


    另一种方式是使用 operator.attrgetter() 来代替 lambda 函数：

In [15]:
>>> users = [User(23), User(3), User(99)]
>>> from operator import attrgetter
>>> sorted(users, key=attrgetter('user_id'))

[User(3), User(23), User(99)]

**讨论**

    选择使用 lambda 函数或者是 attrgetter() 可能取决于个人喜好。但是 attrgetter() 函数通常会运行的快点，并且还能同时允许多个字段进行比较。这个跟 operator.itemgeter() 函数作用与字典类型很类似。例如，如果 User 实例还有一个 first_name 和 last_name 属性，那么可以像下面这样排序：

In [None]:
by_name = sorted(users, key=attrgetter('first_name', 'last_name'))

    同样，这一小节的技术同样适用于像 min() 和 max() 之类的函数。比如：

In [17]:
>>> min(users, key=attrgetter('user_id'))

User(3)

## 通过某个字段将记录分组

**问题**

    你有一个字典或者实例的序列，然后你想根据某个特定的字段比如 data 来分组迭代访问。
    
**解决方案**

    itertools.groupby() 函数对于这样的数据分组曹祖非常实用。为了演示，假设你已经有了下列的字典列表：

In [25]:
rows = [ 
    {'address': '5412 N CLARK', 'date': '07/01/2012'}, 
    {'address': '5148 N CLARK', 'date': '07/04/2012'}, 
    {'address': '5800 E 58TH', 'date': '07/02/2012'}, 
    {'address': '2122 N CLARK', 'date': '07/03/2012'}, 
    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}, 
    {'address': '1060 W ADDISON', 'date': '07/02/2012'}, 
    {'address': '4801 N BROADWAY', 'date': '07/01/2012'}, 
    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
]

    现在假设你想在按 date 分组后的数据块上进行迭代。为了这样做，你首先需要按照指定的字段（这里就是 date）排序，然后调用 itertools.groupby() 函数：

In [26]:
from operator import itemgetter
from itertools import groupby

#rows.sort(key=itemgetter('date'))

for date, items in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in items:
        print(' ', i)

07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
07/04/2012
  {'address': '5148 N CLARK', 'date': '07/04/2012'}
07/02/2012
  {'address': '5800 E 58TH', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/02/2012
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/01/2012
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/04/2012
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


**讨论**

    groupby()函数扫描整个序列并且查找连续相同值（或者根据指定 key 函数返回值相同）的元素序列。在每个迭代的时候，它会返回一个值和一个迭代器对象，这个迭代器对象可以生成元素值全部等于上面哪个值的族中所有对象。
    
    一个非常重要的准备步骤是要根据指定的字段将数据排序。因为 groupby() 仅仅检查连续的元素，如果实现并没有排序完成的话，分组函数将得不到想要的结果。
    
    如果你仅仅只是像根据 date 字段将数据分组到一个大的数据结构中去，并且允许随机访问，那么你最好使用 defaultdict() 来构建一个多值字典，关于多值字典已经在前面有过详细的介绍。比如：

In [28]:
from collections import defaultdict

rows_by_date = defaultdict(list)

for row in rows:
    rows_by_date[row['date']].append(row)

In [29]:
>>> for r in rows_by_date['07/01/2012']:
    print(r)

{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}


    在上面这个例子中，我们没有必要先记录排序。因此，如果对内存占用不是很关系，这种方式会比先排序然后通过 groupby() 函数迭代的方式允许得快一些。

## 过滤序列元素

**问题**

    你有一个数据序列，想利用一些规则从中提取出需要的值或者是缩短序列
    
**解决方案**

    最简单的过滤序列元素的方法就是使用列表推导

In [30]:
>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1]
>>> [n for n in mylist if n >0]

[1, 4, 10, 2, 3]

    使用列表推导的一个潜在缺陷就是如果输入非常大的时候会产生一个非常大的结果集，占用大量内存。如果你对内存比较敏感，那么你可以使用生成器表达式迭代产生过滤的元素。比如：
    

In [31]:
>>> pos = (n for n in mylist if n>0)
>>> pos

<generator object <genexpr> at 0x7fdbc5d90890>

In [1]:
>>> for x in pos:
    print(x)

NameError: name 'pos' is not defined

**讨论**

    列表推导和生成器表达式通常情况下是过滤数据最简单的方式。其实他们还能在过滤的时候转换数据。比如：
    

In [3]:
>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1]
>>> import math
>>> [math.sqrt(n) for n in mylist if n >0]

[1.0, 2.0, 3.1622776601683795, 1.4142135623730951, 1.7320508075688772]

    过滤操作的一个变种就是将不符合条件的值用新的值代替，而不是丢弃它们。比如，在一列数据中你可能不仅想找到正数，而且还想将不是整数的值替换成指定的数。通过将过滤条件放到条件表达式中去，可以很容易的解决这个问题

In [4]:
>>> clip_neg = [n if n > 0 else 0 for n in mylist]
>>> clip_neg

[1, 4, 0, 10, 0, 2, 3, 0]


    另一个值得关注的过滤工具就是 itertools.compress()，它以一个 iterable对象和一个相对应的 Biilean 选择器序列最为输入参数。然后输出 iterable 对象中对应选择器为 True 的元素。当你需要用另一个相关联的序列来过滤某个序列的时候，这个函数是非常有用的。比如：

In [5]:
addresses = [ 
    '5412 N CLARK', 
    '5148 N CLARK', 
    '5800 E 58TH', 
    '2122 N CLARK', 
    '5645 N RAVENSWOOD', 
    '1060 W ADDISON', 
    '4801 N BROADWAY', 
    '1039 W GRANVILLE',
] 
counts = [ 0, 3, 10, 4, 1, 7, 6, 1]

    现在你想将那些对应count值大于5的地址全部输出

In [6]:
>>> from itertools import compress
>>> more5 = [n > 5 for n in counts]
>>> more5

[False, False, True, False, False, True, True, False]

In [7]:
>>> list(compress(addresses, more5))

['5800 E 58TH', '1060 W ADDISON', '4801 N BROADWAY']

    这里的关键点在于先创建一个 Boolean 序列，指示那些元素符合条件。然后compress()函数根据这个序列去选择输出对应位置为 True 的元素。
    
    和 filter() 函数类型，compress() 也是返回一个迭代器。因此，如果你需要得到一个列表，那么你需要使用 list() 来将结果转换为列表类型。

## 从字典中提取子集

**问题**

    你想构建一个字典，它是另一个字典的子集。
    
**解决方案**

    最简单的方式是使用字典推导。比如：

In [9]:
prices = { 
    'ACME': 45.23, 
    'AAPL': 612.78, 
    'IBM': 205.55, 
    'HPQ': 37.20, 
    'FB': 10.75
}
# Make a dictionary of all prices over 200
p1 = {key: value for key, value in prices.items() if value > 200}
print(p1)

# Make a dictionary of tech stocks
tech_names = {'AAPL', 'IBM', 'HPQ', 'MSFT'}
p2 = {key: value for key, value in prices.items() if key in tech_names}
print(p2)

{'AAPL': 612.78, 'IBM': 205.55}
{'AAPL': 612.78, 'IBM': 205.55, 'HPQ': 37.2}


**讨论**

    大多情况下字典推导能做到的，通过创建一个元组序列然后把它传给 dict() 函数也能实现

In [10]:
p3 = dict((key, value) for key, value in prices.items() if value >200)
print(p3)

{'AAPL': 612.78, 'IBM': 205.55}


    但是，字典推导方式表意更加清楚，并且实际上也会允许的更快些

## 映射名称到序列元素

**问题**

    你有一段通过下标访问列表或者元组中元素的代码，但是这样有时候会使得你的代码难以阅读，于是你想通过名称来访问元素。
    
**解决方案**
    
    collections.namedtuple() 函数通过使用一个普通的元组对象来帮你解决这个问题。这个函数实际上是一个返回 Python 中标准元组类型子类的一个工厂方法。你需要传递一个类型名和你需要的字段给它，然后它就会返回一个类，你可以初始化这个类，为你定义的字段传递值等。代码示例：

In [11]:
from collections import namedtuple

Subscriber = namedtuple('Subscriber', ['addr', 'joined'])
sub = Subscriber('jonesy@example.com', '2012-10-19')
print(sub)
print(sub.addr)
print(sub.joined)

Subscriber(addr='jonesy@example.com', joined='2012-10-19')
jonesy@example.com
2012-10-19


    尽管 namedtuple 的示例看上去像一个普通的类实例，但是它跟元组类型是可交换的，支持所有的普通元组操作，比如索引和解压。比如：

In [12]:
print(len(sub))

addr, joined = sub
print('addr: ', addr)
print('joined: ', joined)

2
addr:  jonesy@example.com
joined:  2012-10-19


    命名元组的一个重要用途是将你的代码从下标操作中解脱出来。因此，如果你从数据库调用中返回了一个很大的元组列表，通过下标去操作其中的元素，当你在表中添加了新的列的时候你的代码可能会出错了。但是如果你使用了命名元组，那么就不会有这样的顾虑。
    
    为了说明清楚，下面是使用普通元组的代码：

In [13]:
def compute_cost(records):
    total = 0.0
    for rec in records:
        total += rec[1] * rec[2]
    return total

    下标操作通常会让代码表意不清晰，并且非常依赖记录的结构。下面是使用命名元组的版本：

In [15]:
from collections import namedtuple

Stock = namedtuple('Stock', ['name', 'shares', 'price'])
def compute_cost(records):
    total = 0.0
    for rec in records:
        s = Stock(*rec)
        total += s.shares * s.price
    return total

**讨论**
    
    命令元组另一个用途就是作为字典的代替，因为字典存储需要更多的内存空间。如果你需要构建一个非常大的包含字典的数据结构，那么使用命名元组会更加高效。但是需要注意的是，不像字典那样，一个命名元组是不可更改的。比如：

In [16]:
>>> s = Stock('ACME', 100, 123.2)
>>> s.shares = 45

AttributeError: can't set attribute

    如果你真的需要改变属性的值，那么可以使用命名元组实例的 _replace() 方法，它会创建一个全新的命名元组并将对应的字段用新的值代替。比如：

In [18]:
>>> s = s._replace(shares=75)
>>> s

Stock(name='ACME', shares=75, price=123.2)

    _repalece() 方法还有一个很有用的特性就是当你的命名元组拥有可选或者确实字段时候，它是一个非常方便的填充数据的方法。你可以先创建一个包含缺省值的原型元组，然后使用 _repalce() 方法创建新的值更新实例。比如：

In [19]:
from collections import namedtuple

Stock = namedtuple('Stock', ['name', 'shares', 'price', 'date', 'time'])

# Create a prototype instance 
stock_prototype = Stock('', 0, 0.0, None, None)
# Function to convert a dictionary to a Stock 
def dict_to_stock(s): 
    return stock_prototype._replace(**s)

    下面是它的使用方法：

In [20]:
>>> a = {'name': 'ACME', 'shares': 100, 'price': 123.45}
>>> dict_to_stock(a)

Stock(name='ACME', shares=100, price=123.45, date=None, time=None)

    最后要说的是，如果你的目标是定义一个需要更新很多实例属性的高效数据结构，那么命名元组并不是你的最佳选择。这时候你应该考虑定义一个包含 __slots__ 方法的类

## 转换并同时计算数据

**问题**

    你需要在数据序列上执行聚集函数（比如 sum()， min()），但是首先你需要先转换或者过滤数据
    
**解决方案**

    一个非常优雅的方式去结合数据计算与转换就是使用一个生成器表达式参数。比如，如果你想计算平方和，可以像下面这样做：

In [22]:
nums = [1, 2, 3, 4, 5]
s = sum(x * x for x in nums)
print(s)

55


    下面是更多的例子：

In [None]:
import os 
files = os.listdir('dirname')

if any(name.endwith('.py') for name in files):
    print('There be python!')
else:
    print('Sorrt, no python.')
    
# Output a tuple as CSV
s = ('ACME', 50, 123.45)
print(','.join(str(x) for x in s))

# Data reduction across fields of a data structure
portfolio = [ 
    {'name':'GOOG', 'shares': 50}, 
    {'name':'YHOO', 'shares': 75}, 
    {'name':'AOL', 'shares': 20}, 
    {'name':'SCOX', 'shares': 65}
] 
min_shares = min(s['shares'] for s in portfolio)

**讨论**

    上面的示例向你演示了当生成器表达式作为一个独立参数传递给函数时候的巧妙语法（你并不需要多加一个括号）。比如，下面这些语句是等效：

In [23]:
s = sum((x * x for x in nums)) # 显示的传递一个生成器表达式对象
s = sum(x * x for x in nums) # 更加优雅的实现方式

    使用一个生成器表达式作为参数会比先创建一个临时列表更加高效和优雅。比如，如果你不是用生成器表达式的话，你可能会考虑使用下面的实现方式：

In [24]:
nums = [1, 2, 3, 4, 5]
s = sum([x * x for x in nums])

    这种方式同样可以达到想要的效果，但是它会多一个步骤，先创建一个额外的列表。当元素数量非常大的时候，它会创建一个巨大的仅仅被使用一次被丢弃的临时数据结构。而生成器方案会以迭代的方式转化数据，因此更省内存。
    
    在使用一些聚集函数比如 min() 和 max() 的时候你可能更加倾向于使用生长期版本，它们接受的一个 key 关键字参数或与对你很有帮助。比如：

In [25]:
# Original: Returns 20
min_shares = min(s['shares'] for s in portfolio)

NameError: name 'portfolio' is not defined

## 合并多个字典或映射

**问题**

    现在有多个字典或者映射，你想将他们从逻辑上合并成单一的映射后执行某些操作，比如查找值或者查找某些键是否存在。
    
**解决方案**

    假如你有如下两个字典：

In [26]:
a = {'x': 1, 'z': 3 } 
b = {'y': 2, 'z': 4 }

    现在假设你必须在两个字典中执行查找操作（比如先从 a 中找，如果找不到再在 b 中找）。一个非常简单的解决方案就是使用 collections 模块中的 ChainMap 类。比如：

In [27]:
from collections import ChainMap

c = ChainMap(a, b)
print(c['x'])
print(c['y'])
print(c['z'])

1
2
3


    一个 ChainMap 接受多个字典并将他们在逻辑上变成一个字典。然后，这些字典并不是真的合并在一起了，ChainMap 类只是在内部创建了一个容纳这些字典的列表并重新定义了一些常见的字典操作来遍历这个列表。大部分字典操作都是可以正常使用的，比如：

In [30]:
print(len(c))
print(list(c.keys()))
print(list(c.values()))

3
['y', 'z', 'x']
[2, 3, 1]


     如果出现重复键，那么第一次出现的映射会被返回。因此，例子程序中的c['z']总会返回字典 a 中对应的值，而不是 b 中对应的值。
     
     对于字典的更新或删除操作总是影响的是列表中第一个字典。比如：

In [31]:
>>> c['z'] = 10
>>> c['w'] = 40
>>> del c['x']
>>> a

{'z': 10, 'w': 40}

In [32]:
>>> del c['y']

KeyError: "Key not found in the first mapping: 'y'"