## 1. 解压序列赋值给多个变量

In [1]:
p = (4,5)

In [2]:
x,y = p

In [3]:
x

4

In [4]:
y

5

In [5]:
data =['ACME',50,91.1,(2012,12,21,)]

In [6]:
name,shares,price,date = data

In [7]:
name

'ACME'

In [8]:
shares

50

In [9]:
price

91.1

In [10]:
date

(2012, 12, 21)

In [11]:
name,shares,price,(year,mon,day)= data

In [12]:
year

2012

In [13]:
mon

12

In [14]:
day

21

In [15]:
# 有时候你可能只想解压一部分，丢弃其他的值。对于这种情况Python并没有提供特殊的语法。
# 但是你可以使用任意的变量名去占位，到时候丢掉这些变量就行了。
data = ['ACME',50,91.1,(2012,12,21)]

In [16]:
_,shares,price,_ = data

In [17]:
shares

50

In [18]:
price

91.1

## 2. 解压可迭代对象给多个变量
>> **Python的星号表达式可以用来解决这个问题。**

In [19]:
record = ('Dave','dave@example.con','773-555-1212','847-555-1212')

In [20]:
name,email,*phone_numbers = record

In [21]:
name

'Dave'

In [22]:
email

'dave@example.con'

In [23]:
phone_numbers

['773-555-1212', '847-555-1212']

>> 值得注意的是，上面解压出的phone_numbers变量永远是列表类，不管解压的电话号码数量是多少个（包括0个）。所以，任何使用到phone_numbers变量的代码就不需要做多余的类型检查去确认它是否是列表类型了。

In [24]:
# 星号表达式也可用在列表的开始部分
*trailing_qtrs,current_qtr = [10,8,7,1,9,5,10,3]

In [25]:
trailing_qtrs

[10, 8, 7, 1, 9, 5, 10]

In [26]:
current_qtr

3

### 讨论
扩展的迭代解压语法是专门为解压不确定个数或任意个数元素的可迭代对象而设计的。通常，这些可迭代对象的元素结构有确定的规则。（比如第一个元素后面都是电话号码），星号表达式让开发人员可以很容易的利用这些规则来解压出元素来。而不是通过一些比较复杂的手段去获取这些关联的元素值。

值得注意是，星号表达式在迭代元素为可变元组的序列时是很有用的。比如，下面是一个带有标签的元组序列：

```
records =[
    ('foo',1,2),
    ('bar','hello'),
    ('foo',3,4),]
    
def do_foo(x,y):
    print('foo',x,y)
    
def do_bar(s):
    print('bar',s)

for tag,*args in records:
    if tag == 'foo':
        do_foo(*arg)
    elif tag =='bar':
        do_bar(*arg)
```

In [27]:
line = 'nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false'

In [28]:
uname,*fields,homedir,sh = line.split(':')

In [29]:
uname

'nobody'

In [30]:
fields

['*', '-2', '-2', 'Unprivileged User']

In [31]:
homedir

'/var/empty'

In [32]:
sh

'/usr/bin/false'

In [33]:
record = ('ACME',50,123.45,(12,18,2012))

In [34]:
name,*_,(*_,year) = record

In [35]:
name

'ACME'

In [36]:
year

2012

In [37]:
items = [1,10,7,4,5,9]

In [38]:
head, *tail = items

In [39]:
head

1

In [40]:
tail

[10, 7, 4, 5, 9]

In [41]:
# 如果你够聪明的话，还能用这种分割语法去巧妙的实现递归算法。
def sum(items):
    head,*tail = items
    return head + sum(tail) if tail else head

In [42]:
sum(items)

36

## 3. 保留最后N个元素

In [43]:
# 保留有限历史记录正是collections.deque大显身手的时候。比如下面的代码在多行上面做
# 简单的文本匹配，并返回所在行的最后N行。
from collections import deque

def search(lines,pattern,history=5):
    previous_lines = deque(maxlen=history)
    for line in lines:
        if pattern in line:
            yield line,previous_lines
            
# example use on a file
if __name__ == "__main__":
    with open('somefile.txt') as f:
        for line,prevlines in search(f,'python',5):
            for pline in prevlines:
                print(pline,end='')
            print(line,end='')
            print('-' * 20)

[source,python]
--------------------
         search(f, 'python', 5)
--------------------


## 4. 查找最大或最小的N个元素
>> heapq模块有两个函数：nlargest()和nsmallest()可以完美解决这个问题。

In [44]:
import heapq
nums = [1,8,2,23,7,-4,18,23,42,37,2]
print(heapq.nlargest(3,nums))
print(heapq.nsmallest(3,nums))

[42, 37, 23]
[-4, 1, 2]


In [45]:
# 两个函数都可以接受一个关键字参数，用于更复杂的数据结构中
portfolio = [
    {'name': 'IBM', 'shares': 100, 'price': 91.1},
    {'name': 'AAPL', 'shares': 50, 'price': 543.22},
    {'name': 'FB', 'shares': 200, 'price': 21.09},
    {'name': 'HPQ', 'shares': 35, 'price': 31.75},
    {'name': 'YHOO', 'shares': 45, 'price': 16.35},
    {'name': 'ACME', 'shares': 75, 'price': 115.65}
]
cheap = heapq.nsmallest(3,portfolio,key=lambda s:s['price'])
expensive = heapq.nlargest(3,portfolio,key=lambda s:s['price'])

In [46]:
cheap

[{'name': 'YHOO', 'shares': 45, 'price': 16.35},
 {'name': 'FB', 'shares': 200, 'price': 21.09},
 {'name': 'HPQ', 'shares': 35, 'price': 31.75}]

In [47]:
expensive

[{'name': 'AAPL', 'shares': 50, 'price': 543.22},
 {'name': 'ACME', 'shares': 75, 'price': 115.65},
 {'name': 'IBM', 'shares': 100, 'price': 91.1}]

>> 当要查找的元素个数相对比较小的时候，函数nlargest()和nsmallest()是很合适的。如果你仅仅想查重最小会最大（N=1）的元素的话，那么使用min()和max()函数先排序这个集合然后在使用切片操作会更快点（sorted(items)[:N]或是sorted(items)[-N:])。需要在正确的场合使用函数nlargest()和nsmallest()才能发挥他们的优势。

## 5. 实现一个优先级队列

In [48]:
# 解决上述问题的办法是使用heapq模块。
import heapq 

class PriorityQueue:
    def __init__(self):
        self._queue = []
        self._index = 0
        
    def push(self,item,priority):
        heapq.heappush(self._queue,(-priority,self._index,item))
        self._index += 1
        
    def pop(self):
        return heapq.heappop(self._queue)[-1]

In [49]:
class Item:
    def __init__(self,name):
        self.name = name
    def __repr__(self):
        return 'Item({!r})'.format(self.name)

In [50]:
q = PriorityQueue()

In [51]:
q.push(Item('foo'),1)

In [52]:
q.push(Item('bar'),5)

In [53]:
q.push(Item('spam'),4)

In [54]:
q.push(Item('grok'),1)

In [55]:
q.pop()

Item('bar')

In [56]:
q.pop()

Item('spam')

In [57]:
q.pop()

Item('foo')

In [58]:
q.pop()

Item('grok')

## 6. 字典中的键映射多个值（multidict)

In [59]:
# 解决办法： 
#一个字典就是一个键对应一个单值的映射。如果你想要一个健映射多个值，那么你就需要将这多
#个值放在另外的容器中。比如列表或是集合里面。比如，你可以像下面这样构造这样的字典。


```
d = {
    'a':[1,2,3],
    'b':[4,5]
}
e = {
    'a':{1,2,3},
    'b':{4,5}
}

```

In [60]:
# 选择使用列表还是集合取决于你的实际需求。如果你想保持元素的插入顺序就应该使用列表。
# 如果你想去掉重复元素就使用集合（并且不关心元素的顺序）。
# 你可以很方便地使用collections模块中的defaultdict来构造这样的字典。defaultdict的
# 一个特征是它自动初始化每个key刚开始对应的值，所以你只需要关注添加元素操作了。

from collections import defaultdict

d = defaultdict(list)
d['a'].append(1)
d['a'].append(2)
d['a'].append(4)

d = defaultdict(set)
d['a'].add(1)
d['a'].add(2)
d['a'].add(4)

In [61]:
d

defaultdict(set, {'a': {1, 2, 4}})

In [62]:
d['a']

{1, 2, 4}

### 讨论

一般来讲，创建一个多值映射字典是很简单的。但是，如果你选择自己实现的话，那么对于值的初始化可能会有点麻烦，你可能会像下面这样来实现：

```
d = {}
for key,value in pairs:
    if key not in d:
        d[key] = []
    d[key].apppend(value)
    ```
    
如果使用defaultdict的话，代码就更加简介了：
```

d = defaultdict(list)
for ket,value in pairs:
    d[key].append(value)

```

## 7. 字典排序

**解决办法：collections模块中的OrderedDict类。**

In [63]:
from collections import OrderedDict

d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['gork'] = 4

for key in d:
    print(key,d[key])

foo 1
bar 2
spam 3
gork 4


In [64]:
# 当你想要构建一个将来需要序列化或编码成其他格式的映射的时候，OrderedDict是非常有用
# 比如，你想精确控制JSON编码后字段的顺序，你可以先使用OrderedDict来构建这样的数据
import json

In [65]:
json.dumps(d)

'{"foo": 1, "bar": 2, "spam": 3, "gork": 4}'

## 8. 字典的运算

In [66]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}

In [67]:
# 为了对字典值执行计算操作，通常需要使用zip()函数先将健和值反转过来。比如，下面是查找
# 最小和最大股票价格和股票值的代码。
min_price = min(zip(prices.values(),prices.keys()))

In [68]:
min_price

(10.75, 'FB')

In [69]:
max_price = max(zip(prices.values(),prices.keys()))
max_price

(612.78, 'AAPL')

In [70]:
# 类似的，可以使用zip()和sorted()函数来排列字典数据
prices_sorted = sorted(zip(prices.values(),prices.keys()))
prices_sorted

[(10.75, 'FB'),
 (37.2, 'HPQ'),
 (45.23, 'ACME'),
 (205.55, 'IBM'),
 (612.78, 'AAPL')]

## 9. 查找两字典的相同点

In [71]:
a = {
    'x' : 1,
    'y' : 2,
    'z' : 3
}

b = {
    'w' : 10,
    'x' : 11,
    'y' : 2
}

In [72]:
# find keys in common 
a.keys() & b.keys()

{'x', 'y'}

In [73]:
# find keys in a that are not in b
a.keys() - b.keys()

{'z'}

In [74]:
# find (key,value) pairs in common 
a.items() & b.items()

{('y', 2)}

In [75]:
# make a new dictionary with certern keys removed
c = {key:a[key] for key in a.keys() - {'z','w'}}

In [76]:
c

{'y': 2, 'x': 1}

## 10. 删除序列相同元素并保持顺序

In [77]:
# 如果序列上的值都是hashable类型，那么可以很简单的利用集合或是生成器来解决这个问题。比如

def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)

In [78]:
a = [1,5,2,1,9,1,5,10]

In [79]:
list(dedupe(a))

[1, 5, 2, 9, 10]

In [80]:
# 这种方法仅仅在序列中元素为hashable的时候才管用。如果你想消除的元素不可哈希（比如dict
# 类型）的序列中重复的元素的话，你需要将上述代码稍微改变一下，就像这样：
def dedupe(items,key=None):
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item 
            seen.add(val)

In [81]:
# 这里的key参数指定了一个函数，将序列元素转换成hashable类型。下面是它的用法示例。
#a = [ {'x':1,'y':2},{'x':1,'y':3},{'x':1,'y':2},{'x':2,'y':4}]
a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]

In [82]:
#list(dedupe(a,key=lambda d:(d['x'],d['y'])))
list(dedupe(a, key=lambda d: (d['x'],d['y'])))

[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]

In [83]:
list(dedupe(a,key=lambda d:d['x']))

[{'x': 1, 'y': 2}, {'x': 2, 'y': 4}]

>> 如果你仅仅就是想消除重复元素，通常可以简单的构造一个集合即可。然而，这种方法不能维护
>> 元素的顺序，生成的结果中的元素位置被打乱。而上面的方法可以避免这种情况。

## 11. 命名切片

一般来讲，代码中如果出现大量的硬编码下标会使得代码的可读性和可维护性大大降低。比如，如果你回过来看你一年前写的代码，你会摸着脑袋想那时候你自己到底想干嘛啊。这是一个很简单的解决方案，它让你更加清晰的表达代码的目的。

内置的slice（）函数创建了一个切片对象。所有使用切片的地方都可以使用切片对象。

In [84]:
items = [0,1,2,3,4,5,6]

In [85]:
a = slice(2,4)
a

slice(2, 4, None)

In [86]:
items[2:4]

[2, 3]

In [87]:
items[a]

[2, 3]

In [88]:
items[a] = [10,11]

In [89]:
items

[0, 1, 10, 11, 4, 5, 6]

In [90]:
del items[a]

In [91]:
items

[0, 1, 4, 5, 6]

In [92]:
# 如果你有一个切片对象a，你可以分别调用它的a.start,a.stop,a.step属性来获取更多的信息。
a = slice(5,50,2)

In [93]:
a.start

5

In [94]:
a.stop

50

In [95]:
a.step

2

另外，你还可以通过调用切片的indices(size)方法将它映射到一个已知大小的序列上。这个方法返回的是一个三元组（start,stop,step),所有的值都会被缩小，知道适合这个已知序列边界为止。这样，使用的时就不会出现IndexError异常。比如：

In [96]:
s = 'HelloWorld'

In [97]:
a.indices(len(s))

(5, 10, 2)

In [98]:
for i in range(*a.indices(len(s))):
    print(s[i])

W
r
d


## 12. 序列中出现次数最多的元素

解决办法： collections.Counter()专门为这类问题而设计的。它设置还有个有用的most_common()方法直接给了你答案。

In [99]:
words = [
    'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
    'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
    'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
    'my', 'eyes', "you're", 'under'
]

In [100]:
from collections import Counter

In [101]:
word_counts = Counter(words)

In [102]:
word_counts

Counter({'look': 4,
         'into': 3,
         'my': 3,
         'eyes': 8,
         'the': 5,
         'not': 1,
         'around': 2,
         "don't": 1,
         "you're": 1,
         'under': 1})

In [103]:
top_three = word_counts.most_common(3)
top_three

[('eyes', 8), ('the', 5), ('look', 4)]

## 13. 通过某个关键字排序一个字典列表

解决办法：通过使用operator模块的itemgetter函数，可以非常容易的排序这样数据结构

In [104]:
rows = [
    {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
    {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
    {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
    {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
]

In [105]:
# 根据任意的字典字段来排序输入结果
from operator import itemgetter
rows_by_fname = sorted(rows,key=itemgetter('fname'))
rows_by_fname

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
 {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]

In [106]:
row_by_uid = sorted(rows,key=itemgetter('uid'))
row_by_uid

[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
 {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
 {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]

In [107]:
# itemgetter()函数也支持多个keys
rows_by_lfname = sorted(rows,key=itemgetter('lname','fname'))
rows_by_lfname

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
 {'fname': 'Big', 'lname': 'Jones', 'uid': 1004},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]

**itemsgetter()有时候也可以用lambda表达式代替**，比如：

In [108]:
rows_by_fname = sorted(rows,key = lambda r: r['fname'])
rows_by_fname

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
 {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]

In [109]:
rows_by_lfname = sorted(rows,key = lambda r: (r['lname'],r['fname']))
rows_by_lfname

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
 {'fname': 'Big', 'lname': 'Jones', 'uid': 1004},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]

## 14. 排序不支持原生比较的对象

内置的sorted（）函数有一个关键字参数key，可以传入一个callable对象给它，这个callable对象对每个传入的对象返回一个值，这个值会被sorted用来排序后这些对象。比如，如果你在应用程序有个User实例序列，并且你希望通过他们的User_id属性进行排序，你可以提供一个以User实例作为输入并输出user_id值的callable对象，比如：

In [110]:
class User:
    def __init__(self,user_id):
        self.user_id = user_id
        
    def __repr__(self):
        return 'User({})'.format(self.user_id)
    
    
def sort_notcompare():
    users = [User(23),User(3),User(99)]
    print(users)
    print(sorted(users,key=lambda u:u.user_id))

In [111]:
sort_notcompare()

[User(23), User(3), User(99)]
[User(3), User(23), User(99)]


另外一种方式是使用operator.attrgettr()来代替lambda()函数

In [112]:
from operator import attrgetter

In [113]:
users = [User(23),User(3),User(99)]
sorted(users,key=attrgetter('user_id'))

[User(3), User(23), User(99)]

>> 选择使用lambda函数或者attrgetter()可能取决于个人喜好。但是，attrgetter()函数通常会运行的快点，并且还能同时允许多个字段进行比较。这个跟operator.itemgetter()函数作用于字典类型很类似。

## 15. 通过某个字段将记录分组

解决办法： itertools.groupby()函数对于这种数据分组操作非常实用。

In [114]:
rows = [
    {'address': '5412 N CLARK', 'date': '07/01/2012'},
    {'address': '5148 N CLARK', 'date': '07/04/2012'},
    {'address': '5800 E 58TH', 'date': '07/02/2012'},
    {'address': '2122 N CLARK', 'date': '07/03/2012'},
    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
    {'address': '1060 W ADDISON', 'date': '07/02/2012'},
    {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]

In [115]:
# 现在假设娘在按date分组后的数据块上进行迭代。你首先需要按照指定的字段排序，然后调用
# itertools()函数

from operator import itemgetter
from itertools import groupby

# sort by the desired field first
rows.sort(key=itemgetter('date'))
# Iterate in groups
for date,items in groupby(rows,key=itemgetter('date')):
    print(date)
    for i in items:
        print(' ',i)

07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
  {'address': '5800 E 58TH', 'date': '07/02/2012'}
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
  {'address': '5148 N CLARK', 'date': '07/04/2012'}
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


>> groupby（）函数扫描整个序列并且查找连续相同值（或者根据指定key函数返回值相同）的元素序列。在每次迭代的时候，他会返回一个值和一个迭代器对象，这个迭代器对象可以生成元素值全部等于上面那个值的组中所有对象。  
>> 一个非常重要的步骤是根据指定的字段来将数据排序。因为groupby（）仅仅检查连续的元素，如果事先并没有拍戏完成的话，分组函数将得不到想哟啊的结果。


## 16. 过滤序列元素

In [116]:
mylist = [1,4,-5,10,-7,2,3,-1]

In [117]:
# 最简单的过滤序列元素的方法是使用列表推导式
[n for n in mylist if n > 0]

[1, 4, 10, 2, 3]

但是使用列表推导式的一个潜在缺陷是如果输入是粉肠大的时候会产生一个非常大的结果集，占用大量的内存。如果你对内存比较敏感的话，那么你就可以使用生成器表达式迭代产生过滤的元素。

In [118]:
pos = (n for n in mylist if n > 0)

In [119]:
pos

<generator object <genexpr> at 0x10905bde0>

In [120]:
for x in pos:
    print(x)

1
4
10
2
3


有的时候，后屡规则比较复杂，不能简单的在列表推导或者生成器表达式中表达出来。比如：假设过滤的时候需要处理一些异常或者其他复杂的情况。这时候你可以将过滤代码放到一个函数中， 然后使用内建的filter（）函数。

In [121]:
values = ['1','2','-3','-','4','N/A','5']

In [122]:
def is_int(val):
    try:
        x = int(val)
        return True
    except ValueError:
        return False

# filter()函数创建列了一个迭代器，因此如果你需要一个列表的话，使用list（）去转换
ival = list(filter(is_int,values))
print(ival)

['1', '2', '-3', '4', '5']


In [123]:
# 列表推导和生成器表达式通常情况下是过滤数据最简单的方式。其实它们还能在过滤的时候转换数据
mylist = [1,4,-5,10,-7,2,3,-1]
import math
[math.sqrt(n) for n in mylist if n > 0]

[1.0, 2.0, 3.1622776601683795, 1.4142135623730951, 1.7320508075688772]

过滤操作的一个变种就是将不符合条件的值用新的值代替，而不是丢弃它们。比如，在一列数据中你可能不仅子昂找到正数，而且还想将不是正数的值替换成指定的值。通过将过滤条件放到表达式中去，可以很容易的解决这个问题

In [124]:
clip_neg = [n if n > 0 else 0 for n in mylist]
clip_neg

[1, 4, 0, 10, 0, 2, 3, 0]

In [125]:
clip_pos = [n if n < 0 else 0 for n in mylist]
clip_pos

[0, 0, -5, 0, -7, 0, 0, -1]

另外一个值得关注的过滤工具就是itertools.compress(),它以一个iterable对象和一个相对应的Boolean选择器序列作为输入参数。绕后输出iterable对象中对应选择器为True的元素。当你需要用一个相关联的序列来过滤某某个序列的时候，这个函数是非常有用的。

In [126]:
addresses = [
    '5412 N CLARK',
    '5148 N CLARK',
    '5800 E 58TH',
    '2122 N CLARK',
    '5645 N RAVENSWOOD',
    '1060 W ADDISON',
    '4801 N BROADWAY',
    '1039 W GRANVILLE',
]
counts = [ 0, 3, 10, 4, 1, 7, 6, 1]


In [127]:
# 现在你想将那些对应count值大于5的地址全部输出，那么你可以这样做：
from itertools import compress
more5 = [n > 5 for n in counts]
more5

[False, False, True, False, False, True, True, False]

In [128]:
# compress()也是返回一个迭代器，因此你如果你需要得到一个列表的话要使用list（）函数
list(compress(addresses,more5))

['5800 E 58TH', '1060 W ADDISON', '4801 N BROADWAY']

## 17. 从字典中提取子集

In [129]:
# 最简单的方式是使用字典推导
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}

# make a dictionary of all prices over 200
p1 = {key:value for key,value in prices.items() if value > 200}
p1

{'AAPL': 612.78, 'IBM': 205.55}

In [130]:
# make a dictionary of tech stocks
tech_name = ['AAPL','IBM','HPQ','MSFT']
p2 = {key:value for key,value in prices.items() if key in tech_name }
p2

{'AAPL': 612.78, 'IBM': 205.55, 'HPQ': 37.2}

## 18. 映射名称都序列元素

解决办法：collections.namedtuple()函数通过使用一个普通的元组对象来帮你解决这个问题。这个函数实际上是一个返回Python中标准元组烈性子类的一个工厂方法。你需要传递一个类型名和你需要的字段给它，然后它会返回一个类，你可以初始化这个类，定义你的字段传递值等。

In [131]:
from collections import namedtuple
Subscriber = namedtuple('Subscriber',['addr','joined'])
sub = Subscriber('jonesy@example.com','2012-10-19')
sub

Subscriber(addr='jonesy@example.com', joined='2012-10-19')

In [132]:
sub.addr

'jonesy@example.com'

In [133]:
sub.joined

'2012-10-19'

>> 命名元组的一个用途是将你的代码从下标操作中解脱出来。因此，如果你从数据库中调用返回了一个很大元组列表，通过下标去操作其中的元素，当你在表中添加了新的列的时候，你的代码很容易出错了。但是你如果使用命名元组的话，那么就不会有这样的顾虑。

In [134]:
# 为了说明清楚，下面是受用普通元组的代码
def compute_cost(records):
    total = 0.0
    for rec in records:
        total += rec[1] * rec[2]
    return total

#下标操作通常会让代码表意不清楚，并且非常依赖记录的结构。下面是使用命名元组的版本、
from collections import namedtuple 
Stock = namedtuple('Stock',['name','shares','prices'])
def compute_cost(records):
    total = 0.0
    for rec in records:
        s = Stock(*rec)
        total += s.shares * s.price
    return total

命名元组另一个用途是作为字典的替代。因为字典存储需要更多的内存空间。如果你需要构建一个非常大的包括字典的数据结构，那么使用命名元组会更加高效。但是需要注意的是，不像字典那样，一个命名元组是不可更改的。

In [135]:
s = Stock('ACME',100,123.45)
s

Stock(name='ACME', shares=100, prices=123.45)

In [136]:
s.shares = 75

AttributeError: can't set attribute

In [137]:
# 如果你真的需要改变属性的值，那么可以使用命名元组实例_replace()的方法。它会创建一个
# 全新的命名元组并将对应的字段用新的值去取代它
s = s._replace(shares=75)
s

Stock(name='ACME', shares=75, prices=123.45)

>> 最后要说的是，如果你的目标是定义一个需要更新很多实例属性的高效数据结构，那么命名元组并不是你的最佳选择。这时候你应该考虑使用一个包含__slots__方法的类。

## 19. 转换并同时计算数据

解决办法：一个非常优雅的方式去结合数据计算与转换就是使用一个生成器表达式参数。

In [138]:
# 比如你想计算平方和，可以像下面这样做
nums = [1,2,3,4,5]
s = sum(x ** x for x in nums) 
s

3413

In [139]:
s1 = sum((x ** x for x in nums))# 显式的传递一个生成器表达式对象
s2 = sum(x ** x for x in nums) # 更加优雅的实现方式，省略了括号
s3 = sum([x ** x for x in nums])# # 使用列表推导表达式

In [140]:
s1

3413

In [141]:
s2

3413

In [142]:
s3

3413

>> 使用列表推导或是生成器表达式都不够优雅，使用列表的方式，先要创建一个额外的列表，对于小型的列表可能没有什么关系，但是如果元素数量非常大的时候，这是一笔很大的开销。

## 20. 合并多个字典或映射

In [143]:
# 假如你有如下两个字典
a = {'x':1,'z':3}
b = {'y':2,'z':4}

In [144]:
# 现在假设你必须在两个字典中执行查找操作（比如先从a中找，如果找不到再在b中找）。一个非
# 常简单的解决方案是使用collections模块中的ChainMap类。
from collections import ChainMap

c = ChainMap(a,b)
print(c['x'])

1


>> 一个ChainMap接受多个字典并将他们在逻辑上变为一个字典。然而，这些字典并不是真的合并在一起，ChainMap类只是在内部创建了一个容纳这些字典的列表并重新定义了一些常见的字典操作来遍历这个列表。大部分字典操作都是可以正常使用的，比如：

In [145]:
len(c)

3

In [146]:
list(c.keys())

['y', 'z', 'x']

In [147]:
list(c.values())

[2, 3, 1]

>> 如果出现重复键，那么第一次出现的映射值会被返回。因袭，例子程序中的c['z']总是会返回字典a中对应的值，而不是b中对应的值。

In [148]:
# 作为ChainMap的替代，你可能会考虑使用update（）方法将两个字典合并。
a = {'x':1,'z':3}
b = {'y':2,'z':4}

In [149]:
merged = dict(b)
merged

{'y': 2, 'z': 4}

In [150]:
merged.update(a)
merged

{'y': 2, 'z': 3, 'x': 1}

In [151]:
merged['x']

1

In [152]:
merged['y']

2

In [153]:
# 这样也能行得通，但是它需要你创建一个新的完全不同的字典对象。同时如果原字典做了更新
# 这种改变不会反应到新的合并字典中去。
a['x'] = 13
merged['x']

1

In [154]:
# ChainMap使用原来的字典，它自己不创建新的字典。所以它不会产生上面的问题
a = {'x':1,'z':3}
b = {'y':2,'z':4}
merged = ChainMap(a,b)

In [155]:
merged

ChainMap({'x': 1, 'z': 3}, {'y': 2, 'z': 4})

In [156]:
a['x'] = 42

In [157]:
merged['x']

42