

## chapter1-数据结构和算法


### 1.1 将序列分解为单独的变量

In [3]:
a, b = ["a_variable", "n_re"]
a

'a_variable'

In [5]:
b

'n_re'

In [None]:
### 1.2 解压可迭代对象赋值给多个变量

In [6]:
record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212')
name, email, *phone_numbers = record

In [7]:
name

'Dave'

In [8]:
email, phone_numbers

('dave@example.com', ['773-555-1212', '847-555-1212'])

可以使用`_`，来丢弃不需要的元素

In [10]:
record = ('ACME', 50, 123.45, (12, 18, 2012))
name, *_, (*_, year) = record
name

'ACME'

In [11]:
year

2012

In [16]:
name, *_, (_, _, year) = record
year

2012

### 1.3 保留最后N个元素

利用`collections.deque`可以实现一个队列，从队列两端进行插入和删除的复杂度都是`O(1)`.而使用列表，在列表的开头插入或删除元素的时间复杂度为`O(N)`.


In [22]:
from collections import deque
d = deque(maxlen=3)

In [23]:
d.append(1)
d.append(2)
d.append(3)

In [24]:
d

deque([1, 2, 3])

In [25]:
d

deque([1, 2, 3])

In [26]:
d.append(4)
d

deque([2, 3, 4])

### 1.4 查找最大或最小的N个元素

heapq模块有两个函数 `nlargest()`和`nsmallest`可以解决这个问题。底层实现中，数据进行了堆排序后放入一个列表中。

In [1]:
import heapq
nums = [1,8,2,23,7,-4,-18,23,42,37,2]
heapq.nlargest(3, nums)

[42, 37, 23]

In [3]:
heapq.nsmallest(3, nums)

[-18, -4, 1]

In [4]:
portfolio = [
    {'name': 'IBM', 'shares': 100, 'price': 91.1},
    {'name': 'AAPL', 'shares': 50, 'price': 543.22},
    {'name': 'FB', 'shares': 200, 'price': 21.09},
    {'name': 'HPQ', 'shares': 35, 'price': 31.75},
    {'name': 'YHOO', 'shares': 45, 'price': 16.35},
    {'name': 'ACME', 'shares': 75, 'price': 115.65}
]

cheap = heapq.nsmallest(3, portfolio, key=lambda s: s['price'])
expensive = heapq.nlargest(3, portfolio, key=lambda s: s['price'])
cheap

[{'name': 'YHOO', 'shares': 45, 'price': 16.35},
 {'name': 'FB', 'shares': 200, 'price': 21.09},
 {'name': 'HPQ', 'shares': 35, 'price': 31.75}]

In [5]:
expensive

[{'name': 'AAPL', 'shares': 50, 'price': 543.22},
 {'name': 'ACME', 'shares': 75, 'price': 115.65},
 {'name': 'IBM', 'shares': 100, 'price': 91.1}]

In [8]:
# 将一个list转化为heap

heap = list(nums)
heapq.heapify(heap)
heap

[-18, 2, -4, 23, 7, 1, 2, 23, 42, 37, 8]

In [9]:
heapq.heappop(heap)

-18

In [10]:
heapq.heappop(heap)

-4

In [11]:
heapq.heappop(heap)

1

In [12]:
heap

[2, 2, 8, 23, 7, 42, 37, 23]

当要查找的元素个数相对比较小的时候，函数 `nlargest()` 和 `nsmallest()` 是很合适的。 如果你仅仅想查找唯一的最小或最大`（N=1）`的元素的话，那么使用 `min()` 和 `max()` 函数会更快些。 类似的，如果 N 的大小和集合大小接近的时候，通常先排序这个集合然后再使用切片操作会更快点 （` sorted(items)[:N]` 或者是 `sorted(items)[-N:]` ）。 需要在正确场合使用函数 `nlargest()` 和 `nsmallest()` 才能发挥它们的优势 （如果 `N` 快接近集合大小了，那么使用排序操作会更好些）

### 1.5 实现一个优先级队列



In [13]:
import heapq

class PriorityQueue:
    def __init__(self):
        self._queue = []
        self._index = 0

    def push(self, item, priority):
        heapq.heappush(self._queue, (-priority, self._index, item))
        self._index += 1

    def pop(self):
        return heapq.heappop(self._queue)[-1]

In [14]:
class Item:
    def __init__(self, name):
        self.name = name

    def __repr__(self):
        return 'Item({!r})'.format(self.name)

In [15]:
q = PriorityQueue()
q.push(Item('foo'), 1)
q.push(Item('bar'), 5)
q.push(Item('spam'), 4)
q.push(Item('grok'), 1)
q.pop()

Item('bar')

In [16]:
q.pop()

Item('spam')

In [17]:
q.pop()

Item('foo')

In [18]:
q.pop()

Item('grok')

index变量的作用的保证同等优先级元素的正确顺序。通过保存一个不断增加的`index`下标变量，可以确保元素按照他们插入的顺序排序。

In [21]:
a = Item('foo')
b = Item('brok')
a < b

TypeError: '<' not supported between instances of 'Item' and 'Item'

In [24]:
a = (1, Item('foo'))
b = (1, Item('brok'))
a < b


TypeError: '<' not supported between instances of 'Item' and 'Item'

In [25]:
c = (5, Item('brok'))
a < c

True

In [26]:
a = (1, 0, Item('foo'))
b = (5, 1, Item('bar'))
c = (1, 2, Item('grok'))
a<b, a<c

(True, True)

### 1.6 字典中的键映射多个值

怎么实现一个key对应多个值的字典.

In [28]:
d = {
    'a':[1,3,4],
    'b':[5,6,7]
}

# 集合（会去重)
e = {
    'a':{1,2,4,2},
    'b':{3,3,4,1}
}

d,e

({'a': [1, 3, 4], 'b': [5, 6, 7]}, {'a': {1, 2, 4}, 'b': {1, 3, 4}})

In [29]:
from collections import defaultdict
d = defaultdict(list)
d

defaultdict(list, {})

In [30]:
d['a'].append(1)
d['a'].append(2)
d['b'].append(4)
d

defaultdict(list, {'a': [1, 2], 'b': [4]})

In [31]:
d = defaultdict(set)
d

defaultdict(set, {})

In [32]:
d['a'].add(1)
d['a'].add(2)
d['b'].add(4)
d

defaultdict(set, {'a': {1, 2}, 'b': {4}})

创建一个多值映射字典是很简单。但是如果自己实现，对于值的初始化可能有点麻烦，需要:

```python
d = {}
for key, value in pairs:
    if key not in d:
        d[key] = []
    d[key].append(value)
```

但使用`defaultdict`则比较容易

In [34]:
d = defaultdict(list)
for key, value in [("a", 1), ("a", 2), ("c", 4)]:
    d[key].append(value)

In [35]:
d

defaultdict(list, {'a': [1, 2], 'c': [4]})

### 1.7 字典排序

利用`OrderedDict`来保证字典中元素的顺序

In [44]:
from collections import OrderedDict

d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4
d

OrderedDict([('foo', 1), ('bar', 2), ('spam', 3), ('grok', 4)])

In [45]:
for key in d:
    print(key, d[key])

foo 1
bar 2
spam 3
grok 4


In [46]:
# 比较适合，后续需要编码，或者序列化的场景。
# 比如需要精确控制以json编码后字段的顺序

import json
json.dumps(d)

'{"foo": 1, "bar": 2, "spam": 3, "grok": 4}'

In [53]:
d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4
d

OrderedDict([('foo', 1), ('bar', 2), ('spam', 3), ('grok', 4)])

In [63]:
sorted(d.items(), key=lambda x:x[0][2])

[('spam', 3), ('foo', 1), ('grok', 4), ('bar', 2)]

In [64]:
d2 = OrderedDict(sorted(d.items(), key=lambda x:x[0][2]))
d2

OrderedDict([('spam', 3), ('foo', 1), ('grok', 4), ('bar', 2)])

In [65]:
json.dumps(d2)

'{"spam": 3, "foo": 1, "grok": 4, "bar": 2}'

OrderedDict 内部维护着一个根据键插入顺序排序的双向链表。每次当一个新的元素插入进来的时候， 它会被放到链表的尾部。对于一个已经存在的键的重复赋值不会改变键的顺序。

需要注意的是，一个 OrderedDict 的大小是一个普通字典的两倍，因为它内部维护着另外一个链表。 所以如果你要构建一个需要大量 OrderedDict 实例的数据结构的时候（比如读取 100,000 行 CSV 数据到一个 OrderedDict 列表中去）， 那么你就得仔细权衡一下是否使用 OrderedDict 带来的好处要大过额外内存消耗的影响。

### 1.8 字典的运算

In [67]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}

min_price = min(zip(prices.values(), prices.keys()))
min_price

(10.75, 'FB')

In [68]:
max_price = max(zip(prices.values(), prices.keys()))
max_price

(612.78, 'AAPL')

In [69]:
prices_sorted = sorted(zip(prices.values(), prices.keys()))
prices_sorted

[(10.75, 'FB'),
 (37.2, 'HPQ'),
 (45.23, 'ACME'),
 (205.55, 'IBM'),
 (612.78, 'AAPL')]

In [70]:
# zip函数只能访问一次的迭代器
prices_and_names = zip(prices.values(), prices.keys())
print(min(prices_and_names)) # OK
print(max(prices_and_names)) # ValueError: max() arg is an empty sequence

(10.75, 'FB')


ValueError: max() arg is an empty sequence

In [71]:
min(prices)

'AAPL'

在字典上的数学运算，仅仅作用于键，不是值。

但当多个key拥有相同的值时，会根据key返回唯一一个结果.

In [73]:
prices = { 'AAA' : 45.23, 'ZZZ': 45.23 }
min(zip(prices.values(), prices.keys()))


(45.23, 'AAA')

### 1.9 查找两个字典的相同点

查找两个字典中相同点(比如相同的键，相同的值)

In [1]:
a = {
    'x' : 1,
    'y' : 2,
    'z' : 3
}

b = {
    'w' : 10,
    'x' : 11,
    'y' : 2
}

In [3]:
a.keys() & b.keys()

{'x', 'y'}

In [4]:
a.keys() - b.keys()

{'z'}

In [5]:
a.items() & b.items()

{('y', 2)}

In [6]:
c = {key:a[key] for key in a.keys() - {'z', 'w'}}
c

{'x': 1, 'y': 2}

一个字典就是一个键与值集合的映射关系。

+ 字典的`keys`方法返回一个展现键集合的键视图对象。键视图也支持集合操作，比如集合交并补。可以直接使用，不用将他们转化为set。
+ `items`返回的是一个(key,value)的元素视图对象。同样支持集合操作
+ `values`不支持集合操作

### 1.10 删除序列相同元素并保持顺序

如何在一个序列上保持元素顺序，并同时消除重复的值。



In [9]:
# 如果序列上的值，都是`hashable`类型

def deduqe(items):
    seen = []
    for item in items:
        if item not in seen:
            yield item
            seen.append(item)

In [10]:
a = [1, 5, 2, 1, 9, 1, 5, 10]
list(deduqe(a))

[1, 5, 2, 9, 10]

In [11]:
# 如果是字典，不可哈希。
def deduqe(items, key=None):
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)

In [12]:
a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]
list(deduqe(a, key=lambda d: (d['x'], d['y'])))

[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]

In [14]:
list(deduqe(a, key=lambda d: d['x']))

[{'x': 1, 'y': 2}, {'x': 2, 'y': 4}]

### 1.11 命名切片

代码里面可能有很多hard-code的切片。

In [15]:
record = '....................100 .......513.25 ..........'
cost = int(record[20:23]) * float(record[31:37])
cost


51325.0

In [17]:
SHARE = slice(20, 23)
PRICE = slice(31, 37)
cost = int(record[SHARE]) * float(record[PRICE])
cost

51325.0

In [22]:
items = [0,1,2,3,4,5,6,7,8,9,10]
a = slice(2,4)
items[a]

[2, 3]

In [23]:
items[a] = [22, 33]
items

[0, 1, 22, 33, 4, 5, 6, 7, 8, 9, 10]

In [24]:
del items[a]

In [25]:
items

[0, 1, 4, 5, 6, 7, 8, 9, 10]

In [27]:
a = slice(1,5,1)
a.start, a.stop, a.step

(1, 5, 1)

In [28]:
s = "HelloWorld"
a.indices(len(s))
a

slice(1, 5, 1)

In [30]:
for i in range(*a.indices(len(s))):
    print(s[i])

e
l
l
o


### 1.12 序列中出现次数最多的元素

怎么样从一个序列中找出出现次数最多的元素呢？

`collections.Counter()`专门为此类问题而设计，它甚至有一个有用的`most_common()`方法直接给出了答案。

In [31]:
words = [
    'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
    'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
    'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
    'my', 'eyes', "you're", 'under'
]
from collections import Counter
word_counts = Counter(words)
top_three = word_counts.most_common(3)
top_three

[('eyes', 8), ('the', 5), ('look', 4)]

In [33]:
# Counter对象就是一个字典
word_counts['eyes']

8

In [34]:
morewords = ['why','are','you','not','looking','in','my','eyes']
for word in morewords:
    word_counts[word] += 1

word_counts['eyes']

9

In [35]:
# 或者可以用update方法
word_counts.update(morewords)
word_counts['eyes']

10

`Counter`实例可以很容易的跟数学运算操作相结合

In [36]:
 a = Counter(words)
 b = Counter(morewords)
 a,b

(Counter({'look': 4,
          'into': 3,
          'my': 3,
          'eyes': 8,
          'the': 5,
          'not': 1,
          'around': 2,
          "don't": 1,
          "you're": 1,
          'under': 1}),
 Counter({'why': 1,
          'are': 1,
          'you': 1,
          'not': 1,
          'looking': 1,
          'in': 1,
          'my': 1,
          'eyes': 1}))

In [37]:
c = a + b
c

Counter({'look': 4,
         'into': 3,
         'my': 4,
         'eyes': 9,
         'the': 5,
         'not': 2,
         'around': 2,
         "don't": 1,
         "you're": 1,
         'under': 1,
         'why': 1,
         'are': 1,
         'you': 1,
         'looking': 1,
         'in': 1})

In [38]:
d = a - b
d

Counter({'look': 4,
         'into': 3,
         'my': 2,
         'eyes': 7,
         'the': 5,
         'around': 2,
         "don't": 1,
         "you're": 1,
         'under': 1})

### 1.13 通过某个关键字排序一个字典列表



In [39]:
rows = [
    {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
    {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
    {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
    {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
]

from operator import itemgetter
rows_by_fname = sorted(rows, key=itemgetter('fname'))
rows_by_uid = sorted(rows, key=itemgetter('uid'))
rows_by_fname


[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
 {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]

In [40]:
rows_by_uid

[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
 {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
 {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]

In [41]:
# 按照多个key进行排序
rows_by_lfname = sorted(rows, key=itemgetter('lname','fname'))
rows_by_lfname

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
 {'fname': 'Big', 'lname': 'Jones', 'uid': 1004},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]

`itemgetter()`有时候也可以用`lambda`表达式来替代;但`itemgetter()`的性能更高。

In [42]:
rows_by_fname = sorted(rows, key=lambda r:r['fname'])
rows_by_lname = sorted(rows, key=lambda r:(r['lname'], r['fname']))
rows_by_fname, rows_by_lname

([{'fname': 'Big', 'lname': 'Jones', 'uid': 1004},
  {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
  {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
  {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}],
 [{'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
  {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
  {'fname': 'Big', 'lname': 'Jones', 'uid': 1004},
  {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}])

In [43]:
# min,max
min(rows, key=itemgetter('uid'))

{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}

In [44]:
max(rows, key=itemgetter('uid'))

{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}

### 1.14 排序不支持原生比较的对象

内置的`sorted`函数的关键字`key`，可以传入一个`callable`对象给它，对于每一个传入的值，返回一个值，用来排序这些操作。

若想操作不支持原生比较的对象，可以自定义一个`callable`对象

In [45]:
class User:
    def __init__(self, user_id):
        self.user_id = user_id

    def __repr__(self):
        return 'User({})'.format(self.user_id)

def sort_notcompare():
    users = [User(23), User(3), User(99)]
    print(users)
    print(sorted(users, key=lambda u:u.user_id))

In [46]:
sort_notcompare()

[User(23), User(3), User(99)]
[User(3), User(23), User(99)]


In [49]:
from operator import attrgetter

def sort_notcompare():
    users = [User(23), User(3), User(99)]
    print(users)
    print(sorted(users, key=attrgetter('user_id')))

sort_notcompare()

[User(23), User(3), User(99)]
[User(3), User(23), User(99)]


### 1.15 通过某个字段将记录分组

通过某个字段`groupby`

In [50]:
rows = [
    {'address': '5412 N CLARK', 'date': '07/01/2012'},
    {'address': '5148 N CLARK', 'date': '07/04/2012'},
    {'address': '5800 E 58TH', 'date': '07/02/2012'},
    {'address': '2122 N CLARK', 'date': '07/03/2012'},
    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
    {'address': '1060 W ADDISON', 'date': '07/02/2012'},
    {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]

In [52]:
from operator import itemgetter
from itertools import groupby

rows.sort(key=itemgetter('date'))
rows


[{'address': '5412 N CLARK', 'date': '07/01/2012'},
 {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
 {'address': '5800 E 58TH', 'date': '07/02/2012'},
 {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
 {'address': '1060 W ADDISON', 'date': '07/02/2012'},
 {'address': '2122 N CLARK', 'date': '07/03/2012'},
 {'address': '5148 N CLARK', 'date': '07/04/2012'},
 {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}]

In [53]:
for date, items in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in items:
        print(' ', i)

07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
  {'address': '5800 E 58TH', 'date': '07/02/2012'}
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
  {'address': '5148 N CLARK', 'date': '07/04/2012'}
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


+ `groupby`函数扫描整个序列，返回一个值和对应的迭代器对象。这个迭代器对象可以生成元素值全部对象。
+ 因为只检查连续的元素，所以需要事先排序好。


### 1.16 过滤序列元素

如果使用列表生成式，占用内存比较多。可以考虑使用生成器表达式

In [56]:
mylist = [1, 4, -5, 10, 7, -2, 3, -1]
pos = (n for n in mylist if n > 0)
pos

<generator object <genexpr> at 0x1203a8b50>

In [57]:
for x in pos:
    print(x)

1
4
10
7
3


In [58]:
# 使用filter函数
values = ['1', '2', '-3', '-', '4', 'N/A', '5']
def is_int(val):
    try:
        x = int(val)
        return True
    except ValueError:
        return False

ivals = list(filter(is_int, values))

In [59]:
ivals

['1', '2', '-3', '4', '5']

In [60]:
filter(is_int, values) # 创建的是一个迭代器

<filter at 0x120448210>

`itertools.compress()`，以一个`iterable`对象和一个相对应的`Boolen`选择器序列作为输入参数。输出`Boolen`为True的元素

In [61]:
addresses = [
    '5412 N CLARK',
    '5148 N CLARK',
    '5800 E 58TH',
    '2122 N CLARK',
    '5645 N RAVENSWOOD',
    '1060 W ADDISON',
    '4801 N BROADWAY',
    '1039 W GRANVILLE',
]
counts = [ 0, 3, 10, 4, 1, 7, 6, 1]

from itertools import compress

more5 = [n>5 for n in counts]
more5


[False, False, True, False, False, True, True, False]

In [64]:
list(compress(addresses, more5))

['5800 E 58TH', '1060 W ADDISON', '4801 N BROADWAY']

### 1.17 从字典中提取子集



In [65]:
# 使用字典推导
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}

p1 = {key: value for key, value in prices.items() if value > 200}
p1

{'AAPL': 612.78, 'IBM': 205.55}

In [66]:
tech_names = {'AAPL', 'IBM', 'HPQ', 'MSFT'}
p2 = {key:value for key, value in prices.items() if key in tech_names}
p2

{'AAPL': 612.78, 'IBM': 205.55, 'HPQ': 37.2}

In [67]:
{key:value for key, value in prices.items() if key in ["AAPL"]}

{'AAPL': 612.78}

### 1.18 映射名称到序列元素

给序列元素添加name

In [68]:
from collections import namedtuple
Subscriber = namedtuple("Subscriber", ["addr", "joined"])
sub =  Subscriber('jonesy@example.com', '2012-10-19')
sub

Subscriber(addr='jonesy@example.com', joined='2012-10-19')

In [69]:
sub.addr, sub.joined

('jonesy@example.com', '2012-10-19')

这么做，可以让你从元组的下标中被拯救出来。比如从数据库中返回了一个很大的元组列表。如果后续添加列，使用普通方法可能会报错。

In [71]:
cols = namedtuple("db_cols", ["var1", "var2", "var3"])
test = cols('col1','col2','col3')
test

db_cols(var1='col1', var2='col2', var3='col3')

In [73]:
from collections import namedtuple

Stock = namedtuple('Stock', ['name', 'shares', 'price'])
def compute_cost(records):
    total = 0.0
    for rec in records:
        s = Stock(*rec)
        total += s.shares * s.price
    return total

In [74]:
s = Stock('ACME',100,123.45)
s

Stock(name='ACME', shares=100, price=123.45)

In [75]:
s.shares = 75

AttributeError: can't set attribute

元组不能改变属性的值。可以使用`_replace()`方法，它会创建一个全新的命名元组并将对应的字段用新的值取代。

`_replace()`方法,当你的命名元组拥有可选或者缺失字段的时候，它是一个非常方便的填充数据的方法。

In [76]:
s = s._replace(shares=75)
s

Stock(name='ACME', shares=75, price=123.45)

In [77]:
from collections import namedtuple

Stock = namedtuple('Stock', ['name', 'shares', 'price', 'date', 'time'])

# Create a prototype instance
stock_prototype = Stock('', 0, 0.0, None, None)
stock_prototype

Stock(name='', shares=0, price=0.0, date=None, time=None)

In [78]:
def dict_to_stock(s):
    return stock_prototype._replace(**s)
    

In [79]:
a = {'name':'ACME', 'shares':100, 'price':123.45}
dict_to_stock(a)

Stock(name='ACME', shares=100, price=123.45, date=None, time=None)

In [80]:
b = {'name':'ACME', 'shares':100, 'price':123.45, 'date': '12/17/2012'}
dict_to_stock(b)

Stock(name='ACME', shares=100, price=123.45, date='12/17/2012', time=None)

### 1.19 转换并同时计算数据



In [81]:
nums = [1, 2, 3, 4, 5]
s = sum(x * x for x in nums)
s

55

使用生成器表达式，会比先创建一个临时列表更加高效和优雅。



In [82]:
portfolio = [
    {'name':'GOOG', 'shares': 50},
    {'name':'YHOO', 'shares': 75},
    {'name':'AOL', 'shares': 20},
    {'name':'SCOX', 'shares': 65}
]


min(portfolio, key=lambda s: s['shares'])

{'name': 'AOL', 'shares': 20}

In [83]:
min(s['shares'] for s in portfolio)

20

### 1.20 合并多个字典或者映射



In [84]:
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }
from collections import ChainMap
c = ChainMap(a, b)
c

ChainMap({'x': 1, 'z': 3}, {'y': 2, 'z': 4})

In [86]:
c['x'],c['y'],c['z']

(1, 2, 3)

一个`ChainMap`接受多个字典并将它们在逻辑上变为一个字典，然后这些字典并不是真的合并在一起，`ChainMap`只是在内部创建了一个容纳这些字典的列表，并重新定义了一些常见的字典操作来遍历这个列表。大部分字典操作都是可以正常使用的。比如；

In [87]:
len(c)

3

In [88]:
list(c.keys())

['y', 'z', 'x']

In [89]:
list(c.values())

[2, 3, 1]

如果出现重复键，那么第一次出现的映射值会被返回。 因此，例子程序中的 c['z'] 总是会返回字典 a 中对应的值，而不是 b 中对应的值。

对于字典的更新或删除操作总是影响的是列表中第一个字典。比如：



In [90]:
c['z'] = 10
c['w'] = 40
del c['x']
a

{'z': 10, 'w': 40}

In [91]:
del c['y']

KeyError: "Key not found in the first mapping: 'y'"

In [92]:
values = ChainMap()
values['x'] = 1
values = values.new_child()
values['x'] = 2
values = values.new_child()
values['x'] = 3
values


ChainMap({'x': 3}, {'x': 2}, {'x': 1})

In [93]:
# discard last map
values = values.parents
values['x'], values

(2, ChainMap({'x': 2}, {'x': 1}))

In [94]:
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }
merged = dict(b)
merged.update(a)
merged['x']

1

In [95]:
merged['y'], merged['z']

(2, 3)

这相当于是创建了一个完全不同的字典对象(或者是破坏现有字典结构).如果原字典做了更新，这种改变不会更新到新的合并字典中去。

In [96]:
a['x'] = 13
merged['x']

1

`ChainMap`使用原有的字典，不会创建新的字典，所以并不会产生上面所说的结果。

In [97]:
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }
merged = ChainMap(a, b)
merged['x']

1

In [98]:
a['x'] = 100
merged['x']

100