# 1 数据结构和算法

Content:

* 1.1 将序列分解为单独的变量
* 1.2 解压可迭代对象赋值给多个变量
* 1.3 保留最后 N 个元素
* 1.4 查找最大或最小的 N 个元素
* 1.5 实现一个优先级队列
* 1.6 字典中的键映射多个值
* 1.7 字典排序
* 1.8 字典的运算
* 1.9 查找两字典的相同点
* 1.10 删除序列相同元素并保持顺序
* 1.11 命名切片
* 1.12 序列中出现次数最多的元素
* 1.13 通过某个关键字排序一个字典列表
* 1.14 排序不支持原生比较的对象
* 1.15 通过某个字段将记录分组
* 1.16 过滤序列元素
* 1.17 从字典中提取子集
* 1.18 映射名称到序列元素
* 1.19 转换并同时计算数据
* 1.20 合并多个字典或映射

## 1.1 解压序列赋值给多个变量

problem: 现在有一个包含N 个元素的元组或者是序列，怎样将它里面的值解压后同时赋值给N 个变量?

In [None]:
# 解压赋值
p = (4,5)
x, y = p
print(x, y)

data = [ 'ACME', 50, 91.1, (2012, 12, 21) ]
name, shares, price, date = data
print(name, shares, price, date)

In [None]:
# 这种解压赋值可以用在任何可迭代对象上面，而不仅仅是列表或者元组。包括字符串，文件对象，迭代器和生成器。
s = 'Hello'
a, b, c, d, e = s
print(a, b, c, d, e)

In [None]:
# 只想解压一部分，丢弃其他的值
data = [ 'ACME', 50, 91.1, (2012, 12, 21) ]
_, shares, price, date = data
shares
# 必须保证你选用的那些占位变量名在其他地方没被使用到

## 1.2 解压可迭代对象赋值给多个变量

problem: 如果一个可迭代对象的元素个数超过变量个数时，会抛出一个ValueError。那么怎样才能从这个可迭代对象中解压出N 个元素出来？

ans: 星号表达式

In [15]:
# func
def drop_first_last(grades):
    first, *middle, last = grades
    return sum(middle)/len(middle) # average

grades = [1, 2, 3, 4, 5]
drop_first_last(grades)

3.0

In [16]:
record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212')
name, email, *phone_numbers = record
print(name)
print(email)
print(phone_numbers)

Dave
dave@example.com
['773-555-1212', '847-555-1212']


In [17]:
*trailing, current = [10, 8, 7, 1, 9, 5, 10, 3]
print(trailing)
print(current)

[10, 8, 7, 1, 9, 5, 10]
3


In [21]:
# 星号表达式在迭代元素为可变长元组的序列时是很有用的
records = [
    ('foo', 1, 2),
    ('bar', 'hello'),
    ('foo', 3, 4),
]

def do_foo(x, y):
    print('foo', x, y)

def do_bar(a):
    print('bar', a)

for tag, *args in records:
    if tag == 'foo':
        do_foo(*args)
    elif tag == 'bar':
        do_bar(*args)

foo 1 2
bar hello
foo 3 4


In [24]:
# 星号解压语法在字符串操作的时候也会很有用
line = 'nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false'
uname, *fields, homedir, sh = line.split(':')
print(uname)
print(homedir)
print(sh)

nobody
/var/empty
/usr/bin/false


In [29]:
# 解压一些元素后丢弃它们
data = [ 'ACME', 50, 91.1, (2012, 12, 21) ]
name, *_, (*_, year) = data
print(name)
print(year)

ACME
21


In [30]:
# 分割list为两部分
items = [1, 10, 7, 4, 5, 9]
head, *tail = items
print(head)
print(tail)

1
[10, 7, 4, 5, 9]


In [31]:
# 分割语法去巧妙的实现递归算法
def sum(items):
    head, *tail = items
    return head + sum(tail) if tail else head

sum(items)

36

## 1.3 保留最后N 个元素

problem: 在迭代操作或者其他操作的时候，怎样只保留最后有限几个元素的历史记录？

ans: collections.deque

In [2]:
from collections import deque

def search(lines, pattern, history=5):
    previous_lines = deque(maxlen=history)
    for line in lines:
        if pattern in line:
            yield line, previous_lines
        previous_lines.append(line)

# Example use on a file
if __name__ == '__main__':
    with open('.gitignore') as f:
        for line, prevlines in search(f, 'python', 5):
            for pline in prevlines:
                print(pline, end='')
            print(line, end='')
            print('-' * 20)

parts/
sdist/
var/
wheels/
pip-wheel-metadata/
share/python-wheels/
--------------------
.installed.cfg
*.egg
MANIFEST

# PyInstaller
#  Usually these files are written by a python script from a template
--------------------
# Jupyter Notebook
.ipynb_checkpoints

# IPython
profile_default/
ipython_config.py
--------------------
# IPython
profile_default/
ipython_config.py

# pyenv
.python-version
--------------------


In [3]:
# 进队出队
q = deque(maxlen=3)
q.append(1)
q.append(2)
q.append(3)
print(q)

q.append(4)
print(q)

q.append(5)
print(q)

deque([1, 2, 3], maxlen=3)
deque([2, 3, 4], maxlen=3)
deque([3, 4, 5], maxlen=3)


In [7]:
#无限大小队列，队列的两端执行添加和弹出元素操作
q = deque()
q.append(1)
q.append(2)
q.append(3)
print(q)

q.appendleft(4)
print(q)

q.pop()
# print(q)
q.popleft()

deque([1, 2, 3])
deque([4, 1, 2, 3])


4

## 1.4 查找最大或最小的N 个元素

problem: 怎样从一个集合中获得最大或者最小的N 个元素列表？

ans: heapq模块中的nlargest() 和 nsmallest() 函数

In [8]:
import heapq

nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
print(heapq.nlargest(3, nums))
print(heapq.nsmallest(3, nums))

[42, 37, 23]
[-4, 1, 2]


In [9]:
# 两个函数都能接受一个关键字参数，用于更复杂的数据结构中
portfolio = [
    {'name': 'IBM', 'shares': 100, 'price': 91.1},
    {'name': 'AAPL', 'shares': 50, 'price': 543.22},
    {'name': 'FB', 'shares': 200, 'price': 21.09},
    {'name': 'HPQ', 'shares': 35, 'price': 31.75},
    {'name': 'YHOO', 'shares': 45, 'price': 16.35},
    {'name': 'ACME', 'shares': 75, 'price': 115.65}
]
cheap = heapq.nsmallest(3, portfolio, key=lambda s: s['price'])
expensive = heapq.nlargest(3, portfolio, key=lambda s: s['price'])
print(cheap)
print(expensive)

[{'name': 'YHOO', 'shares': 45, 'price': 16.35}, {'name': 'FB', 'shares': 200, 'price': 21.09}, {'name': 'HPQ', 'shares': 35, 'price': 31.75}]
[{'name': 'AAPL', 'shares': 50, 'price': 543.22}, {'name': 'ACME', 'shares': 75, 'price': 115.65}, {'name': 'IBM', 'shares': 100, 'price': 91.1}]


In [13]:
# 底层实现中，首先会先将集合数据进行堆排序后放入一个列表中
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
import heapq
heap = list(nums)
heapq.heapify(heap)
print(heap)

# 堆数据结构最重要的特征是heap[0] 永远是最小的元素。
heapq.heappop(heap) # -4
heapq.heappop(heap) # 1
heapq.heappop(heap) # 2

[-4, 2, 1, 23, 7, 2, 18, 23, 42, 37, 8]


2

## 1.5 实现一个优先级队列

problem: 实现一个按优先级排序的队列？并且在这个队列上面每次pop 操作总是返回优先级最高的那个元素

ans: heapq

In [7]:
import heapq

class PriorityQueue:
    def __init__(self):
        self._queue = []
        self._index = 0
    
    def push(self, item, priority):
        heapq.heappush(self._queue, (-priority, self._index, item))
        self._index += 1

    def pop(self):
        return heapq.heappop(self._queue)[-1]

class Item:
    def __init__(self, name):
        self.name = name
    def __repr__(self):
        return 'Item({!r})'.format(self.name)

q = PriorityQueue()
q.push(Item('foo'), 1)
q.push(Item('bar'), 5)
q.push(Item('spam'), 4)
q.push(Item('grok'), 1)
q.pop()
q.pop()
q.pop()
q.pop()

Item('grok')

In [8]:
# 优先级比较
a = Item('foo')
b = Item('bar')
a < b # error!

TypeError: '<' not supported between instances of 'Item' and 'Item'

In [10]:
a = (1, Item('foo'))
b = (5, Item('bar'))
a < b
c = (1, Item('grok'))
a < c # error!

TypeError: '<' not supported between instances of 'Item' and 'Item'

In [11]:
# 引入另外的index 变量组成三元组(priority, index, item)
a = (1, 0, Item('foo'))
b = (5, 1, Item('bar'))
c = (1, 2, Item('grok'))
a < c

True

## 1.6 字典中的键映射多个值

problem: 怎样实现一个键对应多个值的字典（也叫multidict）?

ans: 一个字典就是一个键对应一个单值的映射。如果你想要一个键映射多个值，那么你就需要将这多个值放到另外的容器中，比如列表或者集合里面。

In [12]:
# 比如可以像下面这样构造这样的字典：
d = {
    'a' : [1, 2, 3],
    'b' : [4, 5]
}

e = {
    'a' : {1, 2, 3},
    'b' : {4, 5}
}

In [2]:

from collections import defaultdict

d = defaultdict(list)
d['a'].append(1)
d['a'].append(2)
d['b'].append(4)
print(d)

d = defaultdict(set)
d['a'].add(1)
d['a'].add(2)
d['b'].add(4)
print(d)

defaultdict(<class 'list'>, {'a': [1, 2], 'b': [4]})
defaultdict(<class 'set'>, {'a': {1, 2}, 'b': {4}})


In [7]:
# defaultdict 会自动为将要访问的键（就算目前字典中并不存在这样的键）创建映射实体。
# 如果你并不需要这样的特性，可以在一个普通的字典上使用setdefault() 方法来代替.
# 每次调用都得创建一个新的初始值的实例
d = {} # A regular dictionary
d.setdefault('a', []).append(1)
d.setdefault('a', []).append(2)
# d.setdefault('b', []).append(4)
d.setdefault('b', set({})).add(4)
print(d)

{'a': [1, 2], 'b': {4}}


In [None]:
# 创建一个多值映射字典
d = {}
for key, value in pairs:
    if key not in d:
        d[key] = []
    d[key].append(value)

# 如果使用defaultdict
d = defaultdict()
for key, value in pairs:
    d[key].append(value)

## 1.7 字典排序

problem: 创建一个字典，并且在迭代或序列化这个字典的时候能够控制元素的顺序。

ans: collections.OrderedDict

In [8]:
from collections import OrderedDict

d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4
# Outputs "foo 1", "bar 2", "spam 3", "grok 4"
for key in d:
    print(key, d[key])

foo 1
bar 2
spam 3
grok 4


In [9]:
# 构建一个将来需要序列化或编码成其他格式的映射
import json

json.dumps(d)

'{"foo": 1, "bar": 2, "spam": 3, "grok": 4}'

## 1.8 字典的运算

problem: 怎样在数据字典中执行一些计算操作（比如求最小值、最大值、排序等等）?

ans: zip()

In [13]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}

min_price = min(zip(prices.values(), prices.keys()))
print('min_price is', min_price)
max_price = max(zip(prices.values(), prices.keys()))
print('max_price is', max_price)

# 使用zip() 和sorted() 函数来排列字典数据
prices_sorted = sorted(zip(prices.values(), prices.keys()))
print('sorted_prices are', prices_sorted)

min_price is (10.75, 'FB')
max_price is (612.78, 'AAPL')
sorted_prices are [(10.75, 'FB'), (37.2, 'HPQ'), (45.23, 'ACME'), (205.55, 'IBM'), (612.78, 'AAPL')]


In [14]:
# 需要注意的是zip() 函数创建的是一个只能访问一次的迭代器
prices_and_names = zip(prices.values(), prices.keys())
print(min(prices_and_names)) # OK!
print(max(prices_and_names)) # ValueError: max() arg is an empty sequence

(10.75, 'FB')


ValueError: max() arg is an empty sequence

In [18]:
# 如果你在一个字典上执行普通的数学运算，你会发现它们仅仅作用于键，而不是值。
print(min(prices))
print(max(prices))

print(min(prices.values()))
print(max(prices.values()))

# 在min() 和max() 函数中提供key 函数参数来获取最小值或最大值对应的键的信息。
print(min(prices, key=lambda k: prices[k]))
print(max(prices, key=lambda k: prices[k]))
# 如果还想要得到最小值，你又得执行一次查找操作:
min_value = prices[min(prices, key=lambda k: prices[k])]

AAPL
IBM
10.75
612.78
FB
AAPL


In [19]:
# 当多个实体拥有相同的值的时候，键会决定返回结果
prices = { 'AAA' : 45.23, 'ZZZ': 45.23 }
min(zip(prices.values(), prices.keys()))
max(zip(prices.values(), prices.keys()))

(45.23, 'ZZZ')

## 1.9 查找两字典的相同点

problem: 怎样在两个字典中寻寻找相同点（比如相同的键、相同的值等等）?


In [20]:
a = {
    'x' : 1,
    'y' : 2,
    'z' : 3
}

b = {
    'w' : 10,
    'x' : 11,
    'y' : 2
}

# Find keys in common
a.keys() & b.keys()
# Find keys in a that are not in b
a.keys() - b.keys()
# Find keys in b that are not in a
b.keys() - a.keys()

{'w'}

In [21]:
# 用于修改或者过滤字典元素
# Make a new dictionary with certain keys removed
c = {key:a[key] for key in a.keys() - {'z', 'w'}}
print(c)

{'y': 2, 'x': 1}


## 1.10 删除序列相同元素并保持顺序

problem: 怎样在一个序列上面保持元素顺序的同时消除重复的值?

In [3]:
# 如果是hashable类型的值，简单利用集合或生成器
def dequpe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)

a = [1, 5, 2, 1, 9, 1, 5, 10]
list(dequpe(a))

[1, 5, 2, 9, 10]

In [6]:
# 消除元素不可哈希（比如dict 类型）的序列中重复元素
def dequpe(items, key=None):
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)

a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]
print( list(dequpe(a, key=lambda d: (d['x'], d['y']))) )
print( list(dequpe(a, key=lambda d: d['x'])) )

[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]
[{'x': 1, 'y': 2}, {'x': 2, 'y': 4}]


In [7]:
# 如果你仅仅就是想消除重复元素
a = [1, 5, 2, 1, 9, 1, 5, 10]
set(a)

{1, 2, 5, 9, 10}

## 1.11 命名切片

problem: 你的程序已经出现一大堆已无法直视的硬编码切片下标，然后你想清理下代码。

ans: 命名切片

In [6]:
###### 0123456789012345678901234567890123456789012345678901234567890'
record = '....................100 .......513.25 ..........'
cost = int(record[20:23]) * float(record[31:37])
print(cost)

# 使用命名切片
SHARES = slice(20, 23)
PRICE = slice(31, 37)
cost = int(record[SHARES]) * float(record[PRICE])
print(cost)

51325.0
51325.0


In [9]:
# 内置的slice() 函数创建了一个切片对象，可以被用在任何切片允许使用的地方。
items = [0, 1, 2, 3, 4, 5, 6]
a = slice(2, 4)
print(items[2:4])
print(items[a])
items[a] = [10, 11]
print(items)
del items[a]
print(items)

[2, 3]
[2, 3]
[0, 1, 10, 11, 4, 5, 6]
[0, 1, 4, 5, 6]


In [10]:
# a.start , a.stop , a.step 属性
a = slice(5, 50, 2)
print(a.start)
print(a.stop)
print(a.step)

5
50
2


In [15]:
# indices(size) 方法
s = 'HelloWorld'
a.indices(len(s))
for i in range(*a.indices(len(s))):
    print(s[i])

W
r
d


## 1.12 序列中出现次数最多的元素

problem: 怎样找出一个序列中出现次数最多的元素呢？

ans: collections.Counter -- most_common()

In [4]:
words = [
'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the', 'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into', 'my', 'eyes', "you're", 'under'
]

from collections import Counter
word_counts = Counter(words)
# 出现频率最高的3个单词
top_three = word_counts.most_common(3)
print(top_three)
# Outputs [('eyes', 8), ('the', 5), ('look', 4)]

# 作为输入，Counter 对象可以接受任意的由可哈希（hashable）元素构成的序列对象。在底层实现上，一个Counter 对象就是一个字典，将元素映射到它出现的次数上。
print(word_counts['not'])
print(word_counts['eyes'])

# 如果你想手动增加计数，可以简单的用加法：
morewords = ['why','are','you','not','looking','in','my','eyes']
for word in morewords:
    word_counts[word] += 1
print(word_counts['eyes'])

# 或者你可以使用update() 方法：
word_counts.update(morewords)

[('eyes', 8), ('the', 5), ('look', 4)]
1
8
9


In [5]:
# Counter 实例一个鲜为人知的特性是它们可以很容易的跟数学运算操作相结合
a = Counter(words)
b = Counter(morewords)
print(a)
print(b)
c = a + b
print(c)
d = a - b
print(d)

Counter({'eyes': 8, 'the': 5, 'look': 4, 'into': 3, 'my': 3, 'around': 2, 'not': 1, "don't": 1, "you're": 1, 'under': 1})
Counter({'why': 1, 'are': 1, 'you': 1, 'not': 1, 'looking': 1, 'in': 1, 'my': 1, 'eyes': 1})
Counter({'eyes': 9, 'the': 5, 'look': 4, 'my': 4, 'into': 3, 'not': 2, 'around': 2, "don't": 1, "you're": 1, 'under': 1, 'why': 1, 'are': 1, 'you': 1, 'looking': 1, 'in': 1})
Counter({'eyes': 7, 'the': 5, 'look': 4, 'into': 3, 'my': 2, 'around': 2, "don't": 1, "you're": 1, 'under': 1})


## 1.13 通过某个关键字排序一个字典列表

problem: 你有一个字典列表，你想根据某个或某几个字典字段来排序这个列表。

ans: operator.itemgetter()

In [6]:
rows = [
    {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
    {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
    {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
    {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
]

from operator import itemgetter
rows_by_fname = sorted(rows, key=itemgetter('fname'))
rows_by_uid = sorted(rows, key=itemgetter('uid'))
print(rows_by_fname)
print(rows_by_uid)

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]
[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]


In [7]:
# itemgetter() 函数也支持多个keys
rows_by_lfname = sorted(rows, key=itemgetter('lname', 'fname'))
print(rows_by_lfname)

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]


In [10]:
# itemgetter() 有时候也可以用lambda 表达式代替, 但是, 使用itemgetter() 方式会运行的稍微快点。
rows_by_fname = sorted(rows, key=lambda r: r['fname'])
rows_by_lfname = sorted(rows, key=lambda r: (r['lname'], r['fname']))

In [12]:
# 这节中展示的技术也同样适用于min() 和max() 等函数。
min_uid = min(rows, key=itemgetter('uid'))
print(min_uid)
max_uid = max(rows, key=itemgetter('uid'))
print(max_uid)

{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}
{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}


## 1.14 排序不支持原生比较的对象

problem: 排序类型相同的对象，但是他们不支持原生的比较操作。

ans: 内置的sorted() 函数有一个关键字参数key ，可以传入一个callable 对象给
它，这个callable 对象对每个传入的对象返回一个值，这个值会被sorted 用来排序这些对象。

In [19]:
class User:
    def __init__(self, user_id):
        self.user_id = user_id
    
    def __repr__(self):
        return 'User({})'.format(self.user_id)

users = [User(23), User(3), User(99)]
print(users)
print(sorted(users, key=lambda u: u.user_id))

[User(23), User(3), User(99)]
[User(3), User(23), User(99)]


In [20]:
# 另外一种方式是使用operator.attrgetter() 来代替lambda 函数
from operator import attrgetter

sorted(users, key=attrgetter('user_id'))

[User(3), User(23), User(99)]

In [22]:
# 这一小节用到的技术同样适用于像min() 和max() 之类的函数。
min_uid = min(users, key=attrgetter('user_id'))
max_uid = max(users, key=attrgetter('user_id'))
print(min_uid)
print(max_uid)

User(3)
User(99)


## 1.15 通过某个字段将记录分组

problem: 你有一个字典或者实例的序列，然后你想根据某个特定的字段比如date 来分组迭代访问。

ans: 
* itertools.groupby()函数扫描整个序列并且查找连续相同值（或者根据指定key 函数返回值相同）的元素序列。
* 一个非常重要的准备步骤是要根据指定的字段将数据排序。因为groupby() 仅仅检查连续的元素，如果事先并没有排序完成的话，分组函数将得不到想要的结果。

In [28]:
rows = [
    {'address': '5412 N CLARK', 'date': '07/01/2012'},
    {'address': '5148 N CLARK', 'date': '07/04/2012'},
    {'address': '5800 E 58TH', 'date': '07/02/2012'},
    {'address': '2122 N CLARK', 'date': '07/03/2012'},
    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
    {'address': '1060 W ADDISON', 'date': '07/02/2012'},
    {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]

# 你首先需要按照指定的字段(这里就是date ) 排序，然后调用itertools.groupby() 函数：
from operator import itemgetter
from itertools import groupby

# Sort by the desired field first
rows.sort(key=itemgetter('date'))
# Iterate in groups
for date, items in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in items:
        print(' ', i)

07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
  {'address': '5800 E 58TH', 'date': '07/02/2012'}
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
  {'address': '5148 N CLARK', 'date': '07/04/2012'}
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


In [29]:
# 如果你仅仅只是想根据date 字段将数据分组到一个大的数据结构中去，并且允许随机访问，那么你最好使用defaultdict() 来构建一个多值字典。
from collections import defaultdict
rows_by_date = defaultdict(list)
for row in rows:
    rows_by_date[row['date']].append(row)

for r in rows_by_date['07/01/2012']:
    print(r)

{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}


## 1.16 过滤序列元素

problem: 你有一个数据序列，想利用一些规则从中提取出需要的值或者是缩短序列。

ans: 列表推导, 生成器表达式

In [31]:
mylist = [1, 4, -5, 10, -7, 2, 3, -1]
print([n for n in mylist if n > 0])
print([n for n in mylist if n < 0])

[1, 4, 10, 2, 3]
[-5, -7, -1]


In [33]:
# 如果你对内存比较敏感，那么你可以使用生成器表达式迭代产生过滤的元素。
pos = (n for n in mylist if n > 0)
print(pos)
for x in pos:
    print(x)

<generator object <genexpr> at 0x0000023A26FFEAC0>
1
4
10
2
3


In [34]:
# 有时候，过滤规则比较复杂，不能简单的在列表推导或者生成器表达式中表达出来。可以将过滤代码放到一个函数中，然后使用内建的filter() 函数。
values = ['1', '2', '-3', '-', '4', 'N/A', '5']
def is_int(val):
    try:
        x = int(val)
        return True
    except ValueError:
        return False

ivals = list(filter(is_int, values))
print(ivals)

['1', '2', '-3', '4', '5']


In [35]:
# 列表推导和生成器表达式通常情况下是过滤数据最简单的方式。其实它们还能在过滤的时候转换数据。
mylist = [1, 4, -5, 10, -7, 2, 3, -1]
import math
print([math.sqrt(n) for n in mylist if n >0])

[1.0, 2.0, 3.1622776601683795, 1.4142135623730951, 1.7320508075688772]


In [38]:
# 过滤操作的一个变种就是将不符合条件的值用新的值代替，而不是丢弃它们。
# 比如，在一列数据中你可能不仅想找到正数，而且还想将不是正数的数替换成指定的数。通过将过滤条件放到条件表达式中去，可以很容易的解决这个问题:
clip_neg = [n if n > 0 else 0 for n in mylist]
print(clip_neg)

clip_pos = [n if n < 0 else 0 for n in mylist]
print(clip_pos)

[1, 4, 0, 10, 0, 2, 3, 0]
[0, 0, -5, 0, -7, 0, 0, -1]


In [41]:
# 另外一个值得关注的过滤工具就是itertools.compress() ，它以一个iterable对象和一个相对应的Boolean 选择器序列作为输入参数。然后输出iterable 对象中对应选择器为True 的元素。当你需要用另外一个相关联的序列来过滤某个序列的时候，这个函数是非常有用的。
addresses = [
    '5412 N CLARK',
    '5148 N CLARK',
    '5800 E 58TH',
    '2122 N CLARK',
    '5645 N RAVENSWOOD',
    '1060 W ADDISON',
    '4801 N BROADWAY',
    '1039 W GRANVILLE',
]
counts = [ 0, 3, 10, 4, 1, 7, 6, 1]

# 现在你想将那些对应count 值大于5 的地址全部输出:
from itertools import compress
more5 = [n > 5 for n in counts]
print(more5)
print(list(compress(addresses, more5)))
# 和filter() 函数类似，compress() 也是返回的一个迭代器。因此，如果你需要得到一个列表，那么你需要使用list() 来将结果转换为列表类型。

[False, False, True, False, False, True, True, False]
['5800 E 58TH', '1060 W ADDISON', '4801 N BROADWAY']


## 1.17 从字典中提取子集

problem: 你想构造一个字典，它是另外一个字典的子集。

ans: 字典推导

In [1]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}

# Make a dictionary of all prices over 200
p1 = {key: value for key ,value in prices.items() if value > 200}
# # Make a dictionary of tech stocks
tech_names = {'AAPL', 'IBM', 'HPQ', 'MSFT'}
p2 = {key: value for key, value in prices.items() if key in tech_names}
print(p1)
print(p2)

# 通过创建一个元组序列然后把它传给dict() 函数也能实现
p1 = dict((key, value) for key, value in prices.items() if value > 200)
# 但是，字典推导方式表意更清晰，并且实际上也会运行的更快些（在这个例子中，实际测试几乎比dcit() 函数方式快整整一倍）。

# 方式二， 慢
# Make a dictionary of tech stocks
tech_names = { 'AAPL', 'IBM', 'HPQ', 'MSFT' }
p2 = { key:prices[key] for key in prices.keys() & tech_names }

{'AAPL': 612.78, 'IBM': 205.55}
{'AAPL': 612.78, 'IBM': 205.55, 'HPQ': 37.2}


## 1.18 映射名称到序列元素

problem: 你有一段通过下标访问列表或者元组中元素的代码，但是这样有时候会使得你的代码难以阅读，于是你想通过名称来访问元素。

ans: collections.namedtuple() -- 返回Python 中标准元组类型子类的一个工厂方法。你需要传递一个类型名和你需要的字段给它，然后它就会返回一个类，你可以初始化这个类，为你定义的字段传递值等。

In [5]:
from collections import namedtuple

Subscriber = namedtuple('Subscriber', ['addr', 'joined'])
sub = Subscriber('jonesy@example.com', joined='2012-10-19')
print(sub.addr)
print(sub.joined)
print(len(sub))
# 和元组可交换
addr, joined = sub
print(addr, joined)

jonesy@example.com
2012-10-19
2
jonesy@example.com 2012-10-19


In [1]:
# 命名元组的一个主要用途是将你的代码从下标操作中解脱出来
from collections import namedtuple

Stock = namedtuple('Stock', ['name', 'shares', 'price'])
def compute_cost(records):
    total = 0.0
    for rec in records:
        s = Stock(*rec)
        total += s.shares * s.price
    return total


In [8]:
# 命名元组另一个用途就是作为字典的替代，因为字典存储需要更多的内存空间。
# 如果你需要构建一个非常大的包含字典的数据结构，那么使用命名元组会更加高效。
# 需要注意的是，不像字典那样，一个命名元组是不可更改的。
s = Stock('ACME', 100, 123.45)
print(s)
s.shares = 75 # ERROE!
# print(s.shares)

# 如果你真的需要改变属性的值，那么可以使用命名元组实例的_replace() 方法，它会创建一个全新的命名元组并将对应的字段用新的值取代。
s = s._replace(shares=75)
print(s)

Stock(name='ACME', shares=100, price=123.45)
Stock(name='ACME', shares=75, price=123.45)


In [13]:
# _replace() 方法还有一个很有用的特性就是当你的命名元组拥有可选或者缺失字段时候，它是一个非常方便的填充数据的方法。
from collections import namedtuple

Stock = namedtuple('Stock', ['name', 'shares', 'price', 'date', 'time'])
#  Create a prototype instance
stock_prototype = Stock('', 0, 0, None, None)

# Function to convert a dictionary to a Stock
def dict_to_stock(s):
    return stock_prototype._replace(**s)

a = {'name': 'ACME', 'shares': 100, 'price': 123.45}
print(dict_to_stock(a))
b = {'name': 'ACME', 'shares': 100, 'price': 123.45, 'date': '12/17/2012'}
print(dict_to_stock(b))

Stock(name='ACME', shares=100, price=123.45, date=None, time=None)
Stock(name='ACME', shares=100, price=123.45, date='12/17/2012', time=None)


## 1.19 转换并同时计算数据

problem: 你需要在数据序列上执行聚集函数（比如sum() , min() , max() ），但是首先你需要先转换或者过滤数据。

ans: 生成器表达式参数

In [15]:
nums = [1, 2, 3, 4, 5]
s = sum(x * x for x in nums)
print(s)

55


In [17]:
# Determine if any .py files exist in a directory
import os
files = os.listdir('./')
if any(name.endswith('.py') for name in files):
    print('Yhere be python!')
else:
    print('Sorry, no python.')

# Output a tuple as CSV
s = ('ACME', 50, 123.45)
print(','.join(str(x) for x in s))

# Data reduction across fields of a data structure
portfolio = [
    {'name':'GOOG', 'shares': 50},
    {'name':'YHOO', 'shares': 75},
    {'name':'AOL', 'shares': 20},
    {'name':'SCOX', 'shares': 65}
]
min_shares = min(s['shares'] for s in portfolio)

Sorry, no python.
ACME,50,123.45


In [18]:
# 以下等效
s = sum((x * x for x in nums)) # 显示的传递一个生成器表达式对象，多一步多创建一个对象
s = sum(x * x for x in nums) # 更加优雅的实现方式，省略了括号

In [20]:
# # Original: Returns 20
min_shares = min(s['shares'] for s in portfolio)
print(min_shares)
# Alternative: Returns {'name': 'AOL', 'shares': 20}
min_shares = min(portfolio, key=lambda s: s['shares'])
print(min_shares)

20
{'name': 'AOL', 'shares': 20}


## 1.20 合并多个字典或映射

problem: 现在有多个字典或者映射，你想将它们从逻辑上合并为一个单一的映射后执行某些操作，比如查找值或者检查某些键是否存在。

ans: collections.ChainMap

In [41]:
from collections import ChainMap

a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }
c = ChainMap(a, b)
print(c)
print(c['x'])
print(c['y'])
print(c['z'])

ChainMap({'x': 1, 'z': 3}, {'y': 2, 'z': 4})
1
2
3


In [42]:
# 一个ChainMap 接受多个字典并将它们在逻辑上变为一个字典。
# 然后，这些字典并不是真的合并在一起了，ChainMap 类只是在内部创建了一个容纳这些字典的列表
# 并重新定义了一些常见的字典操作来遍历这个列表。
print(len(c))
print(list(c.keys()))
print(list(c.values()))

3
['y', 'z', 'x']
[2, 3, 1]


In [43]:
# 如果出现重复键，那么第一次出现的映射值会被返回。
# 对于字典的更新或删除操作总是影响的是列表中第一个字典。
c['z'] = 10
c['w'] = 40
# del c['x']
print(a)

{'x': 1, 'z': 10, 'w': 40}


In [45]:
values = ChainMap()
values['x'] = 1
# Add a new mapping
values = values.new_child()
values['x'] = 2
# Add a new mapping
values = values.new_child()
values['x'] = 3
print(values)
print(values['x'])

# Discard last mapping
values = values.parents
print(values['x'])
# Discard last mapping
values = values.parents
print(values['x'])
print(values)

ChainMap({'x': 3}, {'x': 2}, {'x': 1})
3
2
1
ChainMap({'x': 1})


In [50]:
# 作为ChainMap 的替代，你可能会考虑使用update() 方法将两个字典合并。
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }
merged = dict(b)
merged.update(a)
print(merged['x'])
print(merged['y'])
print(merged['z'])

# 这样也能行得通，但是它需要你创建一个完全不同的字典对象（或者是破坏现有字典结构）。
# 同时，如果原字典做了更新，这种改变不会反应到新的合并字典中去。
a['x'] = 13
print(merged['x'])

# ChainMap 使用原来的字典，它自己不创建新的字典。
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }
merged2 = ChainMap(a, b)
print(merged2['x'])
a['x'] = 42
print(merged2['x'])

1
2
3
1
1
42
