* ## 第1章 数据结构和算法  
    * ### [1.3保存最后N个元素](#3)
    * ### [1.4 找到最大或最小N个元素](#4)
    * ### [1.5 实现优先级队列](#5)
    * ### [1.6 在字典中将键映射到多个值上](#6)
    * ### [1.7 让字典保持有序](#7)
    * ### [1.8 与字典有关的一些计算](#8)
    * ### [1.9 在两个字典中寻找相同点](#9)
    * ### [1.10 从序列中移除重复项且保持元素间顺序不变](#10)
    * ### [1.11 对切片命名](#11)
    * ### [1.12 找出序列中出现次数最多的元素](#12)
    * ### [1.13 通过公共键对字典列表排序](#13)
    * ### [1.14 对不原生支持比较操作的对象排序](#14)
    * ### [1.15 根据字段将记录分组](#15)
    * ### [1.16 筛选序列中的元素](#16)

### <span id="3">1.3保存最后N个元素</span>

保存有限的历史记录使collections.deque的完美应用场景  
当编写搜索某项记录的代码时，用yield关键字的生成器函数，  
可以将处理搜索过程的代码和使用搜索结果的代码成功解耦开来。

In [8]:
from collections import deque

def search(lines, pattern, history=5):
    previous_lines = deque(maxlen=history)
    for line in lines:
        if pattern in line:
            yield line, previous_lines
        previous_lines.append(line)
        
test_list = """
def search(lines, pattern, history=5):
    previous_lines = deque(maxlen=history)
    for line in lines:
        if pattern in line:
            yield line, previous_lines
        previous_lines.append(line)
""".split('\n')
for line, prevlines in search(test_list, "line", 3):
    for pline in prevlines:
        print(pline, end="")
    print(line, end="")
    print('-'*20)

def search(lines, pattern, history=5):--------------------
def search(lines, pattern, history=5):    previous_lines = deque(maxlen=history)--------------------
def search(lines, pattern, history=5):    previous_lines = deque(maxlen=history)    for line in lines:--------------------
def search(lines, pattern, history=5):    previous_lines = deque(maxlen=history)    for line in lines:        if pattern in line:--------------------
    previous_lines = deque(maxlen=history)    for line in lines:        if pattern in line:            yield line, previous_lines--------------------
    for line in lines:        if pattern in line:            yield line, previous_lines        previous_lines.append(line)--------------------


### <span id="4">1.4 找到最大或最小N个元素</span>

In [1]:
import heapq
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
print(heapq.nlargest(3, nums))
print(heapq.nsmallest(3, nums))

[42, 37, 23]
[-4, 1, 2]


In [3]:
portfolio = [
    {'name':'IBM', 'shares':100, 'price':91.1},
    {'name':'APPLE', 'shares':50, 'price':543.22},
    {'name':'FB', 'shares':200, 'price':21.09},
    {'name':'HPQ', 'shares':35, 'price':31.75},
    {'name':'YHOO', 'shares':45, 'price':16.35}
]

cheap = heapq.nsmallest(3, portfolio, key = lambda s : s['price'])
print(cheap)

[{'name': 'YHOO', 'shares': 45, 'price': 16.35}, {'name': 'FB', 'shares': 200, 'price': 21.09}, {'name': 'HPQ', 'shares': 35, 'price': 31.75}]


In [5]:
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
import heapq
heap = list(nums)
heapq.heapify(heap)
heapq.heappop(heap)

-4

### <span id="5">1.5 实现优先级队列</span>

In [8]:
import heapq
class PriorityQueue:
    
    def __init__(self):
        self._queue = []
        self._index = 0
        
    def push(self, item, priority):
        # 队列以元组（-priority, index, item）的形式组成。
        heapq.heappush(self._queue, (-priority, self._index, item))
        self._index += 1
        
    def pop(self):
        return heapq.heappop(self._queue)[-1]
    
class Item:
    def __init__(self, name):
        self.name = name
    def __repr__(self):
        return 'Item({!r})'.format(self.name)
    
q = PriorityQueue()
q.push(Item('foo'), 1)
q.push(Item('bar'), 5)
q.push(Item('spam'), 4)
q.push(Item('grok'), 1)
print(q.pop())
print(q.pop())
print(q.pop())
print(q.pop())

Item('bar')
Item('spam')
Item('foo')
Item('grok')


### <span id="6">1.6 在字典中将键映射到多个值上</span>

In [9]:
from collections import defaultdict

# 字典是一种关联容器，每个键都映射到一个单独的值上。
# 如果想让键映射到多个值，需要将这多个值保存到另一个容器如列表或集合中。
d = defaultdict(list)
d['a'].append(1)
d['a'].append(2)
d['b'].append(4)
print(d)

defaultdict(<class 'list'>, {'a': [1, 2], 'b': [4]})


In [11]:
d = defaultdict(set)
d['a'].add(1)
d['a'].add(2)
d['b'].add(4)
print(d)

defaultdict(<class 'set'>, {'a': {1, 2}, 'b': {4}})


In [None]:
# 尝试自己对第一个值做初始化，代码很杂乱
d = {}
for key, value in pairs:
    if key not in d:
        d[key] = []
    d[key].append(value)
    
# 使用defaultdict, 代码清晰很多
d = defaultdict(list)
for key, value in pairs:
    d[key].append(value)

### <span id="7">1.7 让字典保持有序</span>

In [12]:
from collections import OrderedDict
# OrderedDict内部维护了一个双向链表，第一加入的元素被放在链表末尾
# 当对已存在的键重新赋值不会改变键的顺序

d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4
# 当对字典迭代时， 会严格按照元素初始添加的顺序进行
for key in d:
    print(key, d[key])

foo 1
bar 2
spam 3
grok 4


In [13]:
# 可以用于在json编码时精确控制各字段的顺序
import json
json.dumps(d)

'{"foo": 1, "bar": 2, "spam": 3, "grok": 4}'

### <span id="8">1.8 与字典有关的一些计算</span>

In [14]:
# 假设有个字典为股票和对应价格，想要找出最低和最高的股票
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}

# zip()创建了一个迭代器，它的内容只能被消费一次
min_price = min(zip(prices.values(), prices.keys()))
print(min_price)

(10.75, 'FB')


In [15]:
# 在字典上只想常见的数据操作，需要注意处理的是键而不是值
# 我们可以传入一个key参数,得到最小值对应的键
# 但要得到最小值，还需额外执行一次查找，因此用上面的zip比较好
min(prices, key = lambda k : prices[k])

'FB'

### <span id="9">1.9 在两个字典中寻找相同点</span>

In [16]:
# 字典的keys()和items()方法返回的对象支持集合操作
a = {
    'x':1,
    'y':2,
    'z':3
}

b = {
    'w':10,
    'x':11,
    'y':2
}

#Find keys in common
print(a.keys() & b.keys())

# Find keys in a that are not in b
print(a.keys() - b.keys())

# Find (key, value) paires in common
print(a.items() & b.items())

{'x', 'y'}
{'z'}
{('y', 2)}


### <span id="10">1.10 从序列中移除重复项且保持元素间顺序不变</span>

In [17]:
# 如果序列中的值是可哈希的，可通过集合和生成器轻易解决
def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)
            
a = [1, 5, 2, 1, 9, 1, 5, 10]
print(list(dedupe(a)))


[1, 5, 2, 9, 10]


In [19]:
b = []
for item in a:
    if item not in b:
        b.append(item)
b

[1, 5, 2, 9, 10]

In [20]:
# 如果想在不可哈希的对象（比如列表）序列中去除重复项
# key的作用是指定一个函数将序列中元素转换为可哈希类型。
def dedupe(items, key=None):
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)
            
a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]
print(list(dedupe(a, key=lambda d:(d['x'], d['y']))))
print(list(dedupe(a, key=lambda d:d['x'])))

[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]
[{'x': 1, 'y': 2}, {'x': 2, 'y': 4}]


### <span id="11">1.11 对切片命名</span>

In [27]:
# 从字符串固定位置取出数据，硬编码的切片索引杂乱难懂，如下：
record = '....................100 .......513.25 ..........'
cost = int(record[20:23]) * float(record[31:37])
print(cost)

51325.0


In [28]:
# 对切片命名，代码就会清晰很多
SHARES = slice(20,23)
PRICE = slice(31,37)
cost = int(record[SHARES]) * float(record[PRICE])
print(cost)

51325.0


In [37]:
# 此外， 可通过indices(size)方法将切片映射到特定大小序列上。避免下标越界。
a = slice(5, 50, 2)
s = 'HelloWorld'
print(a)
print(a.indices(len(s)))
# *(星号)表示传入列表参数，解列表序列
for i in range(*a.indices(len(s))):
    print(s[i], end=' ')

slice(5, 50, 2)
(5, 10, 2)
W r d 

### <span id="12">1.12 找出序列中出现次数最多的元素</span>

In [52]:
words = [
    'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
    'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
    'the', 'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
    'my', 'eyes', "you're", 'under'
]

from collections import Counter
word_counts = Counter(words)
top_three =word_counts.most_common(3)
print(top_three)

[('eyes', 8), ('the', 6), ('look', 4)]


In [54]:
# Counter对象底层实现是一个字典，在元素和出现次数之间做了映射
morewords = ['why', 'are', 'you', 'not', 'looking', 'in', 'my', 'eyes']
# for word in morewords:
#     word_counts[word] += 1
word_counts.update(morewords)
print(word_counts['eyes'])

10


In [55]:
# Counter 支持数学运算操作
a = Counter(words)
b = Counter(morewords)
print(a)
print(b)
c = a + b
d = a - b
print(c)
print(d)

Counter({'eyes': 8, 'the': 6, 'look': 4, 'into': 3, 'my': 3, 'around': 2, 'not': 1, "don't": 1, "you're": 1, 'under': 1})
Counter({'why': 1, 'are': 1, 'you': 1, 'not': 1, 'looking': 1, 'in': 1, 'my': 1, 'eyes': 1})
Counter({'eyes': 9, 'the': 6, 'look': 4, 'my': 4, 'into': 3, 'not': 2, 'around': 2, "don't": 1, "you're": 1, 'under': 1, 'why': 1, 'are': 1, 'you': 1, 'looking': 1, 'in': 1})
Counter({'eyes': 7, 'the': 6, 'look': 4, 'into': 3, 'my': 2, 'around': 2, "don't": 1, "you're": 1, 'under': 1})


### <span id="13">1.13 通过公共键对字典列表排序</span>

In [57]:
rows = [
    {'fname':'Brian', 'lname':'Jones', 'uid':1003},
    {'fname':'David', 'lname':'Beazley', 'uid':1002},
    {'fname':'John', 'lname':'Cleese', 'uid':1001},
    {'fname':'Big', 'lname':'Jones', 'uid':1004}
]

# 根据所有的字典中共有的字段对这些记录排序
from operator import itemgetter

rows_by_fname = sorted(rows, key=itemgetter('fname'))
rows_by_uid = sorted(rows, key=itemgetter('uid'))
print(rows_by_fname)
print(rows_by_uid)

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]
[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]


In [58]:
rows_by_lfname = sorted(rows, key=itemgetter('lname', 'fname'))
print(rows_by_lfname)

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]


In [59]:
# 也可用lambda表达式，但itemgetter通常会运行更快一些
min(rows, key=lambda r:(r['lname'],r['fname']))

{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}

### <span id="14">1.14 对不原生支持比较操作的对象排序</span>

In [65]:
# 通过User对象的user_id属性排序
class User:
    def __init__(self, user_id):
        self.user_id = user_id
    def __repr__(self):
        return 'User({})'.format(self.user_id)

users = [User(23), User(3), User(99)]
print(users)

print(sorted(users, key=lambda u:u.user_id))

# 或者用operator.attrgetter()
from operator import attrgetter
print(sorted(users, key=attrgetter('user_id')))

[User(23), User(3), User(99)]
[User(3), User(23), User(99)]
[User(3), User(23), User(99)]


### <span id="15">1.15 根据字段将记录分组</span>

itertools.groupby()函数在对数据进行分组时特别有用。

In [9]:
rows = [
    {'address':'5142 N CLARK', 'date':'07/01/2012'},
    {'address':'5148 N CLARK', 'date':'07/04/2012'},
    {'address':'5800 E 58TH', 'date':'07/02/2012'},
    {'address':'2122 N CLARK', 'date':'07/03/2012'},
    {'address':'5645 N RAVEBSWOOD', 'date':'07/02/2012'},
    {'address':'1060 W ADDISON', 'date':'07/02/2012'},
    {'address':'4801 N BROADWAY', 'date':'07/01/2012'},
    {'address':'1039 W GRANVILLE', 'date':'07/04/2012'}
]

In [13]:
# 现假设想根据日期以分组方式迭代数据。
from operator import itemgetter
from itertools import groupby

# Sort by the desired field first
rows.sort(key=itemgetter('date'))
# Iterate in groups
for date,items in groupby(rows, key=itemgetter('date')):
    print(date)
    for item in items:
        print('\t', item)

07/01/2012
	 {'address': '5142 N CLARK', 'date': '07/01/2012'}
	 {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
	 {'address': '5800 E 58TH', 'date': '07/02/2012'}
	 {'address': '5645 N RAVEBSWOOD', 'date': '07/02/2012'}
	 {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
	 {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
	 {'address': '5148 N CLARK', 'date': '07/04/2012'}
	 {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


### <span id="16">1.16 筛选序列中的元素</span>

In [14]:
# 列表推导式处理简单数据
mylist = [1, 4, -5, 10, -7, 2, 3, -1]
print([n for n in mylist if n > 0])

[1, 4, 10, 2, 3]


In [15]:
# 当输入数据非常大时，可用生成器表达式
gen = (n for n in mylist if n < 0)
print(list(gen))

[-5, -7, -1]


In [16]:
# 当筛选标准比较复杂时可将筛选逻辑代码放在单独的函数中，
# 然后用内建的filter()函数处理。
values = ['1', '2', '-3', '-', '4', 'N/A']
def is_int(val):
    try:
        x = int(val)
        return True
    except ValueError:
        return False
    
ivals = list(filter(is_int, values))
print(ivals)

['1', '2', '-3', '4']


In [17]:
# 列表和生成器表达式具有同时对数据做转换的能力
# 筛选条件还可以放到条件表达式中
mylist = [1, 4, -5, 10, -7, 2, 3, -1]
newlist = [2*n if n > 0 else 0 for n in mylist]
print(newlist)

[2, 8, 0, 20, 0, 4, 6, 0]


### 1.17 从字典中提取子集

In [2]:
# 用字典推导式（dictionary comprehension）解决
price = {
    "ACME": 45.23,
    "AAPL": 612.78,
    "IFM" : 324.00,
    "DJEM": 24.34,
    "DEM": 54.29
}

# Make a dictionary of all price over 200
p1 = {key:value for key, value in price.items() if value > 200}

# Make a dictionary of tech stocks
tech_names = {"AAPL", "DJFM"}
p2 = {key:value for key, value in price.items() if key in tech_names}

print(p1, p2)

{'AAPL': 612.78, 'IFM': 324.0} {'AAPL': 612.78}


### 1.18 将名称映射到序列的元素中

collections.namedtuple()(命名元组)是一个工厂方法，他返回的是python中标准元组的子类。  
我们给它提供一个类型名称以及相应的字段，他就返回一个可实例化的类。

In [3]:
from collections import namedtuple
Subscriber = namedtuple("SUB", ["addr", "joined"])
sub = Subscriber("henan", "2014-07-08")


In [7]:
print(sub, "\n", sub.addr)

somename(addr='henan', joined='2014-07-08') 
 henan


命名元组主要作用在于将代码同它所控制的元素位置间解耦。  
例如从数据库调用中得到一个大型的元组列表，若通过元素位置来访问数据，  
假如在表单中新增了一列数据，代码就会崩溃。  
可以现将返回的元组转型成命名元组，就不会出问题。

In [None]:
# 普通代码
def compute_cost(records):
    total = 0.0
    for rec in records:
        total += rec[1] * rec[2]
    return total

In [None]:
# 命名元组版本
from collections import namedtuple

Stock = namedtuple("Stock", ["name", "shares", "price"])
def compute_cost(records):
    total = 0.0
    for rec in records:
        s = Stock(*rec)
        total += s.shares * s.price
    return total

namedtuple一种可能用法是做字典的替代， 但注意namedtuple是不可变的。  
如果要修改任何属性， 可以通过namedtuple实例的_replace()方法来实现。
_replace方法有一个微妙的用途，就是它可以作为一种简便的方法填充具有可选或缺失字段的命名元组。

In [8]:
from collections import namedtuple

Stock = namedtuple("Stock", ['name', 'shares', 'price', 'date', 'time'])
# Create a prototype instance
stock_prototype = Stock('', 0, 0.0, None, None)
# Function to convert a dictionary to a Stock
def dict_to_stock(s):
    return stock_prototype._replace(**s)

a  = {'name':'ACME', 'shares':100, 'price':123.4}
dict_to_stock(a)

Stock(name='ACME', shares=100, price=123.4, date=None, time=None)

### 1.19 同时对数据做转换和换算

In [9]:
# 在函数参数中使用生成器表达式可以优雅的做到这点
nums = [1,2,3,4,5]
# 不必重复使用括号
s = sum(x*x for x in nums)
print(s)

55


### 1.20 将多个映射合并为单个映射

In [10]:
# 利用collections模块中的ChainMap类来解决
from collections import ChainMap
a = {'x':1, 'z':3}
b = {'y':2, 'z':4}
c = ChainMap(a,b)
print(c['z'])

3


* ChainMap只是简单地维护一个记录底层映射关系的列表，  
* 然后重定义常见的字典操作来扫描这个列表。
* 注意，修改映射的操作总是会作用在列出的第一个映射的结构上。
* ChainMap与带有作用域的值，比如变量（全局变量、局部变量）一起工作时特别有用。

In [11]:
values = ChainMap()
values['x'] = 1
# Add a new mapping
values = values.new_child()
values['x'] = 2
# Add a new mapping
values = values.new_child()
values['x'] = 3
print(values, '\t', values['x'])
#Discard last mapping
values = values.parents
print(values['x'])


ChainMap({'x': 3}, {'x': 2}, {'x': 1}) 	 3
2
