## 1.1解压序列赋值给多个变量

In [1]:
p = (4, 5)
x, y = p
x, y 

(4, 5)

In [2]:
data = ["ACME", 50, 91.1, (2012, 12, 21)]
name, shares, price, date = data
name, date

('ACME', (2012, 12, 21))

In [3]:
name, shares, price ,(year, mon, day) = data
name,year, mon, day

('ACME', 2012, 12, 21)

In [4]:
p = (4, 5)
x, y , z = p

ValueError: not enough values to unpack (expected 3, got 2)

In [None]:
s = "Hello"
a, b ,c ,d, e = s
a,b,c

In [None]:
_, shares, price, _ = data
shares, price

1.2解压可迭代对象赋值给多个变量

问题：如果一个可迭代对象的元素个数超过变量个数时，会抛出一个ValueError,
那么怎么才能从这个可迭代对象中解压出N个元素出来？

In [None]:
def drop_first_last(grades):
    first, *middle, last = grades
    return avg(middle)

record = ("Dave", "dave@example.com", '773-555-121', "847-555-1212")
name, email, *phone_numbers = record
name, email, phone_numbers # type(phone_numbers) = type([])

In [None]:
*trailing, current = [10, 8, 7, 1, 9, 5, 10, 3]
trailing, current

星号表达式在迭代元素为可变长元组的序列时是很有用的

In [None]:
records = [("foo", 1, 2), ("bar", "hello"), ("foo", 3, 4)]
def do_foo(x, y):
    print("foo", x, y)
    
def do_bar(s):
    print("bar", s)
    
for tag, *args in records:
    if tag == "foo":
        do_foo(*args)
    elif tag == "bar":
        do_bar(*args)

In [None]:
line = "noboby:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false"
uname, * fields, homedir, sh = line.split(":")
uname, homedir, sh

In [None]:
record = ("ACME", 50, 123.45, (12, 18, 2012))
name, *_, (*_, year) = record
name, year

In [None]:
items = [1, 10, 7, 4, 5, 9]
head, *tail = items
head, tail

In [None]:
def sum(items):
    head, *tail = items
    return head + sum(tail) if tail else head
sum(items)

1.3 保留最后N个元素

在迭代操作或者其他操作的时候，怎样只保留最后几个元素的历史记录

In [11]:
from collections import deque

#deque(maxlen=N) 构造函数会新建一个固定大小的队列，当新的元素加入并且这个队列
#已满的时候，最老的元素会自动被移除掉

def search(lines, pattern, history=5):
    previous_lines = deque(maxlen=history)
    for line in lines: 
        if pattern in line:
            yield line, previous_lines # 生成器件4.3节
        previous_lines.append(line)
        
if __name__ == "__main__":
    with open("somefile.txt") as f:
        for line, prevlines in search(f, "python", 5):
            for pline in prevlines:
                print(pline)
                print(line, end="")
                print("-" * 20)

Keeping a limited history is a perfect use for a `collections.deque`.

[source,python]
--------------------
For example, the following code performs a simple text match on a

[source,python]
--------------------
sequence of lines and prints the matching line along with the previous

[source,python]
--------------------
N lines of context when found:

[source,python]
--------------------


[source,python]
--------------------
        previous_lines.append(line)

         search(f, 'python', 5)
--------------------


         search(f, 'python', 5)
--------------------
# Example use on a file

         search(f, 'python', 5)
--------------------
if __name__ == '__main__':

         search(f, 'python', 5)
--------------------
    with open('somefile.txt') as f:

         search(f, 'python', 5)
--------------------


1.4 查找最大或最小的N个元素

怎样从一个集合中获得最大或者最小的N个元素列表

In [1]:
import heapq
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
print(heapq.nlargest(3, nums))
print(heapq.nsmallest(3, nums))

[42, 37, 23]
[-4, 1, 2]


In [21]:
portfolio = [ 
    {"name": "IBM", "shares": 100, "price":91.1},
    {"name": "AAPL", "shares": 50, "price":543.22},
    {"name": "FB", "shares": 200, "price":21.09},
    {"name": "HPQ", "shares": 35, "price":31.75},
    {"name": "YHOO", "shares": 45, "price":16.35},
    {"name": "ACME", "shares": 75, "price":115.65}
]
cheap = heapq.nsmallest(3, portfolio, key=lambda s: s ["price"])
expensive = heapq.nlargest(3, portfolio, key=lambda s: s["price"])

In [22]:
cheap,expensive

([{'name': 'YHOO', 'shares': 45, 'price': 16.35},
  {'name': 'FB', 'shares': 200, 'price': 21.09},
  {'name': 'HPQ', 'shares': 35, 'price': 31.75}],
 [{'name': 'AAPL', 'shares': 50, 'price': 543.22},
  {'name': 'ACME', 'shares': 75, 'price': 115.65},
  {'name': 'IBM', 'shares': 100, 'price': 91.1}])

In [8]:
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
heapq.heapify(nums)
print(nums)
# 堆数据结构最重要的特征式heap[0]永远是最小的元素，并且剩余的元素可以很容易
# 通过heaqp.heapop()方法得到，该方法先将第一个元素弹出来，然后
# 用下一个最小的元素来取代被弹出元素，例如，如果想要查找最小的3个元素
# 你可以这样做
print(nums[0])
print(heapq.heappop(nums))
print(heapq.heappop(nums))
print(heapq.heappop(nums))

[-4, 2, 1, 23, 7, 2, 18, 23, 42, 37, 8]
-4
-4
1
2


1.5 实现一个优先级队列

问题：怎样实现一个按优先级排序的队列？并且在这个队列上面每次pop操作总是返回优先级最高的那个元素

In [9]:
import heapq

class PriorityQueue:
    def __init__(self):
        self._queue = []
        self._index = 0
        
    def push(self, item, priority):
        heapq.heappush(self._queue, (-priority, self._index, item))
        self._index += 1
        
    def pop(self):
        return heapq.heappop(self._queue)[-1]
    
class Item:
    def __init__(self, name):
        self.name = name
    
    def __repr__(self):
        return "Item({!r})".format(self.name)
    
# 第一个pop操作返回优先级最高的元素，另外注意到如果两个有着相同优先级的元素
# （foo和grok），pop操作按照他们被插入到队列的顺序返回的
# heappop()函数总是返回最小的元素，保证队列pop操作返回正确元素的关键
# heapq.heappush() heapq.heappop()分别在队列_queue上插入和删除第一个元素，
# 并且队列_queue保证第一个元素拥有最高优先级
# (=priority,index,item) 优先级为负数目的使得元素按照优先级从高到低排序，这个跟普通的按优先级从低到高排序的堆排序恰巧相反
#index变量的作用是保证同等优先级元素的正确排序，通过保存一个不断增加的index变量，可以确保元素按照他们插入的顺序排序
# index变量也在相同优先级元素比较的时候起到重要作用

先假定Item是不支持排序的

In [11]:
q = PriorityQueue()
q.push(Item('foo'), 1), q.push(Item("bar"), 5), q.push(Item("spam"), 4) ,q.push(Item("grok"), 1)
q.pop(), q.pop(), q.pop(), q.pop()

(Item('bar'), Item('spam'), Item('foo'), Item('grok'))

In [23]:
a = Item("foo")
b = Item("bar")
a<b

TypeError: '<' not supported between instances of 'Item' and 'Item'

In [24]:
a = (1, Item("foo"))
b = (5, Item("bar"))
a < b

True

In [26]:
c = (1, Item('grok'))
a < c

TypeError: '<' not supported between instances of 'Item' and 'Item'

In [27]:
a = (1, 0, Item('foo'))
b = (5, 1, Item('bar'))
c = (1, 2, Item('grok'))
a < b

True

In [28]:
a < c

True

In [2]:
rows = [
    {"fname": "Brian", "lname": "Jones","uid":1003},
    {"fname": "David", "lname":"Beazley", "uid":1002},
    {"fname": "John", "lname": "Cleese", "uid": 1001},
    {"fname": "Big", "lname": "Jones", "uid":1004}
]

from operator import itemgetter
"""
rows被传递给接受一个关键字参数的sorted()内置参数，这个参数是callable类型，并且从rows中接受一个单一元素，
然后返回被用来排序的值
itemgetter函数负责创建这个callable对象的
"""
rows_by_fname = sorted(rows, key=itemgetter('fname'))
rows_by_uid = sorted(rows, key=itemgetter('uid'))

print(rows_by_fname), print(rows_by_uid)

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]
[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]


(None, None)

In [3]:
rows_by_lfname = sorted(rows, key=itemgetter('lname', 'fname'))
print(rows_by_lfname)

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]


In [5]:
rows_by_fname = sorted(rows, key=lambda r: r['fname'])
rows_by_lfname = sorted(rows, key=lambda r: (r['lname'], r['fname']))

min(rows, key=itemgetter('uid')), max(rows, key=itemgetter('uid'))

({'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
 {'fname': 'Big', 'lname': 'Jones', 'uid': 1004})

# 1.14 排序不支持原生比较对象

你想排序类型相同的对象，但是他们不支持原生的比较操作

In [6]:
class User:
    def __init__(self, user_id):
        self.user_id = user_id
        
    def __repr__(self):
        return "User({})".format(self.user_id)
    
def sort_notcompare():
    users = [User(23), User(3), User(99)]
    print(users)
    print(sorted(users, key=lambda u: u.user_id))

In [7]:
from operator import attrgetter
sorted(users, key=attrgetter('user_id'))

NameError: name 'users' is not defined

## 1.15 通过某个字段讲记录分组

问题：你有一个字典或者实例的序列，然后你想根据某个特定的字段比如date来分组迭代访问

解决方案：itertools.groupby()函数对于这样的数据分组操作非常实用

In [9]:
rows= [
    {'address': '5412 NCLARK', 'date': '07/01/2012'},
    {'address': '5148 NCLARK', 'date': '07/04/2012'},
    {'address': '5800 E58TH', 'date': '07/02/2012'},
    {'address': '2122 NCLARK', 'date': '07/03/2012'},
    {'address': '5645 NRAVENSWOOD', 'date':'07/02/2012'},
    {'address': '1060 WADDISON', 'date': '07/02/2012'},
    {'address': '4801 NBROADWAY', 'date': '07/01/2012'},
    {'address': '1039 WGRANVILLE', 'date':'07/04/2012'},
]

In [11]:
from operator import itemgetter
from itertools import groupby

#Sort by the desired field first
rows.sort(key=itemgetter('date'))

for date, items in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in items:
        print('    ', i)

07/01/2012
     {'address': '5412 NCLARK', 'date': '07/01/2012'}
     {'address': '4801 NBROADWAY', 'date': '07/01/2012'}
07/02/2012
     {'address': '5800 E58TH', 'date': '07/02/2012'}
     {'address': '5645 NRAVENSWOOD', 'date': '07/02/2012'}
     {'address': '1060 WADDISON', 'date': '07/02/2012'}
07/03/2012
     {'address': '2122 NCLARK', 'date': '07/03/2012'}
07/04/2012
     {'address': '5148 NCLARK', 'date': '07/04/2012'}
     {'address': '1039 WGRANVILLE', 'date': '07/04/2012'}


groupby（）函数扫描整个序列并且查找连续相同值或者根据指定key函数返回值相同的元素序列。在每次迭代的时候，
它会返回一个值和一个迭代器对象，这个迭代器对象可以生成元素值全部等于上面那个值得组中所有对象

一个非常重要的准备步骤是要根据指定的字段讲数据排序，因为groupby仅仅检查连续的元素，如果实现实现并没有排序完成的话，
分组函数将得不到想要的结果


In [12]:
from collections import defaultdict
rows_by_date = defaultdict(list)
for row in rows:
    rows_by_date[row['date']].append(row)

In [13]:
rows_by_date

defaultdict(list,
            {'07/01/2012': [{'address': '5412 NCLARK', 'date': '07/01/2012'},
              {'address': '4801 NBROADWAY', 'date': '07/01/2012'}],
             '07/02/2012': [{'address': '5800 E58TH', 'date': '07/02/2012'},
              {'address': '5645 NRAVENSWOOD', 'date': '07/02/2012'},
              {'address': '1060 WADDISON', 'date': '07/02/2012'}],
             '07/03/2012': [{'address': '2122 NCLARK', 'date': '07/03/2012'}],
             '07/04/2012': [{'address': '5148 NCLARK', 'date': '07/04/2012'},
              {'address': '1039 WGRANVILLE', 'date': '07/04/2012'}]})

In [14]:
for r in rows_by_date['07/01/2012']:
    print(r)

{'address': '5412 NCLARK', 'date': '07/01/2012'}
{'address': '4801 NBROADWAY', 'date': '07/01/2012'}


在上面这个例子中，我们没有必要先将记录排序，因此，对内存占用不是很关心，这种方式会比先排序再通过groupby函数
迭代的方式运行更快一些

## 1.16 过滤序列元素

你有数据序列，想利用一些规则从中提取出需要的值或者缩短序列

In [1]:
mylist = [1, 4, -5, -10, -7, 2, 3, -1]
[n for n in mylist if n > 0], [n for n in mylist if n < 0]

([1, 4, 2, 3], [-5, -10, -7, -1])

使用列表推导的一个潜在缺陷就是如果输入非常大的时候会产生一个非常大的结果集，占用大量内存，如果对内容比较敏感，那么可以使用生成器表达式迭代
产生过滤的元素

In [2]:
pos = (n for n in mylist if n > 0)
for x in pos:
    print(x)

1
4
2
3


有时候过滤规则比较复杂，不能简单的在列表推导或者生成器表达式中表达出来，这时候可以将过滤代码放到一个函数中，然后使用内建的filter函数

In [3]:
values = ['1', '2', '-3', '-', '4', 'N/A', '5']
def is_int(val):
    try:
        x = int(val)
        return True
    except ValueError:
        return False
    
ivals = list(filter(is_int, values))
print(ivals)

['1', '2', '-3', '4', '5']


filter函数创建了一个迭代器，因此如果你想得到一个列表的话，就得像实例那样使用list去转换

另一个值得关注的过滤工具就是itertool.compress(),它以一个iterable对象和一个相对应的Boolean选择器序列作为输入参数
，然后输入iterable对象中应选择器为True的元素，当你需要用另外一个相关联来过滤某个序列的时候，这个函数是非常有用的

In [1]:
addresses = [
    '5412 N CLARK',
    '5148 N CLARK',
    '5800 E 58TH',
    '2122 N CLARK',
    '5645 N RAVENSWOOD',
    '1060 W ADDISON',
    '4801 N BROADWAY',
    '1039 W GRANVILLE'
]
counts = [0, 3, 10, 4, 1, 7, 6, 1]

In [3]:
from itertools import compress
moreS = [n > 5 for n in counts]
moreS

[False, False, True, False, False, True, True, False]

In [5]:
list(compress(addresses, moreS))

['5800 E 58TH', '1060 W ADDISON', '4801 N BROADWAY']

这里的关键点在于先创建一个Boolean序列，指示哪些元素复合条件，然后compress函数根据这个序列去选择输出对应位置
为True的元素；和filter函数类似，compress也是返回一个迭代器，因此如果你需要得到一个列表，那么你需要使用list来
结果转为列表类型

## 1.17 从字典提取自己

问题：你想构造一个字典，它是另外一个字典的子集

解决方法：最简单的方式使用字典推导

In [6]:
prices = {
    'ACME' : 45.23,
    'AAPL' : 612.78,
    'IBM' : 205.55,
    'HPQ' : 37.20,
    'FB' : 10.75
}

p1 = {key : value for key, value in prices.items() if value > 200}

tech_names = {'AAPL', 'IBM', 'HPQ', 'MSFT'}

P2 = {key : value for key, value in prices.items() if key in tech_names}

In [8]:
p2 = {key : prices[key] for key in prices.keys() & tech_names} # 运行速度鳗鱼第一种方案

## 1.18 映射名称到序列元素

问题：你有一段通过下标访问列表或者元组中元素的代码，但是这样有时候会使得你的代码难以阅读，于是你想通过名称
访问元素

解决方案：collections.namedtuple函数通过使用一个普通的元组对象来帮你解决这个问题，这个函数实际上一个返回python
中标准元组类型子类的一个工厂方法，你需要传递一个类型名和你需要的字段给它，然后它就回返回一个类，你可以初始化
这个类，为你定义的字段传递值等

In [9]:
from collections import namedtuple
subscriber = namedtuple('subscriber', ['addr', 'joined'])
sub = subscriber('jonesy@example.com', '2012-10-19')

sub,sub.addr, sub.joined

(subscriber(addr='jonesy@example.com', joined='2012-10-19'),
 'jonesy@example.com',
 '2012-10-19')

In [10]:
len(sub)

2

In [11]:
addr, joined = sub
addr, joined

('jonesy@example.com', '2012-10-19')

命名元组的一个主要用途是将你的代码从下标操作中解脱出来，因此，如果你从数据库调用中返回一个很大的元组列表，通过
下标去操作其中的元素，当你在表中添加新的列的时候你的代码可能就回出错了，但是如果你使用命名元组，那么就不会有
这样的顾虑

In [12]:
#普通版本
def compute_cost(records):
    total = 0.0
    for rec in records:
        total += rec[1] * rec[2]
    return total

In [2]:
#命名元组版本
from collections import namedtuple

stock = namedtuple('stock', ['name', 'shares', 'price'])
def compute_cost(records):
    total = 0.0
    for rec in records:
        s = stock(*rec)
    total += s.shares * s.price
    return total

命名元组另一个用途就是作为字典的替代，因为字典存储需要更多的内存空间，如果你需要构建
非常大的包含字典的数据结构，那么使用命名元组会更加高效，但是需要注意的是，不像字典那样，一个命名元组是不可更改的

In [3]:
s = stock('ACME', 100, 123.45)

In [4]:
s

stock(name='ACME', shares=100, price=123.45)

In [5]:
s.shares

100

In [6]:
s.shares = 75

AttributeError: can't set attribute

如果你真的需要改变然后的属性，那么可以使用命名元组实例的-replace方法，它会创建一个全新的命名元组并将对应的字段用新的值取代

In [7]:
s = s._replace(shares=75)

In [8]:
s

stock(name='ACME', shares=75, price=123.45)

In [9]:
from collections import namedtuple

stock = namedtuple('stock', ['name', 'shares', 'prices', 'date', 'time'])
stock_prototype = stock('', 0, 0.0, None, None)

def dict_to_stock(s):
    return stock_prototype._replace(**s)

#replace方法还有一个很有用的特性就是当你的命名元组拥有可选或者缺失字段时，
#它是一个非常方便的填充数据的方法，你可以先创建一个包含缺省值得原型元组，然后
#使用replace方法创建新的值被更新过的实例

In [11]:
a = {'name' : 'ACME', 'shares': 100, 'prices':123.45}
dict_to_stock(a)

stock(name='ACME', shares=100, prices=123.45, date=None, time=None)

In [12]:
stock_prototype

stock(name='', shares=0, prices=0.0, date=None, time=None)

### 2019.07.16

## 1.19 转换并同时计算数据

问题：你需要在数据序列上执行聚集函数，比如sum，min，max，但是首先你需要先转换或者过滤数据

解决方案：一个非常优雅的方式去结合数据计算与转换就是一个生成器表达式参数，比如，计算平方和

In [2]:
nums = [1, 2, 3, 4, 5]
s = sum(x * x for x in nums)
s

55

In [6]:
# Determine if any.py files exist in a directory
import os
files = os.listdir(r'D:\360MoveData\Users\86138\Desktop')
if any(name.endswith('.py') for name in files):
    print('There be python')
else:
    print("Sorry,no python")
    
s = ('ACME', 50, 123.45)
print("-".join(str(x) for x in s))

portfolio = [
    {'name' : 'GOOG', 'shares' : 50},
    {'name' : 'YHOO', 'shares' : 75},
    {'name' : 'AOL', 'shares' : 20},
    {'name' : 'SCOX', 'shares' : 65}
]
min_shares = min(s['shares'] for s in portfolio)
print(min_shares)

Sorry,no python
ACME-50-123.45
20


上面的实例像你演示了当生成器表达式作为一个单独参数传递给函数时候的巧妙语法，使用一个生成器表达式作为参数会比先创建一个临时列表更加高效和优雅，比如，如果你不使用生成器表达式的话，你可能会考虑使用下面的表现方式

In [8]:
nums = [1, 2, 3, 4, 5]
s = sum([x * x for x in nums])
# s = sum(x * x for x in nums) 显示的传递一个生成器表达式对象
print(s)

55


In [10]:
min_shares = min(s['shares'] for s in portfolio)
print(min_shares)
min_shares = min(portfolio, key=lambda s: s['shares']) # ?
print(min_shares)

20
{'name': 'AOL', 'shares': 20}
