# 现在有一个包含 N 个元素的元组或者是序列，怎样将它里面的值解压后同时赋值给 N 个变量？

In [1]:
p = (4,5)
x,y = p
print(x,y) 

4 5


# 如果一个可迭代对象的元素个数超过变量个数时，会抛出一个 ValueError 。 那么怎样才能从这个可迭代对象中解压出 N 个元素出来？

In [21]:
data = [ 'ACME', 50, 91.1, (2012, 12, 21) ]
name,shares,price,(year,*date) = data
name,year,date

('ACME', 2012, [12, 21])

In [3]:
data = ['wlb',18,18265090197,131232141]
name,age,*phone = data
print(name,age,phone)

wlb 18 [18265090197, 131232141]


In [1]:
*trailing, current = [10, 8, 7, 1, 9, 5, 10, 3]
print(trailing,current)

[10, 8, 7, 1, 9, 5, 10] 3


# 在迭代操作或者其他操作的时候，怎样只保留最后有限几个元素的历史记录？

In [3]:
from collections import deque
q = deque(maxlen=3) #限制长度
q.append(1)
q.append(2)
q.append(3)
q

deque([1, 2, 3])

In [4]:
q.append(4)
q

deque([2, 3, 4])

In [5]:
q.append(5)
q

deque([3, 4, 5])

In [16]:
q = deque()
q.append(1)
q.append(2)
q.append(3)
q.appendleft(4)
q

deque([4, 1, 2, 3])

In [17]:
q.pop()

3

In [18]:
q.popleft()

4

# 怎样从一个集合中获得最大或者最小的 N 个元素列表？

In [1]:
import heapq
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
print(heapq.nlargest(3,nums)) #最大的三个数

[42, 37, 23]


In [2]:
print(heapq.nsmallest(3,nums)) #最小的三个数

[-4, 1, 2]


In [7]:
portfolio = [{'name': 'IBM', 'shares': 100, 'price': 91.1},{'name': 'AAPL', 'shares': 50, 'price': 543.22},   {'name': 'FB', 'shares': 200, 'price': 21.09},   {'name': 'HPQ', 'shares': 35, 'price': 31.75},   {'name': 'YHOO', 'shares': 45, 'price': 16.35},   {'name': 'ACME', 'shares': 75, 'price': 115.65}]
print(heapq.nlargest(3,portfolio,lambda s:s['price']))
print(heapq.nsmallest(3,portfolio,lambda s:s['price']))

[{'name': 'AAPL', 'shares': 50, 'price': 543.22}, {'name': 'ACME', 'shares': 75, 'price': 115.65}, {'name': 'IBM', 'shares': 100, 'price': 91.1}]
[{'name': 'YHOO', 'shares': 45, 'price': 16.35}, {'name': 'FB', 'shares': 200, 'price': 21.09}, {'name': 'HPQ', 'shares': 35, 'price': 31.75}]


In [8]:
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
import heapq

heap = list(nums)
heapq.heapify(heap)
heap

[-4, 2, 1, 23, 7, 2, 18, 23, 42, 37, 8]

堆最重要的特性就是heap[0]总是最小那个的元素。此外，接下来的元素可依次通过heapq.heappop()方法轻松找到。该方法会将第一个元素（最小的）弹出，然后以第二小的元素取而代之（这个操作的复杂度是O(logN)，N代表堆的大小）

In [9]:
heapq.heappop(heap)

-4

In [11]:
heap

[1, 2, 2, 23, 7, 8, 18, 23, 42, 37]

In [12]:
heapq.heappop(heap)

1

#  怎样实现一个按优先级排序的队列？ 并且在这个队列上面每次 pop 操作总是返回优先级最高的那个元素

实现一个优先级队列

In [1]:
import heapq
class PriorityQueue:
    def __init__(self):
        self._queue = []
        self._index = 0

    def push(self, item, priority):
        heapq.heappush(self._queue, (-priority, self._index, item))
        self._index += 1

    def pop(self):
        return heapq.heappop(self._queue)[-1]

In [3]:
class Item:
    def __init__(self,name):
        self.name = name
    def __repr__(self):
        return f"Item('{self.name}')"
q = PriorityQueue()
q.push(Item('foo'),1)
q.push(Item('bar'),5)
q.push(Item('spam'),4)
q.push(Item('grok'),1)
q._queue

[(-5, 1, Item('bar')),
 (-1, 0, Item('foo')),
 (-4, 2, Item('spam')),
 (-1, 3, Item('grok'))]

In [4]:
q.pop()

Item('bar')

In [5]:
q._queue

[(-4, 2, Item('spam')), (-1, 0, Item('foo')), (-1, 3, Item('grok'))]

In [6]:
q.pop()

Item('spam')

In [7]:
q._queue

[(-1, 0, Item('foo')), (-1, 3, Item('grok'))]

# 怎样实现一个键对应多个值的字典（也叫 multidict）？

In [9]:
from collections import defaultdict
d = defaultdict(list)
d['a'].append(1)
d['a'].append(2)
d['b'].append(4)
d

defaultdict(list, {'a': [1, 2], 'b': [4]})

In [10]:
d = defaultdict(set)
d['a'].add(1)
d['a'].add(2)
d['b'].add(4)
d

defaultdict(set, {'a': {1, 2}, 'b': {4}})

对比

In [2]:
d = {}
for key, value in pairs:
    if key not in d:
        d[key] = []
    d[key].append(value)

In [None]:
d = defaultdict(list)
for key, value in pairs:
    d[key].append(value)

# 你想创建一个字典，并且在迭代或序列化这个字典的时候能够控制元素的顺序。

In [3]:
#为了能控制一个字典中元素的顺序，你可以使用 collections 模块中的 OrderedDict 类。 在迭代操作的时候它会保持元素被插入时的顺序
from collections import OrderedDict
d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4
for k,v in d.items():
    print(k,v)

foo 1
bar 2
spam 3
grok 4


# 怎样在数据字典中执行一些计算操作（比如求最小值、最大值、排序等等）？

In [4]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}

In [5]:
min_price = min(zip(prices.values(), prices.keys())) #用zip反转
min_price

(10.75, 'FB')

In [6]:
max_price = max(zip(prices.values(),prices.keys()))
max_price

(612.78, 'AAPL')

In [7]:
#也可以排序
sorted(zip(prices.values(),prices.keys()))

[(10.75, 'FB'),
 (37.2, 'HPQ'),
 (45.23, 'ACME'),
 (205.55, 'IBM'),
 (612.78, 'AAPL')]

In [10]:
prices_and_names = zip(prices.values(), prices.keys())
print(min(prices_and_names)) # OK
print(max(prices_and_names)) # ValueError: max() arg is an empty sequence
#意思就是zip()生成的是只能访问一次的迭代器

In [51]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}
#max 和 min 也可以传入key 以获得符合自己条件的最大最小值
print(max(prices,key=lambda k:prices[k]),min(prices,key=lambda k:prices[k]))
#根据values获取最大最小值的键
#这样如果想获取值还要进行取值操作prices[xxx],所以上面的zip是最好的选择

AAPL FB


# 怎样在两个字典中寻寻找相同点（比如相同的键、相同的值等等）？

In [14]:
a = {
    'x' : 1,
    'y' : 2,
    'z' : 3
}

b = {
    'w' : 10,
    'x' : 11,
    'y' : 2
}
#如果找到两个字典重复的键?
#可以使用交集操作

In [15]:
a.keys() & b.keys()

{'x', 'y'}

In [16]:
a.items() & b.items()

{('y', 2)}

In [None]:
#假如你想以现有字典构造一个排除几个指定键的新字典。 下面利用字典推导来实现这样的需求
c = {key:a[key] for key in a.keys() - {'z', 'w'}}
# c is {'x': 1, 'y': 2}

# 怎样在一个序列上面保持元素顺序的同时消除重复的值？

In [17]:
def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)
#只适用于对象是可哈希的            

# 如果你的程序包含了大量无法直视的硬编码切片，并且你想清理一下代码。

In [19]:
record = '....................100 .......513.25 ..........'
cost = int(record[20:23]) * float(record[31:37])
cost

51325.0

In [22]:
SHARES = slice(20, 23)
PRICE = slice(31, 37)
cost = int(record[SHARES]) * float(record[PRICE])
cost

51325.0

显然第二种方法可维护性更强

In [23]:
items = [0, 1, 2, 3, 4, 5, 6]
a = slice(2,4)
print(items[2:4],items[a])

[2, 3] [2, 3]


In [24]:
items[a] = [10,11]
items

[0, 1, 10, 11, 4, 5, 6]

In [29]:
a = slice(5,50,2)
a.start,a.stop,a.step

(5, 50, 2)

In [31]:
#你还可以通过调用切片的 indices(size) 方法将它映射到一个已知大小的序列上。 这个方法返回一个三元组 (start, stop, step) ，所有的值都会被缩小，直到适合这个已知序列的边界为止。
s = 'HelloWorld'
a.indices(len(s))

(5, 10, 2)

In [32]:
for i in range(*a.indices(len(s))): #将a解包
    print(s[i])

W
r
d


# 怎样找出一个序列中出现次数最多的元素呢？

In [38]:
#答案是collections.Counter()
words = [
    'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
    'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
    'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
    'my', 'eyes', "you're", 'under'
]
from collections import Counter
word_counts = Counter(words)
word_counts

Counter({'around': 2,
         "don't": 1,
         'eyes': 8,
         'into': 3,
         'look': 4,
         'my': 3,
         'not': 1,
         'the': 5,
         'under': 1,
         "you're": 1})

In [34]:
top_three = word_counts.most_common(3) #出现最多的三个单词
print(top_three)

[('eyes', 8), ('the', 5), ('look', 4)]


In [39]:
#如果想增加次数
morewords = ['why','are','you','not','looking','in','my','eyes']
word_counts.update(morewords)
word_counts

Counter({'are': 1,
         'around': 2,
         "don't": 1,
         'eyes': 9,
         'in': 1,
         'into': 3,
         'look': 4,
         'looking': 1,
         'my': 4,
         'not': 2,
         'the': 5,
         'under': 1,
         'why': 1,
         'you': 1,
         "you're": 1})

In [41]:
a = Counter(words)
b = Counter(morewords)
print(a)
print(b)

Counter({'eyes': 8, 'the': 5, 'look': 4, 'into': 3, 'my': 3, 'around': 2, 'not': 1, "don't": 1, "you're": 1, 'under': 1})
Counter({'why': 1, 'are': 1, 'you': 1, 'not': 1, 'looking': 1, 'in': 1, 'my': 1, 'eyes': 1})


In [43]:
c = a + b #Counter生成对象可以加法运算 一般字典不能进行加法运算
c

Counter({'are': 1,
         'around': 2,
         "don't": 1,
         'eyes': 9,
         'in': 1,
         'into': 3,
         'look': 4,
         'looking': 1,
         'my': 4,
         'not': 2,
         'the': 5,
         'under': 1,
         'why': 1,
         'you': 1,
         "you're": 1})

In [46]:
d = a - b #减法运算
d

Counter({'around': 2,
         "don't": 1,
         'eyes': 7,
         'into': 3,
         'look': 4,
         'my': 2,
         'the': 5,
         'under': 1,
         "you're": 1})

# 你有一个字典列表，你想根据某个或某几个字典字段来排序这个列表。

In [47]:
rows = [
    {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
    {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
    {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
    {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
]
sorted(rows,key=lambda x:x['uid'])

[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
 {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
 {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]

In [48]:
from operator import itemgetter
rows_by_fname = sorted(rows, key=itemgetter('fname'))
rows_by_uid = sorted(rows, key=itemgetter('uid'))
print(rows_by_fname)
print(rows_by_uid)

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]
[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]


In [49]:
rows_by_lfname = sorted(rows, key=itemgetter('lname','fname')) #传入多个参数
print(rows_by_lfname)

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]


In [52]:
min(rows, key=itemgetter('uid'))

{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}

In [54]:
min(rows,key = lambda x:x['uid'])

{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}

上述列子说明,lambda和operator.itemgetter()实现的结果是一样的,但调用库速度快一点

# 你想排序类型相同的对象，但是他们不支持原生的比较操作。

In [56]:
class User:
    def __init__(self, user_id):
        self.user_id = user_id

    def __repr__(self):
        return 'User({})'.format(self.user_id)


def sort_notcompare():
    users = [User(23), User(3), User(99)]
    print(users)
    print(sorted(users, key=lambda u: u.user_id))
sort_notcompare()

[User(23), User(3), User(99)]
[User(3), User(23), User(99)]


# 你有一个字典或者实例的序列，然后你想根据某个特定的字段比如 date 来分组迭代访问。

In [57]:
from itertools import groupby
rows = [
    {'address': '5412 N CLARK', 'date': '07/01/2012'},
    {'address': '5148 N CLARK', 'date': '07/04/2012'},
    {'address': '5800 E 58TH', 'date': '07/02/2012'},
    {'address': '2122 N CLARK', 'date': '07/03/2012'},
    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
    {'address': '1060 W ADDISON', 'date': '07/02/2012'},
    {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]
rows.sort(key=lambda x:x['date']) #注意要事先排序
for date, items in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in items:
        print(' ', i)

07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
  {'address': '5800 E 58TH', 'date': '07/02/2012'}
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
  {'address': '5148 N CLARK', 'date': '07/04/2012'}
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


In [58]:
#用groupby之前必须要先排好序,在每次迭代的时候，它会返回一个值和一个迭代器对象
#如果你仅仅只是想根据 date 字段将数据分组到一个大的数据结构中去，并且允许随机访问， 那么你最好使用 defaultdict() 来构建一个多值字典
from collections import defaultdict
rows_by_date = defaultdict(list)
for row in rows:
    rows_by_date[row['date']].append(row)
for d in rows_by_date['07/04/2012']:
    print(d)

{'address': '5148 N CLARK', 'date': '07/04/2012'}
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


# 你有一个数据序列，想利用一些规则从中提取出需要的值或者是缩短序列

In [59]:
mylist = [1, 4, -5, 10, -7, 2, 3, -1]
#最简单的就是列表推导了
[n for n in mylist if n > 0]

[1, 4, 10, 2, 3]

In [60]:
#显然会占用大量内存,这时候可以选择用生成器
pos = (n for n in mylist if n > 0)
pos

<generator object <genexpr> at 0x0000022DE651DBA0>

In [62]:
#但这两种方法又不够优雅,我追求的是优雅的完成任务,所以用到了filter
print(filter(lambda x:x > 0,mylist))
print(list(filter(lambda x :x > 0,mylist)))

<filter object at 0x0000022DE66E5198>
[1, 4, 10, 2, 3]


In [64]:
#另外一个值得关注的过滤工具就是 itertools.compress() ， 它以一个 iterable 对象和一个相对应的 Boolean 选择器序列作为输入参数。 然后输出 iterable 对象中对应选择器为 True 的元素。
addresses = [
    '5412 N CLARK',
    '5148 N CLARK',
    '5800 E 58TH',
    '2122 N CLARK',
    '5645 N RAVENSWOOD',
    '1060 W ADDISON',
    '4801 N BROADWAY',
    '1039 W GRANVILLE',
]
counts = [ 0, 3, 10, 4, 1, 7, 6, 1]
from itertools import compress
more5 = [n > 5 for n in counts]
list(compress(addresses, more5))

['5800 E 58TH', '1060 W ADDISON', '4801 N BROADWAY']

In [67]:
#在看书时,我想到了别的方法
d = dict(zip(addresses,counts))
list(filter(lambda x:d[x] > 5,d))

['5800 E 58TH', '1060 W ADDISON', '4801 N BROADWAY']

# 你想构造一个字典，它是另外一个字典的子集。

In [69]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}
# Make a dictionary of all prices over 200
p1 = {key: value for key, value in prices.items() if value > 200}
# Make a dictionary of tech stocks
tech_names = {'AAPL', 'IBM', 'HPQ', 'MSFT'}
p2 = {key: value for key, value in prices.items() if key in tech_names}
print(p1)
print(p2)

{'AAPL': 612.78, 'IBM': 205.55}
{'AAPL': 612.78, 'IBM': 205.55, 'HPQ': 37.2}


# 你有一段通过下标访问列表或者元组中元素的代码，但是这样有时候会使得你的代码难以阅读， 于是你想通过名称来访问元素。

In [73]:
from collections import namedtuple
Subscriber = namedtuple('Subscriber', ['addr', 'joined'])
sub = Subscriber('jonesy@example.com','2021-01-02')
sub.addr,sub.joined

('jonesy@example.com', '2021-01-02')

In [76]:
data = namedtuple('data', ['name', 'year', 'height'])
lists = ['wlb',18,180]
sub = data(*lists)
sub.year

18

In [77]:
#想修改不能直接修改,要调用方法
sub = sub._replace(height=190)
sub

data(name='wlb', year=18, height=190)

# 你需要在数据序列上执行聚集函数（比如 sum() , min() , max() ）， 但是首先你需要先转换或者过滤数据

In [78]:
nums = [1, 2, 3, 4, 5]
s = sum(x * x for x in nums)

In [79]:
s

55

In [80]:
s = sum((x * x for x in nums)) # 显式的传递一个生成器表达式对象
s = sum(x * x for x in nums) # 更加优雅的实现方式，省略了括号

在使用一些聚集函数比如 min() 和 max() 的时候你可能更加倾向于使用生成器版本， 它们接受的一个 key 关键字参数或许对你很有帮助

# 现在有多个字典或者映射，你想将它们从逻辑上合并为一个单一的映射后执行某些操作， 比如查找值或者检查某些键是否存在。

In [81]:
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }

In [82]:
from collections import ChainMap
c = ChainMap(a,b)
print(c['x']) # Outputs 1 (from a)
print(c['y']) # Outputs 2 (from b)
print(c['z']) # Outputs 3 (from a)

1
2
3


如果出现重复键，那么第一次出现的映射值会被返回。 因此，例子程序中的 c['z'] 总是会返回字典 a 中对应的值，而不是 b 中对应的值。

作为 ChainMap 的替代，你可能会考虑使用 update() 方法将两个字典合并.
这样也能行得通，但是它需要你创建一个完全不同的字典对象（或者是破坏现有字典结构）。 同时，如果原字典做了更新，这种改变不会反应到新的合并字典中去。

ChainMap 使用原来的字典，它自己不创建新的字典。所以它并不会产生上面所说的结果，