In [1]:
from typing import List, Dict

Python 提供了大量的内置数据结构，包括列表，集合以及字典。大多数情况下使用这些数据结构是很简单的。但是，我们也会经常碰到到诸如查询，排序和过滤等等这些普遍存在的问题。

## 1.1 将序列分解为单独的变量

在Python中，只要是序列（列表、元组、字符串、字典...）都能执行分解操作

#### 列表

In [3]:
data = ['ACME', 50, 91.1, (2012, 12, 21)]
name, shares, price, date = data

In [4]:
name

'ACME'

In [6]:
date

(2012, 12, 21)

#### 元组

In [7]:
p = (4, 5)
x, y = p

In [9]:
x

4

#### 字符串

In [10]:
s = 'Hello'
a, b, c, d, e = s
print(a, c, e)

H l o


#### 字典

In [1]:
d = {"a": "A", "b": "B"}
a, b = d

In [2]:
a

'a'

#### 列表嵌套元组

In [11]:
name, shares, price, (year, mon, day) = data

In [12]:
year

2012

将序列进行分解，对应元素数量一定要相等

## 1.2 解压可迭代对象赋值给多个变量

对于像列表这样的可变长容器序列，或者元组这样的不可变长的容器序列，如果用户传入的信息很多而且每个用户传入的信息只有前面的两个是固定的，后面随机有不定个数的电话号码，我们需要将这些信息存入数据库（如`MongoDB`）中，那么我们需要将这个元组进行分解

In [13]:
record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212')

也许有的人会想到使用切片来操作

In [15]:
name, email = record[0], record[1]
phone_numbers = record[2:]
print(f"姓名：{name}\t邮箱地址：{email}\t电话号码：{phone_numbers}")

姓名：Dave	邮箱地址：dave@example.com	电话号码：('773-555-1212', '847-555-1212')


在Python中可以使用`*表达式`来接收多个变量，在变量前添加一个星号，那么这个变量将会接收剩下的值，不管剩下的值是不是`0个`，将他们存到一个列表中

In [16]:
name, email, *phone_numbers = record
print(f"姓名：{name}\t邮箱地址：{email}\t电话号码：{phone_numbers}")

姓名：Dave	邮箱地址：dave@example.com	电话号码：['773-555-1212', '847-555-1212']


## 1.3 保留最后 N 个元素

当遇到类似业务：有未知个元素将一个一个的传递进来，需要保存最后N个元素，其余的都不要。

那么大多数时候我们可能会考虑一个列表，元素传递进来的时候就`append`到列表最后方，当列表的长度等于N个时还有元素传递进来就`del`或者`pop`掉第0个元素（注意：如果不删除元素，当元素传入过多时内存将会爆掉）。

这样的操作虽然可以，但是却不是最方便的，我们可以使用`collections.deque`来维护一个固定长度的队列，指定`deque`的长度即可，一旦长度超过最大长度将会把队列中最先进入的元素从队列中删除

In [19]:
from collections import deque


fixed_que = deque(maxlen=5)
for i in range(100):
    fixed_que.append(i)
print(fixed_que)

deque([95, 96, 97, 98, 99], maxlen=5)


deque又被称为双端队列，不管维护的这个deque队列有多大（如果不限制长度，那么就是无限长），在队列两端插入或删除元素时间复杂度都是`O(1)`，区别于列表，在列表的开头插入或删除元素的时间复杂度为`O(N)`，而且deque是线程安全的

In [20]:
q = deque()
q.append(1)
q.append(2)
q.append(3)
q

deque([1, 2, 3])

In [21]:
q.appendleft(4)
q

deque([4, 1, 2, 3])

In [22]:
q.pop()

3

In [23]:
q

deque([4, 1, 2])

In [24]:
q.popleft()

4

In [25]:
q

deque([1, 2])

## 1.4 查找最大或最小的 N 个元素

当我们要查找一个集合中的最大或最下的N个元素的时候，我们可以使用列表的sort方法进行排序，然后使用切片，在Python中还可以使用`heapq`

In [1]:
import heapq


nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
print(heapq.nlargest(3, nums))
print(heapq.nsmallest(3, nums))

[42, 37, 23]
[-4, 1, 2]


In [27]:
portfolio = [
    {'name': 'IBM', 'shares': 100, 'price': 91.1},
    {'name': 'AAPL', 'shares': 50, 'price': 543.22},
    {'name': 'FB', 'shares': 200, 'price': 21.09},
    {'name': 'HPQ', 'shares': 35, 'price': 31.75},
    {'name': 'YHOO', 'shares': 45, 'price': 16.35},
    {'name': 'ACME', 'shares': 75, 'price': 115.65}
]
cheap = heapq.nsmallest(3, portfolio, key=lambda s: s['price'])
expensive = heapq.nlargest(3, portfolio, key=lambda s: s['price'])
print(cheap)
print(expensive)

[{'name': 'YHOO', 'shares': 45, 'price': 16.35}, {'name': 'FB', 'shares': 200, 'price': 21.09}, {'name': 'HPQ', 'shares': 35, 'price': 31.75}]
[{'name': 'AAPL', 'shares': 50, 'price': 543.22}, {'name': 'ACME', 'shares': 75, 'price': 115.65}, {'name': 'IBM', 'shares': 100, 'price': 91.1}]


`heapq`模块提供了堆排序算法的实现，在底层实现里面，首先会先将集合数据进行堆排序后放入一个列表中，堆的一个重要特点是第0个元素永远是最小值

In [32]:
heapq.heapify(nums)
nums

[-4, 2, 1, 23, 7, 2, 18, 23, 42, 37, 8]

In [35]:
heapq.heappop(nums)

-4

In [36]:
heapq.heappop(nums)

1

In [37]:
heapq.heappop(nums)

2

**如果只是想单独查找最小值/最大值的话使用`min/max`将会更快，如果要查找的元素个数和目标集合的大小相近的话建议先对目标集合排序，然后再使用切片会更快**

## 1.5 实现一个优先级队列

In [42]:
from typing import Any


class Item(object):
    def __init__(self, name: Any) -> NoReturn:
        self.name = name

    def __repr__(self) -> str:
        return 'Item({!r})'.format(self.name)

In [19]:
class PriorityQueue(object):
    def __init__(self) -> NoReturn:
        self._queue = []
        self._index = 0

    def push(self, item: Item, priority: int) -> NoReturn:
        heapq.heappush(self._queue, (-priority, self._index, item))
        self._index += 1

    def pop(self) -> Item:
        return heapq.heappop(self._queue)[-1]

In [21]:
q = PriorityQueue()
q.push(Item('foo'), 1)
q.push(Item('bar'), 5)
q.push(Item('spam'), 4)
q.push(Item('grok'), 1)

In [22]:
q._queue

[(-5, 1, Item('bar')),
 (-1, 0, Item('foo')),
 (-4, 2, Item('spam')),
 (-1, 3, Item('grok'))]

In [23]:
q.pop()

Item('bar')

我们可以看到使用`heapq`其实时维护了一个排序好的序列（堆排序），就算有值进来我们也可以使用`heappush`将值存到这个排序好的序列之中，但是如果需要取的值太多那么效率就会很低，那么既想维护好一个已排序的序列，又想快速的截取到这个序列中的一段，这时候可以使用`bisect`模块

`bisect`使用的是二分查找，所以性能是很强的

In [6]:
import bisect
import random

my_list = []

for i in range(10):
    new_item = random.randint(0, 10)
    bisect.insort(my_list, new_item)
    print(my_list)

[9]
[3, 9]
[3, 7, 9]
[3, 5, 7, 9]
[1, 3, 5, 7, 9]
[1, 1, 3, 5, 7, 9]
[1, 1, 3, 5, 7, 9, 10]
[1, 1, 3, 5, 5, 7, 9, 10]
[1, 1, 3, 5, 5, 7, 9, 10, 10]
[1, 1, 3, 5, 5, 6, 7, 9, 10, 10]


## 1.6 字典中的键映射多个值

一个字典中的键想要映射多个值，那么就需要这个键是一个`list`或者`set`

```python
d = {
    'a' : [1, 2, 3],
    'b' : [4, 5]
}
e = {
    'a' : {1, 2, 3},
    'b' : {4, 5}
}
```

至于是使用`list`还是`set`则需要根据业务场景进行判断

在Python中的`collections`模块下有一个`defaultdict`这个类，`defaultdict`继承了`dict`，然后重写了`__missing__方法`，在实例化`defaultdict`的时候传递一个类型，如果我们访问一个不存在的`key`的时候，就会将实例化时传递的类型实例化出来作为这个`key`的`value`，因此我们不需要在初始化这个字典的时候去定义相关的容器结构

In [2]:
from collections import defaultdict


d = defaultdict(list)
d["name"]

[]

In [3]:
d["a"].append(1)
d["a"].append(2)
d["a"].append(3)
d

defaultdict(list, {'name': [], 'a': [1, 2, 3]})

In [4]:
d = defaultdict(set)
d["b"].add(1)
d["b"].add(1)
d["b"].add(1)
d

defaultdict(set, {'b': {1}})

## 1.7 字典排序

有时候我们想在迭代或序列化这个字典的时候能够控制元素的顺序，那么最简单的方法就是使用`collections`下的`OrderedDict`类，在迭代操作的时候它会保持元素被插入时的顺序

In [1]:
from collections import OrderedDict

d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4
# Outputs "foo 1", "bar 2", "spam 3", "grok 4"
for key in d:
    print(key, d[key])

foo 1
bar 2
spam 3
grok 4


`OrderedDict`内部维护着一个根据键插入顺序排序的双向链表。每次当一个新的元素插入进来的时候， 它会被放到链表的尾部。对于一个已经存在的键的重复赋值不会改变键的顺序。

需要注意的是，一个`OrderedDict`的大小是一个普通字典的两倍，因为它内部维护着另外一个链表。 所以如果你要构建一个需要大量`OrderedDict` 实例的数据结构的时候（比如读取 100,000 行`CSV`数据到一个`OrderedDict` 列表中去），那么你就得仔细权衡一下是否使用`OrderedDict`带来的好处要大过额外内存消耗的影响。

## 1.8 字典的运算

想要找到一个字典中最小的值的键值信息，方法还是比较多的，如：可以将这个字典的键值进行翻转，然后用`min`函数求值最小的键，再取键对应的值，或者使用`zip`将键值对放到`tuple`中，然后进行比较

In [13]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}

In [20]:
new_dict = {v: k for k, v in prices.items()}
min_key = min(new_dict)
new_dict[min_key], min_key

('FB', 10.75)

In [19]:
min_price = min(zip(prices.values(), prices.keys()))
min_price

(10.75, 'FB')

排序

In [23]:
prices_sorted = sorted(zip(prices.values(), prices.keys()))
prices_sorted

[(10.75, 'FB'),
 (37.2, 'HPQ'),
 (45.23, 'ACME'),
 (205.55, 'IBM'),
 (612.78, 'AAPL')]

In [25]:
prices_sorted = sorted(prices.items(), key=lambda v: v[1])
prices_sorted

[('FB', 10.75),
 ('HPQ', 37.2),
 ('ACME', 45.23),
 ('IBM', 205.55),
 ('AAPL', 612.78)]

## 1.9 查找两字典的相同点

怎样在两个字典中寻寻找相同点（比如相同的键、相同的值等等）？我们可以直接获取键值来比较

In [26]:
a = {
    'x': 1,
    'y': 2,
    'z': 3
}

b = {
    'w': 10,
    'x': 11,
    'y': 2
}

In [27]:
a.keys() & b.keys()

{'x', 'y'}

In [28]:
a.keys() - b.keys()

{'z'}

In [29]:
a.items() & b.items()

{('y', 2)}

## 1.10 删除序列相同元素并保持顺序

通过维护一个集合来判断输入的元素是否重复，如果不重复则将元素抛出，从而保持了原来的顺序

In [41]:
from typing import Hashable, Sequence, Generator, functools, NoReturn


def dedupe(items:Sequence[Hashable]) -> Generator:
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)

In [35]:
a = [1, 5, 2, 1, 9, 1, 5, 10]
list(dedupe(a))

[1, 5, 2, 9, 10]

如果直接将一个`list`转为`set`，那么得到的元素不能维持原来的顺序，因为元组是无序的

上面的处理方式必须要传递的序列中的元素是可哈希的，那么如果序列中的元素是不可哈希的（如`dict`），那么就需要重新处理

In [40]:
def dedupe(items:[dict], key:functools=None) ->dict:
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)

In [41]:
a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]
list(dedupe(a, key=lambda d: (d['x'],d['y'])))

[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]

通过传入一个方法来处理`dict`就给予了很大的灵活性

## 1.11 命名切片

切片也是Python中的一种类型——>`slice`，因为我们在Python种使用切片的时候往往都是有极高的灵活性，所以我们很少去关注切片到底是一个什么类型，往往我们在序列中使用的时候都是通过Python内部的机制帮处理

In [43]:
record = '....................100 .......513.25 ..........'

SHARES = slice(20, 23)
PRICE = slice(31, 37)
cost = int(record[SHARES]) * float(record[PRICE])
cost

51325.0

任何`slice`对象都有三个参数`start、stop、step`，分别表示起始位置、终止位置、和步长，其中`start、step`参数默认为`None`，初始化`slice`对象时参数的优先级为：`stop（必传）`、`start`、`step`，那么Python底层帮我们处理时`start`将会从这个序列的第一个开始，`step`也为1

In [66]:
a = slice(4)
a

slice(None, 4, None)

In [45]:
a = slice(2, 4)
a

slice(2, 4, None)

In [67]:
a = slice(2, 4, 1)
a

slice(2, 4, 1)

In [68]:
a.start

2

In [69]:
a.stop

4

In [70]:
a.step

1

## 1.12 序列中出现次数最多的元素

查找一个序列中出现次数最多的元素，通常我们会遍历这个序列，使用`dict`来记录这个序列中元素出现的次数，但是这个序列中的元素必须是可哈希的，这样就限制了一些特殊场景，而使用`collections`模块中的`Counter`类也能达到同样的效果，但是`Counter`这个类接受的序列中的元素也必须是可哈希的，因为`Counter`的底层也是一个`dict`

In [2]:
words = [
    'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
    'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
    'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
    'my', 'eyes', "you're", 'under'
]

In [18]:
def counter(items:Sequence[Hashable]) -> dict:
    word_counts = {}
    for k in items:
        if k not in word_counts:
            word_counts[k] = 1
            continue
        word_counts[k] += 1
    return word_counts

In [19]:
counter(words)

{'look': 4,
 'into': 3,
 'my': 3,
 'eyes': 8,
 'the': 5,
 'not': 1,
 'around': 2,
 "don't": 1,
 "you're": 1,
 'under': 1}

In [7]:
from collections import Counter

In [23]:
word_counts = Counter(words)
word_counts

Counter({'look': 4,
         'into': 3,
         'my': 3,
         'eyes': 8,
         'the': 5,
         'not': 1,
         'around': 2,
         "don't": 1,
         "you're": 1,
         'under': 1})

查找出现次数最多的三个元素

In [24]:
word_counts.most_common(3)

[('eyes', 8), ('the', 5), ('look', 4)]

`Counter`访问元素

In [26]:
word_counts["eyes"]

8

`Counter`类型在增加元素时可以通过遍历来添加，而且不需要判断`key`存不存在

```python
morewords = ['why','are','you','not','looking','in','my','eyes']
for word in morewords:
    word_counts[word] += 1
```

如果是`dict`则需要判断键是否存在，否则直接使用`+=1`则会报错

`Counter`可以通过使用`update`方法来增加元素

In [27]:
morewords = ['why','are','you','not','looking','in','my','eyes']

In [28]:
word_counts.update(morewords)
word_counts["eyes"]

9

如果都是`Counter`类型的话还可以通过使用数学运算来合并

In [29]:
a = Counter(words)
b = Counter(morewords)

In [30]:
a

Counter({'look': 4,
         'into': 3,
         'my': 3,
         'eyes': 8,
         'the': 5,
         'not': 1,
         'around': 2,
         "don't": 1,
         "you're": 1,
         'under': 1})

In [31]:
b

Counter({'why': 1,
         'are': 1,
         'you': 1,
         'not': 1,
         'looking': 1,
         'in': 1,
         'my': 1,
         'eyes': 1})

In [32]:
a + b

Counter({'look': 4,
         'into': 3,
         'my': 4,
         'eyes': 9,
         'the': 5,
         'not': 2,
         'around': 2,
         "don't": 1,
         "you're": 1,
         'under': 1,
         'why': 1,
         'are': 1,
         'you': 1,
         'looking': 1,
         'in': 1})

## 1.13 通过某个关键字排序一个字典列表

排序一个字典的事情我们可能经常都会遇到，我们通常会想到使用`sorted`函数来操作然后传入一个`lambda表达式`作为`sorted`函数的`key`，还有一种方法通过使用`operator`模块的`itemgetter`函数来作为`sorted`函数的`key`

In [33]:
rows = [
    {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
    {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
    {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
    {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
]

In [34]:
sorted(rows, key=lambda x: x["uid"])

[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
 {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
 {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]

In [38]:
sorted(rows, key=lambda x: (x['lname'],x['fname']))

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
 {'fname': 'Big', 'lname': 'Jones', 'uid': 1004},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]

In [35]:
from operator import itemgetter

In [36]:
sorted(rows, key=itemgetter("uid"))

[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
 {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
 {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]

In [39]:
sorted(rows, key=itemgetter("lname", "fname"))

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
 {'fname': 'Big', 'lname': 'Jones', 'uid': 1004},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]

传入一个自定义的函数或者一个`itemgetter`函数都能完成同样的效果，但是使用`itemgetter`函数的话排序稍微会快一点

## 1.14 排序不支持原生比较的对象

如果我们需要排序的对象没有实现`__eq__`方法，那么使用`sorted`函数进行排序的时候我们就需要传入一个函数来提取出这个对象中能进行比较的属性来进行操作，当然我们也可以使用`operator`模块下的`attrgetter`函数来替代我们定义的函数

In [44]:
from numbers import Number


class User:
    def __init__(self, user_id:Number) -> NoReturn:
        self.user_id = user_id

    def __repr__(self):
        return f"User({self.user_id})"

In [45]:
users = [User(23), User(3), User(99)]

In [46]:
sorted(users, key=lambda u: u.user_id)

[User(3), User(23), User(99)]

In [47]:
from operator import attrgetter

In [48]:
sorted(users, key=attrgetter("user_id"))

[User(3), User(23), User(99)]

如果是自己实现的类那么还是最好实现`__eq__`这个类

## 1.15 通过某个字段将记录分组

通常情况我们会想到将整个序列按照某个字段进行排序，然后维护一个字段值，遍历序列中的元素时如果字段相同就放入同一组，如果不同则存入另一组并且赋上新的字段值

```python
def group_by_filed(items:Sequence[dict]) -> NoReturn:
value = None
for item in items:
    if item["field"] != value:
        print(item["field"])
        print(f"\t{item}")
        value = item["field"]
    else:
        print(f"\t{item}")
```

但是整个过程虽然不复杂，但是在Python中还是不够简洁，整个分组的事情可以交给`itertools`模块下的`groupby`来做

In [49]:
rows = [
    {'address': '5412 N CLARK', 'date': '07/01/2012'},
    {'address': '5148 N CLARK', 'date': '07/04/2012'},
    {'address': '5800 E 58TH', 'date': '07/02/2012'},
    {'address': '2122 N CLARK', 'date': '07/03/2012'},
    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
    {'address': '1060 W ADDISON', 'date': '07/02/2012'},
    {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]

In [51]:
from itertools import groupby
from operator import itemgetter

In [57]:
rows.sort(key=itemgetter('date'))

for date, items in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in items:
        print('\t', i)

07/01/2012
	 {'address': '5412 N CLARK', 'date': '07/01/2012'}
	 {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
	 {'address': '5800 E 58TH', 'date': '07/02/2012'}
	 {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
	 {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
	 {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
	 {'address': '5148 N CLARK', 'date': '07/04/2012'}
	 {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


## 1.16 过滤序列元素

说到过滤我们最先想到的肯定是分支结构，然后就是遍历元素，创建一个空序列然后一直往里加，然后就开始想着定义函数了。这在代码量以及时间上都并不是高效的，说起过滤我们最先想到的应该是`推导式`，其次是高阶函数`filter`

1. 定义函数

In [3]:
squ = [100, 20, 8, 12, 48, 22, 33, 9, 1, 0, -10]

In [2]:
# 筛选出大于10的元素
def filter_element(squ:List) -> List:
    temp = []
    for item in squ:
        if item > 10:
            temp.append(item)
    return temp

In [4]:
filter_element(squ)

[100, 20, 12, 48, 22, 33]

2. 列表推导式

In [5]:
[i for i in squ if i > 10]

[100, 20, 12, 48, 22, 33]

使用列表推导式和函数有两个隐患，第一是慢，第二是当数据量很大的时候那么这个列表将一直占用很大的内存，使用`生成器推导式`和高阶函数`filter`就能解决上面的两个问题

3. 生成器推导式

In [6]:
for item in (i for i in squ if i > 10):
    print(item)

100
20
12
48
22
33


4. filter函数

关于filter函数，最基本需要两个参数，一个是处理函数，另一个就是需要处理的对象，这个处理函数比较特殊，它只需要返回真假，然后filter函数再根据返回的真假进行过滤，最后返回的结果也还是一个生成器

In [12]:
list(filter(lambda x: x > 10, squ))

[100, 20, 12, 48, 22, 33]

## 1.17从字典中提取子集

和1.16中过滤序列中的元素一样，可以采用字典推导式

In [2]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}
p1 = {key: value for key, value in prices.items() if value > 200}
tech_names = {'AAPL', 'IBM', 'HPQ', 'MSFT'}
p2 = {key: value for key, value in prices.items() if key in tech_names}

In [3]:
p1

{'AAPL': 612.78, 'IBM': 205.55}

In [4]:
p2

{'AAPL': 612.78, 'IBM': 205.55, 'HPQ': 37.2}

## 1.18映射名称到序列元素

Python中的序列通常是可以通过下标来访问的，但是如果通过下标来访问的话并不是很直观，比较方好的解决方案就是dict，或者class，但是dict占用空间较大，而class在创建的时候比较麻烦，而且如果我们想要染个这个class有更多的方法就会很复杂，所以就需要一个更好的方案来解决

这种情况下比较推荐的做法就是具名元组namedtuple

In [14]:
from collections import namedtuple

namedtuple是Python中的一个工厂函数，使用这个函数会返回一个工厂类，默认需要传递两个参数，一个参数是类名，一个参数是类的属性字段名，属性字段名是一个序列或者字符串都行，如果是字符串多个字段之间用空格隔开，也就是使用了split方法

通过namedtuple函数返回的工厂类具有tuple的基本方法，而且也可以通过索引访问，还可以转换为字典等，具体可以参考源码

In [15]:
Student = namedtuple(typename="Student", field_names=("name", "age", "id"))

In [16]:
s1 = Student(name="张三", age=18, id="0000001")
s2 = Student(name="李四", age=20, id="0000002")

In [17]:
s1

Student(name='张三', age=18, id='0000001')

通过索引取值

In [18]:
s1[0]

'张三'

通过字段名取值

In [19]:
s1.age

18

转为dict

In [20]:
dict_s1 = s1._asdict()

In [21]:
dict_s1['id']

'0000001'

虽然namedtuple具有和tuple一样的特性，但是namedtuple中的元素是可以修改的，需要使用这个工厂类的_replace方法，当然这个修改操作并不是说在对象本身上进行修改，而是`返回`了一个新的对象

In [22]:
s2.age=19

AttributeError: can't set attribute

In [26]:
s2 = s2._replace(age=19)

如何将字典转换为一个nametuple创建的对象呢，尽管我觉得这不是一个有意义的做法，但是我们还是可以通过各种方法完成
-  

    - 通过dict.keys()获取键，初始化为字段名

    - 通过dict.values()方法获取值，用返回的工厂类初始化对象

- 

    - 使用namedtuple创建的工厂类实例化的对象中有相同字段名名的对象使用_replace(**dict)方法获得对象

## 1.19转换并同时计算数据

有的时候在我们聚合数据前首先要对数据做一个转换，如对字符数字求和，对序列中的数据的平方求和，或者更复杂的计算方式，也许我们会在开始聚合之前就转换数据，但是其实并不需要

In [1]:
sum(x**3 for x in range(10))

2025

In [2]:
import os

files = os.listdir("./")
if any(name.endswith(".py") for name in files):
    print("there be python")
else:
    print("sorry, no python")

there be python


In [3]:
",".join(c for c in "ABCD")

'A,B,C,D'

在聚合函数的参数中直接传一个生成器表达式，而不是先将序列处理好之后再传递，最大的好处就是节省了内存空间（**注意：传递的表达式不需要添加额外的括号，不然内存空间还是会被消耗**）

当然，我们除了使用表达式之外还可以使用聚合函数的key参数，这个参数可以传递一个函数，这个函数只能接收一个参数，这个函数将被用来处理序列中的元素

In [9]:
def process(x):
    x = int(x)
    return 100-x*x

min(["1", "2", "3", "4"], key=process)

'4'

## 1.20合并多个字典或映射

如果现在有多个dict，他们的key可能都是不同的，我想找到某一个特定的key所对应的value，那么我们可以通过遍历来寻找，但是如果这样来做那么最少也需要套上一层循环，这时候我们可以使用ChainMap

In [11]:
from collections import ChainMap

In [10]:
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }

In [12]:
mapping = ChainMap(a, b)

In [13]:
print(mapping["y"])

2


这个方法看似和传统的dict合并没有什么大的差别，其实差别是很大的

In [15]:
a.update(b)

In [16]:
a

{'x': 1, 'z': 4, 'y': 2}

In [17]:
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }
c = {**a, **b}

In [19]:
c

{'x': 1, 'z': 4, 'y': 2}

但是传统的dict合并方法有一个缺点，合并的dict中如果有相同的key，那么在合并后的dict中这个key的value将会被后面的value给覆盖，但是ChainMap并不会

In [20]:
mapping

ChainMap({'x': 1, 'z': 4, 'y': 2}, {'y': 2, 'z': 4})

我们可以看到ChainMap其实是做了一件很有意思的事情，它是将这些dict放到了一个对象中，而且这个对象存放的并不是dict，而是这些dict对象的引用，也就是说它其实是一个list，这个list中的内容就是这些dict的引用，因此消耗的空间也是更小了

In [21]:
mapping.__sizeof__()

32

In [22]:
c.__sizeof__()

216

但是当我们每次对重复的key取value的时候总是返回的这个序列中的第一个出现这个key的dict的value，并且当我们对ChainMap进行增删改的时候影响的总是要操作的key出现的第一个dict，当然我们也可以将这个Chain中的首个dict删除掉

In [29]:
mapping = ChainMap()

In [30]:
mapping["x"] = 0
mapping

ChainMap({'x': 0})

In [31]:
mapping = mapping.new_child()
mapping["x"] = "A"
mapping

ChainMap({'x': 'A'}, {'x': 0})

In [32]:
mapping = mapping.new_child()
mapping["x"] = "freedom"
mapping

ChainMap({'x': 'freedom'}, {'x': 'A'}, {'x': 0})

In [33]:
mapping = mapping.new_child()
mapping["x"] = "10000"
mapping

ChainMap({'x': '10000'}, {'x': 'freedom'}, {'x': 'A'}, {'x': 0})

这时候取x的值肯定是`"10000"`，那么想要取后面的dict的值就需要删除首个dict

In [35]:
mapping = mapping.parents
mapping

ChainMap({'x': 'freedom'}, {'x': 'A'}, {'x': 0})