# 第一章 数据结构和算法（4）

### 1.16 过滤序列元素

**问：你有一个数据序列，想利用一些规则从中提取出需要的值或者是缩短序列**

最简单的过滤序列元素的方法就是使用列表推导

In [1]:
a = [1, 4, 90, -3, -88, 0]
[x for x in a if x < 0]

[-3, -88]

有时候，过滤规则比较复杂，不能简单的在列表推导或者生成器表达式中表达出
来。比如，假设过滤的时候需要处理一些异常或者其他复杂情况。这时候你可以将过
滤代码放到一个函数中，然后使用内建的 filter() 函数。

In [6]:
values = ['1', '2', '-3', '-', '4', 'N/A', '5'] 
def song(val):
    return val 
list(filter(song, values))

['1', '2', '-3', '-', '4', 'N/A', '5']

列表推导和生成器表达式通常情况下是过滤数据最简单的方式。其实它们还能在过
滤的时候转换数据。

In [7]:
mylist = [1, 4, -5, 10, -7, 2, 3, -1]
import math 
[math.sqrt(n) for n in mylist if n > 0]

[1.0, 2.0, 3.1622776601683795, 1.4142135623730951, 1.7320508075688772]

过滤操作的一个变种就是将不符合条件的值用新的值代替，而不是丢弃它们。

In [9]:
a = [n if n > 0 else 0 for n in mylist]
a

[1, 4, 0, 10, 0, 2, 3, 0]

另外一个值得关注的过滤工具就是 itertools.compress() ，它以一个 iterable
对象和一个相对应的 Boolean 选择器序列作为输入参数。然后输出 iterable 对象中
对应选择器为 True 的元素。当你需要用另外一个相关联的序列来过滤某个序列的时
候，这个函数是非常有用的。

In [14]:
addresses = [
'5412 N CLARK',
'5148 N CLARK',
'5800 E 58TH',
'2122 N CLARK'
'5645 N RAVENSWOOD',
'1060 W ADDISON',
'4801 N BROADWAY',
'1039 W GRANVILLE',
]
counts = [ 0, 3, 10, 4, 1, 7, 6, ]

现在你想将那些对应 count 值大于 5 的地址全部输出，

In [16]:
from itertools import compress
a = [n > 5 for n in counts]
a

[False, False, True, False, False, True, True]

In [17]:
list(compress(addresses, a))

['5800 E 58TH', '4801 N BROADWAY', '1039 W GRANVILLE']

这里的关键点在于先创建一个 Boolean 序列，指示哪些元素复合条件。然后
compress() 函数根据这个序列去选择输出对应位置为 True 的元素。
和 filter() 函数类似， compress() 也是返回的一个迭代器。因此，如果你需要
得到一个列表，那么你需要使用 list() 来将结果转换为列表类型。

### 1.17 从字典中提取子集

**问：你想构造一个字典，它是另外一个字典的子集。**

- 使用字典推导

In [23]:
prices = {
'ACME': 45.23,
'AAPL': 612.78,
'IBM': 205.55,
'HPQ': 37.20,
'FB': 10.75
}

p1 = {key: value for key, value in prices.items() if value > 200}
tech_names = {'AAPL', 'IBM', 'HPQ', 'MSFT'}
p2 = {key: value for key, value in prices.items() if key in tech_names}
print(p1)
print(p2)

{'AAPL': 612.78, 'IBM': 205.55}
{'AAPL': 612.78, 'IBM': 205.55, 'HPQ': 37.2}


- 通过创建一个元组序列然后把它传给 dict() 函
数

In [25]:
p1 = dict((key, value) for key, value in prices.items() if value > 200)
p1

{'AAPL': 612.78, 'IBM': 205.55}

**字典推导方式表意更清晰，并且实际上也会运行的更快些**

### 1.18 映射名称到序列元素

**问：你有一段通过下标访问列表或者元组中元素的代码，但是这样有时候会使得你的代
码难以阅读，于是你想通过名称来访问元素**

collections.namedtuple() 函数通过使用一个普通的元组对象来帮你解决这个问
题。这个函数实际上是一个返回 Python 中标准元组类型子类的一个工厂方法。你需要
传递一个类型名和你需要的字段给它，然后它就会返回一个类，你可以初始化这个类，
为你定义的字段传递值等

In [28]:
from collections import namedtuple 
S = namedtuple('S', ['姓名', '年龄'])
s = S('李鑫松', '18')
s

S(姓名='李鑫松', 年龄='18')

In [29]:
s.姓名

'李鑫松'