In [1]:
# 1.16过滤序列元素
"""问题
你有一个数据序列，想利用一些规则从中提取出需要的值或者是缩短序列

解决方案
最简单的过滤序列元素的方法就是使用列表推导。比如："""
mylist = [1, 4, -5, 10, -7, 2, 3, -1]
[n for n in mylist if n >0]

[1, 4, 10, 2, 3]

In [2]:
"""使用列表推导的一个潜在缺陷就是如果输入非常大的时候会产生一个非常大的结果集，占用大量内存。 
如果你对内存比较敏感，那么你可以使用生成器表达式迭代产生过滤的元素。
比如："""
pos = (n for n in mylist if n > 0)

In [3]:
pos

<generator object <genexpr> at 0x00000246AAE6BF10>

In [4]:
for x in pos:
    print(x)

1
4
10
2
3


In [6]:
"""有时候，过滤规则比较复杂，不能简单的在列表推导或者生成器表达式中表达出来。 比如，假设过滤的时候需要处理一些异
常或者其他复杂情况。这时候你可以将过滤代码放到一个函数中， 然后使用内建的 filter() 函数。示例如下："""
values = ['1', '2', '-3', '-', '4', 'N/A', '5']
def is_int(val):
    try:
        x = int(val)
        return True
    except ValueError:
        return False
ivals = list(filter(is_int, values))
ivals

['1', '2', '-3', '4', '5']

In [7]:
"""另外一个值得关注的过滤工具就是 itertools.compress() ， 它以一个 iterable 对象和一个相对应的 Boolean 选择器序列
作为输入参数。 然后输出 iterable 对象中对应选择器为 True 的元素。 当你需要用另外一个相关联的序列来过滤某个序列的
时候，这个函数是非常有用的。 比如，假如现在你有下面两列数据："""
addresses = [
    '5412 N CLARK',
    '5148 N CLARK',
    '5800 E 58TH',
    '2122 N CLARK',
    '5645 N RAVENSWOOD',
    '1060 W ADDISON',
    '4801 N BROADWAY',
    '1039 W GRANVILLE',
]
counts = [ 0, 3, 10, 4, 1, 7, 6, 1]
from itertools import compress
more5 = [n > 5 for n in counts]
more5

[False, False, True, False, False, True, True, False]

In [8]:
list(compress(addresses, more5))

['5800 E 58TH', '1060 W ADDISON', '4801 N BROADWAY']