## 列表筛选

列表解析比 filter 快

实测 python3 环境相反


In [3]:
from random import randint
import timeit

data = [randint(-10, 10) for _ in range(10)]
print(data)

f = filter(lambda x: x >= 0, data)
print(list(f))

l = [x for x in data if x >= 0]
print(l)


t_f = timeit.timeit('filter(lambda x: x >= 0, data)',
                    globals=globals())
print(t_f)

t_l = timeit.timeit('[x for x in data if x >= 0]',
                    globals=globals())
print(t_l)


[-1, 8, -10, -3, -4, -1, -6, 4, 8, -8]
[8, 4, 8]
[8, 4, 8]
0.33365409999987605
0.8486958000003142


## 字典筛选


In [7]:
d = {x: randint(60, 100) for x in range(1, 21)}
print(d)

{k: v for k, v in d.items() if v > 90}


{1: 88, 2: 85, 3: 73, 4: 79, 5: 100, 6: 72, 7: 91, 8: 98, 9: 95, 10: 66, 11: 73, 12: 75, 13: 81, 14: 69, 15: 60, 16: 82, 17: 94, 18: 90, 19: 80, 20: 76}


{5: 100, 7: 91, 8: 98, 9: 95, 17: 94}

## 集合筛选


In [10]:
s = set(data)
print(s)

{x for x in s if x % 3 == 0}


{4, 8, -10, -8, -6, -4, -3, -1}


{-6, -3}

## 如何为元组中的每个元素命名，提高程序可读性？

学生信息系统中数据为固定格式：

（名字，年龄，性别，邮箱地址，…）

学生数量很大为了减小存储开销，对每个学生信息用元组表示：

```
（'Jim'，16，'male'，'jim8721@gmail.com'）
（'LiLei'，17，'male'，'leile@qq.com'）
（'Lucy'，16，'Female'，'lucy123@yahoo.com'）
```

访问时，我们使用引索（index）访问，大量引索降低程序可读性，如何解决这个问题？

1. 方案 1：定义类似与其他语言的枚举类型，也就是定义一系列数值常量，解决方案
2. 方案 2：使用标准库中 collections.namedtuple 替代内置 tuple


In [11]:
NAME, AGE, SEX, EMAIL = range(4)

student = ('Jim', 16, 'male', 'jim@gmail.com')

print(student[NAME])

if student[AGE] >= 19:
    pass
if student[SEX] == 'male':
    pass


Jim


In [15]:
from collections import namedtuple
Student = namedtuple('Student', ['name', 'age', 'sex', 'email'])
s = Student('Jim', 16, 'male', 'jim@gmail.com')
print(s)

print(s.name)
print(s.age)

isinstance(s, tuple)


Student(name='Jim', age=16, sex='male', email='jim@gmail.com')
Jim
16


True

## 如何统计序列中元素的出现频度？

1. 某随机序列`[12，5，6，4，6，5，5，7，.]`中，找到出现次数最高的 3 个元素，它们出现次数是多少？
2. 对某英文文章的单词，进行词频统计，找到出现次数最高的 10 个单词，它们出现次数是多少？


### 统计出现次数

使用字典去重或计数


In [22]:
data = [randint(0, 20) for _ in range(30)]
print(data)

c = dict.fromkeys(data, 0)

for x in data:
    c[x] += 1
print(c)


[9, 11, 17, 12, 5, 8, 13, 11, 11, 17, 19, 1, 19, 20, 12, 13, 17, 18, 14, 1, 15, 17, 10, 9, 19, 17, 8, 10, 15, 8]
{9: 2, 11: 3, 17: 5, 12: 2, 5: 1, 8: 3, 13: 2, 19: 3, 1: 2, 20: 1, 18: 1, 14: 1, 15: 2, 10: 2}


使用`collections.Counter`对象将序列传入 Counter 的构造器，得到 Counter 对象是元素频度的字典`Counter..most_common（）`方法得到频度最高的 n 个元素的列表.


In [26]:
from collections import Counter

c2 = Counter(data)
print(c2)
print(c2.most_common(3))


Counter({17: 5, 11: 3, 8: 3, 19: 3, 9: 2, 12: 2, 13: 2, 1: 2, 15: 2, 10: 2, 5: 1, 20: 1, 18: 1, 14: 1})
[(17, 5), (11, 3), (8, 3)]


### 词频统计

In [35]:
import re

txt = open('Example.txt').read()
c3 = Counter(re.split('\W+', txt))
print(c3.most_common(10))


[('of', 22), ('and', 21), ('to', 21), ('the', 19), ('we', 16), ('in', 13), ('that', 12), ('alone', 9), ('for', 8), ('is', 7)]


## 如何根据字典中值的大小，对字典中的项排序

某班英语成绩以字典形式存储为：

例 `{'LiLei':79，Jim':88，'Lucy':92...}`

根据成绩高低，计算学生排名

使用内置函数sorted
1. 利用zip将字典数据转化元组
2. 传递sorted函数的key参数

In [38]:
print(sorted([2, 9, 0, 5, 4, 8]))

d = {x: randint(60, 100) for x in 'xyzabc'}
sorted(d)


[0, 2, 4, 5, 8, 9]


['a', 'b', 'c', 'x', 'y', 'z']