## 列表筛选

列表解析比 filter 快

实测 python3 环境相反


In [2]:
from random import randint
import timeit

data = [randint(-10, 10) for _ in range(10)]
print(data)

f = filter(lambda x: x >= 0, data)
print(list(f))

l = [x for x in data if x >= 0]
print(l)


t_f = timeit.timeit('filter(lambda x: x >= 0, data)',
                    globals=globals())
print(t_f)

t_l = timeit.timeit('[x for x in data if x >= 0]',
                    globals=globals())
print(t_l)


[10, -3, 7, -4, 3, -5, 1, 9, 10, -6]
[10, 7, 3, 1, 9, 10]
[10, 7, 3, 1, 9, 10]
0.181821599995601
0.5757154000020819


## 字典筛选


In [3]:
d = {x: randint(60, 100) for x in range(1, 21)}
print(d)

{k: v for k, v in d.items() if v > 90}


{1: 68, 2: 85, 3: 65, 4: 89, 5: 90, 6: 80, 7: 69, 8: 60, 9: 72, 10: 94, 11: 62, 12: 89, 13: 70, 14: 77, 15: 87, 16: 95, 17: 84, 18: 69, 19: 83, 20: 65}


{10: 94, 16: 95}

## 集合筛选


In [4]:
s = set(data)
print(s)

{x for x in s if x % 3 == 0}


{1, 3, 7, 9, 10, -6, -5, -4, -3}


{-6, -3, 3, 9}

## 如何为元组中的每个元素命名，提高程序可读性？

学生信息系统中数据为固定格式：

（名字，年龄，性别，邮箱地址，…）

学生数量很大为了减小存储开销，对每个学生信息用元组表示：

```
（'Jim'，16，'male'，'jim8721@gmail.com'）
（'LiLei'，17，'male'，'leile@qq.com'）
（'Lucy'，16，'Female'，'lucy123@yahoo.com'）
```

访问时，我们使用引索（index）访问，大量引索降低程序可读性，如何解决这个问题？

1. 方案 1：定义类似与其他语言的枚举类型，也就是定义一系列数值常量，解决方案
2. 方案 2：使用标准库中 collections.namedtuple 替代内置 tuple


In [5]:
NAME, AGE, SEX, EMAIL = range(4)

student = ('Jim', 16, 'male', 'jim@gmail.com')

print(student[NAME])

if student[AGE] >= 19:
    pass
if student[SEX] == 'male':
    pass


Jim


In [6]:
from collections import namedtuple
Student = namedtuple('Student', ['name', 'age', 'sex', 'email'])
s = Student('Jim', 16, 'male', 'jim@gmail.com')
print(s)

print(s.name)
print(s.age)

isinstance(s, tuple)


Student(name='Jim', age=16, sex='male', email='jim@gmail.com')
Jim
16


True

## 如何统计序列中元素的出现频度？

1. 某随机序列`[12，5，6，4，6，5，5，7，.]`中，找到出现次数最高的 3 个元素，它们出现次数是多少？
2. 对某英文文章的单词，进行词频统计，找到出现次数最高的 10 个单词，它们出现次数是多少？


### 统计出现次数

使用字典去重或计数


In [7]:
data = [randint(0, 20) for _ in range(30)]
print(data)

c = dict.fromkeys(data, 0)

for x in data:
    c[x] += 1
print(c)


[6, 7, 9, 2, 17, 3, 6, 18, 14, 2, 5, 12, 15, 0, 4, 11, 14, 5, 13, 11, 0, 8, 4, 10, 18, 11, 4, 18, 18, 3]
{6: 2, 7: 1, 9: 1, 2: 2, 17: 1, 3: 2, 18: 4, 14: 2, 5: 2, 12: 1, 15: 1, 0: 2, 4: 3, 11: 3, 13: 1, 8: 1, 10: 1}


使用`collections.Counter`对象将序列传入 Counter 的构造器，得到 Counter 对象是元素频度的字典`Counter..most_common（）`方法得到频度最高的 n 个元素的列表.


In [8]:
from collections import Counter

c2 = Counter(data)
print(c2)
print(c2.most_common(3))


Counter({18: 4, 4: 3, 11: 3, 6: 2, 2: 2, 3: 2, 14: 2, 5: 2, 0: 2, 7: 1, 9: 1, 17: 1, 12: 1, 15: 1, 13: 1, 8: 1, 10: 1})
[(18, 4), (4, 3), (11, 3)]


### 词频统计

In [9]:
import re

txt = open('Example.txt').read()
c3 = Counter(re.split('\W+', txt))
print(c3.most_common(10))


[('of', 22), ('and', 21), ('to', 21), ('the', 19), ('we', 16), ('in', 13), ('that', 12), ('alone', 9), ('for', 8), ('is', 7)]


## 如何根据字典中值的大小，对字典中的项排序

某班英语成绩以字典形式存储为：

例 `{'LiLei':79，Jim':88，'Lucy':92...}`

根据成绩高低，计算学生排名

使用内置函数sorted
1. 利用zip将字典数据转化元组
2. 传递sorted函数的key参数

In [10]:
print(sorted([2, 9, 0, 5, 4, 8]))

d = {x: randint(60, 100) for x in 'xyzabc'}
sorted(d)


[0, 2, 4, 5, 8, 9]


['a', 'b', 'c', 'x', 'y', 'z']

In [14]:
# itervalues() python2 迭代版本 iter()
# z = zip(d.values(), d.keys())
z = zip(iter(d.values()), iter(d.keys()))
# print(list(z))

s_z = sorted(z)
print(s_z)

sorted(d.items(), key=lambda x: x[1])


[(61, 'b'), (66, 'c'), (67, 'y'), (77, 'z'), (83, 'x'), (98, 'a')]


[('b', 61), ('c', 66), ('y', 67), ('z', 77), ('x', 83), ('a', 98)]