## 列表筛选

列表解析比 filter 快

实测 python3 环境相反


In [22]:
from random import randint
import timeit

data = [randint(-10, 10) for _ in range(10)]
print(data)

f = filter(lambda x: x >= 0, data)
print(list(f))

l = [x for x in data if x >= 0]
print(l)


t_f = timeit.timeit('filter(lambda x: x >= 0, data)',
                    globals=globals())
print(t_f)

t_l = timeit.timeit('[x for x in data if x >= 0]',
                    globals=globals())
print(t_l)


[-7, 3, 9, -2, 0, 3, -4, -1, 0, 8]
[3, 9, 0, 3, 0, 8]
[3, 9, 0, 3, 0, 8]
0.19076950001181103
0.5254382999846712


## 字典筛选


In [23]:
d = {x: randint(60, 100) for x in range(1, 21)}
print(d)

{k: v for k, v in d.items() if v > 90}


{1: 94, 2: 82, 3: 97, 4: 62, 5: 60, 6: 64, 7: 61, 8: 91, 9: 65, 10: 78, 11: 86, 12: 79, 13: 82, 14: 72, 15: 60, 16: 67, 17: 69, 18: 80, 19: 95, 20: 98}


{1: 94, 3: 97, 8: 91, 19: 95, 20: 98}

## 集合筛选


In [24]:
s = set(data)
print(s)

{x for x in s if x % 3 == 0}


{0, 3, 8, 9, -1, -7, -4, -2}


{0, 3, 9}

## 如何为元组中的每个元素命名，提高程序可读性？

学生信息系统中数据为固定格式：

（名字，年龄，性别，邮箱地址，…）

学生数量很大为了减小存储开销，对每个学生信息用元组表示：

```
（'Jim'，16，'male'，'jim8721@gmail.com'）
（'LiLei'，17，'male'，'leile@qq.com'）
（'Lucy'，16，'Female'，'lucy123@yahoo.com'）
```

访问时，我们使用引索（index）访问，大量引索降低程序可读性，如何解决这个问题？

1. 方案 1：定义类似与其他语言的枚举类型，也就是定义一系列数值常量，解决方案
2. 方案 2：使用标准库中 collections.namedtuple 替代内置 tuple


In [25]:
NAME, AGE, SEX, EMAIL = range(4)

student = ('Jim', 16, 'male', 'jim@gmail.com')

print(student[NAME])

if student[AGE] >= 19:
    pass
if student[SEX] == 'male':
    pass


Jim


In [26]:
from collections import namedtuple
Student = namedtuple('Student', ['name', 'age', 'sex', 'email'])
s = Student('Jim', 16, 'male', 'jim@gmail.com')
print(s)

print(s.name)
print(s.age)

isinstance(s, tuple)


Student(name='Jim', age=16, sex='male', email='jim@gmail.com')
Jim
16


True

## 如何统计序列中元素的出现频度？

1. 某随机序列`[12，5，6，4，6，5，5，7，.]`中，找到出现次数最高的 3 个元素，它们出现次数是多少？
2. 对某英文文章的单词，进行词频统计，找到出现次数最高的 10 个单词，它们出现次数是多少？


### 统计出现次数


使用字典去重或计数


In [27]:
data = [randint(0, 20) for _ in range(30)]
print(data)

c = dict.fromkeys(data, 0)

for x in data:
    c[x] += 1
print(c)


[8, 10, 0, 2, 11, 4, 11, 18, 10, 10, 3, 19, 20, 7, 1, 18, 9, 11, 6, 6, 0, 10, 5, 11, 17, 0, 0, 6, 12, 7]
{8: 1, 10: 4, 0: 4, 2: 1, 11: 4, 4: 1, 18: 2, 3: 1, 19: 1, 20: 1, 7: 2, 1: 1, 9: 1, 6: 3, 5: 1, 17: 1, 12: 1}


使用`collections.Counter`对象将序列传入 Counter 的构造器，得到 Counter 对象是元素频度的字典`Counter..most_common（）`方法得到频度最高的 n 个元素的列表.


In [28]:
from collections import Counter

c2 = Counter(data)
print(c2)
print(c2.most_common(3))


Counter({10: 4, 0: 4, 11: 4, 6: 3, 18: 2, 7: 2, 8: 1, 2: 1, 4: 1, 3: 1, 19: 1, 20: 1, 1: 1, 9: 1, 5: 1, 17: 1, 12: 1})
[(10, 4), (0, 4), (11, 4)]


### 词频统计


In [29]:
import re

txt = open('Example.txt').read()
c3 = Counter(re.split('\W+', txt))
print(c3.most_common(10))


[('of', 22), ('and', 21), ('to', 21), ('the', 19), ('we', 16), ('in', 13), ('that', 12), ('alone', 9), ('for', 8), ('is', 7)]


## 如何根据字典中值的大小，对字典中的项排序

某班英语成绩以字典形式存储为：

例 `{'LiLei':79，Jim':88，'Lucy':92...}`

根据成绩高低，计算学生排名


使用内置函数 sorted

1. 利用 zip 将字典数据转化元组
2. 传递 sorted 函数的 key 参数


In [30]:
print(sorted([2, 9, 0, 5, 4, 8]))

d = {x: randint(60, 100) for x in 'xyzabc'}
sorted(d)


[0, 2, 4, 5, 8, 9]


['a', 'b', 'c', 'x', 'y', 'z']

In [31]:
# itervalues() python2 迭代版本 iter()
# z = zip(d.values(), d.keys())
z = zip(iter(d.values()), iter(d.keys()))
# print(list(z))

s_z = sorted(z)
print(s_z)

sorted(d.items(), key=lambda x: x[1])


[(66, 'a'), (67, 'x'), (71, 'z'), (84, 'y'), (85, 'b'), (88, 'c')]


[('a', 66), ('x', 67), ('z', 71), ('y', 84), ('b', 85), ('c', 88)]

## 如何快速找到多个字典中的公共键（key）？


西班牙足球甲级联赛，每轮球员进球统计：

1. 第一轮：苏亚雷斯'：1，'梅西'：2，本泽马'：1，'C 罗：3...
2. 第二轮：'苏亚雷斯：2，'C 罗：1，'格里兹曼'：2，'贝尔'：1...
3. 第三轮：'苏亚雷斯'：1，'托雷斯：2，'贝尔：1，'内马尔：1...

统计出前 N 轮，每场比赛都有进球的球员.


In [40]:
from random import randint, sample


def b():
    return sample('abcdefg', randint(3, 6))


s1 = {x: randint(1, 4) for x in b()}
s2 = {x: randint(1, 4) for x in b()}
s3 = {x: randint(1, 4) for x in b()}

print(s1)
print(s2)
print(s3)

res = []
for k in s1:
    if k in s2 and k in s3:
        res.append(k)

print(res)


{'g': 3, 'e': 2, 'c': 4, 'b': 1}
{'f': 2, 'g': 1, 'a': 3, 'c': 1, 'b': 1, 'e': 2}
{'a': 3, 'f': 4, 'e': 1, 'b': 2, 'c': 4}
['e', 'c', 'b']


### 利用集合（set）的交集操作

1. 使用字典的 viewkeys() 方法，得到一个字典 keys 的集合
2. 使用 map 函数，得到所有字典的 keys 的集合.
3. 使用 reduce 函数，取所有字典的 keys 的集合的交集，


In [50]:

s1.keys() & s2.keys() & s3.keys()


{'b', 'c', 'e'}

In [55]:
from functools import reduce

reduce(lambda a, b: a & b, map(dict.keys, [s1, s2, s3]))


{'b', 'c', 'e'}

## 如何让字典保持有序


某编程竞赛系统，对参赛选手编程解题进行计时，选手完成题目后，把该选手解题用时记录到字典中，以便赛后按选手名查询成绩

（答题用时越短，成绩越优）

`'LiLei': (2, 43), 'HanMeimei': (5, 52)，'Jim': (1, 39)}`

比赛结束后，需按排名顺序依次打印选手成绩，如何实现？


In [59]:
d = {}

d['Jim'] = (1, 35)
d['Leo'] = (2, 45)
d['Bob'] = (3, 55)

# 不保证有序
for k in d:
    print(k)


Jim
Leo
Bob


OrderedDict


In [60]:
from collections import OrderedDict

d = OrderedDict()

d['Jim'] = (1, 35)
d['Leo'] = (2, 45)
d['Bob'] = (3, 55)

# 保证有序
for k in d:
    print(k)


Jim
Leo
Bob


In [70]:
from time import time
from random import randint
from collections import OrderedDict

d = OrderedDict()

players = list('abcdefgh')
start = time()

for i in range(8):
    input()
    p = players.pop(randint(0, 7 - i))
    end = time()
    print(i + 1, p, end - start)
    d[p] = (i + 1, end - start)

print()

for k in d:
    print(k, d[k])


1 h 0.5872325897216797
2 f 0.7695631980895996
3 c 0.9424331188201904
4 g 1.1044273376464844
5 d 1.2745656967163086
6 e 1.4715619087219238
7 a 1.6589367389678955
8 b 1.842533826828003

h (1, 0.5872325897216797)
f (2, 0.7695631980895996)
c (3, 0.9424331188201904)
g (4, 1.1044273376464844)
d (5, 1.2745656967163086)
e (6, 1.4715619087219238)
a (7, 1.6589367389678955)
b (8, 1.842533826828003)


## 如何实现用户的历史记录功能（最多 n 条）？

很多应用程序都有浏览用户的历史记录的功能，例如：

浏览器可以查看最近访问过的网页」

视频播放器可以查看最近播放过视频文件，Shelli 可以查看用户输入过的命令.

现在我们制作了一个简单的猜数字的小游戏，添加历史记录功能，显示用户最近猜过的数字如何实现？


In [75]:
from random import randint

N = randint(0, 100)


def guess(k):
    if k == N:
        print('right')
        return True
    if k < N:
        print('%s is less-than N' % k)
    else:
        print('%s is greater-than N' % k)
    return False


while True:
    line = input("please input a number:")
    if line.isdigit():
        k = int(line)
        if guess(k):
            break
    else:
        break


1 is less-than N
2 is less-than N
4 is less-than N
99 is greater-than N
56 is less-than N
34 is less-than N
88 is greater-than N
67 is less-than N
66 is less-than N
77 is less-than N
78 is less-than N
80 is less-than N
81 is less-than N
85 is less-than N


使用容量为 n 的队列存储历史记录

使用标准库 collections 中的 deque，它是一个双端循环队列.

程序退出前，可以使用 pickle 将队列对象存入文件，再次运行程序时将其导入，


In [76]:
from collections import deque
q = deque([], 5)
q.append(1)
q.append(2)
q.append(3)
q.append(4)
q.append(5)
print(q)
q.append(6)
q.append(7)
print(q)


deque([1, 2, 3, 4, 5], maxlen=5)
deque([3, 4, 5, 6, 7], maxlen=5)


In [80]:
from random import randint
from collections import deque

N = randint(0, 100)
history = deque([], 5)


def guess(k):
    if k == N:
        print('right')
        return True
    if k < N:
        print('%s is less-than N' % k)
    else:
        print('%s is greater-than N' % k)
    return False


while True:
    line = input("please input a number:")
    if line.isdigit():
        k = int(line)
        history.append(k)
        if guess(k):
            break
    elif line == 'history' or line == 'h?':
        print(list(history))
    else:
        break


1 is less-than N
2 is less-than N
3 is less-than N
4 is less-than N
5 is less-than N
[1, 2, 3, 4, 5]
90 is greater-than N
80 is less-than N
70 is less-than N
60 is less-than N
[5, 90, 80, 70, 60]


### 历史记录存储到本地文件中持久化


In [9]:
from random import randint
from collections import deque
import pickle

N = randint(0, 100)

history = deque(pickle.load(open('history', 'rb')), 5)




def guess(k):
    if k == N:
        print('right')
        return True
    if k < N:
        print('%s is less-than N' % k)
    else:
        print('%s is greater-than N' % k)
    return False


while True:
    line = input("please input a number:")
    pickle.dump(history, open('history', 'wb'))
    if line.isdigit():
        k = int(line)
        history.append(k)
        if guess(k):
            break
    elif line == 'history' or line == 'h?':
        print(list(history))
    else:
        break


[1, 2, 3, 4, 5]
