## 1.如何在列表、字典、集合中根据条件筛选数据

### 实际案例：
    
    过滤掉列表[3, 9, -1, 10, 20, -2, ...]中的负数
    
    筛选字典{'LiLei': 79, 'Jim': 88, 'Lucy': 92, ...}中值高于90的项
    
    筛选集合{77, 89, 32, 20, ...}中能被3整除的元素

In [2]:
data = [1, 5, -3, -2, 6, 0, 9]

res = []

for x in data:
    if x>= 0:
        res.append(x)

print (res)

[1, 5, 6, 0, 9]


### 解决方案

#### 列表

    filter 函数  filter(lambda x: x >= 0, data)
    
    列表解析      [x for x in data if x >= 0]
#### 字典

    字典解析      {k: v for k, v in d.iteritems() if v > 90}
#### 集合
    
    集合解析      {x for x in s if x % 3 == 0}

In [44]:
# 生成随机列表，使用列表解析
from random import randint

data = [randint(-10, 10) for _ in range(10)]
fdata = data # 用作 filter函数
tdata = data
ttdata = data
ldata = data # 用作 list 列表解析
print(tdata)

[-2, -1, 0, 8, 7, 2, -2, -9, 4, 2]


In [45]:
help(filter)

Help on class filter in module builtins:

class filter(object)
 |  filter(function or None, iterable) --> filter object
 |  
 |  Return an iterator yielding those items of iterable for which function(item)
 |  is true. If function is None, return the items that are true.
 |  
 |  Methods defined here:
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __new__(*args, **kwargs) from builtins.type
 |      Create and return a new object.  See help(type) for accurate signature.
 |  
 |  __next__(self, /)
 |      Implement next(self).
 |  
 |  __reduce__(...)
 |      Return state information for pickling.



In [46]:
# python3 起，filter 函数返回的对象从列表改为 filter object（迭代器）
fdata = filter(lambda x: x >= 0, fdata)
filter_list = [item for item in fdata]
print(filter_list)

[0, 8, 7, 2, 4, 2]


In [55]:
# 列表解析
[x for x in ldata if x >= 0]

[0, 8, 7, 2, 4, 2]

In [57]:
# 查看运行时间
import timeit 
s1=timeit.default_timer()
# filter(lambda x: x >= 0, fdata)
[x for x in ldata if x >= 0]
d1=timeit.default_timer()        
d1-s1

6.80049997754395e-05

筛选字典{'LiLei': 79, 'Jim': 88, 'Lucy': 92, ...}中值高于90的项

In [63]:
d = {x: randint(60, 100) for x in range(1, 21)}
print (d)

{1: 81, 2: 73, 3: 73, 4: 68, 5: 78, 6: 77, 7: 87, 8: 100, 9: 96, 10: 66, 11: 81, 12: 62, 13: 99, 14: 76, 15: 70, 16: 83, 17: 60, 18: 61, 19: 91, 20: 75}


In [64]:
# 在3.x 里 用 items()替换iteritems() ，可以用于 for 来循环遍历。
{k: v for k, v in d.items() if v > 90}

{8: 100, 9: 96, 13: 99, 19: 91}

筛选集合{77, 89, 32, 20, ...}中能被3整除的元素

In [68]:
print (data)
s = set(data)
print (s)

[-2, -1, 0, 8, 7, 2, -2, -9, 4, 2]
{0, 2, 4, 7, 8, -1, -9, -2}


In [69]:
{x for x in s if x % 3 == 0}

{-9, 0}

## 2.如何为元组中的每个元素命名，提高程序可读性
### 实际案例

学生信息系统中数据为固定格式：

(名字，年龄，性别，邮件地址， ...)

学生数量很大为了减小存储开销，对每个学生信息用元组表示：

('Jim', 16, 'male', 'jim8721@gmail.com')

('LiLei', 17, 'male', 'lilei@qq.com')

('Lucy', 16, 'female', 'lucy123@yahoo.com')

...



访问时，我们使用索引(index)访问，大量索引降低程序可读性。

如何解决这个问题？

### 解决方案

方案1: 定义类似于其他语言的枚举类型，也就是定义一系列数值常量

方案2: 使用标准库中 collections.namedtuple 替代内置 tuple

In [87]:
# ('Jim', 16, 'male', 'jim8721@gmail.com')
# ('LiLei', 17, 'male', 'lilei@qq.com')
# ('Lucy', 16, 'female', 'lucy123@yahoo.com')

# NAME = 0
# AGE = 1
# SEX = 2
# EMAIL = 3
NAME, AGE, SEX, EMAIL = range(4)
student = ('Jim', 16, 'male', 'jim8721@gmail.com')

# name
print(student[NAME])

# age
if student[AGE] >= 18:
    pass
    # ...

# sex
if student[SEX] == 'male':
    pass
#     ...

Jim


```
// c语言中使用宏定义 0，1，2 变成 name age sex
// c语言预处理当中做字符串的替换
#define NAME 0
#define AGE 1
#define SEX 2

// 第二种方式使用枚举
enum Student {
    NAME,
    AGE,
    SEX,
}
```

In [93]:
# 方案2: 使用标准库中 collections.namedtuple 替代内置 tuple
from collections import namedtuple

Student = namedtuple('Student', ['name', 'age', 'sex', 'email'])
s = Student('Jim', 16, 'male', 'jim8721@gmail.com')
print(s)
# 使用关键字传参
s2 = Student(name='Jim2', age=16, sex='male', email='jim8721@gmail.com')
print(s2)
# 直接使用属性(类对象的形式)访问元组，不需要使用索引
print(s.name)
# 判断s 是哪只元组的子类
isinstance(s, tuple) 

Student(name='Jim', age=16, sex='male', email='jim8721@gmail.com')
Student(name='Jim2', age=16, sex='male', email='jim8721@gmail.com')
Jim


True

## 3.如何统计序列中元素的出现频度？
### 实际案例

1. 某个随机序列[12, 5, 6, 4, 6, 5, 5, 7, ...]中，找到出现次数最高的3个元素，它们出现次数是多少？

2. 对某英文文章的单词，进行词频统计，找到出现次数最高的10个单词，它们出现次数是多少？

In [98]:
from random import randint
data = [randint(0, 20) for _ in range(30)]
print(data)
# 用 data 中每一个元素作为建，0 作为初始值，创建字典
c = dict.fromkeys(data, 0)
print(c)
# 迭代 data 每出现一次在 c 中对应 data 的值进行 + 1 操作
for x in data:
    c[x] += 1
print(c)
# 频度出现最高的是3个元素，进行排序


[16, 17, 8, 20, 9, 4, 5, 4, 8, 8, 9, 1, 5, 11, 18, 20, 17, 7, 19, 0, 3, 2, 6, 20, 4, 5, 6, 9, 8, 17]
{16: 0, 17: 0, 8: 0, 20: 0, 9: 0, 4: 0, 5: 0, 1: 0, 11: 0, 18: 0, 7: 0, 19: 0, 0: 0, 3: 0, 2: 0, 6: 0}
{16: 1, 17: 3, 8: 4, 20: 3, 9: 3, 4: 3, 5: 3, 1: 1, 11: 1, 18: 1, 7: 1, 19: 1, 0: 1, 3: 1, 2: 1, 6: 2}


### 解决方案
使用 collections.Counter 对象

将序列传入 Counter 的构造器，得到 Counter 对象是元素频度的字典

Counter.most_common(n)方法得到的频度最高的 n 个元素的列表

In [101]:
from collections import Counter
c2 = Counter(data)
print (c2)
print (c2.most_common(3))

Counter({8: 4, 17: 3, 20: 3, 9: 3, 4: 3, 5: 3, 6: 2, 16: 1, 1: 1, 11: 1, 18: 1, 7: 1, 19: 1, 0: 1, 3: 1, 2: 1})
[(8, 4), (17, 3), (20, 3)]


In [112]:
# 2. 对某英文文章的单词，进行词频统计，找到出现次数最高的10个单词，它们出现次数是多少？
import re
txt = open('react-howto.txt').read()
# print(txt)
# 词频做统计，首先要分隔，正则表达式分隔模块，使用非字母来作为分隔
# re.split('\W+', txt)
# 得到一个列表，把这个列表传递给 Counter
c3 = Counter(re.split('\W+', txt))
c3.most_common(10)

[('you', 53),
 ('to', 48),
 ('a', 48),
 ('the', 47),
 ('React', 38),
 ('of', 37),
 ('and', 32),
 ('it', 26),
 ('in', 22),
 ('that', 21)]

## 4.如何根据字典中值的大小，对字典中的项排序

### 实际案例
某班英语成绩以字典形式存储为：{'LiLei}: 79, 'Jim': 88, 'Lucy': 92, ...}

根据成绩高低，计算学生排名

### 解决方案
使用内置函数 sorted

1. 利用 zip 将字典数据转化为 元组
2. 传递 sorted 函数的 key 参数

In [2]:
# 经常使用 sorted 对 list 进行排序
sorted([9, 1, 2, 8, 5])

[1, 2, 5, 8, 9]

In [3]:
from random import randint
{x: randint(60, 100) for x in 'xyzabc'}


{'a': 79, 'b': 65, 'c': 73, 'x': 88, 'y': 82, 'z': 78}

In [6]:
d = {x: randint(60, 100) for x in 'xyzabc'}
sorted(d)  # 按照键来排序

# sorted 传入的是可迭代对象，对于字典的可迭代对象就是 key

['a', 'b', 'c', 'x', 'y', 'z']

In [7]:
iter(d)

<dict_keyiterator at 0x101ea2bd8>

In [8]:
list(iter(d))  # 实际上是对 key 进行了排序

['x', 'y', 'z', 'a', 'b', 'c']

In [9]:
# 对字典进行某种转换，变成 sorted 可以排序的结构
# 字典的每一项都是 key 和 value，我们是否可以用元组
(79, 'a') > (65, 'b')  # 元组的比较，先比较第一个元素，相等在比较下一个元素

True

In [10]:
(79, 'a') > (79, 'b')

False

In [13]:
# 思路把字典变成 上面形式的 元组的列表
# 利用 zip 将字典数据转化成元组

d.keys()

dict_keys(['x', 'y', 'z', 'a', 'b', 'c'])

In [14]:
d.values()

dict_values([72, 77, 82, 91, 93, 97])

In [20]:
zip(d.values(), d.keys())

<zip at 0x1030a0388>

In [21]:
sorted(zip(d.values(), d.keys()))

[(72, 'x'), (77, 'y'), (82, 'z'), (91, 'a'), (93, 'b'), (97, 'c')]

In [22]:
# 传递 sorted 函数的 key 参数
d.items()

dict_items([('x', 72), ('y', 77), ('z', 82), ('a', 91), ('b', 93), ('c', 97)])

In [23]:
sorted(d.items(), key=lambda x: x[1])

[('x', 72), ('y', 77), ('z', 82), ('a', 91), ('b', 93), ('c', 97)]