# python-plus

## 1. 数据结构

### 在列表、字典、集合中根据条件筛选数据

In [23]:
# for list

data = [2,2,-3,4,5,-78]

# 第一种解法：使用 过滤器
result = list ( filter(lambda x: x > 0, data) )
result

# 第二种解法： 列表解析
## 即把for-loop 和 condition 写入 list中
result = [x for x in data if x >= 0]
result

[2, 2, 4, 5]

In [22]:
# for dict

d = {2:34,2:54,3:656,655:435}
result = {k : v for k,v in d.items() if v > 90}
result

{3: 656, 655: 435}

In [28]:
# for set

s = {2,54,576,787,5465}

result = {x for x in s if x %3 == 0}
result 

{54, 576}

### 2.为元组中的每个元素命名（花里胡哨，不如dict

In [37]:
# 方案一： 定义类似C语言中的枚举类型

name = 0
age = 1
sex = 2
email = 3

# or name,age,sex,email = xrange(4)

student = ('Airing', 20, 'male', 'airing@ursb.me')

# name
print(student[name])

Airing


In [40]:
# 使用collections.namedtuple 替代内置 tuple

from collections import namedtuple

# 相当于类的工厂
Student = namedtuple('Student', ['name', 'age', 'sex', 'email'])

# 相当于实例化对象
s = Student('Airing', 20, 'male', 'airing@ursb.me')

# 也可以使用关键字传参，但是位置需要对应
s2 = Student(name = 'Jim', age = 19, sex = 'male', email = 'jin@github.com')

# 访问元素相当于访问对象的属性
print(s.name)

# s也是内置类型 tuple 的子类
isinstance(s,tuple) # => true

Airing


True

### 3. 统计序列中元素的出现频率

In [45]:
# 常规解法： 迭代

# 首先，先使用列表解析创建一个随机的序列
import random

# 生成一个含有30个元素范围为0~20的随机序列
data = [random.randint(0,20) for _ in range(30)]

# 统计结果是一个字典，其中data中的元素为键，0为初始值
c = dict.fromkeys(data,0)

# here is the Iteration 
for x in data:
    c[x] += 1
    
print(c)

{17: 2, 14: 2, 7: 3, 1: 1, 5: 2, 10: 2, 18: 1, 4: 4, 11: 2, 20: 3, 15: 1, 19: 1, 3: 2, 6: 2, 9: 1, 8: 1}


使用 `collections` 下的 `Counter` 对象，具体步骤：

* 将序列传入 `Counter` 的构造器，得到 `Counter` 对象是元素频度的字典。
* `Counter.most_common(n)`方法得到频度最高的n个元素的列表。

In [49]:
import collections

c2 = collections.Counter(data)

# 获取所有元素的出现频率的字典
print(c2)

# 获取出现频率最高的3个元素
print(c2.most_common(3)) # return in list

Counter({4: 4, 7: 3, 20: 3, 17: 2, 14: 2, 5: 2, 10: 2, 11: 2, 3: 2, 6: 2, 1: 1, 18: 1, 15: 1, 19: 1, 9: 1, 8: 1})
[(4, 4), (7, 3), (20, 3)]


### 对英语文章进行词频统计

In [55]:
import re
import urllib.request

# 读取网络文件并赋值于 txt 文件中
result = urllib.request.urlopen('https://airing.ursb.me//python/text.txt')
txt = result.read().decode("utf-8")

# 使用正则表达式分割 txt 中的单词存于序列中
# 再使用 Counter 进行频度统计并返回字典
c3 = collections.Counter(re.split('\W+', txt))

print(c3.most_common(10))

[('the', 31), ('of', 23), ('to', 10), ('that', 9), ('in', 7), ('and', 7), ('was', 7), ('she', 6), ('be', 6), ('not', 6)]


### 4.对字典中的项根据其值的大小进行排序

In [64]:
# 常规解法： 使用 zip  将字典转成元组
# 1. 利用zip 将字典转化成元组
# 2. 使用 sorted 函数进行排序

d = {'Airing': 100, 'Penny': 70, 'Bill': 50}

# 如果直接对字典进行排序，会默认按键值进行排序
sorted(d)

# 因此，将字典转成元祖的列表处理
# 元组值前键后，会有限按照值排序
f = zip(d.values(),d.keys())
sorted(f)

[(50, 'Bill'), (70, 'Penny'), (100, 'Airing')]

In [67]:
# 使用 sorted 函数的key 参数

d.items() # ([('Airing', 100), ('Penny', 70), ('Bill', 50)])
# 此时，值在后

sorted(d.items(), key = lambda x: x[1])

[('Bill', 50), ('Penny', 70), ('Airing', 100)]

### 5.快速找到多个字典的公共键


In [93]:
# 假设有7名球员，随机取样出 3~6 个球员进球
# 字典解析产生每轮的数据
s1 = {x: random.randint(1, 4) for x in random.sample('abcdefg', random.randint(3,6))}
s2 = {x: random.randint(1, 4) for x in random.sample('abcdefg', random.randint(3,6))}
s3 = {x: random.randint(1, 4) for x in random.sample('abcdefg', random.randint(3,6))}

AttributeError: 'str' object has no attribute 'keys'

In [None]:
# 常规解法： 迭代

res = []
for k in s1:
    for  l in s2:
        for j in s3:
            if k == l and k == j:
                res.append()
print(res)

In [94]:
# 利用集合的交集操作

print(s1.keys() & s2.keys() & s3.keys())

{'e', 'f'}


In [96]:
# map-reduce

from functools  import reduce

reduce(lambda a,b : a & b, map(dict.keys,[s1, s2, s3]))

{'e', 'f'}

### 6. 让字典保持有序

In [103]:
# 内置的默认字典不存在时间有序性，输出时默认按key值进行排序
# 以此，用orderdict 替代 内置字典Dict

d = collections.OrderedDict()

d['Jin'] = {"sd","dsf"}
d['Bonfds'] = {"ds","df"}
d['dewf'] = {"efds","dgd"}

for k in d:
    print(k)

Jin
Bonfds
dewf


### 拆分含有多种分隔符的字符串

In [111]:
s = 'ab;cd|efg|hi,jkl|mn\topg;rst,uvw\txyz'
print(re.split(r'[;,|\t]+',s))

['ab', 'cd', 'efg', 'hi', 'jkl', 'mn', 'opg', 'rst', 'uvw', 'xyz']
