## collections 
collections是Python内建的一个集合模块，提供了许多有用的集合类

### Counter 计数器
统计一个字符串中每个元素出现的个数，是一个字典类型，并按字母顺序排列。

In [41]:
from collections import Counter  
ct = Counter('collections')
ct = Counter('apple')
ct

Counter({'a': 1, 'p': 2, 'l': 1, 'e': 1})

In [42]:
ct.update('abaa')  # update用于加入新元素
ct

Counter({'a': 4, 'p': 2, 'l': 1, 'e': 1, 'b': 1})

In [43]:
ct.most_common(3)   # most_common 找到出现次数最多的k个元素

[('a', 4), ('p', 2), ('l', 1)]

In [45]:
res = []
for k,v in ct.most_common(3):
    res.append(k)
res

['a', 'p', 'l']

In [48]:
import heapq
heapq.nlargest(3 , ct.keys(), key = ct.get)

['a', 'p', 'l']

### defaultdict  缺失字典
使用dict时，如果引用的Key不存在，就会抛出KeyError。如果希望key不存在时，返回一个默认值，就可以用defaultdict

In [3]:
from collections import defaultdict 
d = defaultdict(lambda: 'None')
d[1] = 'a'
d[1],d[3]

('a', 'None')

### deque 双向列表
```
高效实现两边插入和删除操作，适用于队列和栈 
默认在右边操作，如果想在左边操作要加上left关键字
appendleft 和 popleft 可以列表的头部实现插入和删除
可以设置最大长度，达到最大长度后新增加一个元素，则同时在另一边删除一个元素

```

In [8]:
from collections import deque 
q = deque() 
q.append(2) 
q.appendleft(1)
q,type(q), q[1]

(deque([1, 2]), collections.deque, 2)

In [9]:
q.popleft()

1

In [19]:
dq = deque(range(10), maxlen = 10)
dq

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [20]:
dq.extend([66,77])
dq

deque([2, 3, 4, 5, 6, 7, 8, 9, 66, 77])

In [29]:
a = 'zhangyuanbo'
hash(a)

6213553226934856522

### OrderDict  有序字典
会记住字典添加的顺序，然后按照原来添加时的相同顺序返回，让字典始终保持有序。


In [44]:
from collections import OrderedDict
od = OrderedDict()
od['a'] = 1 
od['b'] = 2 
od['c'] = 3 

od 

OrderedDict([('a', 1), ('b', 2), ('c', 3)])

当你想要构建一个将来需要序列化或编码成其他格式的映射的时候， OrderedDict 是非常有用的。
比如，你想精确控制以 JSON 编码后字段的顺序。

In [45]:
import json
json.dumps(od)#json.dumps()函数是将一个Python数据类型列表进行json格式的编码,字典->字符串

'{"a": 1, "b": 2, "c": 3}'

### Iterable    可迭代类型
一类是集合数据类型，如list、tuple、dict、set、str等；

一类是generator，包括生成器和带yield的generator function。generator并没有直接完全生成，而是边生成边计算，从而节省了大量的空间。

这些可以直接作用于for循环的对象统称为可迭代对象：Iterable

Python的Iterator对象表示的是一个数据流，Iterator对象可以被next()函数调用并不断返回下一个数据，直到没有数据时抛出StopIteration错误。可以把这个数据流看做是一个有序序列，但我们却不能提前知道序列的长度(没有len函数)，只能不断通过next()函数实现按需计算下一个数据，所以Iterator的计算是惰性的，只有在需要返回下一个数据时它才会计算。



In [47]:
from collections import Iterable
g = [_ for _ in range(3)]
isinstance(g,Iterable) 

True

Python的for循环本质上就是通过不断调用next()函数实现的

In [59]:
it = iter([1,2,3,4,5]) #使用iter()调用可以将列表、集合转换为迭代器。
while True:
    try: 
        print(next(it))
    except StopIteration:
        break


1
2
3
4
5


### generator ( ) 只能迭代一次
一次只产生一个数据，不记忆所有的数据

In [8]:
mygenerator = (x*x for x in range(3))
for i in mygenerator:
    print(i)

0
1
4


# yield

### yield相当于 generator 类型的return

In [14]:
def create_generator():
    mylist = [i for i in range(10)]
    for i in mylist:
        yield i 

In [15]:
m = create_generator()
list(m)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [118]:
def s(n):
    for i in range(n):
        yield i*2
list(s(8))

[0, 2, 4, 6, 8, 10, 12, 14]

In [73]:
def myfun(total):
    for i in range(total):
        return i
myfun(4)

0

In [119]:
def myfun(total):
    for i in range(total):
        yield i
m = myfun(4)
next(m)

0

### 用yield构建一个count函数

In [99]:
from itertools import count
c = count(start = 5, step = 2 )
next(c)

5

In [101]:
next(c)

9

In [108]:
def count_i(start , step):
    n = 0 
    while True :
        yield start+n 
        n = n+step


In [109]:
c_i = count_i(5,2)
next(c_i)


5

In [113]:
next(c_i)

13

### yield from 

In [120]:
def fun():
    l = [i for i in range(10)]
    yield from l


In [121]:
f = fun()
next(f)

0

## queue
先进先出

put( ) ：添加元素

get( ) ：删除元素，返回元素值

In [7]:
from queue import Queue 

q = Queue()
for i in range(3):
    q.put(i)
while not q.empty():
    print(q.get())

0
1
2


###  优先队列
处理高优先级的事情。
- 初始化时可以定义队列长度
- qsize 查看长度
- put 传入元素和优先级
- get 从队列中取数

In [19]:
from queue import PriorityQueue 

first_item = 3
second_item = 5

pq = PriorityQueue()
pq.put(second_item,2)
pq.put(first_item,1)  # 1的优先级比2大
pq.get() 


3

###  排列组合

In [2]:
import itertools
list(itertools.permutations([1,2,3,4],2)) # 排列
list(itertools.combinations([1,2,3,4],2)) # 组合

[(1, 2), (1, 3), (1, 4), (2, 3), (2, 4), (3, 4)]


## 堆
最小的元素始终在第一个，也就是nums[0]

In [49]:
from  heapq  import * 

l = [2,4,1,3]
heapify(l) #将数组转换成一个最小堆， 最小值始终在最上面
l

[1, 3, 2, 4]

In [50]:
heappop(l)  #将队顶元素弹出
l

[2, 3, 4]

In [51]:
heappush(l,3) #将一个元素入堆
l

[2, 3, 4, 3]

In [52]:
heappop(l)

2

In [55]:
heapq.nlargest(2,l)   # nlargest 找最大的k个数

[4, 3]

####  top k 问题

In [20]:
from  heapq  import * 

def topK(nums, k):
    nums_k = nums[0:k]
    heapify(nums_k) #维持一个k大的小顶堆，如果新元素大于堆顶元素，则入堆
    for num in nums[k:]:
        temp = heappop(nums_k) 
        temp = max(temp, num)
        heappush(nums_k, temp)
    return nums_k

nums = [1,1,4,2,2,3,6]
k = 2 
topK(nums, k)

[4, 6]

#### top k 小

In [25]:
def topK(nums,k):
    heapify(nums)
    nums_k = []
    for i in range(k):
        temp = heappop(nums)
        nums_k.append(temp)
    return nums_k
nums = [1,2,4,2,2,3,6]
k = 2 
topK(nums, k)

[1, 2]

### Math

In [4]:
from math import radians,pi ,sin # 将角度变成弧度
radians(90)/pi , sin(radians(30))

(0.5, 0.49999999999999994)

### 正则表达式 re

In [27]:
import re 
line = 'a,b;c d'
letter1 = re.split(r'[,; ]',line) #方括号内为各种分隔符
letter2 = re.split(r'([,: ])',line)
print(letter1)
print(letter2)

['a', 'b', 'c', 'd']
['a', ',', 'b;c', ' ', 'd']


- 如果没有加括号，返回的就是正则表达式匹配的元素
- 如果加了括号，分隔符也会被当做元素返回

In [122]:
import re 
text = '2018'
if re.match('\d+',text):
    print('match')

match


In [123]:
import re 
text1 = '2017/08/20'
if re.match(r'\d+/\d+/\d+',text1): 
    print('match')

match


In [163]:
d1 = '西二旗地铁站'
d2 = '西.（山）-小区'
d2.strip('地铁站').strip('小区').strip('站')\
.strip('口').strip('楼').strip('部').strip('广场')

'西.（山）-'

In [173]:
re.sub(r'[-. ）小区 地铁站 部 广场 小区（]', '' , d1)

'西二旗'

In [177]:
import re
def data_clean(s):
    return re.sub(r'[-. （ ）小区( ) 楼  地铁站 部 广场 小区]', '' , s)

In [183]:
data_clean("（西二旗）小区-地铁站")


'西二旗'