# Collections

在python中，每一个集合有一个特征，能被用来获取期望的结果

这个模块实现了特定目标的容器，以提供Python标准内建容器 dict , list , set , 和 tuple 的替代选择

## Counter()

counter是一个容器，用来获取值的频数

import collections
collections.Counter()

In [3]:
import collections
collections.Counter(['a','a','b','c','d','d','d'])

Counter({'a': 2, 'b': 1, 'c': 1, 'd': 3})

In [4]:
collections.Counter("string amazing")

Counter({'s': 1,
         't': 1,
         'r': 1,
         'i': 2,
         'n': 2,
         'g': 2,
         ' ': 1,
         'a': 2,
         'm': 1,
         'z': 1})

## update()

向已存在的counter中增加新的值

In [5]:
co = collections.Counter(['a','b','c'])
co.update(['a','b','c'])
co

Counter({'a': 2, 'b': 2, 'c': 2})

In [7]:
# 计算文本中所有字母的频数
co = collections.Counter()
with open("output.txt",'rb') as f:
    for line in f:
        co.update(line.lower())

print(co)

f.close()

Counter({0: 7, 113: 3, 120: 2, 104: 2, 1: 2, 97: 2, 128: 1, 3: 1, 93: 1, 40: 1, 6: 1, 112: 1, 121: 1, 116: 1, 111: 1, 110: 1, 4: 1, 106: 1, 118: 1, 2: 1, 101: 1, 46: 1})


## most_common()

获取频数最高的前几个

most_common(number)

In [8]:
co.most_common(5)

[(0, 7), (113, 3), (120, 2), (104, 2), (1, 2)]

## 集合的操作

在collection模块中，你可以应用一些集合操作

In [24]:
co1 = collections.Counter(['C','L','E','O','P','A','T','R','A'])
co2 = collections.Counter('JULIUS CAESAR')

print(co1,co2,sep="\n")

# 集合相加
print('addition',co1+co2)

# 集合相减
print('subtraction',co1-co2)

# 并集
print('union',co1|co2)

# 交集
print('intersection',co1&co2)

Counter({'A': 2, 'C': 1, 'L': 1, 'E': 1, 'O': 1, 'P': 1, 'T': 1, 'R': 1})
Counter({'U': 2, 'S': 2, 'A': 2, 'J': 1, 'L': 1, 'I': 1, ' ': 1, 'C': 1, 'E': 1, 'R': 1})
addition Counter({'A': 4, 'C': 2, 'L': 2, 'E': 2, 'R': 2, 'U': 2, 'S': 2, 'O': 1, 'P': 1, 'T': 1, 'J': 1, 'I': 1, ' ': 1})
subtraction Counter({'O': 1, 'P': 1, 'T': 1})
union Counter({'A': 2, 'U': 2, 'S': 2, 'C': 1, 'L': 1, 'E': 1, 'O': 1, 'P': 1, 'T': 1, 'R': 1, 'J': 1, 'I': 1, ' ': 1})
intersection Counter({'A': 2, 'C': 1, 'L': 1, 'E': 1, 'R': 1})


## Deque

双向队列，类似于list,允许在两头添加和删除元素，速度很快

list是一个查询效率高于更新操作的数据结构，比如删除一个元素和插入一个元素执行效率就非常低，因为还要对剩下的元素进行移动

In [26]:
de = collections.deque('India')
print(de)

# 从右边移除
de.remove('a')
print(de)

deque(['I', 'n', 'd', 'i', 'a'])
deque(['I', 'n', 'd', 'i'])


### 填充队列

#### extend()

右填充，会展开序列

In [None]:
d1 = collections.deque('hello')
d1.extend('raj')
print(d1)

#### append()

右填充，不会展开序列

In [28]:
d1.append('raj')
print(d1)

deque(['h', 'e', 'l', 'l', 'o', 'r', 'a', 'j', 'raj'])


#### extendleft()

左填充,展开序列，不同的是插入顺序与原序列顺序相反

In [31]:
d1.extendleft('raj')
print(d1)

deque(['r', 'a', 'j', 'j', 'a', 'r', 'j', 'a', 'r', 'h', 'e', 'l', 'l', 'o', 'r', 'a', 'j', 'raj'])


#### appendleft()

左填充，不展开序列

In [32]:
d1.appendleft('raj')
print(d1)

deque(['raj', 'r', 'a', 'j', 'j', 'a', 'r', 'j', 'a', 'r', 'h', 'e', 'l', 'l', 'o', 'r', 'a', 'j', 'raj'])


### 队列consumption

从队列两端或一端去除元素

#### pop()

从队列右端弹出元素

In [35]:
d2 = collections.deque([1,2,3,4])
print(d2)

d2.pop()
print(d2)

deque([1, 2, 3, 4])
deque([1, 2, 3])


#### popleft()

从队列左端弹出元素

In [36]:
d2.popleft()
print(d2)

deque([2, 3])


### 队列旋转(deque rotation)

rotate(num)

左旋转元素，被移动到左边，num为正
右旋转元素，被移动到右边，num为负

num表示旋转的元素数量

In [38]:
d3 = collections.deque(range(10))
print(d3)

d3.rotate(2)
print(d3)

d3.rotate(-2)
print(d3)

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
deque([8, 9, 0, 1, 2, 3, 4, 5, 6, 7])
deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])


## 有序字典

有序字典OrderdDict是字典的一个子类，它记得元素的添加顺序

In [45]:
d1 = collections.OrderedDict()
print(d1)

d1['a'] = 'SAS'
d1['b'] = 'PYTHON'
d1['c'] = 'R'

for k,v in d1.items():
    print(k+':'+v)

OrderedDict()
a:SAS
b:PYTHON
c:R
a:SAS
b:PYTHON
c:R


### 基于key对字典排序

使用sorted()函数

dict = collections.OrderedDict(sorted(d1.items()))

In [46]:
d1 = collections.OrderedDict()
d1['a']= 'SAS'
d1['d']= 'PYTHON'
d1['b']= 'JULIA'
d1['f']= 'R'
d1['c']= 'SPARK'

dict1 = collections.OrderedDict(sorted(d1.items()))

for k,v in dict1.items():
    print(k,':',v)

a : SAS
b : JULIA
c : SPARK
d : PYTHON
f : R


### 基于value对字典排序

dict = collections.OrderedDict(sorted(d1.items(), key=lambda k: k[1]))

In [61]:
dict2 = collections.OrderedDict(sorted(d1.items(),key=lambda k: k[1]))

for k,v in dict2.items():
    print(k,':',v)

b : JULIA
d : PYTHON
f : R
a : SAS
c : SPARK


## 默认字典

至今我们已经学习了普通字典和有序字典，还有一类默认字典，默认字典为不存在的key赋予一个初始value

In [63]:
def fun1():
    return "default"

ge = collections.defaultdict(fun1)

ge['a'] = 26
ge['b'] = 27

print(ge)
print(ge['a'])
print(ge['b'])

# 不存在key为'c'时，得到fun1的返回值
print(ge['c'])

defaultdict(<function fun1 at 0x7f92693f1cb0>, {'a': 26, 'b': 27})
26
27
default


In [73]:
# 使用lambda构造匿名函数更加方便
ge1 = collections.defaultdict(lambda :'default')
ge1['a'] = 26
ge1['b'] = 27

print(ge1['c'])

# 使用 int作为函数，默认值为0
ge2 = collections.defaultdict(int)
print(ge2['a'])

# 使用 list作为函数，创建值为list的字典
gee = collections.defaultdict(list)
print(gee['any-key'])

# 使用 dict作为函数，创建值为字典的字典
gee1 = collections.defaultdict(dict)
print(gee1['any-key'])

default
0
[]
{}


In [69]:
# 应用场景一: 计算list中元素的频率

ge3 = collections.defaultdict(int)

list1 = ['a','b','a','c','d']

for item in list1:
    ge3[item] = ge3[item]+1

print(ge3)

# 转为Counter类型同样可以
co = collections.Counter(list1)


defaultdict(<class 'int'>, {'a': 2, 'b': 1, 'c': 1, 'd': 1})


[('a', 2), ('b', 1)]

In [72]:
# 应用场景二:构造复杂的字典结构

# 值为list的字典
game = collections.defaultdict(list)
tuple_list_county = [('US', 'Visconsin'), ('Germany', 'Bavaria'), ('UK',
'Bradfordshire'), ('India', 'punjab'), ('China', 'Shandong'), ('Canada',
'Nova Scotia'),('China','Chengdu')]

print(game["any_value"])

for k,v in tuple_list_county:
    game[k].append(v)

print(game)

[]
defaultdict(<class 'list'>, {'any_value': [], 'US': ['Visconsin'], 'Germany': ['Bavaria'], 'UK': ['Bradfordshire'], 'India': ['punjab'], 'China': ['Shandong', 'Chengdu'], 'Canada': ['Nova Scotia']})


In [89]:
# 值为字典的字典
game = collections.defaultdict(dict)

with open('test.txt','r') as f:
    for line in f:
        li = line.rstrip('\n').split(sep="\t")
        game[li[0]][li[1]] = li[2]

print(game)

# 嵌套字典遍历
for k,v in game.items():
    print(k)
    for k1,v1 in game[k].items():
        print(k1,":",v1)
        
order = collections.defaultdict(dict)

# 对嵌套字典重新排序
for k,v in game.items():
    order[k] = collections.OrderedDict(sorted(game[k].items(),key=lambda k:k[1],reverse=True))

print(order)


# 获取每个嵌套字典中的最大值

for k,v in game.items():
    print(k)
    index = max(v,key=v.get)
    print(index,':',v[index])


defaultdict(<class 'dict'>, {'a': {'1': '24', '2': '22', '3': '21'}, 'b': {'1': '22', '2': '22', '3': '33'}})
a
1 : 24
2 : 22
3 : 21
b
1 : 22
2 : 22
3 : 33
defaultdict(<class 'dict'>, {'a': OrderedDict([('1', '24'), ('2', '22'), ('3', '21')]), 'b': OrderedDict([('3', '33'), ('1', '22'), ('2', '22')])})
a
1 : 24
b
3 : 33


## 具名元组

python允许你创造自己的数据类型，具名元组一个重要的特点就是你可以自定义数据类型

collections.namedtuple(
    typename,
    field_names,
    *,
    rename=False,
    defaults=None,
    module=None,
)

typename表示定义型的数据类型名称
field_names为每一个元素定义的字段名
如果rename=False,那么无用的字段名将会被索引替代

In [93]:
nt = collections.namedtuple('emp','name,age,empid')
print(nt)

record1 = nt('chenzhi',26,1)
print(record1)
print(type(record1))

# 打印自定义的数据类型
print(record1.name)

<class '__main__.emp'>
emp(name='chenzhi', age=26, empid=1)
<class '__main__.emp'>
chenzhi


### 具名元组添加list元素及创建字典

使用_make(list)向具名元组中添加list

In [103]:
# 增加list
list1 = ['BOB', 21, 34567]
record2 =nt._make(list1)
print(record2)

emp(name='BOB', age=21, empid=34567)
[{'name': 'chenzhi', 'age': 22}, {'name': 'chenzhi', 'age': 22}, {'name': 'chenzhi', 'age': 22}]


使用_asdict()将具名元组转换为字典

In [99]:
print(record2._asdict())

OrderedDict([('name', 'BOB'), ('age', 21), ('empid', 34567)])


### 修改具名元组值

类似于元组，具名元组也是不能改变的，但是你可以使用_replace()函数修改具名元组值,这个操作只是形式上修改了，实际并未修改

In [108]:
print(record2._replace(age = 33))

print(record2) #实际并未修改

emp(name='BOB', age=33, empid=34567)
emp(name='BOB', age=21, empid=34567)
