# 1.collections模块

- collections的定位是"高性能容量数据类型", 其主要数据类型包括但不限于以下五类.
* namedtuple: 生成可以使用名字来访问元素内容的元组子类,可理解为加强版的元组
* deque:双向队列，客从另一侧高效添加和弹出元素，是列表类的有效补充
* OrderedDict:有序字典,是字典类提供排序功能的定制版
* defaultdict:带有默认值的字典
* Counter:计数器,主要用来对某些数据类型(如列表、元组等)中的元素进行计数

## 1.1 namedtuple

In [3]:
from collections import namedtuple
## namedtuple为了增强元组可读性,同时可以通过非数字索引形式进行调用

Point = namedtuple('Point', ['x', 'y']) # 定义方法1
# Point = namedtuple('Point', 'x y')  # 定义方法2
# Point = namedtuple('Point', 'x, y')  # 定义方法3
p = Point(3, 4)
print(p.x, p.y)
print(isinstance(p, Point), isinstance(p, tuple)) # namedtuple定义的依然是元组的实例

3 4
True True
False


In [4]:
# 解包
a, b = p
a, b

(3, 4)

## 1.2 deque

- 使用列表存储数据时，如果按索引访问元素，即执行只读操纵，访问速度会很快.因为列表是线性存储的
- 列表元素的插入和删除操作（写操作）很慢，特别是当列表元素数据量很大时，插入和删除操作的效率低的令人难以忍受
- deque实现高效插入和删除，特别适用于队列和栈的操作

In [5]:
from collections import deque
dq = deque(['a', 'b', 'c'])  # 创建双向队列
dq.append(1)  # 队列右边添加元素1
print(dq)
dq.appendleft(2)  # 队列左边添加元素2
print(dq)
dq.insert(2, 'x')  # 在指定索引位置(2)插入元素'x'
print(dq)
dq.pop()  # 弹出最右边的一个元素，并在队列中删除
print(dq)
dq.popleft()  # 获取最左边的一个元素，并在队列中删除
print(dq)
dq.remove('x')  # 删除指定元素x
print(dq)
dq.reverse()  # 队列逆序
print(dq)

deque(['a', 'b', 'c', 1])
deque([2, 'a', 'b', 'c', 1])
deque([2, 'a', 'x', 'b', 'c', 1])
deque([2, 'a', 'x', 'b', 'c'])
deque(['a', 'x', 'b', 'c'])
deque(['a', 'b', 'c'])
deque(['c', 'b', 'a'])


## 1.3 OrderedDict
- 在之前的Python版本，字典是无序的，所以很难确定关键字key的顺序
- 如果想要保持关键字key的顺序，使用OrderedDict。有序字典的底层是通过双向链表实现，内部通过map函数对指定字典元素序列做映射，以高效存储键值对.

In [6]:
from collections import OrderedDict
od = OrderedDict()  # 创建有序字典
od['a'] = 1  # 添加字典元素
od['c'] = 2
od['b'] = 3
print(od)  # 键是按照元素插入顺序进行排序

OrderedDict([('a', 1), ('c', 2), ('b', 3)])


In [9]:
keys = ['apple', 'banana', 'cat']
value = [4, 5, 6]
od.update(zip(keys, value))  #向字典中追加新字典，也就是合并两个字典
print(od)
print('pop', od.pop('a'))  # 将键为'a'的字典元素弹出，并从有序字典中删除它
print(od)
od.move_to_end('b')  # 将键为'b'的元素移到队尾
print(od)

OrderedDict([('a', 1), ('c', 2), ('b', 3), ('apple', 4), ('banana', 5), ('cat', 6)])
pop 1
OrderedDict([('c', 2), ('b', 3), ('apple', 4), ('banana', 5), ('cat', 6)])
OrderedDict([('c', 2), ('apple', 4), ('banana', 5), ('cat', 6), ('b', 3)])


# 1.4 defaultdict

- 使用字典时,如果所引用的键不存在，会抛出异常，从而导致整个程序终止
- 如果希望键不存在时能返回一个默认值，就需要defaultdict

In [10]:
from collections import defaultdict

dd = defaultdict(lambda: 'N/A')

dd['key1'] = 'abc'
print(dd['key1'])
print(dd['key2'])  # 不存在，返回默认值

abc
N/A


# 1.5 Counter

- 在Python中它是collections包中提供的一个简易计数器类
- 例如，如果我们想统计某个单词出现的频率，一种简单的办法就是将单词作为字典的"键",
而将次数作为字典的值，然后用for循环轮询单词列表，没遇到同一个单词就+1

In [12]:
# 普通方法计数
colors = ['red', 'blue', 'red', 'green', 'blue', 'yellow']
result = {}
for color in colors:
  if result.get(color) == None:  # 如果是字典的新元素
    result[color] = 1
  else:
    result[color] += 1
print(result)

{'red': 2, 'blue': 2, 'green': 1, 'yellow': 1}


In [13]:
# Counter计数
from collections import Counter
result = Counter(colors)
print(result)

Counter({'red': 2, 'blue': 2, 'green': 1, 'yellow': 1})


In [14]:
# Counter最常用的方法时most_common(n)
# 这里的n表示数字，他表示出现频率最高的几个对象，以列表中内嵌元组的形式出现，
# 每个元组对象由两部分构成，前者是对象，后者是对象出现的频率
# 如，我们想要返回出现频率最高的两个单词
print(result.most_common(2))

[('red', 2), ('blue', 2)]
