## [四种高性能数据类型，Python collections助你优化代码、简洁任务](https://mp.weixin.qq.com/s/17xwTlwJi1ckht3wGk5ttA)

[官方文档 - collections](https://docs.python.org/3.7/library/collections.html#)
                 

### Counter

Counter 是 dictionary 对象的子类。

collections 模块中的 Counter() 函数会接收一个诸如 list 或 tuple 的迭代器，然后返回一个 Counter dictionary。

这个 dictionary 的键是该迭代器中的唯一元素，值是迭代器元素的计数。

In [1]:
from collections import Counter

In [2]:
lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]

counter = Counter(lst)

In [4]:
# 如果我们使用简单的 print 函数（print(counter)）把这个 Counter 打印出来，
# 则会得到一些与 dictionary 稍微类似的输出：

counter

Counter({1: 7, 2: 5, 3: 3})

In [6]:
# 你可以用这些键值访问任何 Counter 项。
# 这与从标准的 Python dictionary 中获取元素的方法完全相同。

lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]
counter = Counter(lst)
print(counter[2])

5


**most_common() 函数**

目前来说，Counter 对象中最有用的函数是 most_common()。

当它应用于一个 Counter 对象时，会返回一个 list，这个 list 包含了前 N 个常见的元素及其计数，它们按照常见度降序排列。

In [9]:
lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]
counter = Counter(lst)

counter.most_common()

[(1, 7), (2, 5), (3, 3)]

### defaultdict

defaultdict 的工作方式和平常的 python dictionary 完全相同，只是当你试图访问一个不存在的键时，它不会报错，而是会使用默认值初始化这个键。

默认值是根据在创建 defaultdict 对象时作为参数输入的数据类型自动设置的。

In [1]:
from collections import defaultdict

In [3]:
names_dict = defaultdict(int)
names_dict['Bob'] = 1
names_dict["Katie"] = 2
# 当访问一个尚未定义的键，即[Sara] 时
# 自动为 [Sara] 初始化一个新键
sara_number = names_dict["Sara"]
print(names_dict)

defaultdict(<class 'int'>, {'Bob': 1, 'Katie': 2, 'Sara': 0})


用 list 来初始化 defaultdict, 也就是 names_dict = defaultdict(list)，那么「Sara」的值将被初始化成一个空列表 []

In [7]:
names_dict = defaultdict(list)
names_dict['Bob'] = 1
names_dict["Katie"] = 2
# 当访问一个尚未定义的键，即[Sara] 时
# 自动为 [Sara] 初始化一个新键
sara_number = names_dict["Sara"]
print(names_dict)

defaultdict(<class 'list'>, {'Bob': 1, 'Katie': 2, 'Sara': []})


### deque

双端队列

collections 库中的 deque 对先进先出原则进行了优化。这个方法的一个关键特性是保持队列长度一直不变，也就是说，如果你将 queue 的最大大小设置为 10，那么 deque 将根据 FIFO 原则添加和删除元素，以保持 queue 的最大大小为 10。这是迄今为止 Python 中使用 queue 的最好方法了。

In [5]:
from collections import deque

In [7]:
my_queue = deque(maxlen = 10)

for i in range(10):
    my_queue.append(i + 1)
    
print(my_queue)

deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], maxlen=10)


In [8]:
for i in range(10, 15):
    my_queue.append(i + 1)

print(my_queue)

deque([6, 7, 8, 9, 10, 11, 12, 13, 14, 15], maxlen=10)


### namedtuple

当你使用 python 创建一个常规 tuple 时，其元素都是通用的，而且没有被命名。这使得你必须记住每个 tuple 元素的精确索引。namedtuple 就可以解决这个问题。

namedtuple() 可以返回一个 tuple，该 tuple 中的每个位置都有固定名称，而且 namedtuple 对象也有通用名称。要使用 namedtuple，需要先为其创建一个模板。下面的代码创建了一个名为「Person」的 namedtuple 模板，其属性为「name」、「age」和「job」。

In [1]:
from collections import namedtuple

In [2]:
Person = namedtuple("Person", "name age job")

Mike = Person(name="Mike", age=30, job="Data Scientist")
Kate = Person(name="Kate", age=28, job="Project Manager")

print(Mike)
print(Kate)

Person(name='Mike', age=30, job='Data Scientist')
Person(name='Kate', age=28, job='Project Manager')


上述代码很容易理解，我们为 namedtuple 初始化了一个「Person」模板，并初始化了其所有的属性。

因此，namedtuple 让 tuple 的使用更简单、更可读且更有组织性。

In [6]:
# Person = namedtuple('Person', ['age', 'height', 'name'])
# data2 = [Person(10, 1.4, 'xiaoming'), Person(12, 1.5, 'xiaohong')]
# data2[0].age

In [8]:
Pers = namedtuple('Person', ['age', 'height', 'name'])
data2 = [Pers(10, 1.4, 'xiaoming'), Pers(12, 1.5, 'xiaohong')]
data2

[Person(age=10, height=1.4, name='xiaoming'),
 Person(age=12, height=1.5, name='xiaohong')]

In [10]:
data2[0].age

10