Публикация подготовлена при поддержке [proglib.io](https://proglib.io/).

![](img/collection.jpg)

Типы данных в Python не ограничаваются стандартными. Vодуль [collections](https://docs.python.org/3/library/collections.html) содержит специализированные типы контейнеров, альтернативных традиционным `dict`, `list` и `tuple`.

Это доступный «из коробки» родной модуль Python – те самые батарейки, что идут в комплекте. Уверенное владение инструментарием collections, [itertools](https://docs.python.org/3/library/itertools.html) и других модулей [стандартной библиотеки](https://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B0%D0%BD%D0%B4%D0%B0%D1%80%D1%82%D0%BD%D0%B0%D1%8F_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B0_Python) – одна из черт, отличаюших [продвинутых питонистов](https://proglib.io/p/python-advfeat/) от [новичков](https://proglib.io/p/python-interview).

В этой публикации мы на множестве примеров рассмотрим наиболее популярные составляющие модуля `collections` для Python 3 (проверено на примере Python 3.6). Для начала импортируем рассматриваемую библиотеку:

In [1]:
import collections

# Счетчик (Counter)

![](img/counter.jpg)

Одна из наиболее распространенных задач, для которой начинающие питонисты придумывают собственные решения – подсчет элементов какой-либо последовательности: списка, строки символов и т. п.

Если вам нужно что-то посчитать, определить количество вхождений или наболее (наименее) часто встречающихся элементов, используйте объекты класса `Counter`. Создаются они с помощью конструктора `collections.Counter()`.

Функция принимает итерируемый аргумент и возвращает словарь. В этом словаре ключами служат повторяющиеся элементы, а значениями – количества повторений элемента в последовательности. Посчитаем, сколько раз встречается каждая буква в слове «абракадабра»:

In [2]:
list_of_letters = list('абракадабра')
letter_cnt = collections.Counter(list_of_letters)
letter_cnt

Counter({'а': 5, 'б': 2, 'р': 2, 'к': 1, 'д': 1})

Доступ к числу элементов (ключу) осуществляется аналогично обычному словарю:

In [3]:
letter_cnt['а']

5

Если элемент отсутствовал в последовательности, счетчик при обращении по ключу не вызовет исключение, а вернет нулевое значение:

In [4]:
letter_cnt['ю']

0

Присвоение нулевого значения какому-либо ключу счетчика не удаляет это значение, а создает соответствующую пару:

In [5]:
letter_cnt['в'] = 0
letter_cnt

Counter({'а': 5, 'б': 2, 'р': 2, 'к': 1, 'д': 1, 'в': 0})

Чтобы удалить конкретную пару `key-value`, используем `del`:

In [6]:
del letter_cnt['в']
letter_cnt

Counter({'а': 5, 'б': 2, 'р': 2, 'к': 1, 'д': 1})

В качестве аргумента конструктор принимает не только последовательность, но и словарь, содержащий результаты подсчета:

In [7]:
emotion_cnt = collections.Counter({'like':2, 'dislike':3})
emotion_cnt

Counter({'like': 2, 'dislike': 3})

Метод `elements()` преобразует результаты подсчета в итератор:

In [8]:
list(emotion_cnt.elements())

['like', 'like', 'dislike', 'dislike', 'dislike']

Метод `most_common(n)` ищет `n` наиболее часто встречающихся элементов. Найдем для примера три самых частых символа:

In [9]:
# без передачи аргумента выводятся все элементы
# в порядке от наиболее частых к наиболее редким

letter_cnt.most_common(3)

[('а', 5), ('б', 2), ('р', 2)]

Метод возвращает список кортежей вида `(ключ, число повторений)`.

Часто интерес представляют уникальные значения, наиболее редкие элементы. Их можно найти срезом с шагом `-1`:

In [10]:
letter_cnt.most_common()[:-3:-1]

[('д', 1), ('к', 1)]

Счетчики можно складывать и вычитать:

In [11]:
letter_cnt + emotion_cnt

Counter({'а': 5, 'б': 2, 'р': 2, 'к': 1, 'д': 1, 'like': 2, 'dislike': 3})

In [12]:
emotion_cnt - collections.Counter(like=1, dislike=3)

Counter({'like': 1})

Операнд `&` даст минимальные значения для одних и тех же подчитываемых элементов, операнд `|` – максимальные:

In [13]:
c = collections.Counter(a=4, b=2, c=0, d=-2)
d = collections.Counter(a=1, b=2, c=3, d=4)
print(c & d)
print(c | d)

Counter({'b': 2, 'a': 1})
Counter({'a': 4, 'd': 4, 'c': 3, 'b': 2})


Как видно из примера, счетчику можно передавать отрицательные результаты подсчета. Но в случае приведенных операций хранятся только положительные подсчеты.

Нулевые или отрицательные значения обычно приходится хранить при вычитании, что реализовано в методе `subtract()`:

In [14]:
c.subtract(d)
c

Counter({'a': 3, 'b': 0, 'c': -3, 'd': -6})

Обратите внимание, что метод `subtract()` обновляет сам счетчик, а не создает новый.

Несколько распространненных паттернов применения счетчиков:

In [15]:
sum(letter_cnt.values())  # число всех посчитанных элементов

11

In [16]:
list(letter_cnt)  # список уникальных элементов исходной последовательности

['а', 'б', 'р', 'к', 'д']

In [17]:
set(letter_cnt)   # раз есть список, есть и множество 

{'а', 'б', 'д', 'к', 'р'}

In [18]:
dict(letter_cnt)  # счетчик это подкласс словаря, можно преобразовать в обычный dict

{'а': 5, 'б': 2, 'р': 2, 'к': 1, 'д': 1}

Унарные операции позволяют оставить только положительные или отрицательные подcчеты:

In [19]:
+c  # способ вывести положительные подсчеты

Counter({'a': 3})

In [20]:
-c # способ вывести отрицательные подсчеты

Counter({'c': 3, 'd': 6})

In [21]:
c.clear()  # Очищаем счетчик
c

Counter()

Cчетчик в сочетание с модулем [регулярных выражений](https://proglib.io/p/regex-for-beginners/) используется для [частотного анализа текста](http://nlpx.net/archives/29). Давайте узнаем, какие десять слов чаще всего встречаются в тексте «Евгения Онегина»:

In [18]:
import re
words = re.findall(r'\w+', open('onegin.txt').read().lower())
collections.Counter(words).most_common(10)

[('и', 1011),
 ('в', 606),
 ('не', 387),
 ('он', 294),
 ('на', 260),
 ('с', 240),
 ('я', 238),
 ('как', 192),
 ('но', 190),
 ('что', 167)]

# Словарь со значением по умолчанию (defaultdict)


![](img/dict.jpg)


Что будет, если обратиться к словарю по ключу, которого в нем еще нет? Правильно, исключение `KeyError`:

In [22]:
d = dict()
d['name'] = 'James' 
d['surname'] = 'Bond'
d['patronymic']

KeyError: 'patronymic'

Если нет необходимости отлавливать исключение, можно просто использовать альтернативный вариант словаря – `collections.defaultdict`.

Соответствующему конструктору в качестве аргумента передается тип элемента по умолчанию:

In [24]:
d = collections.defaultdict(str)
d['name'] = 'James' 
d['surname'] = 'Bond'
d['patronymic']

''

In [25]:
d

defaultdict(str, {'name': 'James', 'surname': 'Bond', 'patronymic': ''})

Таким образом, для всех ключей, к которым происходит обращение, конструктор будет ставить в соответствие дефолтный элемент данного типа. В случае `str` – пустая строка, для целых чисел – `0` и т.д.

Обычные словари имеют метод `setdefault()`, который позволяет добиться того же результата, но его использование делает программный код менее наглядным и замедляет его исполнение.


Помимо `str` и `int`, `defaultdict` часто используют в связке с пустым списком, чтобы начинать добавление элементов без лишнего кода:

In [25]:
dict_of_lists = collections.defaultdict(list)

for i in range(5):
    dict_of_lists[i].append(i)
    
dict_of_lists

defaultdict(list, {0: [0], 1: [1], 2: [2], 3: [3], 4: [4]})

Можно видеть, что при таком подходе нет необходимости ни проверять наличие соответствующих ключей, ни создавать предварительно пустые списки.

# Словарь с памятью порядка добавления элементов (OrderedDict)

Ощутимость пользы `OrderedDict` так повлияла на обычный `dict`, что в новых версиях Python различий между ними становится всё меньше. В былые времена `OrderedDict` кардинально отличался от обычного словаря тем, что умел запоминать порядок вставки. Но с версии Python 3.6 на [это способен и обычный словарь](https://docs.python.org/3.6/whatsnew/3.6.html#new-dict-implementation). Однако некоторые различия между ними всё же остаются:
- Обычный `dict` был разработан, чтобы быть хорошим в операциях, связанных с [мапированием](https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D0%BF%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5). Отслеживание порядка вставки для него – дело вторичное. И наоборот, `OrderedDict` хорош в операциях переупорядочения, а эффективность, скорость итераций и производительность не главное
- Алгоритмически `OrderedDict` может обрабатывать частые операции переупорядочения лучше, чем `dict`
- Операция равенства для `OrderedDict` проверяет соответствие порядка, фактически сравнение происходит по схеме `list(od1.items())==list(od2.items())`

Так как `OrderedDict` это упорядоченная последовательность, объекты содержат соответствующие методы, позволяющие реорганизовать структуру:
- `popitem(last=True)` – удаляет последний элемент если `last=True`, и первый, если `last=False`
- `move_to_end(key, last=True)` – переносит ключ `key` в конец, если `last=True`, и в начало, если `last=False`

In [21]:
d = collections.OrderedDict.fromkeys('abcde')
d.move_to_end('b')
''.join(d.keys())

'acdeb'

In [22]:
d.move_to_end('b', last=False)
''.join(d.keys())

'bacde'

# Контейнер словарей (ChainMap)

![](img/DictChain.jpg)

После разговора о словарях самое время обсудить класс, умеющий объединять словари в надструктуру – `ChainMap`. При этом получается не один общий словарь, а их совокупность, в которой каждый словарь остается независимой составляющей:

In [26]:
letters = {'a':1, 'b':2}
vowels = {'a':1, 'b':0, 'c':0, 'd': 0, 'e':1}
chain = collections.ChainMap(letters, vowels)
chain

ChainMap({'a': 1, 'b': 2}, {'a': 1, 'b': 0, 'c': 0, 'd': 0, 'e': 1})

При обращении к `ChainMap` по ключу одного из словарей, происходит поиск значения среди всех словарей, при этом нет необходимости указывать конкретный словарь:

In [27]:
chain['e']

1

При поиске `ChainMap` выводит первое найденное значение (проходя словари по очереди добавления). В том числе, если в разных словарях несколько одинаковых ключей:

In [28]:
chain['b']

2

Изменение содержания словаря изменяет и `ChainMap`. Нет необходимости перезаписывать надструктуру:

In [29]:
letters['c'] = 3
chain

ChainMap({'a': 1, 'b': 2, 'c': 3}, {'a': 1, 'b': 0, 'c': 0, 'd': 0, 'e': 1})

Так как `ChainMap` это комбинация словарей, логично, что у нее есть возможность вызова методов `keys()` и `values()`:

In [30]:
list(chain.keys())

['c', 'd', 'a', 'e', 'b']

In [31]:
list(chain.values())

[3, 0, 1, 1, 2]

Значения `values` соответствуют списку `keys`, как это было описано выше. То есть в случае несколько совпадающих ключей, выводится значение для первого из словарей, где встречается этот ключ.

При необходимости расширить составленный ранее `ChainMap` можно методом `new_child()`:

In [32]:
consons = {'a':0, 'b':1, 'c':1}
chain.new_child(consons)

ChainMap({'a': 0, 'b': 1, 'c': 1}, {'a': 1, 'b': 2, 'c': 3}, {'a': 1, 'b': 0, 'c': 0, 'd': 0, 'e': 1})

Обратите внимание, что метод не обновляет старую структуру, а создает новую.

# Двусторонняя очередь (deque)

![](img/Hermitage.jpg)

Объект типа `deque` (читается как «дэк», [двусторонняя или двусвязная очередь](https://ru.wikipedia.org/wiki/%D0%94%D0%B2%D1%83%D1%85%D1%81%D1%82%D0%BE%D1%80%D0%BE%D0%BD%D0%BD%D1%8F%D1%8F_%D0%BE%D1%87%D0%B5%D1%80%D0%B5%D0%B4%D1%8C)) является усовершенствованным вариантом списка с оптимизированной вставкой/удалением элементов с обоих концов. Реализация `deque` оптимизирована так, что операции слева и справа имеют примерно одинаковую производительность `O(1)`. Добавление новых элементов в конец происходит не сильно медленнее, чем во встроенных списках, но добавление в начало выполняется существенно быстрее.

In [33]:
seq = list("bcd")
deq = collections.deque(seq)
deq

deque(['b', 'c', 'd'])

In [34]:
deq.append('e')      # добавление в конец
deq.appendleft('a')  # добавление в начало (левый конец)
deq

deque(['a', 'b', 'c', 'd', 'e'])

Чтобы добавлять не одиночный элемент, а группу итерируемого объекта `iterable` используйте соответственно `extend(iterable)` и `extendleft(iterable`).

Аналогично методу `append()` метод `pop()` для `deque` работает с обоих концов:

In [35]:
deq.pop()
deq.popleft()
deq

deque(['b', 'c', 'd'])

Если нужно посчитать число вхождений элемента в последовательность, применяем метод `count()`:

In [36]:
deq.count('b'), deq.count('a')

(1, 0)

Кроме перечисленных доступны следующие методы:
- `remove(value)` – удаление первого вхождения `value`
- `reverse()` – разворачивает очередь)
- `rotate(n=1)` – последовательно переносит `n` элементов из начала в конец (если `n` отрицательно, то с конца в начало). В этом поведение `deque` напоминает [кольцевой связный список](https://ru.wikipedia.org/wiki/%D0%A1%D0%B2%D1%8F%D0%B7%D0%BD%D1%8B%D0%B9_%D1%81%D0%BF%D0%B8%D1%81%D0%BE%D0%BA#%D0%9A%D0%BE%D0%BB%D1%8C%D1%86%D0%B5%D0%B2%D0%BE%D0%B9_%D1%81%D0%B2%D1%8F%D0%B7%D0%BD%D1%8B%D0%B9_%D1%81%D0%BF%D0%B8%D1%81%D0%BE%D0%BA)

Очередь `deque` имеет аргумент `maxlen`, позволяющий ограничить ее размер. При заполнении ограниченной очереди добавление `n` новых объектов «слева» вызовет удаление `n` элементов справа.

Ограниченные очереди обеспечивают функциональность, похожую на `tail`-фильтр в Unix:

In [19]:
def tail(filename, n=10):
    """Возвращает n последних строк файла'"""
    with open(filename) as f:
        return collections.deque(f, n)

Другой шаблон применения `deque` – хранение последних добавленных элементов с выбрасыванием более старых. Пример компактной и быстрой реализации функции [скользящего среднего](https://ru.wikipedia.org/wiki/%D0%A1%D0%BA%D0%BE%D0%BB%D1%8C%D0%B7%D1%8F%D1%89%D0%B0%D1%8F_%D1%81%D1%80%D0%B5%D0%B4%D0%BD%D1%8F%D1%8F):

In [None]:
import itertools

def moving_average(iterable, n=3):
    # moving_average([40, 30, 50, 46, 39, 44]) --> 40.0 42.0 45.0 43.0
    it = iter(iterable)
    d = collections.deque(itertools.islice(it, n-1))
    d.appendleft(0)
    s = sum(d)
    for elem in it:
        s += elem - d.popleft()
        d.append(elem)
        yield s / n

Алгоритм распределения нагрузки [Round-robin](https://ru.wikipedia.org/wiki/Round-robin_(%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC)) можно реализовать с помощью итераторов ввода, хранящихся в `deque`. Значения выводятся из активного итератора в нулевой позиции. Если этот итератор исчерпан, его можно удалить методом `popleft ()`; в противном случае его можно циклически «провернуть» до конца методом `rotate()`:

In [20]:
def roundrobin(*iterables):
    "roundrobin('ABC', 'D', 'EF') --> A D E B F C"
    iterators = collections.deque(map(iter, iterables))
    while iterators:
        try:
            while True:
                yield next(iterators[0])
                iterators.rotate(-1)
        except StopIteration:
            # Удалить "закончившийся" итератор
            iterators.popleft()

# Именованный кортеж и функция namedtuple()

`namedtuple()` – функция-фабрика для создания именованных кортежей. Этот тип данных похож на `struct` в других языках программирования:

In [28]:
cols = ['fname', 'pname', 'lname', 'age']
User = collections.namedtuple('User', cols)
user1 = User('Петр', 'Иванович', 'Сидоров', 30)
print(user1)
print(user1.lname)

User(fname='Петр', pname='Иванович', lname='Сидоров', age=30)
Сидоров


In [27]:
Point = collections.namedtuple('Point', ['x', 'y'])
p = Point(3, 4)
p.x**2 + p.y**2

25

Именованные кортежи позволяют писать более ясный код – вместо индексирования составляющие объекта вызываются по явным именам. Остается доступной и численная индексация:

In [39]:
p[0]**2 + p[1]**2

25

Именованные кортежи часто применяются для назначения имен полей  кортежам, возвращаемым модулями `csv` или `sqlite3`:

In [None]:
EmployeeRecord = collections.namedtuple('EmployeeRecord', 'name, age, title, department, paygrade')

import csv
for emp in map(EmployeeRecord._make, csv.reader(open("employees.csv", "rb"))):
    print(emp.name, emp.title)

import sqlite3
conn = sqlite3.connect('/companydata')
cursor = conn.cursor()
cursor.execute('SELECT name, age, title, department, paygrade FROM employees')
for emp in map(EmployeeRecord._make, cursor.fetchall()):
    print(emp.name, emp.title)

Структура `namedtuple` похожа на словарь. Посредством метода `_asdict` можно представить те же данные в виде `OrderedDict`:

In [40]:
p._asdict()

OrderedDict([('x', 3), ('y', 4)])

Чтобы вызвать значение через строковый ключ, необязательно преобразовывать `namedtuple` – подходит стандартная функция `getattr()`:

In [41]:
getattr(p, 'x')

3

Чтобы преобразовать словарь в именованный кортеж заданного типа, достаточно распаковать его оператором `**`:

In [42]:
d = {'x': 0, 'y': 1}
Point(**d)

Point(x=0, y=1)

Имена полей `namedtuple` перечислены в `_fields`:

In [43]:
user1._fields, p._fields

(('fname', 'pname', 'lname', 'age'), ('x', 'y'))

С версии 3.7 можно присвоить полям [значения по умолчанию](https://docs.python.org/3/library/collections.html#collections.somenamedtuple._field_defaults).

Поскольку именованный кортеж является обычным классом Python, в него легко привнести новую функциональность или изменить старую. Например, добавим к `Point` расчет гипотенузы и формат вывода данных:

In [44]:
class Point(collections.namedtuple('Point', ['x', 'y'])):
    __slots__ = ()  # предотвращает создание словарей экземпляров
    @property
    def hypot(self):
        return (self.x**2 + self.y**2) ** 0.5
    def __str__(self):
        return 'Point: x=%6.3f  y=%6.3f  hypot=%6.3f' % (self.x, self.y, self.hypot)

for p in Point(3, 4), Point(14, 5/7):
    print(p)

Point: x= 3.000  y= 4.000  hypot= 5.000
Point: x=14.000  y= 0.714  hypot=14.018


Если вам по душе компактность `namedtuple` в сравнении с обычными классами и ваш проект позволяет работать с версиями Python не меньше 3.7, присмотритесь к модулю [dataclasses](https://docs.python.org/3/library/dataclasses.html). Эта встроенная библиотека предоставляет декоратор и функции для автоматического добавления в пользовательские классы сгенерированных специальных методов, таких как `__init__()` и `__repr__()`.

# Резюме

Подведем итог нашему рассказу об основных составляющих модуля collections:

- [Counter](https://docs.python.org/3/library/collections.html#counter-objects) – счетчик, инструмент подсчета неизменяемых объектов. Используйте, если  нужно определить количество вхождений или число наболее (наименее) часто встречающихся элементов.
- [defaultdict](https://docs.python.org/3/library/collections.html#defaultdict-objects) – словарь, умеющий при вызове отсутствующего ключа вместо вызова исключения `KeyError` записывать значение по умолчанию (работает быстрее, чем метод `setdefault()`).
- [OrderedDict](https://docs.python.org/3/library/collections.html#ordereddict-objects) – словарь с памятью порядка добавления элементов, умеющий переупорядочивать элементы лучше, чем `dict`.
- [ChainMap](https://docs.python.org/3/library/collections.html#collections.ChainMap) – контейнер комбинаций словарей с поиском, обобщением ключей и элементов.
- [namedtuple()](https://docs.python.org/3/library/collections.html#namedtuple-factory-function-for-tuples-with-named-fields) – функция-фабрика для создания именнованного кортежа. Это один из простейших способов сделать код более ясным: использовать вместо индексов имена.
- [deque](https://docs.python.org/3/library/collections.html#deque-objects) – двусторонняя очередь – список, оптимизированный для вставки и удаления элементов с обоих концов с методом подсчета вхождений
- [UserDict](https://docs.python.org/3/library/collections.html#userdict-objects), [UserList](https://docs.python.org/3/library/collections.html#userlist-objects), [UserString](https://docs.python.org/3/library/collections.html#userstring-objects) – не заслуживший развернутого описания набор оберток над стандартными объектами словарей, списков и строк для беспроблемного наследования (прямое наследование встроенным типам `dict`, `list`, `str` чревато ошибками, связанными с игнорированием переопределения методов).

Также имеется наследованный модуль коллекции абстрактных базовых классов `сollections.abc`. Но это тема отдельного разговора. 

# Какие шаблоны применения контейнеров collections вы используете в своих проектах?