# Модуль Collections

Модуль collections - это встроенный модуль, который реализует специальные типы данных контейнеров. Они являются альтернативой для встроенных контейнеров Python общего назначения. Мы уже изучили основы: словари dict, списки list, множества set и кортежи tuple.

Теперь давайте посмотрим, какие альтернативы предоставляет модуль collections.

## Counter

*Counter* - это подкласс *dict*, который помогает считать хэшируемые объекты. Внутри него элементы хранятся как ключи словаря, а количество элементов хранится как значение.

Посмотрим, как можно использовать этот подкласс:

In [2]:
from collections import Counter

**Counter() со списком**

In [2]:
lst = [1,2,2,2,2,3,3,3,1,2,1,12,3,2,32,1,21,1,223,1]

Counter(lst)

Counter({1: 6, 2: 6, 3: 4, 12: 1, 21: 1, 32: 1, 223: 1})

**Counter со строкой**

In [3]:
Counter('aabsbsbsbhshhbbsbs')

Counter({'a': 2, 'b': 7, 'h': 3, 's': 6})

**Counter со словами в предложении**

In [4]:
s = 'сколько раз каждое слово встречается в этом предложении сколько сколько раз'

words = s.split()

Counter(words)

Counter({'в': 1,
         'встречается': 1,
         'каждое': 1,
         'предложении': 1,
         'раз': 2,
         'сколько': 3,
         'слово': 1,
         'этом': 1})

In [5]:
# Методы Counter() - наиболее часто встречающиеся элементы
c = Counter(words)

c.most_common(2)

[('сколько', 3), ('раз', 2)]

## Основные сценарии использования объекта Counter() 

In [None]:
    sum(c.values())                 # вычислить все счётчики
    c.clear()                       # сбросить все счётчики
    list(c)                         # найти уникальные значения
    set(c)                          # сконвертировать в множество set
    dict(c)                         # сконвертировать в обычный словарь
    c.items()                       # сконвертировать в список пар (elem, cnt)
    Counter(dict(list_of_pairs))    # сконвертировать из списка пар (elem, cnt) 
    c.most_common()[:-n-1:-1]       # n наименее часто встречающихся элементов
    c += Counter()                  # убираем ноль и отрицательные счётчики

## defaultdict

defaultdict это объект, который выглядит как словарь. Он предоставляет все те же методы, что и словарь, но при этом в качестве первого параметра (default_factory) принимает тип данных по умолчанию для словаря. defaultdict работает быстрее, чем если мы будем делать то же самое, используя метод dict.set_default .

**defaultdict никогда не вызывает ошибку KeyError. Любой ключ, который не существует, получает значение, которое возвращает default factory.**

In [6]:
from collections import defaultdict

In [7]:
d = {}

In [8]:
d['one'] 

KeyError: 'one'

In [9]:
d  = defaultdict(object)

In [10]:
d['one'] 

<object at 0x1792df202e0>

In [11]:
for item in d:
    print(item)

one


Можно также создавать объект с указанием значения по умолчанию:

In [12]:
d = defaultdict(lambda: 0)

In [13]:
d['one']

0

## OrderedDict
OrderedDict это подкласс словаря, который запоминает порядок, в котором добавляются элементы.

Например, рассмотрим обычный словарь:

In [9]:
print('Обычный словарь:')

d = {}

d['a'] = 'A'
d['b'] = 'B'
d['c'] = 'C'
d['d'] = 'D'
d['e'] = 'E'


for k, v in d.items():
    print(k, v)

Обычный словарь:
a A
b B
c C
d D
e E


Упорядоченный словарь:

In [10]:
from collections import OrderedDict

print('OrderedDict:')

d = OrderedDict()

d['a'] = 'A'
d['b'] = 'B'
d['c'] = 'C'
d['d'] = 'D'
d['e'] = 'E'


for k, v in d.items():
    print(k, v)

OrderedDict:
a A
b B
c C
d D
e E


## Сравнение упорядоченных словарей
Обычный словарь при сравнении с другим словарём проверяет только содержание элементов. Упорядоченный словарь OrderedDict также учитывает порядок, в котором элементы были добавлены.

Обычный словарь:

In [11]:
print('Являются ли словари одинаковыми?')

d1 = {}
d1['a'] = 'A'
d1['b'] = 'B'

d2 = {}
d2['b'] = 'B'
d2['a'] = 'A'

print(d1==d2)

Являются ли словари одинаковыми?
True


An Ordered Dictionary:

In [12]:
print('Являются ли словари одинаковыми?')

d1 = OrderedDict()
d1['a'] = 'A'
d1['b'] = 'B'


d2 = OrderedDict()

d2['b'] = 'B'
d2['a'] = 'A'

print(d1==d2)

Являются ли словари одинаковыми?
False


# namedtuple - именованный кортеж
Стандартный кортеж использует числовые индексы для доступа к его элементам, например:

In [18]:
t = (12,13,14)

In [19]:
t[0]

12

В простых случаях этого обычно достаточно. С другой стороны, всё время помнить, какой номер отвечает за какое значение - неудобно, и может приводить к ошибкам, особенно если кортеж содержит много полей и был создан далеко от того места, где он будет использоваться. В таких случаях полезен namedtuple - он назначает элементами не только номера, но и названия. 

Каждый вид именованного кортежа представлен своим собственным классом, который создается с помощью функции namedtuple(). Параметры - это название нового класса, и строка с названиями элементов.

По сути можно представить себе именованные кортежи как быстрый способ создания нового типа объекта/класса с некоторыми атрибутами.
Например:

In [20]:
from collections import namedtuple

In [21]:
Dog = namedtuple('Dog','age breed name')

sam = Dog(age=2,breed='Lab',name='Sammy')

frank = Dog(age=2,breed='Shepard',name="Frankie")

Мы создаем именованный кортеж, сначала передавая название типа объекта (Dog), и затем передаём набор полей в виде строки, в которой названия полей разделены пробелами. Далее мы можем использовать различные атрибуты:

In [22]:
sam

Dog(age=2, breed='Lab', name='Sammy')

In [23]:
sam.age

2

In [24]:
sam.breed

'Lab'

In [25]:
sam[0]

2

## Резюме

Надеюсь теперь Вы видите, насколько полезным может быть модуль collections в Python. Этот модуль может стать Вашим любимым модулем для выполнения различных общих задач!