## collections

Модуль collections содержит специализированные классы контейнеров, альтернативных традиционным dict, list и tuple

In [1]:
import collections

### Счётчик (Counter)

Если нужно что-то посчитать, определить количество вхождений или наиболее (наименее) часто встречающихся элементов, используйте объекты класса Counter  
Функция принимает итерируемый аргумент и возвращает словарь, в котором ключами служат индивидуальные элементы,   
а значениями – количества повторений элемента в переданной последовательности.

In [2]:
list_of_letters = list('абракадабра')
letter_cnt = collections.Counter(list_of_letters)
letter_cnt

Counter({'а': 5, 'б': 2, 'р': 2, 'к': 1, 'д': 1})

Результат это подклас dict и можно работать как со словарем

In [3]:
letter_cnt['а']

5

Если элемент отсутствовал в последовательности, при обращении по ключу счётчик не вызовет исключение, а вернет нулевое значение:

In [4]:
letter_cnt['ю']

0

Чтобы удалить пару key-value, используем del:

In [6]:
del letter_cnt['д']
letter_cnt

Counter({'а': 5, 'б': 2, 'р': 2, 'к': 1})

Метод elements() преобразует результаты подсчета в итератор:

In [7]:
list(letter_cnt.elements())

['а', 'а', 'а', 'а', 'а', 'б', 'б', 'р', 'р', 'к']

Метод most_common(n) ищет n самых повторяющихся элементов. Найдём для примера три наиболее частых символа:

In [8]:
letter_cnt.most_common(3)

[('а', 5), ('б', 2), ('р', 2)]

Нередко интерес представляют не самые частотные, а уникальные значения, самые редкие элементы. Их можно найти срезом с шагом -1:

In [10]:
letter_cnt.most_common()

[('а', 5), ('б', 2), ('р', 2), ('к', 1)]

In [17]:
letter_cnt.most_common()[-2:]

[('р', 2), ('к', 1)]

Счетчик в сочетании с регулярными выражениями используется для частотного анализа текста.

In [18]:
import re
text = 'Тут много разного текста, много предлогов в откуда куда сколько в и на на, много запятых и прочего'
words = re.findall(r'\w+', text.lower())
collections.Counter(words).most_common(10)

[('много', 3),
 ('в', 2),
 ('и', 2),
 ('на', 2),
 ('тут', 1),
 ('разного', 1),
 ('текста', 1),
 ('предлогов', 1),
 ('откуда', 1),
 ('куда', 1)]

### Словарь со значением по умолчанию (defaultdict)

Если обратиться к элементу словаря, которого нет, то будет ошибка.  
Если нет нужды отлавливать исключение, достаточно использовать альтернативный вариант словаря – collections.defaultdict.  
Соответствующему конструктору в качестве аргумента передается тип элемента по умолчанию:

In [19]:
d = collections.defaultdict(str)
d['name'] = 'James' 
d['surname'] = 'Bond'
d['patronymic']

''

Таким образом, для ключей, к которым происходит обращение, конструктор поставит в соответствие дефолтный элемент данного типа.   
В случае str – пустая строка, для целых чисел – 0 и т. д.  
Обычные словари имеют метод setdefault(), который позволяет добиться того же результата,  
но его использование делает программный код менее наглядным и замедляет исполнение.  
Помимо str и int, defaultdict часто используют в связке с пустым списком, чтобы начинать добавление элементов без лишнего кода:

In [23]:
d = collections.defaultdict(int)
d['patronymic']

0

In [26]:
dict_of_lists = collections.defaultdict(list)
for i in range(5):
    dict_of_lists[i].append(i)
    dict_of_lists[i].append(i+1)
dict_of_lists    

defaultdict(list, {0: [0, 1], 1: [1, 2], 2: [2, 3], 3: [3, 4], 4: [4, 5]})

### Контейнер словарей (ChainMap)

Это класс, умеющий объединять словари в надструктуру – ChainMap. При этом получается не один общий словарь,   
а их совокупность, в которой каждый словарь остаётся независимой составляющей:

In [27]:
letters = {'a':1, 'b':2}
vowels = {'a':1, 'b':0, 'c':0, 'd': 0, 'e':1}
chain = collections.ChainMap(letters, vowels)
chain

ChainMap({'a': 1, 'b': 2}, {'a': 1, 'b': 0, 'c': 0, 'd': 0, 'e': 1})

При обращении к ChainMap по ключу одного из словарей, происходит поиск значения среди всех словарей, при этом нет необходимости указывать конкретный словарь:

При поиске ChainMap выводит первое найденное значение (проходя словари по очереди добавления). В том числе если в словарях несколько одинаковых ключей:

In [28]:
chain['a']

1

In [29]:
chain['d']

0

Изменение содержания словаря изменяет и ChainMap. Нет необходимости перезаписывать надструктуру.  

In [30]:
letters['a'] = 77
chain

ChainMap({'a': 77, 'b': 2}, {'a': 1, 'b': 0, 'c': 0, 'd': 0, 'e': 1})

При необходимости расширить составленный ранее ChainMap можно методом new_child():

In [31]:
consons = {'a':0, 'b':1, 'c':1}
chain.new_child(consons)

ChainMap({'a': 0, 'b': 1, 'c': 1}, {'a': 77, 'b': 2}, {'a': 1, 'b': 0, 'c': 0, 'd': 0, 'e': 1})

### Двусторонняя очередь (deque)

Добавление новых элементов в конец происходит не сильно медленнее, чем во встроенных списках, но добавление в начало выполняется существенно быстрее.

In [32]:
seq = list("bcd")
deq = collections.deque(seq)
deq

deque(['b', 'c', 'd'])

In [33]:

deq.append('e')      # добавление в конец
deq.appendleft('a')  # добавление в начало (левый конец)
deq

deque(['a', 'b', 'c', 'd', 'e'])

Чтобы добавлять не одиночный элемент, а группу итерируемого объекта iterable используйте соответственно extend(iterable) и extendleft(iterable).  
Аналогично методу append() метод pop() для deque работает с обоих концов:

In [34]:
deq.pop()
deq.popleft()
deq

deque(['b', 'c', 'd'])

Если нужно посчитать число вхождений элемента в последовательность, применяем метод count():

In [35]:
deq.count('b')

1

Кроме перечисленных, доступны следующие методы:
- remove(value) – удаление первого вхождения value
- reverse() – разворачивает очередь)
- rotate(n=1) – последовательно переносит n элементов из начала в конец (если n отрицательно, то с конца в начало). В этом поведение deque напоминает кольцевой связный список

### Именованный кортеж и функция namedtuple()

namedtuple() – функция-фабрика для создания именованных кортежей. Этот тип данных похож на struct в других языках программирования:

Можно представить как словарь, у которого ключи под капотом, то есть мы одни раз задаем клчюи при создании класса   
и потом просто создаем экземпляры этого класса и у нас ключи уже будут автоматически 

In [37]:
cols = ['fname', 'pname', 'lname', 'age']
User = collections.namedtuple('User', cols)
user1 = User('Петр', 'Иванович', 'Сидоров', 30)
user1

User(fname='Петр', pname='Иванович', lname='Сидоров', age=30)

In [38]:
user1.lname

'Сидоров'

In [39]:
Point = collections.namedtuple('Point', ['x', 'y'])
p = Point(3, 4)
p.x**2 + p.y**2

25

Структура namedtuple похожа на словарь. Посредством метода _asdict можно представить те же данные в виде OrderedDict:

In [40]:
p._asdict()

OrderedDict([('x', 3), ('y', 4)])

Именованные кортежи часто используются для назначения имён полей кортежам, возвращаемым модулями csv или sqlite3:

In [None]:
import csv

EmployeeRecord = collections.namedtuple('EmployeeRecord', 'name, age, title, department, paygrade')

for emp in map(EmployeeRecord._make, csv.reader(open("employees.csv", "rb"))):
    print(emp.name, emp.title)

import sqlite3
conn = sqlite3.connect('/companydata')
cursor = conn.cursor()
cursor.execute('SELECT name, age, title, department, paygrade FROM employees')
for emp in map(EmployeeRecord._make, cursor.fetchall()):
    print(emp.name, emp.title)