# Модуль Collections

Модуль collections - это встроенный модуль, который реализует специальные типы данных контейнеров. Они являются альтернативой для встроенных контейнеров Python общего назначения. Мы уже изучили основы: словари dict, списки list, множества set и кортежи tuple.

Теперь давайте посмотрим, какие альтернативы предоставляет модуль collections.

## Counter

*Counter* - это подкласс *dict*, который помогает считать хэшируемые объекты. Внутри него элементы хранятся как ключи словаря, а количество элементов хранится как значение.

Посмотрим, как можно использовать этот подкласс:

In [1]:
from collections import Counter

**Counter() со списком**

In [2]:
lst = [1,2,2,2,2,3,3,3,1,2,1,12,3,2,32,1,21,1,223,1]

Counter(lst)

Counter({1: 6, 2: 6, 3: 4, 12: 1, 32: 1, 21: 1, 223: 1})

**Counter со строкой**

In [3]:
Counter('aabsbsbsbhshhbbsbs')

Counter({'a': 2, 'b': 7, 's': 6, 'h': 3})

**Counter со словами в предложении**

In [4]:
s = 'сколько раз каждое слово встречается в этом предложении сколько сколько раз'

words = s.split()

Counter(words)

Counter({'сколько': 3,
         'раз': 2,
         'каждое': 1,
         'слово': 1,
         'встречается': 1,
         'в': 1,
         'этом': 1,
         'предложении': 1})

In [5]:
# Методы Counter() - наиболее часто встречающиеся элементы
c = Counter(words)

c.most_common(2)

[('сколько', 3), ('раз', 2)]

Также можно применять операторы:

In [5]:
c = Counter(a=4, b=2, c=0, d=-2)
d = Counter(a=1, b=2, c=3, d=4)
print(c & d)
print(c | d)

Counter({'b': 2, 'a': 1})
Counter({'a': 4, 'd': 4, 'c': 3, 'b': 2})


Популярные шаблоны использования:

In [7]:
list_of_letters = list('абракадабра')
letter_cnt = Counter(list_of_letters)
sum(letter_cnt.values())  # число всех посчитанных элементов

11

In [8]:
list(letter_cnt)  # список уникальных элементов исходной последовательности

['а', 'б', 'р', 'к', 'д']

In [9]:
set(letter_cnt)

{'а', 'б', 'д', 'к', 'р'}

In [10]:
dict(letter_cnt)  # счетчик это подкласс словаря, можно преобразовать в обычный dict

{'а': 5, 'б': 2, 'р': 2, 'к': 1, 'д': 1}

Обращение к ключам происходит аналогично обычному словарю:

In [11]:
letter_cnt['а']

5

Если элемент отсутствовал в последовательности, при обращении по ключу счётчик не вызовет исключение, а вернет нулевое значение:

In [12]:
letter_cnt['ю']

0

Присвоение нуля ключу не удаляет это значение, а создаёт соответствующую пару:

In [13]:
letter_cnt['в'] = 0
letter_cnt

Counter({'а': 5, 'б': 2, 'р': 2, 'к': 1, 'д': 1, 'в': 0})

В качестве аргумента конструктор принимает не только последовательность, но и словарь, содержащий результаты подсчёта:

In [15]:
emotion_cnt = Counter({'like':2, 'dislike':3})
emotion_cnt

Counter({'like': 2, 'dislike': 3})

Метод elements() преобразует результаты подсчета в итератор:

In [16]:
list(emotion_cnt.elements())

['like', 'like', 'dislike', 'dislike', 'dislike']

## defaultdict

defaultdict это объект, который выглядит как словарь. Он предоставляет все те же методы, что и словарь, но defaultdict работает быстрее

**defaultdict никогда не вызывает ошибку KeyError. Любой ключ, который не существует, получает значение, которое возвращает default factory.**

In [7]:
from collections import defaultdict

In [8]:
d = {}

In [9]:
d['one'] 

KeyError: 'one'

In [10]:
d  = defaultdict(object)

In [14]:
d['one'] 

0

In [12]:
for item in d:
    print(item)

one


Можно также создавать объект с указанием значения по умолчанию:

In [15]:
d = defaultdict(lambda: 0)

In [16]:
d['one']

0

## OrderedDict
OrderedDict это подкласс словаря, который запоминает порядок, в котором добавляются элементы.

Например, рассмотрим обычный словарь:

In [17]:
print('Обычный словарь:')

d = {}

d['a'] = 'A'
d['b'] = 'B'
d['c'] = 'C'
d['d'] = 'D'
d['e'] = 'E'


for k, v in d.items():
    print(k, v)

Обычный словарь:
a A
b B
c C
d D
e E


Упорядоченный словарь:

In [18]:
from collections import OrderedDict

print('OrderedDict:')

d = OrderedDict()

d['a'] = 'A'
d['b'] = 'B'
d['c'] = 'C'
d['d'] = 'D'
d['e'] = 'E'


for k, v in d.items():
    print(k, v)

OrderedDict:
a A
b B
c C
d D
e E


## Сравнение упорядоченных словарей
Обычный словарь при сравнении с другим словарём проверяет только содержание элементов. Упорядоченный словарь OrderedDict также учитывает порядок, в котором элементы были добавлены.

Обычный словарь:

In [19]:
print('Являются ли словари одинаковыми?')

d1 = {}
d1['a'] = 'A'
d1['b'] = 'B'

d2 = {}
d2['b'] = 'B'
d2['a'] = 'A'

print(d1==d2)

Являются ли словари одинаковыми?
True


An Ordered Dictionary:

In [20]:
print('Являются ли словари одинаковыми?')

d1 = OrderedDict()
d1['a'] = 'A'
d1['b'] = 'B'


d2 = OrderedDict()

d2['b'] = 'B'
d2['a'] = 'A'

print(d1==d2)

Являются ли словари одинаковыми?
False


# namedtuple - именованный кортеж
Стандартный кортеж использует числовые индексы для доступа к его элементам, например:

In [21]:
t = (12,13,14)

In [22]:
t[0]

12

В простых случаях этого обычно достаточно. С другой стороны, всё время помнить, какой номер отвечает за какое значение - неудобно, и может приводить к ошибкам, особенно если кортеж содержит много полей и был создан далеко от того места, где он будет использоваться. В таких случаях полезен namedtuple - он назначает элементами не только номера, но и названия. 

Каждый вид именованного кортежа представлен своим собственным классом, который создается с помощью функции namedtuple(). Параметры - это название нового класса, и строка с названиями элементов.

По сути можно представить себе именованные кортежи как быстрый способ создания нового типа объекта/класса с некоторыми атрибутами.
Например:

In [23]:
from collections import namedtuple

In [24]:
Dog = namedtuple('Dog','age breed name')

sam = Dog(age=2,breed='Lab',name='Sammy')

frank = Dog(age=2,breed='Shepard',name="Frankie")

Мы создаем именованный кортеж, сначала передавая название типа объекта (Dog), и затем передаём набор полей в виде строки, в которой названия полей разделены пробелами. Далее мы можем использовать различные атрибуты:

In [25]:
sam

Dog(age=2, breed='Lab', name='Sammy')

In [26]:
sam.age

2

In [27]:
sam.breed

'Lab'

In [28]:
sam[0]

2

# Двусторонняя очередь (deque)

Объект типа deque (читается как «дэк», двусторонняя или двусвязная очередь) является усовершенствованным вариантом списка с оптимизированной вставкой/удалением элементов с обоих концов. Реализация deque оптимизирована так, что операции слева и справа имеют примерно одинаковую производительность O(1). Добавление новых элементов в конец происходит не сильно медленнее, чем во встроенных списках, но добавление в начало выполняется существенно быстрее.

In [19]:
from collections import deque

In [29]:
seq = list("bcd")

In [21]:
deq = deque(seq)

In [22]:
deq

deque(['b', 'c', 'd'])

In [23]:
deq.append('e') # добавление в конец

In [24]:
deq.appendleft('a')  # добавление в начало (левый конец)

In [25]:
deq

deque(['a', 'b', 'c', 'd', 'e'])

Чтобы добавлять не одиночный элемент, а группу итерируемого объекта iterable используйте соответственно extend(iterable) и extendleft(iterable).

Аналогично методу append() метод pop() для deque работает с обоих концов:

In [26]:
deq.pop()

'e'

In [27]:
deq.popleft()

'a'

In [28]:
deq

deque(['b', 'c', 'd'])

Кроме перечисленных, доступны следующие методы:

* remove(value) – удаление первого вхождения value
* reverse() – разворачивает очередь)
* rotate(n=1) – последовательно переносит n элементов из начала в конец (если n отрицательно, то с конца в начало)

In [30]:
seq = list("программирование")
deq = deque(seq)
deq

deque(['п',
       'р',
       'о',
       'г',
       'р',
       'а',
       'м',
       'м',
       'и',
       'р',
       'о',
       'в',
       'а',
       'н',
       'и',
       'е'])

In [32]:
deq.rotate(4)

In [33]:
deq

deque(['а',
       'н',
       'и',
       'е',
       'п',
       'р',
       'о',
       'г',
       'р',
       'а',
       'м',
       'м',
       'и',
       'р',
       'о',
       'в'])

Допустим, мы создаëм для предприятия систему онлайн-чатов с клиентами. В рабочее время клиенты заходят на сайт, и нам нужно с помощью списка отслеживать, в каком порядке зарегистрировавшиеся клиенты выстраиваются в последовательность. Тот, кто вошëл на сайт первым, должен раньше остальных попасть к только что освободившемуся сотруднику службы поддержки. Следующий фрагмент кода показывает вариант реализации с использованием списков:

In [35]:
clients = list()

def check_in(client):
    clients.append(client)
    print(f"in: New client {client} joined the queue.")
        
def connect_to_associate(associate):
    if clients:
        client_to_connect = clients.pop(0)
        print(f"out: Remove client {client_to_connect}, connecting to {associate}.")
    else:
        print("No more clients are waiting.")

In [36]:
check_in("John")
check_in("Sam")
connect_to_associate("Emily")
check_in("Danny")
connect_to_associate("Zoe")
connect_to_associate("Jack")
connect_to_associate("Aaron")

in: New client John joined the queue.
in: New client Sam joined the queue.
out: Remove client John, connecting to Emily.
in: New client Danny joined the queue.
out: Remove client Sam, connecting to Zoe.
out: Remove client Danny, connecting to Jack.
No more clients are waiting.


In [37]:
from collections import deque

clients = deque()

def check_in(client):
    clients.append(client)
    print(f"in: New client {client} joined the queue.")

def connect_to_associate(associate):
    if clients:
        client_to_connect = clients.popleft()
        print(f"out: Remove client {client_to_connect}, connecting to {associate}.")
    else:
        print("No more clients are waiting.")

In [38]:
from collections import deque
from timeit import timeit

def time_fifo_testing(n):
    integer_l = list(range(n))
    integer_d = deque(range(n))
    t_l = timeit(lambda: integer_l.pop(0), number=n)
    t_d = timeit(lambda: integer_d.popleft(), number=n)
    return f"{n: <9} list: {t_l:.6e} | deque: {t_d:.6e}"

In [39]:
numbers = (100, 1000, 10000, 100000)
for number in numbers:
    print(time_fifo_testing(number))

100       list: 4.530000e-05 | deque: 1.790000e-05
1000      list: 1.905900e-03 | deque: 3.357000e-04
10000     list: 1.061306e-01 | deque: 7.008000e-04
100000    list: 1.038084e+01 | deque: 7.856100e-03


# Отладчик - Python Debugger

Чтобы найти ошибки в Вашем коде, Вы скорее всего использовали множество команд print. Есть лучший способ - использование встроенного в Python модуля debugger (pdb). Модуль pdb реализует интерактивную среду отладки для программ Python. Он позволяет Вам поставить программу на паузу, посмотреть значения переменных, и увидеть выполнение Вашей программы шаг за шагом, чтобы Вы могли понять, что именно делает Ваша программа, и найти ошибку в логике.

Это немного сложно показать, поскольку нам придется специально сделать ошибку, но надеюсь что этот простой пример покажет возможности модуля pdb. 
___
Здесь мы намеренно сделаем ошибку, пытаясь сложить список и число

In [1]:
x = [1,3,4]
y = 2
z = 3

result = y + z
print(result)
result2 = y+x
print(result2)

5


TypeError: unsupported operand type(s) for +: 'int' and 'list'

Хм, кажется мы получили ошибку! Давайте применим set_trace(), используя модуль pdb. Это позволит нам сделать паузу в указанной точке, и посмотреть что там происходит.

In [2]:
import pdb

x = [1,3,4]
y = 2
z = 3

result = y + z
print(result)

# Set a trace using Python Debugger
pdb.set_trace()

result2 = y+x
print(result2)

5
--Return--
None
> [1;32mc:\users\mbbur\appdata\local\temp\ipykernel_12576\1419980936.py[0m(11)[0;36m<module>[1;34m()[0m

ipdb> y
2
ipdb> x
[1, 3, 4]
ipdb> 
[1, 3, 4]
ipdb> end
*** NameError: name 'end' is not defined
--KeyboardInterrupt--

KeyboardInterrupt: Interrupted by user


TypeError: unsupported operand type(s) for +: 'int' and 'list'