# Модуль Collections

Модуль collections - это встроенный модуль, который реализует специальные типы данных контейнеров. Они являются альтернативой для встроенных контейнеров Python общего назначения. Мы уже изучили основы: словари dict, списки list, множества set и кортежи tuple.

Теперь давайте посмотрим, какие альтернативы предоставляет модуль collections.

## Counter

*Counter* - это подкласс *dict*, который помогает считать хэшируемые объекты. Внутри него элементы хранятся как ключи словаря, а количество элементов хранится как значение.

Посмотрим, как можно использовать этот подкласс:

In [1]:
from collections import Counter

**Counter() со списком**

In [2]:
lst = [1,2,2,2,2,3,3,3,1,2,1,12,3,2,32,1,21,1,223,1]

Counter(lst)

Counter({1: 6, 2: 6, 3: 4, 12: 1, 32: 1, 21: 1, 223: 1})

**Counter со строкой**

In [3]:
Counter('aabsbsbsbhshhbbsbs')

Counter({'a': 2, 'b': 7, 's': 6, 'h': 3})

**Counter со словами в предложении**

In [4]:
s = 'сколько раз каждое слово встречается в этом предложении сколько сколько раз'

words = s.split()

Counter(words)

Counter({'сколько': 3,
         'раз': 2,
         'каждое': 1,
         'слово': 1,
         'встречается': 1,
         'в': 1,
         'этом': 1,
         'предложении': 1})

In [5]:
# Методы Counter() - наиболее часто встречающиеся элементы
c = Counter(words)

c.most_common(2)

[('сколько', 3), ('раз', 2)]

## defaultdict

defaultdict это объект, который выглядит как словарь. Он предоставляет все те же методы, что и словарь, но defaultdict работает быстрее

**defaultdict никогда не вызывает ошибку KeyError. Любой ключ, который не существует, получает значение, которое возвращает default factory.**

In [7]:
from collections import defaultdict

In [8]:
d = {}

In [9]:
d['one'] 

KeyError: 'one'

In [10]:
d  = defaultdict(object)

In [14]:
d['one'] 

0

In [12]:
for item in d:
    print(item)

one


Можно также создавать объект с указанием значения по умолчанию:

In [15]:
d = defaultdict(lambda: 0)

In [16]:
d['one']

0

## OrderedDict
OrderedDict это подкласс словаря, который запоминает порядок, в котором добавляются элементы.

Например, рассмотрим обычный словарь:

In [17]:
print('Обычный словарь:')

d = {}

d['a'] = 'A'
d['b'] = 'B'
d['c'] = 'C'
d['d'] = 'D'
d['e'] = 'E'


for k, v in d.items():
    print(k, v)

Обычный словарь:
a A
b B
c C
d D
e E


Упорядоченный словарь:

In [18]:
from collections import OrderedDict

print('OrderedDict:')

d = OrderedDict()

d['a'] = 'A'
d['b'] = 'B'
d['c'] = 'C'
d['d'] = 'D'
d['e'] = 'E'


for k, v in d.items():
    print(k, v)

OrderedDict:
a A
b B
c C
d D
e E


## Сравнение упорядоченных словарей
Обычный словарь при сравнении с другим словарём проверяет только содержание элементов. Упорядоченный словарь OrderedDict также учитывает порядок, в котором элементы были добавлены.

Обычный словарь:

In [19]:
print('Являются ли словари одинаковыми?')

d1 = {}
d1['a'] = 'A'
d1['b'] = 'B'

d2 = {}
d2['b'] = 'B'
d2['a'] = 'A'

print(d1==d2)

Являются ли словари одинаковыми?
True


An Ordered Dictionary:

In [20]:
print('Являются ли словари одинаковыми?')

d1 = OrderedDict()
d1['a'] = 'A'
d1['b'] = 'B'


d2 = OrderedDict()

d2['b'] = 'B'
d2['a'] = 'A'

print(d1==d2)

Являются ли словари одинаковыми?
False


# namedtuple - именованный кортеж
Стандартный кортеж использует числовые индексы для доступа к его элементам, например:

In [21]:
t = (12,13,14)

In [22]:
t[0]

12

В простых случаях этого обычно достаточно. С другой стороны, всё время помнить, какой номер отвечает за какое значение - неудобно, и может приводить к ошибкам, особенно если кортеж содержит много полей и был создан далеко от того места, где он будет использоваться. В таких случаях полезен namedtuple - он назначает элементами не только номера, но и названия. 

Каждый вид именованного кортежа представлен своим собственным классом, который создается с помощью функции namedtuple(). Параметры - это название нового класса, и строка с названиями элементов.

По сути можно представить себе именованные кортежи как быстрый способ создания нового типа объекта/класса с некоторыми атрибутами.
Например:

In [23]:
from collections import namedtuple

In [24]:
Dog = namedtuple('Dog','age breed name')

sam = Dog(age=2,breed='Lab',name='Sammy')

frank = Dog(age=2,breed='Shepard',name="Frankie")

Мы создаем именованный кортеж, сначала передавая название типа объекта (Dog), и затем передаём набор полей в виде строки, в которой названия полей разделены пробелами. Далее мы можем использовать различные атрибуты:

In [25]:
sam

Dog(age=2, breed='Lab', name='Sammy')

In [26]:
sam.age

2

In [27]:
sam.breed

'Lab'

In [28]:
sam[0]

2

# datetime

В Python есть модуль datetime для работы с датой и временем. Значения времени представлены классом time. Время имеет атрибуты для часов, минут, секунд и микросекунд. А также информацию о часовом поясе. Параметры для инициализации экземпляра time являются необязательными, но значение по умолчанию 0 это скорее всего не то, что Вы хотите.

## time - время
Давайте посмотрим, как мы можем извлечь информацию из модуля datetime. Мы можем создать значение timestamp (дата-время), указав datetime.time(hour,minute,second,microsecond)

In [29]:
import datetime

t = datetime.time(4, 20, 1)

# выведем отдельные компоненты
print(t)
print('hour  :', t.hour)
print('minute:', t.minute)
print('second:', t.second)
print('microsecond:', t.microsecond)
print('tzinfo:', t.tzinfo)

04:20:01
hour  : 4
minute: 20
second: 1
microsecond: 0
tzinfo: None


Замечание: экземпляр time содержит только значения времени, и не содержит дату. 

Также мы можем посмотреть в модуле минимальные и максимальные значения времени, которые может содержать день:

In [30]:
print('Earliest  :', datetime.time.min)
print('Latest    :', datetime.time.max)
print('Resolution:', datetime.time.resolution)

Earliest  : 00:00:00
Latest    : 23:59:59.999999
Resolution: 0:00:00.000001


Атрибуты min и max отражают диапазон значений внутри одного дня.

## Dates - даты
datetime (как следует из названия) также позволяет работать со значениями дата-время. Значения календарных дат представлены классом date. Экземпляры содержат атрибуты для года, месяца и дня. Можно легко создать дату для сегодняшнего дня, используя метод today().

Рассмотрим несколько примеров:

In [31]:
today = datetime.date.today()
print(today)
print('ctime:', today.ctime())
print('tuple:', today.timetuple())
print('ordinal:', today.toordinal())
print('Year :', today.year)
print('Month:', today.month)
print('Day  :', today.day)

2022-07-20
ctime: Wed Jul 20 00:00:00 2022
tuple: time.struct_time(tm_year=2022, tm_mon=7, tm_mday=20, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=2, tm_yday=201, tm_isdst=-1)
ordinal: 738356
Year : 2022
Month: 7
Day  : 20


Как и для времени, для дат можно посмотреть доступный диапазон с помощью атрибутов min и max.

In [32]:
print('Earliest  :', datetime.date.min)
print('Latest    :', datetime.date.max)
print('Resolution:', datetime.date.resolution)

Earliest  : 0001-01-01
Latest    : 9999-12-31
Resolution: 1 day, 0:00:00


Другой способ создания новых экземпляров date - это использование метода replace() для существующей даты. Например, можно поменять год, оставив день и месяц без изменений.

In [33]:
d1 = datetime.date(2015, 3, 11)
print('d1:', d1)

d2 = d1.replace(year=1990)
print('d2:', d2)

d1: 2015-03-11
d2: 1990-03-11


# Арифметика
Для дат можно выполнять вычисления, чтобы вычислить разницу времени. Например:

In [34]:
d1

datetime.date(2015, 3, 11)

In [35]:
d2

datetime.date(1990, 3, 11)

In [36]:
d1-d2

datetime.timedelta(days=9131)

Так мы получаем разницу между двумя датами, в днях. Также можно использовать метод timedelta для различных единиц изменения времени (дни, минуты, часы и т.д.)

Отлично! Теперь у Вас есть базовые значения о том, как использовать datetime в Python для работы с датой и временем в Вашем коде!

# Отладчик - Python Debugger

Чтобы найти ошибки в Вашем коде, Вы скорее всего использовали множество команд print. Есть лучший способ - использование встроенного в Python модуля debugger (pdb). Модуль pdb реализует интерактивную среду отладки для программ Python. Он позволяет Вам поставить программу на паузу, посмотреть значения переменных, и увидеть выполнение Вашей программы шаг за шагом, чтобы Вы могли понять, что именно делает Ваша программа, и найти ошибку в логике.

Это немного сложно показать, поскольку нам придется специально сделать ошибку, но надеюсь что этот простой пример покажет возможности модуля pdb. 
___
Здесь мы намеренно сделаем ошибку, пытаясь сложить список и число

In [1]:
x = [1,3,4]
y = 2
z = 3

result = y + z
print(result)
result2 = y+x
print(result2)

5


TypeError: unsupported operand type(s) for +: 'int' and 'list'

Хм, кажется мы получили ошибку! Давайте применим set_trace(), используя модуль pdb. Это позволит нам сделать паузу в указанной точке, и посмотреть что там происходит.

In [2]:
import pdb

x = [1,3,4]
y = 2
z = 3

result = y + z
print(result)

# Set a trace using Python Debugger
pdb.set_trace()

result2 = y+x
print(result2)

5
--Return--
None
> [1;32mc:\users\mbbur\appdata\local\temp\ipykernel_12576\1419980936.py[0m(11)[0;36m<module>[1;34m()[0m

ipdb> y
2
ipdb> x
[1, 3, 4]
ipdb> 
[1, 3, 4]
ipdb> end
*** NameError: name 'end' is not defined
--KeyboardInterrupt--

KeyboardInterrupt: Interrupted by user


TypeError: unsupported operand type(s) for +: 'int' and 'list'

Отлично! Теперь Вы можете посмотреть, какими были значения переменных, и найти причину ошибки. Для выхода из отладчика используется 'q'. Более подробно об общих подходах к отладке и других методах, можно почитать в официальной документации:
https://docs.python.org/3/library/pdb.html