## 5. Общие структуры данных Python
### 5.1. Словари, ассоциативные массивы и хеш-таблицы
#### dict — ваш дежурный словарь

In [1]:
phonebook = {
    'боб': 7387,
    'элис': 3719,
    'джек': 7052,
}

squares = {x: x * x for x in range(6)}

In [2]:
phonebook['элис']

3719

In [3]:
squares

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25}

In [5]:
squares[2]

4

#### collections.OrderedDict — помнят порядок вставки ключей

In [6]:
import collections
d = collections.OrderedDict(one=1, two=2, three=3)
d

OrderedDict([('one', 1), ('two', 2), ('three', 3)])

In [7]:
d['четыре'] = 4

In [8]:
d

OrderedDict([('one', 1), ('two', 2), ('three', 3), ('четыре', 4)])

In [9]:
d.keys()

odict_keys(['one', 'two', 'three', 'четыре'])

#### collections.defaultdict — возвращает значения, заданные по умолчанию для отсутствующих ключей
Класс defaultdict — это еще один подкласс словаря, который в своем конструкторе принимает вызываемый объект, возвращаемое значение которого будет использовано, если требуемый ключ нельзя найти.

Это свойство может сэкономить на наборе кода и сделать замысел программиста яснее в сравнении с использованием методов get() или отлавливанием исключения KeyError в обычных словарях.

In [10]:
from collections import defaultdict
dd = defaultdict(list)

# Попытка доступа к отсутствующему ключу его создает и инициализирует, используя принятую по умолчанию фабрику,
# то есть в данном примере list():

dd['собаки'].append('Руфус')
dd['собаки'].append('Кэтрин')
dd['собаки'].append('Сниф')
dd['собаки']

['Руфус', 'Кэтрин', 'Сниф']

#### collections.ChainMap — производит поиск в многочисленных словарях как в одной таблице соответствия
Структура данных collections.ChainMap группирует многочисленные словари в одну таблицу соответствия. Поиск проводится по очереди во всех базовых ассоциативных объектах до тех пор, пока ключ не будет найден. Операции вставки, обновления и удаления затрагивают только первую таблицу соответствия, добавленную в цепочку.

In [13]:
from collections import ChainMap
dict1 = {'один': 1, 'два': 2}
dict2 = {'три': 3, 'четыре': 4}
chain = ChainMap(dict1, dict2)
chain

ChainMap({'один': 1, 'два': 2}, {'три': 3, 'четыре': 4})

In [14]:
# ChainMap выполняет поиск в каждой коллекции в цепочке слева направо, пока не найдет ключ (или не потерпит неудачу):
chain['три']

3

In [15]:
chain['один']

1

In [16]:
chain['отсутствует']

KeyError: 'отсутствует'

#### types.MappingProxyType — обертка для создания словарей только для чтения
MappingProxyType — это обертка стандартного словаря, которая предоставляет доступ только для чтения данных обернутого словаря. Этот класс был добавлен в Python 3.3 и может использоваться для создания неизменяемых версий словарей.

Например, он может быть полезен, если требуется вернуть словарь, передающий внутреннее состояние из класса или модуля, при этом препятствуя доступу к этому объекту для записи. Использование MappingProxyType позволяет вводить эти ограничения без необходимости сначала создавать полную копию словаря.

In [17]:
from types import MappingProxyType
writable = {'один': 1, 'два': 2}  # доступный для обновления
read_only = MappingProxyType(writable)

# Этот представитель/прокси с доступом только для чтения:
read_only['один']

1

In [18]:
read_only['один'] = 23

TypeError: 'mappingproxy' object does not support item assignment

In [19]:
# Обновления в оригинале отражаются в прокси:
writable['один'] = 42
read_only

mappingproxy({'один': 42, 'два': 2})

In [20]:
read_only['один']

42

#### Ключевые выводы
•	Словари — это единственная центральная структура данных в Python.

•	Встроенный тип dict будет «вполне приемлем» в большинстве случаев.

•	Специализированные реализации, такие как словари с доступом только для чтения или упорядоченные словари, имеются в стандартной библиотеке Python.

### 5.2. Массивоподобные структуры данных
#### list — изменяемые динамические массивы
Списки (lists) являются составной частью ядра языка Python. Несмотря на свое имя, списки Python реализованы как динамические массивы. Это означает, что список допускает добавление и удаление элементов и автоматически корректирует резервное хранилище, в котором эти элементы содержатся, путем выделения или высвобождения оперативной памяти.  

Списки Python могут содержать произвольные элементы — в Python абсолютно «всё» является объектом, включая и функции. Поэтому вы можете сочетать и комбинировать разные типы данных и хранить их все в одном списке.  

Такая возможность может быть очень мощной, но у нее есть и обратная сторона: поддержка многочисленных типов данных одновременно означает, что данные, как правило, упакованы менее плотно. И в результате вся структура занимает больше места.

In [22]:
arr = ['один', 'два', 'три']

arr[0]

'один'

In [23]:
# Списки имеют хороший метод repr:
arr

['один', 'два', 'три']

In [24]:
# Списки могут изменяться:
arr[1] = 'привет'
arr

['один', 'привет', 'три']

In [25]:
del arr[1]
arr

['один', 'три']

In [27]:
# Списки могут содержать произвольные типы данных:
arr.append(23)
arr.append((1,2))
arr

['один', 'три', 23, (1, 2)]

#### tuple — неизменяемые контейнеры

In [28]:
arr = 'один', 'два', 'три'
arr

('один', 'два', 'три')

In [29]:
arr[0]

'один'

In [30]:
# Кортежи имеют хороший метод repr:
arr

('один', 'два', 'три')

In [31]:
# Кортежи не могут изменяться
# Кортежи могут содержать произвольные типы данных:
# (При добавлении элементов создается копия кортежа)
arr + (23,)

('один', 'два', 'три', 23)

In [32]:
arr

('один', 'два', 'три')

#### array.array — элементарные типизированные массивы
Модуль Python array обеспечивает пространственно-эффективное хранение элементарных типов данных в стиле языка C, таких как байты, 32-разрядные целые числа, числа с плавающей точкой и т.д.

Массивы, создаваемые на основе класса array.array, могут изменяться и ведут себя аналогично спискам, за исключением одного важного различия — они являются «типизированными массивами», ограниченными единственным типом данных.

Из-за этого ограничения объекты array.array со многими элементами более пространственно эффективны, чем списки и кортежи. Хранящиеся в них элементы плотно упакованы, и это может быть полезно, если вам нужно хранить много элементов одного и того же типа.

Кроме того, массивы поддерживают многие из тех же методов, что и у обычных списков, и вы можете их использовать в качестве «прямой замены» без необходимости вносить в свой код другие изменения.

In [33]:
import array
arr = array.array('f', (1.0, 1.5, 2.0, 2.5))
arr[1]

1.5

In [35]:
# Массивы имеют хороший метод repr:
arr

array('f', [1.0, 1.5, 2.0, 2.5])

In [36]:
# Массивы могут изменяться:
arr[1] = 23.0
arr

array('f', [1.0, 23.0, 2.0, 2.5])

In [37]:
del arr[1]
arr

array('f', [1.0, 2.0, 2.5])

In [38]:
arr.append(42.0)
arr

array('f', [1.0, 2.0, 2.5, 42.0])

In [39]:
# Массивы — это "типизированные" структуры данных:
arr[1] = 'привет'

TypeError: must be real number, not str

#### str — неизменяемые массивы символов Юникода
В Python 3.x объекты строкового типа str используются для хранения текстовых данных в виде неизменяемых последовательностей символов Юникода. В сущности, это означает, что тип str представляет собой неизменяемый массив символов. Как это ни странно, но тип str также является рекурсивной структурой данных: каждый символ в строке сам является объектом str длиной, равной 1.

Строковые объекты пространственно эффективны, потому что они плотно упакованы и специализируются на одном-единственном типе данных. Если вы храните текст в кодировке Юникод, то лучше использовать этот тип данных. Поскольку строки в Python не могут изменяться, модификация строкового значения требует создания модифицированной копии. Самым близким эквивалентом «изменяющейся последовательности символов» будет список, в котором символы хранятся по отдельности.

In [44]:
arr = 'abcd'
arr[1]

'b'

In [45]:
arr

'abcd'

In [46]:
# Строки неизменяемы:
arr[1] = 'e'

TypeError: 'str' object does not support item assignment

In [47]:
del arr[1]

TypeError: 'str' object doesn't support item deletion

In [48]:
# Строки могут быть распакованы в список, в результате чего
# они получают изменяемое представление:
list('abcd')

['a', 'b', 'c', 'd']

In [49]:
list(arr)

['a', 'b', 'c', 'd']

In [50]:
''.join(list('abcd'))

'abcd'

In [51]:
# Строки — это рекурсивные структуры данных:
type('abc')

str

In [52]:
type('abc'[0])

str

#### bytes — неизменяемые массивы одиночных байтов
Объекты bytes представляют собой неизменяемые последовательности одиночных байтов (целых чисел в диапазоне 0 ≤ x ≤ 255). В концептуальном плане они подобны объектам str и их также можно представить как неизменяемые массивы байтов.

Аналогично строковому типу, тип bytes имеет свой собственный литеральный синтаксис, предназначенный для создания объектов, и объекты этого типа пространственно эффективны. Объекты bytes не могут изменяться, но, в отличие от строковых объектов, для «изменяемых массивов байтов» есть специальный тип данных, который называется bytearray, или байтовый массив, в который они могут быть распакованы.

In [53]:
arr = bytes((0, 1, 2, 3))
arr[1]

1

In [54]:
# Байтовые литералы имеют свой собственный синтаксис:
arr

b'\x00\x01\x02\x03'

In [56]:
arr = b'x00x01x02x04'

In [57]:
arr

b'x00x01x02x04'

In [58]:
arr[1]

48

In [60]:
arr = b'\x00\x01\x02\x03'

In [61]:
arr

b'\x00\x01\x02\x03'

In [62]:
arr[1]

1

In [63]:
# Разрешены только допустимые "байты":
bytes((0, 300))

ValueError: bytes must be in range(0, 256)

In [64]:
# Байты неизменяемы:
arr[1] = 23

TypeError: 'bytes' object does not support item assignment

#### bytearray — изменяемые массивы одиночных байтов
Тип bytearray представляет собой изменяемую последовательность целых чисел в диапазоне 0 ≤ x ≤ 255. Они тесно связаны с объектами bytes, при этом главное их отличие в том, что объекты bytearray можно свободно изменять — вы можете переписывать элементы, удалять существующие элементы или добавлять новые. Объект bytearray будет соответствующим образом расти и сжиматься.

Объекты bytearray могут быть преобразованы обратно в неизменяемые объекты bytes, но это влечет за собой копирование абсолютно всех хранящихся в них данных — весьма медленная операция, занимающая O(n) времени.

In [65]:
arr = bytearray((0, 1, 2, 3))
arr[1]

1

In [66]:
# Метод repr для bytearray:
arr

bytearray(b'\x00\x01\x02\x03')

In [68]:
# Байтовые массивы bytearray изменяемы:
arr[1] = 23

In [69]:
arr

bytearray(b'\x00\x17\x02\x03')

In [70]:
# Байтовые массивы bytearray могут расти и сжиматься в размере:
del arr[1]
arr

bytearray(b'\x00\x02\x03')

In [71]:
arr.append(42)
arr

bytearray(b'\x00\x02\x03*')

In [72]:
arr.append(99)
arr

bytearray(b'\x00\x02\x03*c')

In [73]:
len(arr)

5

In [74]:
# Байтовые массивы bytearray могут содержать только "байты"
# (целые числа в диапазоне 0 <= x <= 255)
arr[1] = 'привет'

TypeError: 'str' object cannot be interpreted as an integer

In [75]:
# Bytearrays может быть преобразован в байтовые объекты:
# (Это скопирует данные)
bytes(arr)

b'\x00\x02\x03*c'

### 5.3. Записи, структуры и объекты переноса данных
Записи, как и структуры данных, по сравнению с массивами обеспечивают фиксированное количество полей, у каждого из которых может быть имя, а также другой тип.

#### dict — простые объекты данных
Словари Python хранят произвольное количество объектов, при этом каждый идентифицируется уникальным ключом. Словари также нередко называются ассоциативными массивами или таблицами соответствий и позволяют производить эффективный поиск, вставку и удаление любого объекта, связанного с заданным ключом.

В Python использование словарей в качестве типа данных запись или объекта данных вполне возможно. Словари в Python легко создаются, поскольку они имеют свой собственный синтаксический сахар, который встроен в язык в форме литералов словаря. Синтаксис словаря краток и довольно удобен для набора на клавиатуре.

Объекты данных, создаваемые с использованием словарей, могут изменяться, и при этом практически отсутствует защита от опечаток в именах полей, поскольку поля могут свободно добавляться и удаляться в любое время. Оба этих свойства способны добавить поразительные ошибки, и всегда существует компромисс между удобством и устойчивостью к ошибкам, которого нужно достигать.

In [1]:
car1 = {
    'цвет': 'красный',
    'пробег': 3812.4,
    'автомат': True,
}

car2 = {
    'цвет': 'синий',
    'пробег': 40231,
    'автомат': False,
}

# Словари имеют хороший метод repr:
car2

{'цвет': 'синий', 'пробег': 40231, 'автомат': False}

In [2]:
# Получить пробег:
car2['пробег']

40231

In [3]:
# Словари изменяемы:
car2['пробег'] = 12
car2['лобовое стекло'] = 'треснутое'
car2

{'цвет': 'синий',
 'пробег': 12,
 'автомат': False,
 'лобовое стекло': 'треснутое'}

In [4]:
# Отсутствует защита от неправильных имен полей или отсутствующих/лишних полей:
car3 = {
    'цвет': 'зеленый',
    'автомат': False,
    'лобовое стекло': 'треснутое',
}
car3

{'цвет': 'зеленый', 'автомат': False, 'лобовое стекло': 'треснутое'}

#### tuple — неизменяемые группы объектов
Кортежи в Python представляют собой простые структуры данных, предназначенные для группирования произвольных объектов. Кортежи неизменяемы — после их создания их нельзя исправить.

С точки зрения производительности кортежи занимают чуть меньше оперативной памяти, чем списки в Python, и к тому же быстрее создаются.

Как вы видите в приведенном ниже результате дизассемблирования байткода, конструирование кортежной константы занимает всего один код операции LOAD_CONST, в то время как конструирование объекта-списка с одинаковым содержимым требует еще нескольких операций:

In [5]:
import dis
dis.dis(compile("(23, 'a', 'b', 'c')", '', 'eval'))

  1           0 LOAD_CONST               0 ((23, 'a', 'b', 'c'))
              2 RETURN_VALUE


In [6]:
dis.dis(compile("[23, 'a', 'b', 'c']", '', 'eval'))

  1           0 LOAD_CONST               0 (23)
              2 LOAD_CONST               1 ('a')
              4 LOAD_CONST               2 ('b')
              6 LOAD_CONST               3 ('c')
              8 BUILD_LIST               4
             10 RETURN_VALUE


Однако вам не стоит особенно налегать на эти различия. На практике разница в производительности часто будет незначительной, и попытка выжать из программы больше эффективности, переключаясь со списков на кортежи, вероятно, будет нерациональной.

Возможным недостатком простых кортежей является то, что данные, которые вы в них храните, извлекаются только путем доступа к кортежу через целочисленные индексы. У вас не получится назначить имена отдельным хранящимся в кортеже свойствам. А это может сказаться на удобочитаемости исходного кода.

Кроме того, кортеж всегда является ситуативной структурой: трудно гарантировать, что у двух кортежей будет одинаковое количество полей и одинаковые хранящиеся в них свойства.

А это — раздолье для ошибок «по недоразумению», например для разночтений порядка следования полей. Поэтому я рекомендую держать минимальное количество полей в кортеже.

In [7]:
# Поля: цвет, пробег, автомат
car1 = ('красный', 3812.4, True)
car2 = ('синий', 40231.0, False)

In [8]:
# Экземпляры кортежа имеют хороший метод repr:
car1

('красный', 3812.4, True)

In [9]:
car2

('синий', 40231.0, False)

In [10]:
# Получить пробег:
car2[1]

40231.0

In [12]:
# Кортежи неизменяемы:
car2[1] = 12

TypeError: 'tuple' object does not support item assignment

In [13]:
# Нет защиты от неверных имен полей или отсутствующих/лишних полей:
car3 = (3431.5, 'зеленый', True, 'серебряный')
car3

(3431.5, 'зеленый', True, 'серебряный')

#### Написание собственного класса — больше работы, больше контроля
Классы позволяют определять «шаблоны» многократного использования для объектов данных, причем эти шаблоны гарантируют, что каждый объект предоставляет одинаковый набор полей.

Использование обычных классов Python в качестве типов данных запись вполне возможно, но это также влечет за собой ручную работу, связанную с получением удобных функциональных возможностей у других реализаций. Например, добавление новых полей в конструктор \_\_init\_\_ будет многословным и займет время.

Написание собственного класса — отличная возможность, когда в объекты-записи требуется добавить бизнес-логику и поведение с использованием методов. Однако это означает, что такие объекты технически больше не являются простыми объектами данных.

In [14]:
class Car:
    def __init__(self, color, mileage, automatic):
        self.color = color
        self.mileage = mileage
        self.automatic = automatic

car1 = Car('красный', 3812.4, True)
car2 = Car('синий', 40231.0, False)

# Получить пробег:
car2.mileage

40231.0

In [15]:
# Классы изменяемы:
car2.mileage = 12
car2.windshield = 'треснутое'

In [16]:
# Строковое представление не очень полезно (приходится добавлять написанный вручную метод \_\_repr\_\_):
car1

<__main__.Car at 0x21fdb63c9e8>

#### collections.namedtuple — удобные объекты данных
Класс namedtuple, доступный в Python 2.6+, предоставляет расширение встроенного типа данных tuple. Аналогично определению собственного класса, применение именованного кортежа namedtuple позволяет определять «шаблоны» многократного использования для своих записей, гарантирующие использование правильных имен полей.

Именованные кортежи неизменяемы, как и обычные кортежи. Это означает, что вы не можете добавлять новые поля или изменять существующие поля после того, как экземпляр namedtuple был создан.

Помимо этого, именованные кортежи являются, скажем так, именованными кортежами (named tuples). Доступ к каждому хранящемуся в них объекту можно получить по уникальному идентификатору. Это освобождает от необходимости запоминать целочисленные индексы или идти обходными методами, например определять индексы целочисленных констант в качестве мнемокодов.

На внутреннем уровне объекты namedtuple реализованы как обычные классы Python. В том, что касается использования оперативной памяти, они тоже «лучше» обычных классов и столь же эффективны с точки зрения потребляемой оперативной памяти, что и обычные кортежи:

In [17]:
from collections import namedtuple
from sys import getsizeof
p1 = namedtuple('Point', 'x y z')(1, 2, 3)
p2 = (1, 2, 3)

getsizeof(p1)

72

In [19]:
getsizeof(p2)

72

In [20]:
p1

Point(x=1, y=2, z=3)

Именованные кортежи могут довольно просто привести в порядок исходный код и сделать его более удобочитаемым, обеспечив вашим данным более совершенную структуру.

По моему опыту, переход от ситуативных типов данных, таких как словари с фиксированным форматом, к именованным кортежам помогает яснее выражать свои намерения. Нередко, когда я применяю эту рефакторизацию, каким-то невообразимым образом я прихожу к более совершенному решению проблемы, с которой сталкиваюсь.

Использование именованных кортежей вместо неструктурированных кортежей и словарей может облегчить жизнь и моим коллегам, потому что именованные кортежи позволяют раздавать данные в «самодокументированном» виде (в известной степени).

In [21]:
Car = namedtuple('Авто' , 'цвет пробег автомат')
car1 = Car('красный', 3812.4, True)

# Экземпляры имеют хороший метод repr:
car1 

Авто(цвет='красный', пробег=3812.4, автомат=True)

In [22]:
# Доступ к полям:
car1.пробег

3812.4

In [24]:
car1[1]

3812.4

In [25]:
# Поля неизменяемы:
car1.пробег = 12

AttributeError: can't set attribute

#### typing.NamedTuple — усовершенствованные именованные кортежи
Этот класс был добавлен в Python 3.6 и является младшим братом класса namedtuple в модуле collections. Он очень похож на namedtuple, и его главное отличие состоит в том, что у него есть обновленный синтаксис для определения новых типов записей и добавленная поддержка подсказок при вводе исходного кода.

Кроме того, обратите внимание, что сигнатуры типов не поддерживаются без отдельного инструмента проверки типов, такого как mypy. Но даже без инструментальной поддержки они могут предоставлять полезные подсказки для других программистов (или могут быть ужасно запутанными, если подсказки в отношении типов становятся устаревшими).

In [26]:
from typing import NamedTuple
class Car(NamedTuple):
    цвет: str
    пробег: float
    автомат: bool
        
car1 = Car('красный', 3812.4, True)

In [27]:
# Экземпляры имеют хороший метод repr:
car1

Car(цвет='красный', пробег=3812.4, автомат=True)

In [28]:
# Доступ к полям:
car1.пробег

3812.4

In [29]:
# Поля неизменяемы:
car1.пробег = 12

AttributeError: can't set attribute

In [30]:
# Аннотации типа не поддерживаются без отдельного инструмента проверки типов, такого как mypy:
Car('красный', 'НЕВЕЩЕСТВЕННЫЙ', 99)

Car(цвет='красный', пробег='НЕВЕЩЕСТВЕННЫЙ', автомат=99)

#### struct.Struct — сериализованные С-структуры
Класс struct.Struct выполняет преобразование между значениями Python и структурами C, сериализованными в форму объектов Python bytes. Например, он может использоваться для обработки двоичных данных, хранящихся в файлах или поступающих из сетевых соединений.

Структуры Struct определяются с использованием форматного строкоподобного мини-языка, который позволяет определять расположение различных типов данных C, таких как char, int и long, а также их беззнаковых вариантов.

Сериализованные структуры редко используются для представления объектов данных, предназначенных для обработки исключительно внутри кода Python. Они нужны в первую очередь в качестве формата обмена данными, а не как способ их хранения в оперативной памяти, применяемый только программным кодом Python.

В некоторых случаях упаковка примитивных данных в структуры позволяет уменьшить объем потребляемой оперативной памяти, чем их хранение в других типах данных. Однако чаще всего такая работа будет довольно продвинутой (и, вероятно, ненужной) оптимизацией.

In [31]:
from struct import Struct
MyStruct = Struct('i?f')
data = MyStruct.pack(23, False, 42.0)

# Вы получаете двоичный объект данных (blob):
data

b'\x17\x00\x00\x00\x00\x00\x00\x00\x00\x00(B'

In [32]:
# BLOB-объекты можно снова распаковать:
MyStruct.unpack(data)

(23, False, 42.0)

#### types.SimpleNamespace — причудливый атрибутивный доступ
А вот еще один «эзотерический» вариант реализации объектов данных в Python: types.SimpleNamespace. Этот класс был добавлен в Python 3.3, и он обеспечивает атрибутивный доступ к своему пространству имен.

Это означает, что экземпляры SimpleNamespace показывают все свои ключи как атрибуты класса. А значит, вы можете использовать «точечный» атрибутивный доступ объект.ключ вместо синтаксиса с индексацией в квадратных скобках объект\['ключ'\], который применяется обычными словарями. Все экземпляры также по умолчанию включают содержательный метод \_\_repr\_\_.

Как видно из его названия, тип SimpleNamespace прост в использовании! Это, в сущности, прославленный словарь, который предоставляет доступ по атрибуту и выдает приличную распечатку. Атрибуты могут свободно добавляться, изменяться и удаляться.

In [33]:
from types import SimpleNamespace
car1 = SimpleNamespace(цвет='красный', пробег=3812.4, автомат=True)

# Метод repr по умолчанию:
car1

namespace(автомат=True, пробег=3812.4, цвет='красный')

In [34]:
# Экземпляры поддерживают атрибутивный доступ и могут изменяться:
car1.пробег = 12
car1.лобовое_стекло = 'треснутое'
del car1.автомат
car1

namespace(лобовое_стекло='треснутое', пробег=12, цвет='красный')

#### Ключевые выводы
Итак, какой же тип следует использовать для объектов данных в Python? Как вы убедились, есть целый ряд различных вариантов для реализации записей или объектов данных. Как правило, ваше решение будет зависеть от вашего сценария использования:

__У вас есть всего несколько (2–3) полей:__ использование обыкновенного объекта-кортежа может подойти, если порядок следования полей легко запоминается или имена полей излишни. Например, представьте точку (x, y, z) в трехмерном пространстве.

__Вам нужны неизменяемые поля:__ в данном случае обыкновенные кортежи, collections.namedtuple и typing.NamedTuple, дадут неплохие возможности для реализации этого типа объекта данных.

__Вам нужно устранить имена полей, чтобы избежать опечаток:__ вашими друзьями здесь будут collections.namedtuple и typing.NamedTuple.

__Вы не хотите усложнять:__ обыкновенный объект-словарь может быть хорошим вариантом из-за удобного синтаксиса, который сильно напоминает JSON.

__Вам нужен полный контроль над вашей структурой данных:__ самое время написать собственный класс с методами-модификаторами (сеттерами) и методами-получателями (геттерами) @property.

__Вам нужно добавить в объект поведение (методы):__ вам следует написать собственный класс с нуля либо путем расширения collections.namedtuple или typing.NamedTuple.

__Вам нужно плотно упаковать данные, чтобы сериализовать их для записи на жесткий диск или отправить их по Сети:__ самое время навести справки по поводу struct.Struct, потому что этот объект представляет собой превосходный вариант использования.

Если вы ищете безопасный вариант, который можно использовать по умолчанию, то моя общая рекомендация в отношении реализации простой записи, структуры или объекта данных в Python будет следующей: использовать collections.namedtuple в Python 2.x и его младшего брата, typing.NamedTuple, в Python 3.

### 5.4. Множества и мультимножества
Множество представляет собой неупорядоченную коллекцию объектов, которая не допускает повторяющихся элементов. Как правило, множества используются для быстрой проверки принадлежности значения множеству, вставки новых значений в множество, удаления значений из множества и вычисления на множествах операций, таких как объединение или пересечение двух множеств.  

Точно так же, как и словари, множества в Python обрабатываются особым образом и имеют свой синтаксический сахар, упрощающий их создание. Например, синтаксис выражения с фигурными скобками для множеств и конструкция включения в множество позволяют удобно определять новые экземпляры множеств:

In [1]:
vowels = {'a', 'e', 'i', 'o', 'u'}
squares = {x * x for x in range(10)}
squares

{0, 1, 4, 9, 16, 25, 36, 49, 64, 81}

Тем не менее следует быть осторожными: для того чтобы создать пустое множество, вам нужно вызвать конструктор set(). Использование фигурных скобок {} неоднозначно и вместо этого создаст пустой словарь.

Python и его стандартная библиотека предоставляют несколько реализаций множества. Давайте их рассмотрим.

#### set — ваше дежурное множество
Это встроенная в Python реализация множества. Тип set изменяемый и допускает динамическую вставку и удаление элементов.

Множества Python set подкрепляются типом данных dict и обладают одинаковыми характеристиками производительности. Любой хешируемый объект может храниться в множестве set.

In [2]:
vowels = {'а', 'о', 'э', 'и', 'у', 'ы', 'е', 'е', 'ю', 'я'}
'э' in vowels

True

In [3]:
letters = set('алиса')
print(letters)
letters.intersection(vowels)

{'а', 'и', 'с', 'л'}


{'а', 'и'}

In [4]:
vowels.add('х')
vowels

{'а', 'е', 'и', 'о', 'у', 'х', 'ы', 'э', 'ю', 'я'}

In [5]:
len(vowels)

10

#### frozenset — неизменяемые множества
Класс frozenset реализует неизменяемую версию множества set. Такое множество не может быть изменено после того, как оно было сконструировано. Множества frozenset статичны и допускают только операции с запросами в отношении своих элементов (никаких вставок или удалений). Поскольку множества frozenset статичны и хешируемы, они могут использоваться в качестве ключей словаря или в качестве элементов другого множества, а это то, что невозможно с обычными (изменяемыми) объектами-множествами set.

In [6]:
vowels = frozenset({'а', 'о', 'э', 'и', 'у', 'ы', 'е', 'е', 'ю', 'я'}) 
vowels.add('р')

AttributeError: 'frozenset' object has no attribute 'add'

In [7]:
# Множества frozenset хешируемы и могут использоваться в качестве ключей словаря:
d = { frozenset({1, 2, 3}): 'привет' }
d[frozenset({1, 2, 3})]

'привет'

#### collections.Counter — мультимножества
Класс collections.Counter стандартной библиотеки Python реализует тип «мультимножество» (или «мешок»), который допускает неоднократное появление элемента в множестве.

Это бывает полезно, если вам нужно вести учет не только того, принадлежит ли элемент множеству, но и того, сколько раз он был включен в множество:

In [8]:
from collections import Counter
inventory = Counter()
loot = {'клинок': 1, 'хлеб': 3}
inventory.update(loot)
inventory

Counter({'клинок': 1, 'хлеб': 3})

In [9]:
more_loot = {'клинок': 1, 'яблоко': 1}
inventory.update(more_loot)
inventory

Counter({'клинок': 2, 'хлеб': 3, 'яблоко': 1})

Следует соблюдать осторожность во время подсчета количества элементов в объекте Counter. В результате вызова функции len() возвращается количество уникальных элементов в мультимножестве, тогда как общее количество элементов может быть получено с использованием функции sum:

In [10]:
len(inventory)

3

In [11]:
sum(inventory.values())

6

#### Ключевые выводы
•	Множество является еще одной полезной и широко используемой структурой данных, включенной в Python и ее стандартную библиотеку.

•	Используйте встроенный тип set, когда вы хотите получить изменяемое множество.

•	Объекты frozenset хешируемы и могут использоваться в качестве словаря или ключей множества.

•	Класс collections.Counter реализует структуры данных «мультимножество», или «мешок».

### 5.5. Стеки (с дисциплиной доступа LIFO)
Стек представляет собой коллекцию объектов, которая поддерживает быструю семантику доступа «последним пришел — первым ушел» (_LIFO — last in, first out_) для вставок и удалений. В отличие от списков или множеств, стеки, как правило, не допускают произвольного доступа к объектам, которые они содержат. Операции вставки и удаления также нередко называются вталкиванием (push) и выталкиванием (pop).

Полезной аналогией для стековой структуры данных из реального мира является стопка тарелок:

_Новые тарелки добавляются на вершину стопки. И поскольку тарелки дорогие и тяжелые, можно взять только самую верхнюю тарелку (метод «последним пришел — первым ушел»). Чтобы добраться до тарелок, которые находятся внизу стопки, необходимо поочередно удалить все тарелки, которые находятся выше._

Стеки и очереди похожи. Обе эти структуры данных являются линейными коллекциями элементов, и разница между ними состоит в порядке доступа к элементам.

В случае с __очередью__ вы удаляете элемент, который был добавлен в нее раньше всех (метод «первым пришел — первым ушел», или FIFO); однако в случае со __стеком__ вы удаляете элемент, который был добавлен в него позже всех (метод «последним пришел — первым ушел», или LIFO).

С точки зрения производительности предполагается, что надлежащая реализация стека будет занимать O(1) времени на операции вставки и удаления.

Стеки находят широкое применение в алгоритмах, например в синтаксическом анализе языка и управлении рабочей памятью времени исполнения («стек вызовов»). Короткий и красивый алгоритм с использованием стека представлен поиском в глубину (DFS) на древовидной или графовой структуре данных.

Python поставляется с несколькими реализациями стека, каждая из которых имеет слегка отличающиеся характеристики. Сейчас мы их рассмотрим и сравним их характеристики.

#### list — простые встроенные стеки
Встроенный в Python тип list создает нормальную стековую структуру данных, поскольку он поддерживает операции вталкивания и выталкивания за амортизируемое O(1) время.  

Используя списки в качестве стеков, необходимо учитывать одно важное предостережение относительно производительности.

Чтобы получить производительность с амортизируемым временем O(1) для вставок и удалений, новые элементы должны добавляться в конец списка методом append() и снова удалятся из конца методом pop(). Для оптимальной производительности стеки на основе списков Python должны расти по направлению к более высоким индексам и сжиматься к более низким.

Добавление и удаление элементов в начале списка намного медленнее и занимает O(n) времени, поскольку существующие элементы должны сдвигаться, чтобы создать место для нового элемента. Такого антишаблона производительности следует избегать.

In [14]:
s = []
s.append('есть')
s.append('спать')
s.append('программировать')
s

['есть', 'спать', 'программировать']

In [15]:
s.pop()

'программировать'

In [16]:
s.pop()

'спать'

In [17]:
s.pop()

'есть'

In [18]:
s.pop()

IndexError: pop from empty list

#### collections.deque — быстрые и надежные стеки
Класс ___deque___ реализует очередь с двусторонним доступом, которая поддерживает добавление и удаление элементов с любого конца за O(1) (неамортизируемое) время. Поскольку двусторонние очереди одинаково хорошо поддерживают добавление и удаление элементов с любого конца, они могут служить и в качестве очередей, и в качестве стеков.

Объекты Python deque реализованы как двунаправленные связные списки, что дает им стабильную производительность для операций вставки и удаления элементов, но при этом плохую O(n) производительность для произвольного доступа к элементам в середине очереди.

В целом двусторонняя очередь collections.deque – отличный выбор, если вы ищете стековую структуру данных в стандартной библиотеке Python, которая обладает характеристиками производительности, аналогичными реализации на основе связного списка.

In [25]:
from collections import deque
s = deque()
s.append('есть')
s.append('спать')
s.append('программировать')
s

deque(['есть', 'спать', 'программировать'])

In [26]:
s[1]

'спать'

In [27]:
s.pop()

'программировать'

In [28]:
s.pop()

'спать'

In [29]:
s.pop()

'есть'

In [30]:
s.pop()

IndexError: pop from an empty deque

#### queue.LifoQueue — семантика блокирования для параллельных вычислений
Данная реализация стека в стандартной библиотеке Python синхронизирована и обеспечивает семантику блокирования с целью поддержки многочисленных параллельных производителей и потребителей.

Помимо LifoQueue, модуль queue содержит несколько других классов, которые реализуют очереди с мультипроизводителями/мультипотребителями, широко используемые в параллельных вычислениях.

В зависимости от вашего варианта использования семантика блокирования может оказаться полезной, а может накладывать ненужные издержки. В этом случае в качестве стека общего назначения лучше всего использовать список list или двустороннюю очередь deque.

In [31]:
from queue import LifoQueue
s = LifoQueue()
s.put('есть')
s.put('спать')
s.put('программировать')
s

<queue.LifoQueue at 0x1d8310c7048>

In [34]:
s.get()

'программировать'

In [35]:
s.get()

'спать'

In [36]:
s.get()

'есть'

In [37]:
s.get_nowait()

Empty: 

#### Ключевые выводы
•	Python поставляется с несколькими реализациями стека, которые обладают слегка различающимися характеристиками производительности и особенностями использования.

•	Двусторонняя очередь collections.deque обеспечивает безопасную и быструю реализацию стека общего пользования.

•	Встроенный тип list может применяться в качестве стека, но следует соблюдать осторожность и добавлять и удалять элементы только при помощи методов append() и pop(), чтобы избежать замедления производительности.

### 5.6. Очереди (с дисциплиной доступа FIFO)
Очередь представляет собой коллекцию объектов, которая поддерживает быструю семантику доступа «первым пришел — первым ушел» (FIFO — first in, first out) для вставок и удалений. Операции вставки и удаления иногда называются поставить в очередь (enqueue) и убрать из очереди (dequeue). В отличие от списков или множеств, очереди, как правило, не допускают произвольного доступа к объектам, которые они содержат.

#### list — ужасно меееедленная очередь
В качестве очереди можно использовать обычный список, но с точки зрения производительности такое решение не идеально66. Списки для этой цели довольно медленные, потому что вставка в начало очереди или удаление элемента влекут за собой сдвиг всех других элементов на одну позицию, требуя O(n) времени.

In [1]:
q = []
q.append('есть')
q.append('спать')
q.append('программировать')
q

['есть', 'спать', 'программировать']

In [2]:
# Осторожно: это очень медленная операция!
q.pop(0)

'есть'

In [3]:
q

['спать', 'программировать']

In [4]:
q.pop(1)

'программировать'

In [5]:
q

['спать']

In [6]:
q = []
q.append('есть')
q.append('спать')
q.append('программировать')
q.pop(1)

'спать'

In [7]:
q

['есть', 'программировать']

#### collections.deque — быстрые и надежные очереди
Класс deque реализует очередь с двусторонним доступом, которая поддерживает добавление и удаление элементов с любого конца за O(1) (неамортизируемое) время. Поскольку двусторонние очереди одинаково хорошо поддерживают добавление и удаление элементов с любого конца, они могут служить в качестве очередей и в качестве стеков.

Объекты Python deque реализованы как двунаправленные связные списки (doubly-linked lists). Это придает им превосходную и стабильную производительность для операций вставки и удаления элементов, но при этом плохую O(n) производительность для произвольного доступа к элементам в середине очереди.

Как результат, двусторонняя очередь collections.deque будет хорошим выбором, если вы ищете структуру данных очередь в стандартной библиотеке Python.

In [8]:
from collections import deque
q = deque()
q.append('есть')
q.append('спать')
q.append('программировать')
q

deque(['есть', 'спать', 'программировать'])

In [9]:
q.popleft()

'есть'

In [10]:
q.popleft()

'спать'

In [11]:
q.popleft()

'программировать'

In [12]:
q.popleft()

IndexError: pop from an empty deque

#### queue.Queue — семантика блокирования для параллельных вычислений

In [13]:
from queue import Queue
q = Queue()
q.put('есть')
q.put('спать')
q.put('программировать')
q

<queue.Queue at 0x21d2c5fa0b8>

In [14]:
q.get()

'есть'

In [15]:
q.get()

'спать'

In [16]:
q.get()

'программировать'

In [17]:
q.get_nowait()

Empty: 

In [18]:
# q.get()
# Блокирует / ожидает бесконечно...

#### multiprocessing.Queue — очереди совместных заданий
Такая реализация очереди совместных заданий позволяет выполнять параллельную обработку находящихся в очереди элементов многочисленными параллельными рабочими процессами. Процессно-ориентированное распараллеливание популярно в Python из-за глобальной блокировки интерпретатора (GIL), которая препятствует некоторым формам параллельного исполнения в единственном процессе интерпретатора.

В качестве специализированной реализации очереди, предназначенной для обмена данными между процессами, очередь multiprocessing.Queue упрощает распределение работы по многочисленным процессам с целью преодоления ограничений GIL. Этот тип очереди может хранить и передавать любой консервируемый (модулем pickle) объект через границы процессов.

In [19]:
from multiprocessing import Queue
q = Queue()
q.put('есть')
q.put('спать')
q.put('программировать')
q

<multiprocessing.queues.Queue at 0x21d2c5743c8>

In [20]:
q.get()

'есть'

In [21]:
q.get()

'спать'

In [22]:
q.get()

'программировать'

In [23]:
# q.get()
# Блокирует / ожидает бесконечно...

#### Ключевые выводы
•	Python содержит несколько реализаций очередей в качестве составной части ядра языка и его стандартной библиотеки.

•	Объекты-списки list могут использоваться в качестве очередей, но это обычно не рекомендуется делать из-за низкой производительности.

•	Если вы не ищете поддержку параллельной обработки, то реализация, предлагаемая очередью collections.deque, является превосходным вариантом по умолчанию для реализации в Python структуры данных с дисциплиной доступа FIFO, то есть очереди. Она обеспечивает характеристики производительности, которые можно ожидать от хорошей реализации очереди, а также может применяться в качестве стека (очереди с дисциплиной доступа LIFO).

### 5.7. Очереди с приоритетом
Очередь с приоритетом представляет собой контейнерную структуру данных, которая управляет набором записей с полностью упорядоченными ключами (например, числовым значением веса) с целью обеспечения быстрого доступа к записи с наименьшим или наибольшим ключом в наборе.

Очередь с приоритетом можно представить как видоизмененную очередь: вместо получения следующего элемента по времени вставки она получает элемент с самым высоким приоритетом. Приоритет отдельных элементов определяется примененным к их ключам упорядочением.  
#### list — поддержание сортируемой очереди вручную
Вы можете использовать сортированный список list, который позволяет быстро идентифицировать и удалять наименьший или наибольший элемент. Недостатком является то, что вставка новых элементов в список является медленной O(n) операцией.

In [24]:
q = []
q.append((2, 'программировать'))
q.append((1, 'есть'))
q.append((3, 'спать'))

# ПРИМЕЧАНИЕ: Не забудьте выполнить пересортировку всякий раз при добавлении нового элемента, либо используйте bisect.insort().
q.sort(reverse=True)
while q:
    next_item = q.pop()
    print(next_item)

(1, 'есть')
(2, 'программировать')
(3, 'спать')


#### heapq — двоичные кучи на основе списка

In [25]:
import heapq
q = []
heapq.heappush(q, (2, 'программировать'))
heapq.heappush(q, (1, 'есть'))
heapq.heappush(q, (3, 'спать'))
while q:
    next_item = heapq.heappop(q)
    print(next_item)

(1, 'есть')
(2, 'программировать')
(3, 'спать')


#### queue.PriorityQueue — красивые очереди с приоритетом
Данная реализация очереди с приоритетом во внутреннем представлении использует двоичную кучу heapq и имеет одинаковую временную и пространственную вычислительную сложность.

Разница состоит в том, что очередь с приоритетом PriorityQueue синхронизирована и обеспечивает семантику блокирования с целью поддержки многочисленных параллельных производителей и потребителей.

В зависимости от вашего варианта использования она либо станет полезной, либо слегка замедлит вашу программу. В любом случае вы можете предпочесть интерфейс на основе класса, предлагаемый классом PriorityQueue, использованию интерфейса на основе функций, предлагаемого модулем heapq.

In [26]:
from queue import PriorityQueue
q = PriorityQueue()
q.put((2, 'программировать'))
q.put((1, 'есть'))
q.put((3, 'спать'))
while not q.empty():
    next_item = q.get()
    print(next_item)

(1, 'есть')
(2, 'программировать')
(3, 'спать')


#### Ключевые выводы
•	Python содержит несколько реализаций очередей с приоритетом, которые вы можете использовать в своих программах.

•	Реализация queue.PriorityQueue выбивается из общего ряда, отличаясь хорошим объектно-ориентированным интерфейсом и именем, которое четко указывает на ее направленность. Такая реализация должна быть предпочтительным вариантом.

•	Если требуется избежать издержек, связанных с блокировкой очереди queue.PriorityQueue, то непосредственное использование модуля heapq также будет хорошим выбором.