### dict — ваш дежурный словарь

Из-за своей важности Python содержит надежную реализацию словаря, которая встроена непосредственно в ядро языка: тип данных dict1.

Для работы со словарями в своих программах Python также предостав- ляет немного полезного «синтаксического сахара». Например, синтаксис выражения с фигурными скобками для словаря и конструкция включения в словарь позволяют удобно определять новые объекты-словари:


In [1]:
phonebook = {
     'боб': 7387,
     'элис': 3719,
     'джек': 7052,
}

In [2]:
squares = {x: x * x for x in range(6)}

In [3]:
phonebook['элис']

3719

In [4]:
squares

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25}

Есть некоторые ограничения относительно того, какие объекты могут использоваться в качестве допустимых ключей.

Словари Python индексируются ключами, у которых может быть любой хешируемый тип2: хешируемый объект имеет хеш-значение, которое никогда не меняется в течение его жизни (см. __hash__), и его можно сравнивать с другими объектами (см. __eq__). Кроме того, эквивалентные друг другу хешируемые объекты должны иметь одинаковое хеш-значение.

Неизменяемые типы, такие как строковые значение и числа, являются хешируемыми объектами и хорошо работают в качестве ключей словаря. В качестве ключей словаря также можно использовать объекты-корте- жи — при условии, что они сами содержат только хешируемые типы.

Для большинства вариантов использования встроенная в Python реали- зация словаря делает все, что вам нужно. Словари хорошо оптимизирова- ны и лежат в основе многих частей языка: например, и атрибуты класса, и переменные в стековом фрейме во внутреннем представлении хранятся в словарях.

Словари Python основаны на хорошо протестированной и тонко на- строенной реализации хеш-таблицы, которая обеспечивает ожидаемые характеристики производительности с временной сложностью O(1) для операций поиска, вставки, обновления и удаления в среднем случае.

Нет особых причин не использовать стандартную реализацию dict, вклю- ченную в Python. Тем не менее существуют специализированные сторон- ние реализации словаря, например списки с пропусками или словари на основе B-деревьев.

Помимо «обыкновенных» объектов dict, стандартная библиотека Python также содержит ряд реализаций специализированных словарей. Все эти специализированные словари опираются на встроенный класс словаря (и обладают его характеристиками производительности), но помимо этого еще добавляют некоторые удобные свойства.

Давайте их рассмотрим.

### collections .OrderedDict — помнят порядок вставки ключей

В Python включен специализированный подкласс dict, который за- поминает порядок вставки добавляемых в него ключей: collections. OrderedDict1.

Хотя в Python 3.6 и выше стандартные экземпляры dict сохраняют по- рядок вставки ключей, такое поведение является всего лишь побочным эффектом реализации в Python и не определяется спецификацией языка2. Поэтому, если для работы вашего алгоритма порядок следования ключей имеет значение, лучше всего четко донести эту идею, задействовав класс
OrderDict явным образом.

Между прочим, OrderedDict не является встроенной составной частью базового языка и должен быть импортирован из модуля collections, на- ходящегося в стандартной библиотеке.


In [5]:
import collections

In [6]:
d = collections.OrderedDict(one=1, two=2, three=3)

In [7]:
d

OrderedDict([('one', 1), ('two', 2), ('three', 3)])

In [8]:
d['four'] = 4

In [9]:
d

OrderedDict([('one', 1), ('two', 2), ('three', 3), ('four', 4)])

In [10]:
d.keys()

odict_keys(['one', 'two', 'three', 'four'])

### collections .defaultdict — возвращает значения, заданные по умолчанию для отсутствующих ключей

Класс defaultdict — это еще один подкласс словаря, который в своем конструкторе принимает вызываемый объект, возвращаемое значение которого будет использовано, если требуемый ключ нельзя найти1.

Это свойство может сэкономить на наборе кода и сделать замысел про- граммиста яснее в сравнении с использованием методов get() или от- лавливанием исключения KeyError в обычных словарях.

In [11]:
from collections import defaultdict

In [12]:
dd = defaultdict(list)

In [14]:
# Попытка доступа к отсутствующему ключу его создает и
# инициализирует, используя принятую по умолчанию фабрику, 
# то есть в данном примере list():

In [15]:
dd['собаки'].append('Руфус')

In [16]:
dd['собаки'].append('Кэтрин')

In [17]:
dd['собаки'].append('Сниф')

In [18]:
dd['собаки']

['Руфус', 'Кэтрин', 'Сниф']

### collections .ChainMap — производит поиск в многочисленных словарях как в одной таблице соответствия

Структура данных collections.ChainMap группирует многочисленные словари в одну таблицу соответствия1. Поиск проводится по очереди во всех базовых ассоциативных объектах до тех пор, пока ключ не будет найден. Операции вставки, обновления и удаления затрагивают только первую таблицу соответствия, добавленную в цепочку.

In [19]:
from collections import ChainMap

In [20]:
dict1 = {'один': 1, 'два': 2}

In [21]:
dict2 = {'три': 3, 'четыре': 4}

In [22]:
chain = ChainMap(dict1, dict2)

In [23]:
chain

ChainMap({'один': 1, 'два': 2}, {'три': 3, 'четыре': 4})

In [24]:
# ChainMap выполняет поиск в каждой коллекции в цепочке
# слева направо, пока не найдет ключ (или не потерпит неудачу):

In [25]:
chain['три']

3

In [26]:
chain['один']

1

In [27]:
chain['отсутствует']

KeyError: 'отсутствует'

### types .MappingProxyType — обертка для создания словарей только для чтения

MappingProxyType — это обертка стандартного словаря, которая предо- ставляет доступ только для чтения данных обернутого словаря 2. Этоткласс был добавлен в Python 3.3 и может использоваться для создания
неизменяемых версий словарей.

Например, он может быть полезен, если требуется вернуть словарь, передающий внутреннее состояние из класса или модуля, при этом препятствуя доступу к этому объекту для записи. Использование MappingProxyType позволяет вводить эти ограничения без необходимости сначала создавать полную копию словаря.

In [28]:
from types import MappingProxyType

In [29]:
writable = {'один': 1, 'два': 2}  # доступный для обновления

In [30]:
read_only = MappingProxyType(writable)

In [31]:
# Этот представитель/прокси с доступом только для чтения:
read_only['один']

1

In [32]:
read_only['один'] = 23

TypeError: 'mappingproxy' object does not support item assignment

In [33]:
# Обновления в оригинале отражаются в прокси:
writable['один'] = 42

In [34]:
read_only

mappingproxy({'один': 42, 'два': 2})

### Словари в Python: заключение

Все перечисленные в этом разделе питоновские реализации словаря являются действующими, они встроены в стандартную библиотеку Python.

Если вы ищете общую рекомендацию по поводу того, какой ассоциатив- ный тип использовать в ваших программах, я указал бы на встроенный тип данных dict. Он представляет собой универсальную и оптимизиро- ванную реализацию хеш-таблицы, которая встроена непосредственно в ядро языка.

Я порекомендовал бы использовать один из прочих перечисленных здесь типов данных, только если у вас есть особые требования, которые не могут быть обеспечены типом dict.

Да, я по-прежнему убежден, что все эти варианты допустимы, но, как правило, в большинстве случаев ваш исходный код будет яснее и легче в сопровождении для других разработчиков, если он будет опираться на стандартные словари Python.

Ключевые выводы
* Словари — это единственная центральная структура данных в Python.
* Встроенный тип dict будет «вполне приемлем» в большинстве случаев.
* Специализированные реализации, такие как словари с доступом толь- ко для чтения или упорядоченные словари, имеются в стандартной библиотеке Python.

### 5 .2 . Массивоподобные структуры данных

Массив (array) — это фундаментальная структура данных, имеющаяся в большинстве языков программирования, и он имеет широкий спектр применений в самых разных алгоритмах.

В этом разделе мы рассмотрим реализации массива в Python, в кото- рых используются только базовые функциональные средства языка или функциональность, которая включена в стандартную библиотеку Python.

Вы увидите достоинства и недостатки каждого подхода, благодаря чему сможете решить, какая реализация подходит для вашего варианта исполь- зования. Но прежде чем начать, рассмотрим некоторые основы.

Как работают массивы и для чего они применяются?

Массивы состоят из записей данных, при этом записи имеют фиксиро- ванный размер, что позволяет эффективно размещать каждый элемент на основе его индекса.

Поскольку массивы хранят информацию в смежных блоках памяти, их рассматривают как непрерывные (нефрагментированные) структуры данных (в противоположность связным структурам данных, таким как
связные списки, например).

Аналогией из реального мира, соответствующей этой структуре данных, является автостоянка:

Автостоянку можно рассматривать как единое целое и как отдельный объект, но внутри автостоянки есть места для парковки, индексируемые по уникальному числу . Места для парковки являются контейнерами для транспортных средств — каждое место для парковки может либо быть пустым, либо содержать автомобиль, мотоцикл или другое транспортное средство, припаркованное там .

Но не все автостоянки одинаковые:

Некоторые автостоянки могут быть ограничены только одним типом транспортного средства . Например, на кемпинговой автостоянке не раз- решено парковать велосипеды . «Ограниченная» автостоянка соответ- ствует структуре данных для «типизированного массива», которая допу- скает только те элементы, которые имеют одинаковый тип хранящихся в них данных .

С точки зрения производительности поиск элемента, содержащегося в массиве, выполняется очень быстро при условии, что указан индекс эле- мента. Для данного случая надлежащая реализация массива гарантирует постоянное O(1) время доступа.

В своей стандартной библиотеке Python содержит несколько массивопо- добных структур данных, каждая из которых обладает слегка отличающи- мися характеристиками. Давайте их рассмотрим.

### list — изменяемые динамические массивы

Списки (lists) являются составной частью ядра языка Python1. Несмотря на свое имя, списки Python реализованы как динамические массивы. Это означает, что список допускает добавление и удаление элементов и автоматически корректирует резервное хранилище, в котором эти элементы
содержатся, путем выделения или высвобождения оперативной памяти.

Списки Python могут содержать произвольные элементы — в Python абсолютно «всё» является объектом, включая и функции. Поэтому вы можете сочетать и комбинировать разные типы данных и хранить их все в одном списке.

Такая возможность может быть очень мощной, но у нее есть и обратная сторона: поддержка многочисленных типов данных одновременно озна- чает, что данные, как правило, упакованы менее плотно. И в результате вся структура занимает больше места.

In [35]:
arr = ['один', 'два', 'три']

In [37]:
arr[0]

'один'

In [38]:
# Списки имеют хороший метод repr:
arr

['один', 'два', 'три']

In [39]:
# Списки могут изменяться:
arr[1] = 'привет'

In [40]:
arr

['один', 'привет', 'три']

In [41]:
del arr[1]

In [42]:
arr

['один', 'три']

In [43]:
# Списки могут содержать произвольные типы данных:
arr.append(23)

In [44]:
arr

['один', 'три', 23]

### tuple — неизменяемые контейнеры

Аналогично спискам, кортежи тоже являются составной частью ядра языка Python1. Однако в отличие от списков, в Python объекты-кортежи не изменяются. Это означает, что элементы не могут динамически добав- ляться или удаляться — все элементы в кортеже должны быть определены во время создания.

Точно так же, как и списки, кортежи могут содержать элементы произ- вольных типов данных. В этой гибкости много мощности, но, опять-таки, это также означает, что данные упакованы менее плотно, чем это было бы в типизированном массиве.

In [45]:
arr = 'один', 'два', 'три'

In [46]:
arr[0]

'один'

In [48]:
# Кортежи имеют хороший метод repr:
arr

('один', 'два', 'три')

In [49]:
# Кортежи не могут изменяться:
arr[1] = 'привет'

TypeError: 'tuple' object does not support item assignment

In [50]:
del arr[1]

TypeError: 'tuple' object doesn't support item deletion

In [51]:
# Кортежи могут содержать произвольные типы данных: 
# (При добавлении элементов создается копия кортежа)
arr + (23,)

('один', 'два', 'три', 23)

### array .array — элементарные типизированные массивы

Модуль Python array обеспечивает пространственно-эффективное хра- нение элементарных типов данных в стиле языка C, таких как байты, 32-разрядные целые числа, числа с плавающей точкой и т. д.

Массивы, создаваемые на основе класса array.array, могут изменяться и ведут себя аналогично спискам, за исключением одного важного раз- личия — они являются «типизированными массивами», ограниченными единственным типом данных.

Из-за этого ограничения объекты array.array со многими элементами более пространственно эффективны, чем списки и кортежи. Хранящиеся в них элементы плотно упакованы, и это может быть полезно, если вам нужно хранить много элементов одного и того же типа.

Кроме того, массивы поддерживают многие из тех же методов, что и у обычных списков, и вы можете их использовать в качестве «прямой за- мены» без необходимости вносить в свой код другие изменения.

In [52]:
import array

In [53]:
arr = array.array('f', (1.0, 1.5, 2.0, 2.5))

In [54]:
arr[1]

1.5

In [55]:
# Массивы имеют хороший метод repr:
arr

array('f', [1.0, 1.5, 2.0, 2.5])

In [56]:
# Массивы могут изменяться:
arr[1] = 23.0

In [57]:
del arr[1]

In [58]:
arr

array('f', [1.0, 2.0, 2.5])

In [59]:
arr.append(42.0)

In [60]:
arr

array('f', [1.0, 2.0, 2.5, 42.0])

In [61]:
# Массивы — это "типизированные" структуры данных:
arr[1] = 'привет'

TypeError: must be real number, not str

### str — неизменяемые массивы символов Юникода

В Python 3.x объекты строкового типа str используются для хранения текстовых данных в виде неизменяемых последовательностей символов Юникода1. В сущности, это означает, что тип str представляет собой неизменяемый массив символов. Как это ни странно, но тип str также является рекурсивной структурой данных: каждый символ в строке сам является объектом str длиной, равной 1.

Строковые объекты пространственно эффективны, потому что они плотно упакованы и специализируются на одном-единственном типе данных. Если вы храните текст в кодировке Юникод, то лучше использовать этот тип данных. Поскольку строки в Python не могут изменяться, модифи- кация строкового значения требует создания модифицированной копии. Самым близким эквивалентом «изменяющейся последовательности символов» будет список, в котором символы хранятся по отдельности.

In [62]:
arr = 'abcd'

In [63]:
arr[1]

'b'

In [64]:
arr

'abcd'

In [65]:
# Строки неизменяемы:
arr[1] = 'e'

TypeError: 'str' object does not support item assignment

In [66]:
del arr[1]

TypeError: 'str' object doesn't support item deletion

In [67]:
# Строки могут быть распакованы в список, в результате чего # они получают изменяемое представление:
list('abcd')

['a', 'b', 'c', 'd']

In [68]:
''.join(list('abcd'))

'abcd'

In [69]:
# Строки — это рекурсивные структуры данных:
type('abc')

str

In [70]:
type('abc'[0])

str

### bytes — неизменяемые массивы одиночных байтов

Объекты bytes представляют собой неизменяемые последовательности одиночных байтов (целых чисел в диапазоне 0 ≤ x ≤ 255)1. В концептуаль- ном плане они подобны объектам str и их также можно представить как неизменяемые массивы байтов.

Аналогично строковому типу, тип bytes имеет свой собственный лите- ральный синтаксис, предназначенный для создания объектов, и объекты этого типа пространственно эффективны. Объекты bytes не могут изме- няться, но, в отличие от строковых объектов, для «изменяемых массивов байтов» есть специальный тип данных, который называется bytearray, или байтовый массив, в который они могут быть распакованы. Вы узнаете о нем подробнее в следующем подразделе.

In [71]:
arr = bytes((0, 1, 2, 3))
arr[1]

1

In [72]:
# Байтовые литералы имеют свой собственный синтаксис:
arr

b'\x00\x01\x02\x03'

In [73]:
# Разрешены только допустимые "байты":
bytes((0, 300))

ValueError: bytes must be in range(0, 256)

In [74]:
# Байты неизменяемы:
arr[1] = 23

TypeError: 'bytes' object does not support item assignment

In [75]:
del arr[1]

TypeError: 'bytes' object doesn't support item deletion

### bytearray — изменяемые массивы одиночных байтов

Тип bytearray представляет собой изменяемую последовательность целых чисел в диапазоне 0 ≤ x ≤ 2551. Они тесно связаны с объектами bytes, при этом главное их отличие в том, что объекты bytearray можно свободно изменять — вы можете переписывать элементы, удалять существующие элементы или добавлять новые. Объект bytearray будет соответствующим образом расти и сжиматься.

Объекты bytearray могут быть преобразованы обратно в неизменяе- мые объекты bytes, но это влечет за собой копирование абсолютно всех хранящихся в них данных — весьма медленная операция, занимающая O(n) времени.

In [76]:
arr = bytearray((0, 1, 2, 3))
arr[1]

1

In [77]:
# Метод repr для bytearray:
arr

bytearray(b'\x00\x01\x02\x03')

In [78]:
# Байтовые массивы bytearray изменяемы:
arr[1] = 23
arr

bytearray(b'\x00\x17\x02\x03')

In [79]:
arr[1]

23

In [80]:
# Байтовые массивы bytearray могут расти и сжиматься в размере:
del arr[1]
arr

bytearray(b'\x00\x02\x03')

In [81]:
arr.append(42)
arr

bytearray(b'\x00\x02\x03*')

In [82]:
# (целые числа в диапазоне 0 <= x <= 255)
arr[1] = 'привет'

TypeError: 'str' object cannot be interpreted as an integer

In [83]:
arr[1] = 300

ValueError: byte must be in range(0, 256)

In [85]:
# Bytearrays может быть преобразован в байтовые объекты: 
# (Это скопирует данные)
bytes(arr)

b'\x00\x02\x03*'

### Ключевые выводы

В том, что касается реализации массивов в Python, вы можете выбирать из широкого круга встроенных структур данных. В этом разделе мы сосре- доточились на ключевых функциональных средствах языка и структурах данных, включенных только в стандартную библиотеку.

Если вы готовы выйти за пределы стандартной библиотеки Python, то сторонние пакеты, такие как NumPy1, предлагают широкий спектр мас- сивоподобных реализаций с большим быстродействием для научных вычислений и науки о данных.

Если ограничиваться массивоподобными структурами данных, включен- ными в Python, то наш выбор сводится к следующему.

Вам нужно хранить произвольные объекты, которые потенциально могут иметь смешанные типы данных? Используйте список или кортеж в зависимости от того, хотите вы иметь неизменяемую структуру данных или нет.

У вас есть числовые (целочисленные или с плавающей точкой) данные и для вас важны плотная упаковка и производительность? Попробуйте array.array и посмотрите, способен ли этот тип делать все, что вам нуж- но. Кроме того, рассмотрите выход за пределы стандартной библиотеки и попробуйте такие пакеты, как NumPy или Pandas2.

У вас есть текстовые данные, представленные символами Юникода?
Используйте встроенный в Python тип str. Если вам нужна «изменяемая последовательность символов», то используйте list как список символов.

Вы хотите хранить нефрагментированный блок байтов? Используйте неизменяемый тип bytes, либо bytearray, если вам нужна изменяемая структура данных.

В большинстве случаев мне нравится начинать с простого списка list. И только потом я конкретизирую используемый тип, если производитель- ность или занимаемое пространство оперативной памяти становятся про- блемой. В большинстве случаев использование массивоподобной струк- туры данных общего назначения, такой как список list, обеспечивает наибольшую скорость разработки и удобство во время программирования.

Для себя я понял, что в самом начале это обычно намного важнее, чем пытаться выжимать последнюю каплю производительности.

### 5 .3 . Записи, структуры и объекты переноса данных

Записи, как и структуры данных, по сравнению с массивами обеспечивают фиксированное количество полей, у каждого из которых может быть имя, а также другой тип.

В этом разделе вы увидите, как реализовывать в Python записи, структуры и «старые добрые объекты данных» с использованием всего лишь встро- енных типов данных и классов из стандартной библиотеки.

Кстати, здесь я использую определение понятия «запись» в широком смысле. Например, я также собираюсь обсудить такие типы, как встроен- ный в Python тип tuple, который может как считаться, так и не считаться записью в строгом смысле этого слова, потому что кортежи не обеспечи- вают именованные поля.

Python предлагает несколько типов данных, которые можно использовать для реализации записей, структур и объектов переноса данных. В этом разделе вы кратко рассмотрите каждую реализацию и ее уникальные характеристики. В конце раздела вы найдете резюме и руководство для при-
нятия решений, которое поможет вам сделать свой собственный выбор. 

Ладно, давайте начнем!

### dict — простые объекты данных

Словари Python хранят произвольное количество объектов, при этом каждый идентифицируется уникальным ключом1. Словари также нередко называются ассоциативными массивами или таблицами соответствий и позволяют производить эффективный поиск, вставку и удаление любого объекта, связанного с заданным ключом.

В Python использование словарей в качестве типа данных запись или объекта данных вполне возможно. Словари в Python легко создаются, поскольку они имеют свой собственный синтаксический сахар, который встроен в язык в форме литералов словаря. Синтаксис словаря краток и довольно удобен для набора на клавиатуре.

Объекты данных, создаваемые с использованием словарей, могут изме- няться, и при этом практически отсутствует защита от опечаток в именах полей, поскольку поля могут свободно добавляться и удаляться в любое время. Оба этих свойства способны добавить поразительные ошибки, и всегда существует компромисс между удобством и устойчивостью к ошибкам, которого нужно достигать.

In [86]:
car1 = {
     'цвет': 'красный',
     'пробег': 3812.4,
     'автомат': True,
}
car2 = {
     'цвет': 'синий',
     'пробег': 40231,
     'автомат': False,
}

In [87]:
# Словари имеют хороший метод repr:
car2

{'цвет': 'синий', 'пробег': 40231, 'автомат': False}

In [88]:
# Получить пробег:
car2['пробег']

40231

In [89]:
# Словари изменяемы:
car2['пробег'] = 12
car2['лобовое стекло'] = 'треснутое'
car2

{'цвет': 'синий',
 'пробег': 12,
 'автомат': False,
 'лобовое стекло': 'треснутое'}

In [90]:
# Отсутствует защита от неправильных имен полей # или отсутствующих/лишних полей:
car3 = {
    'цвет': 'зеленый',
    'автомат': False,
    'лобовое стекло': 'треснутое',
}


### tuple — неизменяемые группы объектов

Кортежи в Python представляют собой простые структуры данных, пред- назначенные для группирования произвольных объектов1. Кортежи не- изменяемы — после их создания их нельзя исправить.

С точки зрения производительности кортежи занимают чуть меньше оперативной памяти, чем списки в Python2, и к тому же быстрее созда- ются.

Как вы видите в приведенном ниже результате дизассемблирования байткода, конструирование кортежной константы занимает всего один код операции LOAD_CONST, в то время как конструирование объекта-списка с одинаковым содержимым требует еще нескольких операций:


In [91]:
import dis

In [92]:
dis.dis(compile("(23, 'a', 'b', 'c')", '', 'eval'))

  1           0 LOAD_CONST               0 ((23, 'a', 'b', 'c'))
              2 RETURN_VALUE


In [93]:
dis.dis(compile("[23, 'a', 'b', 'c']", '', 'eval'))

  1           0 BUILD_LIST               0
              2 LOAD_CONST               0 ((23, 'a', 'b', 'c'))
              4 LIST_EXTEND              1
              6 RETURN_VALUE


Однако вам не стоит особенно налегать на эти различия. На практике разница в производительности часто будет незначительной, и попытка выжать из программы больше эффективности, переключаясь со списков на кортежи, вероятно, будет нерациональной.

Возможным недостатком простых кортежей является то, что данные, которые вы в них храните, извлекаются только путем доступа к корте- жу через целочисленные индексы. У вас не получится назначить имена отдельным хранящимся в кортеже свойствам. А это может сказаться на удобочитаемости исходного кода.

Кроме того, кортеж всегда является ситуативной структурой: трудно гарантировать, что у двух кортежей будет одинаковое количество полей и одинаковые хранящиеся в них свойства.

А это — раздолье для ошибок «по недоразумению», например для раз- ночтений порядка следования полей. Поэтому я рекомендую держать минимальное количество полей в кортеже.

In [94]:
# Поля: цвет, пробег, автомат
car1 = ('красный', 3812.4, True)
car2 = ('синий', 40231.0, False)

In [95]:
# Экземпляры кортежа имеют хороший метод repr:
car1

('красный', 3812.4, True)

In [96]:
car2

('синий', 40231.0, False)

In [97]:
# Получить пробег:
car2[1]

40231.0

In [98]:
# Кортежи неизменяемы:
car2[1] = 12

TypeError: 'tuple' object does not support item assignment

In [99]:
# Нет защиты от неверных имен полей
# или отсутствующих/лишних полей:
car3 = (3431.5, 'зеленый', True, 'серебряный')

### Написание собственного класса — больше работы, больше контроля

Классы позволяют определять «шаблоны» многократного использования для объектов данных, причем эти шаблоны гарантируют, что каждый объ- ект предоставляет одинаковый набор полей.

Использование обычных классов Python в качестве типов данных запись вполне возможно, но это также влечет за собой ручную работу, связанную с получением удобных функциональных возможностей у других реали- заций. Например, добавление новых полей в конструктор __init__ будет многословным и займет время.

Кроме того, принятое по умолчанию строковое представление объек- тов-экземпляров, создаваемых на основе собственных классов, не очень полезно. Чтобы это исправить, вам, вероятно, придется добавить свой собственный метод __repr__1, который, как правило, довольно многосло- вен и подлежит обновлению всякий раз, когда вы добавляете новое поле.

Хранящиеся в классах поля могут изменяться, и новые поля могут до- бавляться свободно, нравится вам это или нет. С помощью декоратора @property можно обеспечить себе большее управление и создавать поля с доступом только для чтения2, но это требует написания большего коли- чества связующего кода.

Написание собственного класса — отличная возможность, когда в объек- ты-записи требуется добавить бизнес-логику и поведение с использовани- ем методов. Однако это означает, что такие объекты технически больше не являются простыми объектами данных.

In [100]:
class Car:
    def __init__(self, color, mileage, automatic):
        self.color = color
        self.mileage = mileage
        self.automatic = automatic

In [101]:
car1 = Car('красный', 3812.4, True)

In [102]:
car2 = Car('синий', 40231.0, False)

In [103]:
# Получить пробег:
car2.mileage

40231.0

In [104]:
# Классы изменяемы:
car2.mileage = 12
car2.windshield = 'треснутое'

In [105]:
# Строковое представление не очень полезно
# (приходится добавлять написанный вручную метод __repr__):
car1

<__main__.Car at 0x7f831a099e20>

### collections .namedtuple — удобные объекты данных

Класс namedtuple, доступный в Python 2.6+, предоставляет расширение встроенного типа данных tuple1. Аналогично определению собственного класса, применение именованного кортежа namedtuple позволяет опре- делять «шаблоны» многократного использования для своих записей, гарантирующие использование правильных имен полей.

Именованные кортежи неизменяемы, как и обычные кортежи. Это означа- ет, что вы не можете добавлять новые поля или изменять существующие поля после того, как экземпляр namedtuple был создан.

Помимо этого, именованные кортежи являются, скажем так, именован- ными кортежами (named tuples). Доступ к каждому хранящемуся в них объекту можно получить по уникальному идентификатору. Это освобож- дает от необходимости запоминать целочисленные индексы или идти обходными методами, например определять индексы целочисленных констант в качестве мнемокодов.

На внутреннем уровне объекты namedtuple реализованы как обычные классы Python. В том, что касается использования оперативной памяти, они тоже «лучше» обычных классов и столь же эффективны с точки зре- ния потребляемой оперативной памяти, что и обычные кортежи:

In [106]:
from collections import namedtuple
from sys import getsizeof

In [107]:
p1 = namedtuple('Point', 'x y z')(1, 2, 3)

In [108]:
p2 = (1, 2, 3)

In [109]:
getsizeof(p1)

64

In [110]:
getsizeof(p2)

64

Именованные кортежи могут довольно просто привести в порядок ис- ходный код и сделать его более удобочитаемым, обеспечив вашим данным более совершенную структуру.

По моему опыту, переход от ситуативных типов данных, таких как словари с фиксированным форматом, к именованным кортежам помогает яснее выражать свои намерения. Нередко, когда я применяю эту рефакториза- цию, каким-то невообразимым образом я прихожу к более совершенному решению проблемы, с которой сталкиваюсь.

Использование именованных кортежей вместо неструктурированных кортежей и словарей может облегчить жизнь и моим коллегам, потому что именованные кортежи позволяют раздавать данные в «самодокумен- тированном» виде (в известной степени).

In [111]:
from collections import namedtuple

In [112]:
Car = namedtuple('Авто' , 'цвет пробег автомат')

In [113]:
car1 = Car('красный', 3812.4, True)

In [114]:
# Экземпляры имеют хороший метод repr:
car1

Авто(цвет='красный', пробег=3812.4, автомат=True)

In [115]:
# Доступ к полям:
car1.пробег

3812.4

In [116]:
# Поля неизменяемы:
car1.пробег = 12

AttributeError: can't set attribute

In [117]:
car1.лобовое_стекло = 'треснутое'

AttributeError: 'Авто' object has no attribute 'лобовое_стекло'

### typing .NamedTuple — усовершенствованные именованные кортежи

Этот класс был добавлен в Python 3.6 и является младшим братом класса namedtuple в модуле collections1. Он очень похож на namedtuple, и его главное отличие состоит в том, что у него есть обновленный синтаксис для определения новых типов записей и добавленная поддержка подсказок при вводе исходного кода.

Кроме того, обратите внимание, что сигнатуры типов не поддерживаются без отдельного инструмента проверки типов, такого как mypy2. Но даже без инструментальной поддержки они могут предоставлять полезные под- сказки для других программистов (или могут быть ужасно запутанными, если подсказки в отношении типов становятся устаревшими).


In [118]:
from typing import NamedTuple

In [119]:
class Car(NamedTuple):
    цвет: str
    пробег: float
    автомат: bool

In [120]:
car1 = Car('красный', 3812.4, True)

In [121]:
# Экземпляры имеют хороший метод repr:
car1

Car(цвет='красный', пробег=3812.4, автомат=True)

In [122]:
# Доступ к полям:
car1.пробег

3812.4

In [123]:
# Поля неизменяемы:
car1.пробег = 12

AttributeError: can't set attribute

In [124]:
car1.лобовое_стекло = 'треснутое'

AttributeError: 'Car' object has no attribute 'лобовое_стекло'

In [125]:
# Аннотации типа не поддерживаются без отдельного
# инструмента проверки типов, такого как mypy:
Car('красный', 'НЕВЕЩЕСТВЕННЫЙ', 99)

Car(цвет='красный', пробег='НЕВЕЩЕСТВЕННЫЙ', автомат=99)

### struct .Struct — сериализованные С-структуры

Класс struct.Struct1 выполняет преобразование между значениями Python и структурами C, сериализованными в форму объектов Python bytes. Например, он может использоваться для обработки двоичных данных, хранящихся в файлах или поступающих из сетевых соединений.

Структуры Struct определяются с использованием форматного строко- подобного мини-языка, который позволяет определять расположение различных типов данных C, таких как char, int и long, а также их без- знаковых вариантов.

Сериализованные структуры редко используются для представления объ- ектов данных, предназначенных для обработки исключительно внутри кода Python. Они нужны в первую очередь в качестве формата обмена данными, а не как способ их хранения в оперативной памяти, применяе- мый только программным кодом Python.

В некоторых случаях упаковка примитивных данных в структуры по- зволяет уменьшить объем потребляемой оперативной памяти, чем их хранение в других типах данных. Однако чаще всего такая работа будет
довольно продвинутой (и, вероятно, ненужной) оптимизацией.


In [126]:
from struct import Struct

In [127]:
MyStruct = Struct('i?f')

In [128]:
data = MyStruct.pack(23, False, 42.0)

In [129]:
# Вы получаете двоичный объект данных (blob):
data

b'\x17\x00\x00\x00\x00\x00\x00\x00\x00\x00(B'

In [130]:
# BLOB-объекты можно снова распаковать:
MyStruct.unpack(data)

(23, False, 42.0)

### types .SimpleNamespace — причудливый атрибутивный доступ

А вот еще один «эзотерический» вариант реализации объектов данных в Python: types.SimpleNamespace1. Этот класс был добавлен в Python 3.3, и он обеспечивает атрибутивный доступ к своему пространству имен.

Это означает, что экземпляры SimpleNamespace показывают все свои клю- чи как атрибуты класса. А значит, вы можете использовать «точечный» атрибутивный доступ объект.ключ вместо синтаксиса с индексацией в квадратных скобках объект['ключ'], который применяется обычными словарями. Все экземпляры также по умолчанию включают содержатель- ный метод __repr__.

Как видно из его названия, тип SimpleNamespace прост в использовании! Это, в сущности, прославленный словарь, который предоставляет доступ по атрибуту и выдает приличную распечатку. Атрибуты могут свободно добавляться, изменяться и удаляться.

In [131]:
from types import SimpleNamespace

In [132]:
car1 = SimpleNamespace(цвет='красный',
                       пробег=3812.4,
                       автомат=True)

In [133]:
# Метод repr по умолчанию:
car1

namespace(цвет='красный', пробег=3812.4, автомат=True)

In [134]:
# Экземпляры поддерживают атрибутивный доступ и могут изменяться:
car1.пробег = 12

In [135]:
car1.лобовое_стекло = 'треснутое'

In [136]:
del car1.автомат

In [137]:
car1

namespace(цвет='красный', пробег=12, лобовое_стекло='треснутое')

### Ключевые выводы

Итак, какой же тип следует использовать для объектов данных в Python? Как вы убедились, есть целый ряд различных вариантов для реализации записей или объектов данных. Как правило, ваше решение будет зависеть от вашего сценария использования:

У вас есть всего несколько (2–3) полей: использование обыкновенного объекта-кортежа может подойти, если порядок следования полей легко запоминается или имена полей излишни. Например, представьте точку (x, y, z) в трехмерном пространстве.

Вам нужны неизменяемые поля: в данном случае обыкновенные кортежи, collections.namedtuple и typing.NamedTuple, дадут неплохие возмож- ности для реализации этого типа объекта данных.

Вам нужно устранить имена полей, чтобы избежать опечаток: вашими друзьями здесь будут collections.namedtuple и typing.NamedTuple.

Вы не хотите усложнять: обыкновенный объект-словарь может быть хорошим вариантом из-за удобного синтаксиса, который сильно напо- минает JSON.

Вам нужен полный контроль над вашей структурой данных: самое время написать собственный класс с методами-модификаторами (сеттерами) и методами-получателями (геттерами) @property.

Вам нужно добавить в объект поведение (методы): вам следует на- писать собственный класс с нуля либо путем расширения collections. namedtuple или typing.NamedTuple.

Вам нужно плотно упаковать данные, чтобы сериализовать их для записи на жесткий диск или отправить их по Сети: самое время навести справки по поводу struct.Struct, потому что этот объект представляет собой превосходный вариант использования.

Если вы ищете безопасный вариант, который можно использовать по умолчанию, то моя общая рекомендация в отношении реализации про- стой записи, структуры или объекта данных в Python будет следующей: использовать collections.namedtuple в Python 2.x и его младшего брата, typing.NamedTuple, в Python 3.

### 5 .4 . Множества и мультимножества

В этом разделе вы увидите, как в Python реализуются такие структуры данных, как изменяемое и неизменяемое множество и мультимножество (или тип bag, то есть мешок), с использованием встроенных типов данных и классов стандартной библиотеки. Однако сначала давайте составим краткое резюме по поводу того, что такое множество.

Множество представляет собой неупорядоченную коллекцию объектов, которая не допускает повторяющихся элементов. Как правило, множе- ства используются для быстрой проверки принадлежности значения множеству, вставки новых значений в множество, удаления значений из множества и вычисления на множествах операций, таких как объединение или пересечение двух множеств.

Предполагается, что в «надлежащей» реализации множества операции проверки на принадлежность будут выполняться за быстрое O(1) время. Операции объединения, пересечения, разности и взятия подмножеств должны в среднем занимать O(n) времени. В реализациях множества, включенных в стандартную библиотеку Python, данные характеристики производительности соблюдаются1.

Точно так же, как и словари, множества в Python обрабатываются особым образом и имеют свой синтаксический сахар, упрощающий их создание. Например, синтаксис выражения с фигурными скобками для множеств и конструкция включения в множество позволяют удобно определять новые экземпляры множеств:

vowels = {'a', 'e', 'i', 'o', 'u'}
squares = {x * x for x in range(10)}

Тем не менее следует быть осторожными: для того чтобы создать пу- стое множество, вам нужно вызвать конструктор set(). Использование фигурных скобок {} неоднозначно и вместо этого создаст пустой сло- варь.
Python и его стандартная библиотека предоставляют несколько реализа- ций множества. Давайте их рассмотрим.

### set — ваше дежурное множество

Это встроенная в Python реализация множества1. Тип set изменяемый и допускает динамическую вставку и удаление элементов.

Множества Python set подкрепляются типом данных dict и обладают одинаковыми характеристиками производительности. Любой хешируе- мый объект может храниться в множестве set2.

In [138]:
vowels = {'а', 'о', 'э', 'и', 'у', 'ы', 'е', 'е', 'ю', 'я'}

In [139]:
'э' in vowels

True

In [140]:
letters = set('алиса')

In [141]:
letters.intersection(vowels)

{'а', 'и'}

In [142]:
vowels.add('х')

In [143]:
vowels

{'а', 'е', 'и', 'о', 'у', 'х', 'ы', 'э', 'ю', 'я'}

In [144]:
len(vowels)

10

### frozenset — неизменяемые множества

Класс frozenset реализует неизменяемую версию множества set. Такое множество не может быть изменено после того, как оно было сконстру- ировано1. Множества frozenset статичны и допускают только операции с запросами в отношении своих элементов (никаких вставок или удале- ний). Поскольку множества frozenset статичны и хешируемы, они могут использоваться в качестве ключей словаря или в качестве элементов другого множества, а это то, что невозможно с обычными (изменяемыми) объектами-множествами set.


In [145]:
vowels = frozenset({'а', 'о', 'э', 'и', 'у', 'ы', 'е', 'е', 'ю','я'})
vowels.add('р')

AttributeError: 'frozenset' object has no attribute 'add'

In [146]:
# Множества frozenset хешируемы и могут
# использоваться в качестве ключей словаря:
d = { frozenset({1, 2, 3}): 'привет' }

In [147]:
d[frozenset({1, 2, 3})]

'привет'

### collections .Counter — мультимножества

Класс collections.Counter стандартной библиотеки Python реализует тип «мультимножество» (или «мешок»), который допускает неоднократ- ное появление элемента в множестве2.

Это бывает полезно, если вам нужно вести учет не только того, при- надлежит ли элемент множеству, но и того, сколько раз он был включен в множество:

In [148]:
from collections import Counter

In [149]:
inventory = Counter()

In [150]:
loot = {'клинок': 1, 'хлеб': 3}

In [151]:
inventory.update(loot)

In [152]:
inventory

Counter({'клинок': 1, 'хлеб': 3})

In [153]:
more_loot = {'клинок': 1, 'яблоко': 1}

In [154]:
inventory.update(more_loot)

In [155]:
inventory

Counter({'клинок': 2, 'хлеб': 3, 'яблоко': 1})

Приведу одно предостережение относительно класса Counter: следует со- блюдать осторожность во время подсчета количества элементов в объекте Counter. В результате вызова функции len() возвращается количество уникальных элементов в мультимножестве, тогда как общее количество элементов может быть получено с использованием функции sum:


In [156]:
# Количество уникальных элементов
len(inventory)

3

In [158]:
# Общее количество элементов
sum(inventory.values())

6

### Ключевые выводы
* Множество является еще одной полезной и широко используемой структурой данных, включенной в Python и ее стандартную библио- теку.
* Используйте встроенный тип set, когда вы хотите получить изменя- емое множество.
* Объекты frozenset хешируемы и могут использоваться в качестве словаря или ключей множества.
* Класс collections.Counter реализует структуры данных «мультимно- жество», или «мешок».

### 5 .5 . Стеки (с дисциплиной доступа LIFO)

Стек представляет собой коллекцию объектов, которая поддерживает бы- струю семантику доступа «последним пришел — первым ушел» (LIFO — last in, first out) для вставок и удалений. В отличие от списков или множеств, стеки, как правило, не допускают произвольного доступа к объектам, которые они содержат. Операции вставки и удаления также нередко на- зываются вталкиванием (push) и выталкиванием (pop).

Полезной аналогией для стековой структуры данных из реального мира является стопка тарелок:

Новые тарелки добавляются на вершину стопки . И поскольку тарелки дорогие и тяжелые, можно взять только самую верхнюю тарелку (метод «последним пришел — первым ушел») . Чтобы добраться до тарелок, которые находятся внизу стопки, необходимо поочередно удалить все тарелки, которые находятся выше .

Стеки и очереди похожи. Обе эти структуры данных являются линей- ными коллекциями элементов, и разница между ними состоит в порядке доступа к элементам.

В случае с очередью вы удаляете элемент, который был добавлен в нее раньше всех (метод «первым пришел — первым ушел», или FIFO); однако в случае со стеком вы удаляете элемент, который был добавлен в него позже всех (метод «последним пришел — первым ушел», или LIFO).

С точки зрения производительности предполагается, что надлежащая реализация стека будет занимать O(1) времени на операции вставки и удаления.

Стеки находят широкое применение в алгоритмах, например в синтакси- ческом анализе языка и управлении рабочей памятью времени исполне- ния («стек вызовов»). Короткий и красивый алгоритм с использованием стека представлен поиском в глубину (DFS) на древовидной или графо- вой структуре данных.

Python поставляется с несколькими реализациями стека, каждая из которых имеет слегка отличающиеся характеристики. Сейчас мы их рас- смотрим и сравним их характеристики.

### list — простые встроенные стеки

Встроенный в Python тип list создает нормальную стековую структуру данных, поскольку он поддерживает операции вталкивания и выталкива- ния за амортизируемое O(1) время1.

На внутреннем уровне списки Python реализованы как динамические массивы, а значит, при добавлении или удалении элементов им время от времени нужно изменять пространство оперативной памяти для храня- щихся в них элементов. Список выделяет избыточную резервную память, с тем чтобы не каждая операция вталкивания и выталкивания требовала изменения размера памяти, и, как результат, для этих операций вы полу- чаете амортизируемую временную сложность O(1).

Недостаток же состоит в том, что это делает показатели их производитель- ности менее надежными, чем стабильные вставки и удаления с временной сложностью O(1), которые обеспечиваются реализацией на основе связ- ного списка (такого, как collections.deque, см. ниже). С другой стороны, списки реально обеспечивают быстрый (со временем O(1)) произвольный доступ к элементам в стеке, и это может быть дополнительным преиму- ществом.

Используя списки в качестве стеков, необходимо учитывать одно важное предостережение относительно производительности.

Чтобы получить производительность с амортизируемым временем O(1) для вставок и удалений, новые элементы должны добавляться в конец списка методом append() и снова удалятся из конца методом pop(). Для оптимальной производительности стеки на основе списков Python долж- ны расти по направлению к более высоким индексам и сжиматься к более низким.

Добавление и удаление элементов в начале списка намного медленнее и занимает O(n) времени, поскольку существующие элементы должны сдвигаться, чтобы создать место для нового элемента. Такого антишаблона производительности следует избегать.

In [159]:
s = []

In [160]:
s.append('есть')

In [161]:
s.append('спать')

In [162]:
s.append('программировать')

In [163]:
s

['есть', 'спать', 'программировать']

In [164]:
s.pop()

'программировать'

In [165]:
s.pop()

'спать'

In [166]:
s.pop()

'есть'

In [167]:
s.pop()

IndexError: pop from empty list

### collections .deque — быстрые и надежные стеки

Класс deque реализует очередь с двусторонним доступом, которая под- держивает добавление и удаление элементов с любого конца за O(1) (неамортизируемое) время. Поскольку двусторонние очереди одинаково хорошо поддерживают добавление и удаление элементов с любого конца, они могут служить и в качестве очередей, и в качестве стеков1.

Объекты Python deque реализованы как двунаправленные связные спи- ски, что дает им стабильную производительность для операций вставки и удаления элементов, но при этом плохую O(n) производительность для произвольного доступа к элементам в середине очереди2.

В целом двусторонняя очередь collections.deque – отличный выбор, если вы ищете стековую структуру данных в стандартной библиотеке Python, которая обладает характеристиками производительности, ана- логичными реализации на основе связного списка.


In [168]:
from collections import deque

In [169]:
s = deque()

In [170]:
s.append('есть')

In [171]:
s.append('спать')

In [172]:
s.append('программировать')

In [173]:
s

deque(['есть', 'спать', 'программировать'])

In [174]:
s.pop()

'программировать'

In [175]:
s.pop()

'спать'

In [176]:
s.pop()

'есть'

In [177]:
s.pop()

IndexError: pop from an empty deque

### deque .LifoQueue — семантика блокирования для параллельных вычислений

Данная реализация стека в стандартной библиотеке Python синхрони- зирована и обеспечивает семантику блокирования с целью поддержки многочисленных параллельных производителей и потребителей1.

Помимо LifoQueue, модуль queue содержит несколько других классов, которые реализуют очереди с мультипроизводителями/мультипотреби- телями, широко используемые в параллельных вычислениях.

В зависимости от вашего варианта использования семантика блокирова- ния может оказаться полезной, а может накладывать ненужные издержки. В этом случае в качестве стека общего назначения лучше всего использо- вать список list или двустороннюю очередь deque.

In [178]:
from queue import LifoQueue

In [179]:
s = LifoQueue()

In [180]:
s.put('есть')

In [181]:
s.put('спать')

In [182]:
s.put('программировать')

In [183]:
s

<queue.LifoQueue at 0x7f831d6171f0>

In [184]:
s.get()

'программировать'

In [185]:
s.get()

'спать'

In [186]:
s.get()

'есть'

In [187]:
s.get_nowait()

Empty: 

In [189]:
# Блокирует / ожидает бесконечно...
s.get()

KeyboardInterrupt: 

### Сравнение реализаций стека в Python

Как вы убедились, Python поставляется с несколькими реализациями стековой структуры данных. Все они обладают слегка различающимися характеристиками, а также компромиссным соотношением производи- тельности и применения.

Если вам не нужна поддержка параллельной обработки (или вы не хотите обрабатывать блокировку и снятие блокировки вручную), то ваш выбор сводится к встроенному типу list или collections.deque. Разница лежит в используемой за кадром структуре данных и общей простоте использо- вания:
* Список list поддерживается динамическим массивом, который делает его отличным выбором для быстрого произвольного доступа, но при этом требует нерегулярного изменения размеров во время добавления или удаления элементов. Список выделяет излишнюю резервную память, чтобы не каждая операция вталкивания и выталкивания тре- бовала изменения размеров, и для этих операций вы получаете амор-тизируемую временную сложность O(1). Однако вам следует быть внимательными и стараться выполнять вставку и удаление элементов «с правильной стороны», используя методы append() и pop(). В про- тивном случае производительность замедлится до O(n).
* Двусторонняя очередь collections.deque поддерживается двунаправ- ленным связным списком, который оптимизирует добавления и уда- ления с обоих концов и обеспечивает для этих операций стабильную производительность O(1). Производительность класса deque не только стабильнее, но его также легче использовать, потому что вам не при- ходится переживать по поводу добавления или удаления элементов «не с того конца».

Резюмируя, я полагаю, что двусторонняя очередь collections.deque представляет собой отличный вариант для реализации стека (очереди LIFO) на Python.

### Ключевые выводы
* Python поставляется с несколькими реализациями стека, которые обладают слегка различающимися характеристиками производитель- ности и особенностями использования.
* Двусторонняя очередь collections.deque обеспечивает безопасную и быструю реализацию стека общего пользования.
* Встроенный тип list может применяться в качестве стека, но следует соблюдать осторожность и добавлять и удалять элементы только при помощи методов append() и pop(), чтобы избежать замедления произ- водительности.

### 5 .6 . Очереди (с дисциплиной доступа FIFO)

В этом разделе вы увидите, как реализовывать очередь, то есть структуру данных с дисциплиной доступа FIFO, используя только встроенные типы данных и классы из стандартной библиотеки Python. Но сначала давайте вкратце повторим, что такое очередь.

Очередь представляет собой коллекцию объектов, которая поддерживает быструю семантику доступа «первым пришел — первым ушел» (FIFO — first in, first out) для вставок и удалений. Операции вставки и удаления иногда называются поставить в очередь (enqueue) и убрать из очереди (dequeue). В отличие от списков или множеств, очереди, как правило, не допускают произвольного доступа к объектам, которые они содержат.

Ниже приведена аналогия для очереди с дисциплиной доступа «первым пришел — первым ушел» из реального мира:

Представьте очередь разработчиков-питонистов, ожидающих получе- ния значка участника конференции в день регистрации на PyCon . По мере прибытия новых участников к месту проведения конференции они выстраиваются в очередь, «становясь в ее конец», чтобы получить свои значки . Удаление (обслуживание) происходит в начале очереди, когда разработчики получают свои значки и пакет с материалами и подарками конференции и покидают очередь .

Еще один способ запомнить особенности структуры данных очередь со- стоит в том, чтобы представить ее как конвейер:

Новые элементы (молекулы воды, теннисные мячи, ...) вставляются в одном конце и проходят в другой, где вы или кто-то другой их все время удаляете . Когда элементы находятся в очереди (в твердой ме- таллической трубе), вы не можете до них добраться . Единственный спо- соб взаимодействия с элементами из очереди заключается в том, чтобы добавлять новые элементы в конец (ставить в очередь) или удалять элементы из начала конвейера (убирать из очереди) .

Очереди похожи на стеки, и разница между ними в том, как удаляются элементы.

В случае с очередью вы удаляете элемент, который был добавлен в нее раньше всех (принцип «первым пришел — первым ушел», или FIFO); одна- ко в случае со стеком вы удаляете элемент, который был добавлен в него позже всех (принцип «последним пришел — первым ушел», или LIFO).

С точки зрения производительности предполагается, что надлежащая реализация очереди будет занимать O(1) времени на операции вставки и удаления. Эти две выполняемые с очередью операции являются главными, и при правильной реализации они обеспечивают высокое быстро-
действие.

Очереди находят широкое применение в алгоритмах и нередко помогают решать задачи планирования и параллельного программирования. Корот- кий и красивый алгоритм с использованием очереди представлен поис- ком в ширину (breadth-first search, BFS) на древовидной или графовой структуре данных.

В алгоритмах планирования выполнения задач во внутреннем представ- лении нередко используются очереди с приоритетом. Они представля- ют собой специализированные очереди: вместо получения следующего элемента по времени вставки очередь с приоритетом получает элемент с самым высоким приоритетом. Приоритет отдельных элементов опреде- ляется очередью, основанной на примененном к их ключам упорядочении. В следующем разделе мы обратимся к очередям с приоритетом и рассмо- трим ближе, как они реализуются в Python.

Однако в обычной очереди содержащиеся в ней элементы не переупоря- дочиваются. Точно так же, как и в примере с конвейером, «вы получите только то, что вы вставили», и именно в таком порядке.

Python поставляется с несколькими реализациями очереди, каждая из ко- торых обладает несколько различающимися характеристиками. Давайте их рассмотрим.

### list — ужасно меееедленная очередь

В качестве очереди можно использовать обычный список, но с точки зрения производительности такое решение не идеально1. Списки для этой цели довольно медленные, потому что вставка в начало очереди или удаление элемента влекут за собой сдвиг всех других элементов на одну позицию, требуя O(n) времени.

Поэтому я не рекомендую использовать список в качестве импровизиро- ванной очереди в Python (если только вы не имеете дело с небольшим количеством элементов).

In [190]:
q = []

In [191]:
q.append('есть')

In [192]:
q.append('спать')

In [193]:
q.append('программировать')

In [194]:
q

['есть', 'спать', 'программировать']

In [195]:
# Осторожно: это очень медленная операция!
q.pop(0)

'есть'

### collections .deque — быстрые и надежные очереди

Класс deque реализует очередь с двусторонним доступом, которая под- держивает добавление и удаление элементов с любого конца за O(1) (неамортизируемое) время. Поскольку двусторонние очереди одинаково хорошо поддерживают добавление и удаление элементов с любого конца, они могут служить в качестве очередей и в качестве стеков1.

Объекты Python deque реализованы как двунаправленные связные списки (doubly-linked lists)2. Это придает им превосходную и стабильную произ- водительность для операций вставки и удаления элементов, но при этом плохую O(n) производительность для произвольного доступа к элементам в середине очереди.

Как результат, двусторонняя очередь collections.deque будет хорошим выбором, если вы ищете структуру данных очередь в стандартной библио- теке Python.

In [196]:
from collections import deque

In [197]:
q = deque()

In [198]:
q.append('есть')

In [199]:
q.append('спать')

In [200]:
q.append('программировать')

In [201]:
q

deque(['есть', 'спать', 'программировать'])

In [202]:
q.popleft()

'есть'

In [203]:
q.popleft()

'спать'

In [204]:
q.popleft()

'программировать'

In [205]:
q.popleft()

IndexError: pop from an empty deque

### queue .Queue — семантика блокирования для параллельных вычислений

Данная реализация очереди в стандартной библиотеке Python синхро- низирована и обеспечивает семантику блокирования с целью поддержки многочисленных параллельных производителей и потребителей1.

Модуль queue содержит несколько других классов, которые реализуют очереди с мультипроизводителями/мультипотребителями, которые ши- роко используются в параллельных вычислениях.

В зависимости от вашего варианта использования семантика блокирова- ния может оказаться полезной, а может накладывать ненужные издержки. В этом случае в качестве очереди общего назначения лучше всего исполь- зовать двустороннюю очередь collections.deque.

In [206]:
from queue import Queue

In [207]:
q = Queue()
q.put('есть')
q.put('спать')
q.put('программировать')

In [208]:
q

<queue.Queue at 0x7f831d619250>

In [209]:
q.get()

'есть'

In [210]:
q.get()

'спать'

In [211]:
q.get()

'программировать'

In [213]:
q.get_nowait()

Empty: 

In [214]:
# Блокирует / ожидает бесконечно...
# q.get()

### multiprocessing .Queue — очереди совместных заданий

Такая реализация очереди совместных заданий позволяет выполнять па- раллельную обработку находящихся в очереди элементов многочисленны- ми параллельными рабочими процессами1. Процессно-ориентированное распараллеливание популярно в Python из-за глобальной блокировки интерпретатора (GIL), которая препятствует некоторым формам парал- лельного исполнения в единственном процессе интерпретатора.

В качестве специализированной реализации очереди, предназначенной для обмена данными между процессами, очередь multiprocessing.Queue упрощает распределение работы по многочисленным процессам с целью преодоления ограничений GIL. Этот тип очереди может хранить и пере- давать любой консервируемый (модулем pickle) объект через границы процессов.

In [215]:
from multiprocessing import Queue

In [216]:
q = Queue()
q.put('есть')
q.put('спать')
q.put('программировать')

In [217]:
q

<multiprocessing.queues.Queue at 0x7f831d61d790>

In [218]:
q.get()

'есть'

In [219]:
q.get()

'спать'

In [220]:
q.get()

'программировать'

In [222]:
# Блокирует / ожидает бесконечно...
# q.get()

### Ключевые выводы

* Python содержит несколько реализаций очередей в качестве составной части ядра языка и его стандартной библиотеки.
* Объекты-списки list могут использоваться в качестве очередей, но это обычно не рекомендуется делать из-за низкой производитель- ности.
* Если вы не ищете поддержку параллельной обработки, то реализация, предлагаемая очередью collections.deque, является превосходным вариантом по умолчанию для реализации в Python структуры данных с дисциплиной доступа FIFO, то есть очереди. Она обеспечивает ха- рактеристики производительности, которые можно ожидать от хоро- шей реализации очереди, а также может применяться в качестве стека (очереди с дисциплиной доступа LIFO).

### 5 .7 . Очереди с приоритетом

Очередь с приоритетом представляет собой контейнерную структуру дан- ных, которая управляет набором записей с полностью упорядоченными ключами1 (например, числовым значением веса) с целью обеспечения бы-
строго доступа к записи с наименьшим или наибольшим ключом в наборе.

Очередь с приоритетом можно представить как видоизмененную очередь: вместо получения следующего элемента по времени вставки она получает элемент с самым высоким приоритетом. Приоритет отдельных элементов определяется примененным к их ключам упорядочением.

Очереди с приоритетом широко используются для решения задач пла- нирования, например предоставления предпочтений задачам с более высокой актуальностью.

Представьте работу планировщика задач операционной системы:

В идеальном случае высокоприоритетные задачи в системе (например, игра в компьютерную игру в реальном времени) должны иметь пред- почтение перед задачами с более низким приоритетом (например, ска- чивание обновлений в фоновом режиме) . Организовывая предстоящие задачи в очередь с приоритетом, которая использует актуальность за- дачи в качестве ключа, планировщик задач может быстро выбирать за- дачи с самым высоким приоритетом и давать им выполняться в первую очередь .

В этом разделе вы увидите несколько вариантов реализации очередей с приоритетом в Python с помощью встроенных структур данных либо структур данных, которые поставляются вместе со стандартной библио- текой Python. Каждая реализация будет иметь свои собственные преиму- щества и недостатки, но, по моему мнению, в каждом распространенном сценарии есть свой победитель. Давайте узнаем, что лучше.

### list — поддержание сортируемой очереди вручную

Вы можете использовать сортированный список list, который позволяет быстро идентифицировать и удалять наименьший или наибольший эле- мент. Недостатком является то, что вставка новых элементов в список является медленной O(n) операцией.

Несмотря на то что точка вставки может быть найдена за O(log n) время с помощью алгоритма bisect.insort1 стандартной библиотеки, это реше- ние всегда находится во власти медленного шага вставки.

Поддержание упорядоченности путем добавления в конец списка и пере- сортировки также занимает минимум O(n log n) времени. Еще один недо- статок — вам придется вручную заботиться о пересортировке списка во время вставки новых элементов. Пропустив этот шаг, можно легко внести ошибки, и ответственность за них всегда будет на вас как на разработчике.

Поэтому я убежден, что сортированные списки подходят как очереди с приоритетом только в тех случаях, когда вставок немного.

In [223]:
q = []

In [224]:
q.append((2, 'программировать'))
q.append((1, 'есть'))
q.append((3, 'спать'))


In [226]:
# ПРИМЕЧАНИЕ: Не забудьте выполнить пересортировку всякий раз,
#             когда добавляется новый элемент, либо используйте
# bisect.insort(). 
q.sort(reverse=True)

In [227]:
while q:
    next_item = q.pop()
    print(next_item)

(1, 'есть')
(2, 'программировать')
(3, 'спать')


### heapq — двоичные кучи на основе списка

Данная реализация двоичной кучи обычно подкрепляется обыкновенным списком, и она поддерживает вставку и извлечение наименьшего элемента за O(log n) время2.

Этот модуль — хороший выбор для реализации очередей с приоритетом в Python. Поскольку двоичная куча heapq технически обеспечивает толь- ко реализацию min-heap (то есть кучи, где значение в любой вершине не больше, чем значения ее потомков), должны быть предприняты допол- нительные шаги, которые обеспечат стабильность сортировки и другие функциональные возможности, которые, как правило, ожидают от «прак- тической версии» очереди с приоритетом1.

In [228]:
import heapq

In [229]:
q = []

In [230]:
heapq.heappush(q, (2, 'программировать'))
heapq.heappush(q, (1, 'есть'))
heapq.heappush(q, (3, 'спать'))

In [231]:
while q:
    next_item = heapq.heappop(q)
    print(next_item)

(1, 'есть')
(2, 'программировать')
(3, 'спать')


### queue .PriorityQueue — красивые очереди с приоритетом

Данная реализация очереди с приоритетом во внутреннем представлении использует двоичную кучу heapq и имеет одинаковую временную и про- странственную вычислительную сложность2.

Разница состоит в том, что очередь с приоритетом PriorityQueue синхро- низирована и обеспечивает семантику блокирования с целью поддержки многочисленных параллельных производителей и потребителей.

В зависимости от вашего варианта использования она либо станет по- лезной, либо слегка замедлит вашу программу. В любом случае вы можете предпочесть интерфейс на основе класса, предлагаемый классом PriorityQueue, использованию интерфейса на основе функций, предла- гаемого модулем heapq.


In [232]:
from queue import PriorityQueue

In [233]:
q = PriorityQueue()

In [234]:
q.put((2, 'программировать'))
q.put((1, 'есть'))
q.put((3, 'спать'))

In [235]:
while not q.empty():
     next_item = q.get()
     print(next_item)

(1, 'есть')
(2, 'программировать')
(3, 'спать')


### Ключевые выводы
* Python содержит несколько реализаций очередей с приоритетом, ко- торые вы можете использовать в своих программах.
* Реализация queue.PriorityQueue выбивается из общего ряда, отлича- ясь хорошим объектно-ориентированным интерфейсом и именем, ко- торое четко указывает на ее направленность. Такая реализация должна быть предпочтительным вариантом.
* Если требуется избежать издержек, связанных с блокировкой очере- ди queue.PriorityQueue, то непосредственное использование моду- ля heapq также будет хорошим выбором.