## 5. Общие структуры данных Python
### 5.1 Словари, ассоциативные массивы и хеш-таблицы
Словари также нередко называют ассоциативными массивами, ассоциативными хэш-таблицами, поисковыми таблицами и таблицами преобразования. Они допускают эффективный поиск, вставку и удаление любого объекта, связанного с заданным ключом

#### dict - ваш дежурный словарь
Словари индексируются ключами, у которых может быть любой хешируемый тип: хешируемый объект имеет хеш-значениеЮ которое не меняется в течение его жизни ```__hash__``` и его можно сравнивать с другими объектами ```__eq__```. В качестве ключей словаря можно использовать строковые значения и числа, а также объекты-кортежи если их содержэимое тоже хешируется

In [1]:
phonebook = {
    'Bob': 7387,
    'Elis': 3719,
    'Jack': 7052,
}

squares = {x: x * x for x in range(6)}

print(phonebook['Bob'])
print(squares)

7387
{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25}


#### collections.OrderedDict - помнят порядок вставки ключей

In [2]:
import collections
d = collections.OrderedDict(one = 1, two = 2, three = 3)
print(d)

d['четыре'] = 4
print(d)

print(d.keys())

OrderedDict({'one': 1, 'two': 2, 'three': 3})
OrderedDict({'one': 1, 'two': 2, 'three': 3, 'четыре': 4})
odict_keys(['one', 'two', 'three', 'четыре'])


#### collections.defaultdict - возвращает значения, заданные по умолчанию для отсуствующих ключей

In [3]:
from collections import defaultdict
dd = defaultdict(list) # list - значение по умолчанию
dd['собаки'].append('Руфус')
dd['собаки'].append('Кэтрин')
dd['собаки'].append('Сниф')
print(dd['собаки'])

['Руфус', 'Кэтрин', 'Сниф']


#### collections.ChainMap - производит поиск в многочисленных словарях как в одной таблице соответствия

In [4]:
from collections import ChainMap
dict1 = {'один': 1, 'два': 2}
dict2 = {'три': 3, 'четыре': 4}
chain = ChainMap(dict1, dict2)
print(chain)
print(chain['один'])
print(chain['три'])

ChainMap({'один': 1, 'два': 2}, {'три': 3, 'четыре': 4})
1
3


#### types.MappingProxyType - обертка для создания словарей только для чтения

In [5]:
from types import MappingProxyType
writable = {'один': 1, 'два': 2}
read_only = MappingProxyType(writable) # доступен только для чтения
print(read_only['один'])

# Изменения в оригинале отражаются в прокси
writable['один'] = 42
read_only


1


mappingproxy({'один': 42, 'два': 2})

### 5.2 Массивоподобные структуры данных
Поиск элемента, содержащегося в массиве выполняется за O(1) 

#### list - изменяемые динамические массивы
В них могут храниться любые данные, в том числе разных типов в одном массиве. У этого есть и свои минусы, например данные упакованы менее плотно и структура в результате занимает больше места

In [6]:
arr = ['один', 'два', 'три']
print(arr[0])

# списки имеют метод repr
print(arr)

# списки могут изменяться
arr[1] = 'привет'
print(arr)

del arr[1]
print(arr)

# списки могут содержать произвольные типы данных
arr.append(23)
print(arr)

один
['один', 'два', 'три']
['один', 'привет', 'три']
['один', 'три']
['один', 'три', 23]


#### tuple - неизменяемые контейнеры

In [7]:
arr = 'один', 'два', 'три'
print(arr[0])

# кортежи имеют метод repr
print(arr)

# кортежи не могут изменяться
#arr[1] = 'привет'   # выдаст TypeError
#del arr[1]          # выдаст TypeError

# кортежи могут содержать произвольные типы данных
# при добавлении элементов создается копия кортежа

arr + (23,)

один
('один', 'два', 'три')


('один', 'два', 'три', 23)

#### array.array - элементарные типизированные массивы
Массивы созданные на основе array ограничены одним типом данных

In [8]:
import array

arr = array.array('f', (1.0, 1.5, 2.0, 2.5))
print(arr[1])

# Массивы имеют метод repl
print(arr)

# Массивы могут изменяться
arr[1] = 23.0
print(arr)

del arr[1]
print(arr)

arr.append(42.0)
print(arr)

# Массивы это типизированные структуры данных

1.5
array('f', [1.0, 1.5, 2.0, 2.5])
array('f', [1.0, 23.0, 2.0, 2.5])
array('f', [1.0, 2.0, 2.5])
array('f', [1.0, 2.0, 2.5, 42.0])


#### str - неизменяемые массивы символов юникода
Тип str является рекурсивной структурой, т.к. каждый символ в строке сам является объектом str длиной 1

In [9]:
arr = 'abcd'
print(arr[1])
print(arr)

# строки неизменяемы
# строки могут быть распакованы в список, в результате чего получая изменяемое представление
print(list('abcd'))

# строки это рекурсивные структуры данных
print(type('abc'))
print(type('abc'[0]))


b
abcd
['a', 'b', 'c', 'd']
<class 'str'>
<class 'str'>


#### bytes - неизменяемые массивы одиночных байтов
Может содержать элементы 0<=x<=255

In [10]:
arr = bytes((0, 1, 2, 3))
print(arr[1])

# байтовые литералы имеют свой собственный синтаксис
print(arr)

# разрешены только допустимые байты
# bytes((0, 300)) # ValueError

# байты неизменяемы


1
b'\x00\x01\x02\x03'


#### bytearray - изменяемые массивы одиночных байтов


In [11]:
arr = bytearray((0, 1, 2, 3))
print(arr[1])

# метод repr для bytearray
print(arr)

#байтовые массивы bytearray изменяемы
arr[1] = 23
print(arr)

# байтовые массивы bytearray могут расти и сжиматься в размерах
del arr[1]
print(arr)

arr.append(42)
print(arr)

# Байтовые массивы могут содержать только целые числа в диапазоне 0<=x<=255
# bytearrays может быть преобразован в байтовые объекты

bytes(arr)

1
bytearray(b'\x00\x01\x02\x03')
bytearray(b'\x00\x17\x02\x03')
bytearray(b'\x00\x02\x03')
bytearray(b'\x00\x02\x03*')


b'\x00\x02\x03*'

#### Ключевые выводы
Что нужно хранить                                       что использовать
произвольные, смешанные данные, которые можно менять  -  list

произвольные, смешанные данные, которые нельзя менять - tuple

числовые данные и важна производительность             - array

текстовые данные представленные символами Unicode     - str

нефрагментированный блок байтов, неизменяемый         - bytes

нефрагментированный блок байтов, изменяемый            - bytearray

### 5.3 Записи, структуры и объекты переноса данных
#### dict - простые объекты данных



In [12]:
car1 = {
    'цвет': 'красный',
    'пробег': 3812.4,
    'автомат': True,
}

car2 = {
    'цвет': 'синий',
    'пробег': 40231,
    'автомат': False,
}

print(car2)
print(car2['пробег'])

# Словари изменяемы
car2['пробег'] = 12 # изменение существующего элемента
car2['лобовое стекло'] = 'треснутое'
print(car2)

# Отсутствует защита от неправильных имен полей или отсутствущих/лишних полей

{'цвет': 'синий', 'пробег': 40231, 'автомат': False}
40231
{'цвет': 'синий', 'пробег': 12, 'автомат': False, 'лобовое стекло': 'треснутое'}


#### tuple - неизменяемые группы объектов
Кортежи занимают чуть меньше оперативной памяти, чем списки

In [13]:
import dis

dis.dis(compile("(23, 'a', 'b', 'c')", '', 'eval'))
dis.dis(compile("[23, 'a', 'b', 'c']", '', 'eval'))

  0           RESUME                   0

  1           RETURN_CONST             0 ((23, 'a', 'b', 'c'))
  0           RESUME                   0

  1           BUILD_LIST               0
              LOAD_CONST               0 ((23, 'a', 'b', 'c'))
              LIST_EXTEND              1
              RETURN_VALUE


In [14]:
# Поля: цвет, пробег, автомат
car1 = ('красный', 3812.4, True)
car2 = ('синий', 40231.0, False)

# экземпляры кортежа имеют хороший метод repr
print(car1)

# получить пробег
print(car2[1])

# нет защиты от неверных имен полей или отсуствующих/лишних полей


('красный', 3812.4, True)
40231.0


#### Написание собственного класса - больше работы, больше контроля

In [15]:
class Car:
    def __init__(self, color, mileage, automatic):
        self.color = color
        self.mileage = mileage
        self.automatic = automatic

car1 = Car('красный', 3812.4, True)
car2 = Car('синий', 40231.0, False)

# получить пробег
print(car2.mileage)

# классы изменяемы
car2.mileage = 12
car2.windshield = 'треснутое' 

# строковое представление не очень полезно, приходится добавлять собственный __repr__
print(car1)

40231.0
<__main__.Car object at 0x000001FAA3542A50>


#### collections.namedtuple - удобные объекты данных

In [16]:
from collections import namedtuple
from sys import getsizeof

p1 = namedtuple('Point', 'x y z')(1, 2, 3)
p2 = (1, 2, 3)

print(getsizeof(p1))
print(getsizeof(p2))


64
64


In [17]:
from collections import namedtuple

Car = namedtuple('Авто', 'цвет пробег автомат')
car1 = Car('красный', 3812.4, True)

# Экземпляры имеют хороший метод repr
print(car1)

# поля неизменяемы

Авто(цвет='красный', пробег=3812.4, автомат=True)


#### typing.NamedTuple - усовершенствованные именованные кортежи

In [18]:
from typing import NamedTuple
class Car(NamedTuple):
    цвет: str
    пробег: float
    автомат: bool

car1 = Car('красный', 3812.4, True)

# экземпляры имеют хороший метод repr
print(car1)

# доступ к полям
print(car1.пробег)

# Поля неизменимы и нельзя добавлять новые

# анннотации типа не поддерживаются без отдельного инструмента проверки типов, такого как туру


Car(цвет='красный', пробег=3812.4, автомат=True)
3812.4


#### struct.Struct - сериализованные C-структуры
Данный класс выполняет преобразование между значениями Python и структурами С, сериализованными в форму объектов Python bytes. Может использоватья для обработки двоичных данных, хранящихся в файлах или поступающих из сетевых соединений

Структуры Struct определяются с использованием форматного строкоподобного мини-языкаЮ который позволяет определять расположение различных типов данных С

Сериализованные структуры редко используются для представления объектов данных, предназначенных для обработки исключительно внутри кода Python. Они нужны в первую очередь в качествве формата обмена данными, а не как способ их хранения в оперативной памяти

In [19]:
from struct import Struct

MyStruct = Struct('i?f')
data = MyStruct.pack(23, False, 42.0)

# получается двоичный объект данных blob
print(data)

# BLOB-объекты можно снова распаковать
MyStruct.unpack(data)


b'\x17\x00\x00\x00\x00\x00\x00\x00\x00\x00(B'


(23, False, 42.0)

#### types.SimpleNamespace - причудливый атрибутивный доступ
Атрибутивный доступ означает. что SimpleNamespace показывает все свои ключи, как атрибуты класса и к ним можно получить доступ через точку, а не квадратные скобки (объект.ключ, а не объект['ключ'])


In [20]:
from types import SimpleNamespace

car1 = SimpleNamespace(цвет='красный',
                       пробег=3812.4,
                       автомат=True)

# Метод repr по умолчанию
print(car1)

# экземпляры поддерживают атрибутивный доступ и могут изменяться

car1.пробег = 12
car1.лобовое_стекло = 'треснутое'
del car1.автомат

print(car1)

namespace(цвет='красный', пробег=3812.4, автомат=True)
namespace(цвет='красный', пробег=12, лобовое_стекло='треснутое')


#### Ключевые выводы
Сценарий использования и что лучше выбрать
* У вас есть всего несколько полей, порядок которых легко запоминается, а имена полей излишни, например точка (x, y, z) - tuple
* Вам нужны неизменяемые поля - tuple, collections.namedtuple, typing.Namedtuple
* Вам нужно установить имена полей, чтобы избежать опечаток - collections.namedtuple, typing.Namedtuple
* Вы не хотите ничего усложнять - dict
* Вам нужен полный контроль над вашей структурой данных - собственный класс
* Вам нужно добавить в объект поведение (методы) - собственный класс с нуля или расширенние collections.namedtuple или typing.Namedtuple  
* Вам нужно плотно упаковать данные, чтобы сериализовать их для записи на жесткий диск или отправить их по сети - struct.Struct
По умолчанию лучше typing.NamedTuple в Python 3.x

### 5.4 Множества и мультимножества
Множество - неупорядоченная колллекция объектов, которая не допускает повторяющихся элементов. Как правило, множества используются для быстрой проверки принадлеэности значения множеству, вставки новых значений в множество, удаления значений из множества и вычисления множественных операций, таких как объединение или пересичение двух множеств

Проверки на принадлежность за O(1)

Операции объединения, пересечения, разности и взяттия подмножеств в среднем O(n)

In [21]:
vowels = {'a', 'e', 'i', 'o', 'u'}
squares = {x * x for x in range(10)}

# для того, чтобы создать пустое множество, необходимо вызвать конструктор set()

a = set()

#### set - ваше дежурное множество
Тип set - изменяемый

Множества set подкрепляются типом данных dict и обладают одинаковыми характеристиками производительности. Любой хешируемый объект может хрнаиться в множестве

In [23]:
vowels = {'а', 'о', 'и', 'е', 'e', 'у', 'ы', 'э', 'ю', 'я'}
print('э' in vowels)

letters = set('алиса')
print(letters.intersection(vowels))

vowels.add('ё')
print(vowels)
print(len(vowels))

True
{'и', 'а'}
{'e', 'а', 'о', 'э', 'ы', 'и', 'ё', 'у', 'е', 'ю', 'я'}
11


#### frozenset - неизменяемые множества
Статичны и хешируемы - могут использоваться в качестве ключей словаря или элементов другого множества, что невозможно с обычными множествами


In [24]:
vowels = frozenset({'а', 'о', 'и', 'е', 'e', 'у', 'ы', 'э', 'ю', 'я'})
# vowels.add('ё')  # выдаст AttributeError, так как frozenset неизменяемый

d = { frozenset({1, 2, 3}): 'привет' }
d[frozenset({1, 2, 3})]

'привет'

#### collections.Counter - мультимножества
Допускает неоднократное появление элемента в множестве. Полезно если вам нужно вести учет не только того, принадлежит ли элемент множеству, но и того, сколько раз он был включен в него

In [27]:
from collections import Counter
inventory = Counter()

loot = {'клинок': 1, 'хлеб': 3}
inventory.update(loot)
print(inventory)

more_loot = {'клинок': 1, 'яблоко': 1}
inventory.update(more_loot)
print(inventory)

print(len(inventory))
# количество уникальных элементов

sum(inventory.values())
# общее количество элементов


Counter({'хлеб': 3, 'клинок': 1})
Counter({'хлеб': 3, 'клинок': 2, 'яблоко': 1})
3


6

### 5.5 Стеки (с дисциплиной доступа LIFO)
Стек представляет собой коллекцию объектов, которая поддерживает быструю семантику доступа "последним пришел - первым ушел" для вставок (push) и удалений (pop).

Очередь похожа на стек, но следует правилу "первым пришел - первым ушел"

#### list - простые встроенные стеки

In [None]:
s = []
s.append('есть')
s.append('спать')
s.append('программировать')

print(s)

print(s.pop())
print(s.pop())
print(s.pop())

# s.pop() # выдаст IndexError, так как стек пуст

['есть', 'спать', 'программировать']
программировать
спать
есть


#### collections.deque - быстрые и надежные стеки
Класс deque реализует очередь с двусторонним доступом, которая поддерживает добавление и удаление элементов с любого конца за O(1). Могут служить в качестве очередей или стеков. Реализованы как двунаправленные связные списки

In [29]:
from collections import deque
s = deque()
s.append('есть')
s.append('спать')  
s.append('программировать')

print(s)
print(s.pop())
print(s.pop())
print(s.pop())
# s.pop() # выдаст IndexError, так как стек пуст

deque(['есть', 'спать', 'программировать'])
программировать
спать
есть


### deque.LifoQueue - семантика блокирования для параллельных вычислений
Обеспечивает семантику блокирования с целью поддержки многочисленных параллельных производителей и потребителей. 

In [3]:
from queue import LifoQueue

s = LifoQueue()
s.put('есть')
s.put('спать')
s.put('программировать')

print(s)

print(s.get())
print(s.get())
print(s.get())

# s.get_nowait()

# s.get()  # блокирует \ ожидает бесконечно

<queue.LifoQueue object at 0x0000018F20D04E10>
программировать
спать
есть


#### Сравнение реализаций стека в Python
Если вам не нужна поддержка параллельной обработки - list, collections.deque

### 5.6 Очереди (с дисциплиной доступа FIFO)
Очередь представляет собой коллекцию объектов, которая поддерживает быструю семантику "первым пришел - первым ушел" для вставок и удалений

#### list - ужасно медленная очередь
Не рекомендуется использовать, т.к. удаление элемента в начале занимает O(n) времени

In [4]:
q = []
q.append('есть')
q.append('спать')  
q.append('программировать')

print(q)

# осторожно, очень медленная операция
q.pop(0)

['есть', 'спать', 'программировать']


'есть'

#### collections.deque - быстрые и надежные очереди
Класс реализует очередь с двусторонним доступом за O(1)

In [6]:
from collections import deque
q = deque()
q.append('есть')
q.append('спать')  
q.append('программировать')

print(q)

print(q.popleft())
print(q.popleft())
print(q.popleft())

# print(q.popleft()) # IndexError

deque(['есть', 'спать', 'программировать'])
есть
спать
программировать


#### queue.Queue - семантика блокирования для параллельных вычислений
Данная реализация очереди синхронизирована и обеспечивает семантику блокирования. Модуль queue содержит несколько других классов, которые реализуют очередди с мультипроизводителями \ мультипотребителями, которые широко используются в параллельных вычислениях

In [7]:
from queue import Queue

q = Queue()
q.put('есть')
q.put('спать')
q.put('программировать')

print(q)

print(q.get())
print(q.get())
print(q.get())

# q.get_nowait()

<queue.Queue object at 0x0000018F204C7650>
есть
спать
программировать


#### multiprocessing.Queue - очереди совместных заданий
Такая реализация очереди совместных заданий позволяет выполнять параллельную обработку находящихся в очереди элементов многочисленными праллельными рабочими процессами. Процессно-ориентированное распараллеливание популярно  Python из-за глобальной блокировки интерпретатора, которая препятствует некоторым формам параллельного исполнения в единсвтенном процессе интерпретатора

In [8]:
from multiprocessing import Queue

q = Queue()
q.put('есть')
q.put('спать')
q.put('программировать')

print(q)

print(q.get())
print(q.get())
print(q.get())

<multiprocessing.queues.Queue object at 0x0000018F20673CB0>
есть
спать
программировать


### 5.7 Очереди с приоритетом
Очередь с приоритетом можно представить как видоизмененную очередь: вместо получения следующего элемента по времени вставки она получает элемент с самым высоким приоритетом. Приоритет отдельных элементов определется примененным к их ключам упоряддочением

#### list - поддержание сортируемой очереди вручную
Недостатком является то, что вставка новых элементов в список является медленной O(n) операцией

In [9]:
q = []
q.append((2, 'программировать'))
q.append((1, 'есть'))
q.append((3, 'спать'))

q.sort(reverse=True)

while q:
    next_item = q.pop()
    print(next_item)

(1, 'есть')
(2, 'программировать')
(3, 'спать')


#### heapq - двоичные кучи на основе списка

In [10]:
import heapq

q = []

heapq.heappush(q, (2, 'программировать'))
heapq.heappush(q, (1, 'есть'))
heapq.heappush(q, (3, 'спать'))

while q:
    next_item = heapq.heappop(q)
    print(next_item)

(1, 'есть')
(2, 'программировать')
(3, 'спать')


#### queue.PriotrityQueue - красивые очереди с приоритетом
Данная очередь с приоритетом синхронизирована и обеспечивает семантику блокирования с целью поддержки многочисленных параллельных производителей и потребителей


In [11]:
from queue import PriorityQueue

q = PriorityQueue()

q.put((2, 'программировать'))
q.put((1, 'есть'))
q.put((3, 'спать'))

while not q.empty():
    next_item = q.get()
    print(next_item)

(1, 'есть')
(2, 'программировать')
(3, 'спать')
