Массивы (например, списки в Python) позволяют быстро, за константное время, получить значение по индексу. Но для вставки элементов в середину или в начало массива приходится переставлять элементы в памяти и тратить на это время: сложность такой операции — линейная. 

Стек, очередь и дек позволяют за константное время добавлять или удалять элементы с «концов» структуры данных, но при этом не дают доступ к элементу по индексу.

Идеал недостижим, у хеш-таблиц тоже есть ограничения: например, к элементу хеш-таблицы нельзя обратиться по индексу, ведь индексов в обычном понимании слова у хеш-таблиц просто нет. И в этой части хеш-таблицы явно проигрывают спискам.

Помимо этого, у хеш-таблиц есть строгие ограничения:

1. Ключи элементов хеш-таблицы должны быть уникальными: двух одинаковых ключей в таблице быть не может.

2. Второе ограничение: каждый ключ должен относиться к неизменяемым типам данных.

Эти условия и ограничения — точно такие же, как для словарей в Python, ведь словари созданы именно на основе хеш-таблиц. Но смешивать эти две сущности будет ошибкой:


* **хеш-таблица** — это структура данных;

* **словарь в Python** — это тип данных, реализованный на основе структуры «хеш-таблица».

***
## Устройство хеш-таблиц

Первым делом надо сказать, что хеш-таблица — это коллекция элементов. Каждый элемент состоит из ключа и значения, которые доступны пользователю: при создании элемента разработчик задаёт пару «ключ-значение», а при поиске нужного элемента — указывает ключ.

Но под капотом у каждого элемента хеш-таблицы есть ещё и индекс! Однако это «служебная информация»: доступ к индексам не предусмотрен интерфейсом хеш-таблицы, разработчик не обращается к ним напрямую.

Итак, хеш-таблицу можно представить как коллекцию элементов, где каждый элемент состоит из трёх частей. Получается таблица с колонками `индекс`, `ключ`, `значение`; каждая строка этой таблицы — элемент.

Под капотом у хеш-таблицы есть массив с индексами, и для каждого нового элемента вычисляется позиция в массиве, куда этот элемент будет добавлен. 

Если в пустую таблицу добавить три элемента, первый из добавленных может быть сохранён под индексом `[5]`, второй — под индексом `[2]`, третий — под индексом `[4]`. А элементы с индексами 0, 1 и 3 будут без значений. Возможно, следующие добавленные значения окажутся под этими индексами.

***
## Запись и чтение в хеш-таблицах

В общем виде картина выглядит так:

1. В хеш-таблицу передаётся новый элемент, пара «ключ-значение».

2. Ключ элемента хешируется: преобразуется **в хеш**, уникальную последовательность символов. В зависимости от реализации, хеширование может выполняться по различным алгоритмам.

3. Полученный хеш по специальному алгоритму преобразуется в целочисленный индекс.

4. Новый элемент записывается в массив на позицию с полученным индексом.

Алгоритм преобразования хеша в индекс (на этапе 3) устроен так, что созданный индекс попадает в диапазон, определяемый текущей длиной массива: для короткого массива будет создан небольшой индекс, для длинного массива — большой.

Массив, на котором основана хеш-таблица, работает так же, как и прочие массивы: 


* элементы хранятся в последовательных ячейках памяти;

* для новых элементов резервируется дополнительная память;

* когда место заканчивается, массив реаллоцируется.

При реаллокации массива хеш-таблицы происходит не только перемещение элементов в новую область памяти, но и заново вычисляются индексы элементов — ведь индексы зависят не только от ключа, но и от актуальной длины массива. Временная сложность этой операции — линейная, `O(n)`.

![alt text](image_1735204096.png)

***
## Особенности хеш-таблиц


* Быстрый поиск элемента по ключу: переданный для поиска ключ преобразуется (как и при создании нового элемента) в хеш, а хеш — в индекс. Извлечение элемента по индексу — это быстро, `O(1)`!

* Добавление нового элемента в большинстве случаев выполняется за время, близкое к `O(1)`: смещения элементов не требуется, ведь из хешей создаются уникальные индексы, и новые элементы встают на «незанятые места» в массиве. Однако при увеличении длины массива потребуется реаллокация, и в этом случае добавление элемента пройдёт за время, примерно равное `O(n)`.

* Удаление элемента тоже происходит за время `O(1)`: ключ удаляемого элемента преобразуется в хеш, а хеш — в индекс; элемент по индексу ищется за время `O(1)`. Нашли, удалили — и готово! Сдвигать элементы не требуется, ведь значения «накрепко привязаны» к своим индексам.

***
## Коллизии

Вот какая ситуация складывается при добавлении элементов в хеш-таблицу: 

* Ключом элемента может быть любой неизменяемый объект, и таких возможных объектов — **бесконечное** количество. Следовательно, и хеш-значений может быть создано практически бесконечное количество.

* Количество возможных индексов в массиве хеш-таблицы ограничено. Под этот массив в оперативной памяти выделяется строго определённое, **конечное** количество ячеек памяти.

Из этого следует, что не для всех возможных ключей можно сгенерировать уникальный индекс — при том, что хеши у них будут разные. Могут появиться дубли: разные хеши преобразуются в одинаковые индексы. Но записать два разных значения под одним индексом невозможно!

![alt text](S10_32_1694600051.png)

Такой конфликт называется **коллизией**. Избежать коллизий нельзя, но можно нейтрализовать их неприятные последствия.

Есть два основных метода разрешения коллизий:

1. **Метод открытой адресации**. При возникновении коллизии хеш-таблица ищет следующую свободную ячейку во внутреннем массиве и записывает данные в неё.

![alt text](S10_33_1694600075.png)

Этот метод требует подстраховки: при поиске элемента по ключу нужно не только найти элемент по индексу, но и сравнить ключ элемента с искомым. И если вдруг ключ не совпадёт, то надо сверять искомый ключ с ключом следующего элемента. И проверять до тех пор, пока нужный ключ не обнаружится.

2. **Метод списков**, или «метод цепочек». При таком подходе хеш-таблица хранит в своём массиве не просто пары «ключ-значение», а списки из этих пар. И если для двух элементов был сгенерирован один и тот же индекс, то в элемент с этим индексом добавляются две или более пары «ключ-значение».

![alt text](S10_34_1694600129.png)

В такой хеш-таблице при поиске элемента по ключу сначала находится элемент массива по индексу, а потом во внутреннем списке ищется нужное значение по заданному ключу.

![alt text](S10_61_1695715246.png)

***
## Ассоциативный массив

Словари в Python базируются на хеш-таблицах и наследуют от них большую часть преимуществ, недостатков и ограничений. Не будет ошибкой сказать, что словарь в Python — это реализация хеш-таблицы.

В свою очередь, хеш-таблица — это реализация **ассоциативного массива**, абстрактной структуры данных, которая:


* хранит данные в формате «ключ-значение»;

* позволяет добавлять новые пары «ключ-значение»;

* позволяет удалять пары «ключ-значение»;

* позволяет искать значения по ключу.

Ассоциативным он называется потому, что в каждой паре «ключ-значение» значение **ассоциировано** с ключом, объединено с ним в единую группу.

Хеш-таблица лишь один из вариантов реализации ассоциативного массива. Есть и другие: например, в языке C++ есть контейнер `map`, он тоже реализует ассоциативный массив, но добавление, удаление и поиск элементов в нём выполняются за логарифмическое время `O(log n)` в любом случае — и в среднем, и в худшем.

***
## Отличия словарей в Python от хеш-таблиц


1. Словарь может быть использован для создания объектов с произвольной структурой. Например, в качестве значений словаря могут быть другие словари, списки или кортежи. А «классическая» хеш-таблица не может хранить вложенную структуру данных.

2. У словарей в Python есть методы, которые не предполагаются в «классической» хеш-таблице, — например, `setdefault()` и `popitem()`.

3. Словарь в Python поддерживает итерацию по элементам, что позволяет использовать его в циклах `for` и других конструкциях языка. В «классической» хеш-таблице нет встроенной поддержки итерации.

Ставить знак равенства между словарями Python и хеш-таблицами нельзя. Словарь построен на основе хеш-таблиц, но он — не хеш-таблица.