# Хеш-таблицы

**Хеш-таблица (или хеш-словарь)** — это структура данных, используемая для хранения пар ключ-значение. Она обеспечивает доступ к элементам с использованием хеш-функции, что позволяет достаточно быстро находить нужные данные. Основное преимущество хеш-таблиц — это их способность обеспечивать постоянное среднее время доступа (O(1)).

Основные компоненты хеш-таблицы:

- **Хеш-функция**: Функция, которая принимает ключ и возвращает индекс в массиве, где будет храниться соответствующее значение.
- **Ключ**: Уникальный идентификатор для данных.
- **Значение**: Данные, которые ассоциированы с ключом.

### Визуализация хеш-таблицы

```
| Индекс | Ключ   | Значение |
|--------|--------|----------|
| 0      |        |          |
| 1      | "a"    | 1        |
| 2      | "b"    | 2        |
| 3      | "c"    | 3        |
```

В этой таблице ключи "a", "b" и "c" были преобразованы хеш-функцией в индексы 1, 2 и 3 соответственно.

### Что такое хеш-функция?

**Хеш-функция** — это функция, которая принимает на вход данные (ключ) и возвращает фиксированное число (хеш). Цель хеш-функции — равномерное распределение данных по доступным ячейкам хеш-таблицы, чтобы избежать коллизий. 

### Что такое коллизия?

**Коллизия** в хеш-таблице происходит, когда два разных ключа имеют одинаковое хеш-значение и, следовательно, попадают в одну и ту же «ячейку» или индекс в массиве, используемом для хранения данных.

#### Пример коллизии:

Представь себе хеш-таблицу следующего размера (например, `table_size = 10`) и две строки — "apple" и "banana". Допустим, наша хеш-функция возвращает хеш-значение 3 и для "apple", и для "banana":

```python
def simple_hash(key, table_size):
    return hash(key) % table_size

key1 = "apple"
key2 = "banana"

table_size = 10
print("Hash для 'apple':", simple_hash(key1, table_size))
print("Hash для 'banana':", simple_hash(key2, table_size))
```

Если оба ключа имеют одинаковое хеш-значение, скажем, 3, то происходит коллизия. Нужно особое внимание к тому, как организовать доступ к элементам и управление такими ситуациями.

### Методы решения коллизий

Существует несколько методов для решения коллизий:

1. **Метод цепочек (Chaining)**:
    - В этом методе каждая ячейка хеш-таблицы содержит ссылку на список (или связанный список) всех элементов, которые имеют один и тот же хеш-значение.
    - Когда происходит коллизия, элемент добавляется в соответствующий список.

    ```python
    from collections import defaultdict

    class HashTable:
        def __init__(self):
            self.table = defaultdict(list)

        def insert(self, key, value):
            index = hash(key) % 10
            self.table[index].append((key, value))

        def get(self, key):
            index = hash(key) % 10
            for k, v in self.table[index]:
                if k == key:
                    return v
            return None

    hash_table = HashTable()
    hash_table.insert("apple", 5)
    hash_table.insert("banana", 3)

    print(hash_table.get("apple"))  # Вывод: 5
    print(hash_table.get("banana"))  # Вывод: 3
    ```

2. **Открытая адресация (Open Addressing)**:
    - В этом методе все элементы хранятся непосредственно в хеш-таблице.
    - Когда происходит коллизия, ищется следующая свободная ячейка с использованием определенной стратегии (например, линейное пробирование, квадратичное пробирование или двойное хеширование).

    ```python
    class HashTable:
        def __init__(self, size=10):
            self.table = [None] * size
            self.size = size

        def insert(self, key, value):
            index = hash(key) % self.size

            while self.table[index] is not None:
                index = (index + 1) % self.size

            self.table[index] = (key, value)

        def get(self, key):
            index = hash(key) % self.size

            while self.table[index] is not None:
                if self.table[index][0] == key:
                    return self.table[index][1]
                index = (index + 1) % self.size

            return None

    hash_table = HashTable()
    hash_table.insert("apple", 5)
    hash_table.insert("banana", 3)

    print(hash_table.get("apple"))  # Вывод: 5
    print(hash_table.get("banana"))  # Вывод: 3
    ```

### Преимущества и недостатки методов

1. **Метод цепочек**:
    - Преимущества:
        - Простота реализации.
        - При правильной хеш-функции имеет хорошую производительность.
    - Недостатки:
        - Потребляет больше памяти из-за необходимости хранения списков.

2. **Открытая адресация**:
    - Преимущества:
        - Использует меньше памяти.
    - Недостатки:
        - Может привести к возникновению кластеров, замедляющих вставку и поиск.
        - Может потребовать перераспределение и увеличение размера таблицы при большом количестве элементов.

### Пример задачи на LeetCode: "Two Sum"

**Задача**: Даны массив чисел и цель (target). Найдите индексы двух чисел, сумма которых равна цели. Предположите, что каждый входной массив имеет одно решение, и вы не можете использовать один и тот же элемент дважды.

In [1]:
def twoSum(nums, target):
    # Инициализируем хеш-таблицу (словарь в Python)
    hash_table = {}

    # Проходим по каждому элементу в массиве
    for i, num in enumerate(nums):
        complement = target - num

        # Если дополнение уже есть в хеш-таблице, возвращаем индексы
        if complement in hash_table:
            return [hash_table[complement], i]
        
        # Если дополнение не найдено, добавляем текущее число в хеш-таблицу
        hash_table[num] = i

# Пример использования
if __name__ == "__main__":
    nums = [2, 7, 11, 15]
    target = 9
    result = twoSum(nums, target)
    print("Индексы двух чисел, сумма которых равна цели:", result)

Индексы двух чисел, сумма которых равна цели: [0, 1]


В этом примере мы используем хеш-таблицу для отслеживания уже пройденных чисел и их индексов. Как только мы находим число, которое вместе с текущим числом дает нужную сумму (target), мы можем сразу вернуть индексы этих чисел.

### Объяснение кода:

1. **Инициализация хеш-таблицы**: мы создаём пустой словарь `hash_table`.
2. **Проход по массиву**: для каждого числа в массиве `nums` мы вычисляем `complement` — разницу между `target` и текущим числом.
3. **Проверка наличия complement в хеш-таблице**: если `complement` уже есть в хеш-таблице, это означает, что ранее мы встретили число, которое вместе с текущим числом даёт нужную сумму. Мы возвращаем индексы этих чисел.
4. **Добавление числа в хеш-таблицу**: если дополнение не найдено, мы добавляем текущее число и его индекс в хеш-таблицу.

### Теория множеств и хеширование

**Теория множеств** изучает свойства и отношения различных объектов, которые организованы в коллекции, называемые множества. Множество элементов обычно описывается типичными операциями, как объединение, пересечение и дополнение.

Когда мы говорим о хеш-таблицах, можно представить ключи как множество уникальных элементов. Хеш-таблица нацелена на организацию этих ключей таким образом, чтобы доступ к элементам был максимально быстрым.