In [1]:
from hash_tables import *

# Cодержание
<a name="index"></a>

1. [Обзор (других) структур данных для быстрого поиска информации](#overview)
2. [Таблица с прямой адресацией](#directadressing)
3. [Хэш-функция](#hashfn)
4. [Метод цепочек](#chaindiff)
5. [Открытая адресация](#open)
6. [Виды пробинга](#prob)
7. [Домашняя работа](#homework)

<font size="4">
    
# Обзор (других) структур данных для быстрого поиска информации
<a name="overview"></a>

    
## Список
* Список вообще не очень хорош для поиска в нем данных
* Поиск за $O(n)$, просмотр всех элементов подряд
    
## Отсортированный список/массив
* Все еще простейшая структура данных
* Нужно поддерживать в отсортированном виде - $O(log\ n)$ на вставку, если это список
* Поиск за $O(log\ n)$

## Heap
* $O(1)$ на извлечение минимального/максимального элемента (используется в основном в этих целях)
* За $O(log\ n)$ элементы добавляются и удаляются
* Искать определенный элемент по ключу неудобно (обход heap)


## Binary search tree
* Поиск элемента, вставка, удаление из BST: $O(h)$ 
* $O(h)$ не всегда равно $O(log\ n)$, так как дерево не сбалансировано
* Есть возможность делать запросы "меньше/больше, чем..."


## Red-Black tree
* Сбалансированное дерево с возможностью выполнять базовые операции за $O(log\ n)$ 
* Есть возможность делать запросы "меньше/больше, чем..."
    
    
## И другие
...

## Поиск, удаление и вставка за O(1)
* Иногда запросы формата "больше/меньше" не требуются
* Скорость $O(log\ n)$ недостаточно хороша 
</font>

<font size="4">

# Таблицы с прямой адресацией
<a name="directadressing"></a>
## Ассоциативный массив
_Ассоциативный массив_ - абстрактный тип данных, позволяющий хранить пары "ключ-значение"И, реаслизующий операции
* `Insert(key, value)`
* `Find(key)`
* `Remove(key)`

Абстрактный - в данном случае значит, что конкретная реализация неизвестна, и мы сейчас рассмотрим несколько вариантов.  
Две пары значений с одинаковым ключом храниться не могут.


## Простейший случай
Ключ однозначно указывает на ячейку памяти (например, ключ - это какое-то число).  
За $O(1)$ можно обратиться к этой ячейке памяти и получить ассоциированное с ключом значение.  
Сколько всего доступно памяти?


## Адресация в массиве
<a name="addr"></a>

* Размер адресуемой памяти у $32$-битной архитектуры: $2^{32} = 4294967296$ (~4 Гб)
* У $64$-битной: $2^{64} = 18446744073709551616$ (16 эксабайт, очень-очень много)

## Представление таблицы с прямой адресацией
<a name="diraddrrepr"></a>
<img src="files/direct_addressing_2.png">

**Плюсы**   
* Простота реализации
* Практически нет дополнительных расходов на чтение, удаление и запись


**Проблемы?**
* Перерасход памяти: многие ячейки пусты
* Ограничение по количеству возможных типов ключей

[в начало](#index)

</font>

In [6]:
barcelona_table = fill_team_table(barcelona)
barcelona_table.iloc[10:20]

Unnamed: 0_level_0,player
idx,Unnamed: 1_level_1
10,Messi
11,Dembele
12,Rafinha
13,Cillessen
14,Malcom
15,Lenglet
16,Samper
17,
18,Alba
19,el Haddadi


In [7]:
# <font size="4">Какой же в нашей таблице процент заполнения?</font>
round(filling_percentage(barcelona_table), 2)

0.23

<font size="4">
    
## Доступные операции
<a name="diraddrops"></a>

* Вставка: `DirectAddressInsert(Table, key, value)` - O(1)
* Удаление: `DirectAddressDelete(Table, key)` - O(1)
* Поиск: `DirectAddressSearch(Table, key)` - O(1)
* Псевдокод операций:

```
DirectAddressInsert(Table, key, value):
    Table[key] = value
```
```
DirectAddressDelete(Table, key):
    Table[key] = NIL
```    
```
DirectAddressSearch(Table, key):
    return Table[key]
```
</font>

<font size="4">

# Хэш-функция
<a name="hashfn"></a>
## Общие характеристики

Хэш-функция используется для отображения множетсва ключей в множетсво хэшей. Их может 
<a name="hashcommon"></a>
* <font size="4"><i>h: S → </i>M</font>
* <font size="4"><i>|S| > |M|</i></font>
* <font size="4">Отображение сюръективно</font>
<img src="files/hash_fn.png">

## Требования 
<a name="hashreq"></a>
<font size="4">
* Всегда одинаковые значения для одного ключа
* Желательно, чтобы ключ с равной вероятностью хэшировался в случайную ячейку
* Для допустимого ключа на выходе должна давать натруральное число ($+0$) в заданном диапазоне


## Простейшая хэш-функция
<a name="simpliesthash"></a>
* Хэш-функция через деление с остатком
* $hash(k) = k\mod M$, где $M$ - размер таблицы
* Далее мы разберем другие хеш-функции, в том числе и для работы со строками и последовательностями

Такая хэш-функция хорошо подходит для работы с ключами, которые приводятся к целым числам, и распределены более-менее равномерно.


**Коллизии**  
* Коллизия - это ситуация, когда два ключа в результате применения одной хэш-функции дают одно значение хэша.  
* В случае с функцией $hash(k) = k\mod M$ это одинаковые остатки от деления на $M$.

</font>

<font size="4">

# Разрешение коллизий

## Метод цепочек
<a name="chaindiff"></a>
<img src="files/chaining_1.png">

    
**Сложность операций**
    
* Вставка: `ChainingInsert(Table, key, value)` - O(1)
* Удаление: `ChainingDelete(Table, key)` - O(1) в среднем, O(n) в худшем
* Поиск: `ChainingSearch(Table, key)` - O(1) в среднем, O(n) в худшем
* Псевдокод операций:

<pre>
1  M - размер таблицы
2  hash: key → index ∈ {0..M-1}
3
4
5  ChainingInsert(Table, key, value):
6      insert (key, value) at the head of list Table[hash(key)]
7
8
9  ChainingDelete(Table, key):
10     delete (key, value) from the listTable[hash(key)]
11
12
13 ChainingSearch(Table, key):
14     search for an element with key "key" in list Table[hash(key)]
</pre>

**Математическое ожидание частоты коллизий и сложность операций**
<a name="chaindiffmore"></a>

Данный расчет верен для _простого равномерного хеширования_
* Значения хешей распределяются равномерно
* Хеши вычисляются независимо (т.е. значение хеша не зависит от вычисленных ранее значений)

У хеш-таблиц есть важный параметр $\alpha$, коэффициент заполнения цепочки $\alpha = n / M$, где $M$ - это количество цепочек, а $n$ - количество записанных значений.  

Длины списков в ячейках в сумме $= n$, так как:

* Всего записей в таблице: $n= n_0 + n_1 + n_2 +\ .. +\ n_{M-1}$. Матожидание количества записей в цепочке: $E[n_j] = n / M = \alpha$<br>
* Как правило, $n < M$, следовательно, $\alpha < 1$.

Далее, если операция вычисления хеша и поиска нужной цепочки (корзины) занимает $O(1)$, то отсается найти ожидаемое время поиска элемента в цепочке.

* Элемента нет в списке: поскольку ожидаемая длина равна $\alpha$, то на промотр цепочки в среднем потребуется $\alpha$ шагов, и $+ 1$ на остальные действия, итого $O(1+\alpha)$.

* Элемент есть в списке: ожидаемое количество элементов, которые необходимо просмотреть, так же равно $O(1 + \alpha)$. 

Если $n = O(m)$ (т.е. количество элементов пропорционально количеству цепочек), то $\alpha = n/m = O(m)/m = O(1)$, и поиск (а вместе с ним и удаление) занимают $O(1)$. 


**Пример**

На изображении используется таблица с $M = 12,\ n = 9,\ hash(k) = k \mod M$
<img src="files/hash_chains.png" width="300">

</font>

[в начало](#index)

## Демонстрация работы метода цепочек
<a name="chaindemo"></a>

In [8]:
demonstrator = demonstrator_gen(barcelona)

In [17]:
try:
    demo = next(demonstrator)
    print(demo) if demo is not None else ""
except StopIteration:
    print("Just finished")

0: [(20, 'Roberto')]
1: [(1, 'ter Stegen')]
2: [(2, 'Semedo'), (22, 'Vidal')]
3: [(3, 'Pique'), (23, 'Umtiti')]
4: [(24, 'Vermaelen'), (4, 'Rakitic')]
5: [(5, 'Buskuets')]
6: [(6, 'Denis Suarez')]
7: []
8: [(8, 'Arthur')]
9: [(9, 'Luis Suarez')]
10: [(10, 'Messi')]
11: [(11, 'Dembele')]
12: [(12, 'Rafinha')]
13: [(13, 'Cillessen')]
[91m[1m14: [(14, 'Malcom'), (34, 'Alena')][0m
15: [(15, 'Lenglet')]
16: [(16, 'Samper')]
17: []
18: [(18, 'Alba')]
19: [(19, 'el Haddadi')]


## Псевдокод операций
<a name="chaincode"></a>
* <font size="4">Вставка: `ChainingInsert(Table, key, value)` - O(1)</font>
* <font size="4">Удаление: `ChainingDelete(Table, key)` - O(1) в среднем, O(n) в худшем</font>
* <font size="4">Поиск: `ChainingSearch(Table, key)` - O(1) в среднем, O(n) в худшем</font>
* <font size="4">Псевдокод операций:</font>

<font size="4"><pre>
1  M - размер таблицы
2  hash: key → index ∈ {0..M-1}
3
4
5  ChainingInsert(Table, key, value):
6      insert (key, value) at the head of list Table[hash(key)]
7
8
9  ChainingDelete(Table, key):
10     delete (key, value) from the Table[hash(key)]
11
12
13 ChainingSearch(Table, key):
14     search for an element with key "key" in list Table[hash(key)]
</pre></font>

[в начало](#index)

<font size="4">

# Открытая адресация
<a name="open"></a>

## Основной принцип
<a name="openmain"></a>
<font size="4">
* Идея: выбрать алгоритм (probing), по которому будет выбираться следующая ячейка, если произошла коллизия
* Искать записи при помощи того же алгоритма
* Раширять таблицу, когда она заполнится достаточно сильно (load factor)
</font>

<img src="files/open_address_1.png">

## Сложности
<a name="opendiff"></a>
* <font size="4">Выбор хэш-функции, пробинга</font>
* <font size="4">Образование кластеров</font>
* <font size="4">Операция удаления</font>

## Виды пробинга

Есть несколько основных видов пробинга, от сосвсем простых до более сложных. Это, например, 

* Линейный пробинг
* Квадратичный пробинг
* Двойное хэширование

Они различаются количеством вариантов _обхода_ при поиске и _"равномерностью"_ распределения данных по массиву.

Для того, чтобы понять, как работают таблицы, мы рассмотрим _линейный пробинг_, а потом перейдем к другим видам пробинга и сравним их.


**Линейный пробинг**
<a name="problin"></a>
* $hash(k, i) = (hash'(k) + i)\mod M$
*  $hash'(k, i)$ - вспомогательная хэш-функция (например, остаток от деления)
* Неравномерно, склонно к образованию кластеров
* Чем больше кластер, тем быстрее он растет: $(s + 1)/M$, где $s$ - размер кластера

На иллюстрации используется хеш-таблица с разщмером $M=12$
* желтые квадраты - _"сдвинутые"_ ключи
* зеленые - ключи на _"своих"_ местах
* $i = 1$

<font color="red">На иллюстрации ошибка: на самом деле, вероятность увеличения кластеров = 1/3, 5/12, 1/6!</font>

<img src="files/hash_open_addressing_clusters.png">



## Псевдокод операций
<a name="opencode"></a>
* <font size="4">Вставка: `OpenAddressInsert(Table, key, value)` - O(1) в среднем, O(n) в худшем</font>
* <font size="4">Поиск: `OpenAddressSearch(Table, key)` - O(1) в среднем, O(n) в худшем</font>
* <font size="4">Удаление: `OpenAddressDelete(Table, key)` - O(1) в среднем, O(n) в худшем</font>
* <font size="4">Псевдокод операций (шаг $i = 1$):</font>

<font size="4"><pre>
1  M - размер таблицы
2  hash: key → index ∈ {0..M-1}
3
4
5  OpenAddressInsert(Table, key, value)
6      i = 0
7      <b>repeat</b>
8          j = hash(key, i)
9          <b>if</b> Table[j] == NIL
10             return j
11         <b>else</b>:
12             i = i + 1
13     <b>until</b> i == m
14     <b>return</b> "overflow"            
15
16
17 OpenAddressSearch(Table, key)
18     i = 0
19     <b>repeat</b>
20         j = hash(key, i)
21         <b>if</b> Table[j] == key
22             <b>return</b> j
23         i = i + 1
24     <b>until</b> T[j] == NIL or i == m
25     <b>return</b> NIL
    
</pre></font>
<h2>Удаление?</h2>
<a name="opendel"></a>

* <font size="4">Создавать дополнительный массив - "данные удалены" (замедляет поиск, "портит" _load factor_)</font>
* <font size="4">Пропускаем ячеки с другим хэшем; значение с первым совпадающим ключом копируем в текущую ячейку; удаляем его. Однако на практике такой подход не используется из-за его высокой сложности и не слишком высокой эффективнсоти. Кроме того, он плозо работает со сложными схемами пробинга.</font>

</font>

## Разбор удаления при открытой адресации
<br>
<font size="4">

**Удаление с Sentinel'ом / Tombstone'ом**
<pre>
1  M - размер таблицы
2  hash: key → index ∈ {0..M-1}
3
4
5  OpenAddressInsert(Table, key, value)
6      i = 0
7      <b>repeat</b>
8          j = hash(key, i)
9          <b>if</b> Table[j] == NIL <b>or</b> Table[j] == DELETED:
10             return j
11         <b>else</b>:
12             i = i + 1
13     <b>until</b> i == m
14     <b>return</b> "overflow"            
15
16
17 OpenAddressSearch(Table, key)
18     i = 0
19     <b>repeat</b>
20         j = hash(key, i)
21         <b>if</b> Table[j] == key
22             <b>return</b> j
23         i = i + 1
24     <b>until</b> T[j] == NIL or i == m
25     <b>return</b> NIL
26
27
28 OpenAddressDeleted(Table, key)
29     i = 0
30     <b>repeat</b>
31         j = hash(key, i)
32         <b>if</b> Table[j] == DELETED
33             <b>return</b> j
34         i = i + 1
35     <b>until</b> T[j] == NIL or i == m
36     <b>return</b> NIL
</pre>

**"Ленивое" удаление**

* Во время поиска элемента запомнить первый индекс, где попалось `DELETED` (если такой встретился)
* Поменять первый найденный `DELETED` с найденным элементом местами - это в будущем ускорит поиск
* Я не очень понимаю, почему такая схема называется "ленивой", с ленивыми вычислениями тут мало общего

Используется практически та же таблица, что и на прошлых изображениях. Красные квадраты - удаленные данные.

<img src="files/hash_lazy.png">

**Примеры использования открытой адресации**  

Рассмотрим удаление на примере практической реализации общего назначнения - `dictobject.c` языка `Python`.  

Sentinel для удаленных значений - `DKIX_DUMMY`:  

<pre>
Dummy.  index == DKIX_DUMMY  (combined only)
   Previously held an active (key, value) pair, but that was deleted and an
   active pair has not yet overwritten the slot.  Dummy can transition to
   Active upon key insertion.  Dummy slots cannot be made Unused again
   else the probe sequence in case of collision would have no way to know
   they were once active.
</pre>

Код метода `dict_popitem` (`dict.pop(key)`), который удаляет и возвращает элемент по ключу:

<pre>
0  static PyObject *
1  dict_popitem(PyDictObject *mp, PyObject *Py_UNUSED(ignored))
2  {
3      Py_ssize_t i, j;
4      PyDictKeyEntry *ep0, *ep;
5      PyObject *res;
6
7      res = PyTuple_New(2);
8      if (res == NULL)
9          return NULL;
10     if (mp->ma_used == 0) {
11        Py_DECREF(res);
12        PyErr_SetString(PyExc_KeyError,
13                        "popitem(): dictionary is empty");
14        return NULL;
15    }
16    /* Convert split table to combined table */
17    if (mp->ma_keys->dk_lookup == lookdict_split) {
18        if (dictresize(mp, DK_SIZE(mp->ma_keys))) {
19            Py_DECREF(res);
20            return NULL;
21        }
22    }
23    ENSURE_ALLOWS_DELETIONS(mp);
24
25    /* Pop last item */
26    ep0 = DK_ENTRIES(mp->ma_keys);
27    i = mp->ma_keys->dk_nentries - 1;
28    while (i >= 0 && ep0[i].me_value == NULL) {
29        i--;
30    }
31    assert(i >= 0);
32
33    ep = &ep0[i];
34    j = lookdict_index(mp->ma_keys, ep->me_hash, i);
35    assert(j >= 0);
36    assert(dictkeys_get_index(mp->ma_keys, j) == i);
37    dictkeys_set_index(mp->ma_keys, j, DKIX_DUMMY);
38
39    PyTuple_SET_ITEM(res, 0, ep->me_key);
40    PyTuple_SET_ITEM(res, 1, ep->me_value);
41    ep->me_key = NULL;
42    ep->me_value = NULL;
43    /* We can't dk_usable++ since there is DKIX_DUMMY in indices */
44    mp->ma_keys->dk_nentries = i;
45    mp->ma_used--;
46    mp->ma_version_tag = DICT_NEXT_VERSION();
47    assert(_PyDict_CheckConsistency(mp));
48    return res;
49 }
</pre>

А вот так выглядит `Search`:

<pre>
1  static Py_ssize_t
2  lookdict_index(PyDictKeysObject *k, Py_hash_t hash, Py_ssize_t index)
3  {
4      size_t mask = DK_MASK(k);
5      size_t perturb = (size_t)hash;
6      size_t i = (size_t)hash & mask;
7  
8      for (;;) {
9          Py_ssize_t ix = dictkeys_get_index(k, i);
10         if (ix == index) {
11             return i;
12         }
13         if (ix == DKIX_EMPTY) {
14             return DKIX_EMPTY;
15         }
16         perturb >>= PERTURB_SHIFT;
17         i = mask & (i*5 + perturb + 1);
18     }
19     Py_UNREACHABLE();
20 }
</pre>

В принципе, ничего особенного, кроме схемы сдвига, зедсь нет - это практически псевдокод, переведенный на `C`.

[в начало](#index)

</font>

# Виды пробинга
<font size="4">
<a name="prob"></a>
    
## Линейное исследование
<a name="problin"></a>
Было разобрано [выше](#problin)

## Квадратичное исследование
<a name="probquad"></a>
* <font size="4">$hash(k, i) = (hash'(k) + с_1i + с_2i^2)\mod M$.</font>
* <font size="4">Лучше линейного, но нужно подбирать $с_1, с_2, M$.</font>

**Несколько популярных вариантов выбора констант**  

* $hash(k) = (hash'(k) + i^2) \mod M$, где $c_1 = 0, c_2 = 1, M - простое > 3 $, фактор заполнения $\alpha < 1/2$
* $hash(k) = (hash'(k) + (i + i^2)\ /\ 2) \mod M$, где $c_1 = c_2 = 1/2, M = 2^k$
* $hash(k) = (hash'(k) + -1^i \cdot i^2) \mod M$, где $M \equiv 3\ mod\ 4$

Почему $\alpha < 1/2$? Пусть есть $x$ и $y$, указывающие на одну локацию, но $x \neq y$, и $0 \leq x,y \leq M/2$.

$$ hash(k) + x^2 \equiv hash(k) + y^2 mod M $$
$$ x^2 \equiv y^2 mod M $$
$$ x^2 - y^2 \equiv mod M $$
$$ (x - y)\cdot(x + y) \equiv mod M $$

$x - y \neq 0, x + y \neq 0$ - значит, существует M/2 различных мест для записи. 


## Двойное хэширование
<a name="probdoub"></a>
* <font size="4">$hash(k, i) = (hash_1(k) + i \times hash_2(k))\mod M$.</font>
* <font size="4">Дает $m^2$ возможных последовательностей, более равномерно</font>
* <font size="4">Значение $hash_2(k)$ всегда должно быть взаимно простым с $M$ (для обхода всей таблицы)</font>
  - <font size="4">как вариант, для достаточно большого $M$:</font>
  - <font size="4">$h_1(k) = k \mod M$</font>
  - <font size="4">$h_2(k) = 1 + (k \mod (M-1))$</font>
  
[в начало](#index)
</font>

<font size="4">

# Домашняя работа
<a name="homework"></a>

- Домашняя работа одна на всю неделю. Это _первая половина_, которую можно начать выполнять сейчас.
- Вторая половина будет после занятия в среду.

1. Реализовать хеш-таблицу, использующую метод цепочек
    - дополнительно: для хранения внутри цепочек при достижении значительного числа элементов (~32) заменять их на BST
    
2. _Или_: реализовать хеш-таблицу с открытой адресацией
    - дополнительно: реализовать "ленивое" удаление
</font>

# Краткая справка
## C++
<a name="langcpp"></a>
* <font size="4">`std::unordered_map`</font>
* <font size="4">Метод цепочек - для универсальноси</font>
* <font size="4">https://bit.ly/2RNxPnD (в другом разделе ссылка дублируется)</font>
* <font size="4"> Можно "легко" сделать под свои нужды</font>


## Java 8
<a name="langjava"></a>
* <font size="4">`java.util.HashMap`</font>
* <font size="4">Метод цепочек</font>
* <font size="4">Используются деревья внтури одной корзины</font>

<h2>C#</h2>
<a name="langcs"></a>

* <font size="4">`System.Collections.Hashtable` и `System.Collections.Generic.Dictionary` </font>
* <font size="4">Hashtable: открытая адресация, двойное хэширование</font>
* <font size="4">Dictionary: метод цепочек</font>
* <font size="4">https://bit.ly/2C0ryPW (в другом разделе ссылка дублируется)</font>

[в начало](#index)

# Ссылки
<a name="links"></a>
## Python
<a name="linkspy"></a>
* <font size="4">ссылка на код [dictobject.c](https://hg.python.org/cpython/file/52f68c95e025/Objects</font>/dictobject.c#l33)
* <font size="4">[как выбиралась реализация](https://github.com/python/cpython/blob/master/Objects/dictnotes.txt)</font>
* <font size="4">[Просто хорошая статья на английском с пояснениями исходного кода dict()](https://www.laurentluce.com/posts/python-dictionary-implementation/)</font>

## C++
<a name="linkscpp"></a>
* <font size="4">Тут стоит обратить внимание на комментарии</font>
  - <font size="4">[std::unordered_map](https://gcc.gnu.org/onlinedocs/libstdc++/libstdc++-html-USERS-4.1/unordered__map-source.html)</font>
  * <font size="4">[hashtable](https://gcc.gnu.org/onlinedocs/libstdc++/libstdc++-html-USERS-4.1/hashtable-source.html)</font>
* <font size="4">Почему именно так - [по ссылке](http://www.open-std.org/jtc1/sc22/wg21/docs/papers/2003/n1456.html). Стена текста!</font>

## Java
<a name="linksjava"></a>
* <font size="4">Подробности про реализацию корзин в `java.utils.HashMap` [тут](http://hg.openjdk.java.net/jdk8/jdk8/jdk/file/687fd7c7986d/src/share/classes/java/util/HashMap.java#l156) (комментарии к исходнику)</font>

<h2>C#</h2>
<a name="linkscs"></a>

* <font size="4">Повторение [ссылки](https://bit.ly/2C0ryPW) выше - объяснение реализации HashTable и Dictionary</font>
* <font size="4">Исходник [HashTable](https://referencesource.microsoft.com/#mscorlib/system/collections/hashtable.cs)</font>
* <font size="4">Исходник [Dictionary](https://referencesource.microsoft.com/#mscorlib/system/collections/generic/dictionary.cs)</font>

[в начало](#index)