In [1]:
from hash_tables import *

# Cодержание
<a name="index"></a>

1. [О себе](#me)
2. [Поиск элемента в массиве](#list)
   1. [Среднее время поиска](#mean)
   2. [Адресация в массиве](#addr)
3. [Таблица с прямой адресацией](#diraddr)
   1. [Представление таблицы с прямой адресацией](#diraddrrepr)
   2. [Операции](#diraddrops)
   3. [Плюсы](#diraddrpros)
   4. [Минусы](#diraddrcons)
4. [Хэш-функция](#hashfn)
   1. [Общие характеристики](#hashcommon)
   2. [Требования](#hashreq)
   3. [Примеры функций](#hashexamples)
   4. [Больше примеров (ссылка в конце)](#hashfnsmore)
5. [Метод цепочек](#chain)
   1. [Разрешение коллизий](#chaincoll)
   2. [Сложность метода цепочек](#chaindiff)
   3. [Еще о сложности в методе цепочек](#chaindiffmore)
   4. [Демо работы с таблицей](#chaindemo)
   5. [Псевдокод метода цепочек](#chaincode)
6. [Открытая адресация](#open)
   1. [Основной принцип](#openmain)
   2. [Сложности](#opendiff)
   3. [Псевдокод операций](#opencode)
   4. [Удаление](#opendel)
7. [Виды пробинга](#prob)
   1. [Линейный пробинг](#problin)
   2. [Квадратичный пробинг](#probquad) 
   3. [Двойное хэширование](#probdoub)
8. [В разных языках программирования](#lang)
   1. [Python](#langpy)
   2. [C++](#langcpp)
   3. [Java](#langjava)
   4. [C#](#langcs)
9. [Ссылки](#links)
   1. [Python](#linkspy)
   2. [C++](#linkscpp)
   3. [Java](#liknsjava)
   4. [C#](#linkscs)
   5. [Сравнение разных функций](#hashfnsmore)

# О себе
<a name="me"></a>
* <font size="4">Биофизик, начал заниматься программированием для работы с результатами экспериментов QM/MM</font>
* <font size="4">Пишу большую часть времени на python3</font>
* <font size="4">Раньше занимался созданием "толстого клиента" для умного дома</font>
* <font size="4">Сейчас работаю в Инфосистемах Джет в центре машинного обучения, занимаюсь NLP и другими проектами</font>
* <font size="4">Участвовал в организации олимпиады НТИ для школьников в треке по большим данным</font>

# Поиск элемента в массиве
<a name="list"></a>

## Чему равно время поиска в среднем?
<a name="mean"></a>
<img src="files/search_in_an_array.png">


<font size="4">
    ~ $n/2$, где $n$ - количество игроков, то есть элементов в массиве.</font>
    
    
<font size="4">**Какая ассимптотическая сложность у поиска в массиве?**</font>

<font size="4">
    $O(n)$<br>Хотелось бы быстрее? - конечно! Желательно за константное время.</font>

## Адресация в массиве
<a name="addr"></a>

* <font size="4">Размер адресуемой памяти у $32$-битной архитектуры: $2^{32} = 4294967296$ (~4 Гб)</font>
* <font size="4">У $64$-битной: $2^{64} = 18446744073709551616$ (16 эксабайт, очень-очень много)</font>

[в начало](#index)

# Таблица с прямой адресацией
<a name="diraddr"></a>

In [19]:
barcelona_table = fill_team_table(barcelona)
barcelona_table.iloc[10:20]

Unnamed: 0_level_0,player
idx,Unnamed: 1_level_1
10,Messi
11,Dembele
12,Rafinha
13,Cillessen
14,Malcom
15,Lenglet
16,Samper
17,
18,Alba
19,el Haddadi


## Представление таблицы с прямой адресацией
<a name="diraddrrepr"></a>
<img src="files/direct_addressing_2.png">

In [15]:
# <font size="4">Какой же в нашей таблице процент заполнения?</font>
round(filling_percentage(barcelona_table), 2)

0.23

## Доступные операции
<a name="diraddrops"></a>

* <font size="4">Вставка: `DirectAddressInsert(Table, key, value)` - O(1)</font>
* <font size="4">Удаление: `DirectAddressDelete(Table, key)` - O(1)</font>
* <font size="4">Поиск: `DirectAddressSearch(Table, key)` - O(1)</font>
* <font size="4">Псевдокод операций:</font>

```
DirectAddressInsert(Table, key, value):
    Table[key] = value
```
```
DirectAddressDelete(Table, key):
    Table[key] = NIL
```    
```
DirectAddressSearch(Table, key):
    return Table[key]
```

## Плюсы
<a name="diraddrpros"></a>
* <font size="4">Гарантированно быстрые операции</font>
* <font size="4">Очень простая реализация</font>

## Минусы
<a name="diraddrcons"></a>
*  <font size="4">Ограничен набор ключей (и на них должен быть <i>порядок</i>, желательно)</font>
*  <font size="4">Надо сразу выделить полную память</font>
*  <font size="4">Скорее всего, эта память пустует</font>

[в начало](#index)

# Хэш-функция
<a name="hashfn"></a>
## Общие характеристики
<a name="hashcommon"></a>
* <font size="4"><i>h: S → </i>M</font>
* <font size="4"><i>|S| > |M|</i></font>
* <font size="4">Отображение сюръективно</font>
<img src="files/hash_fn.png">

## Требования 
<a name="hashreq"></a>
* <font size="4">Всегда одинаковые значения для одного ключа</font>
* <font size="4">Равномерность - ключ с равной вероятностью хэшируется в случайную ячейку</font>
* <font size="4">Если не универсальна, оптимизируется под конкретные данные</font>
* <font size="4">Для допустимого ключа на выходе должна давать натруральное число (или 0!) в заданном диапазоне</font>


## Примеры функций
<a name="hashexamples"></a>
* <font size="4">Деление: $hash(k) = k\mod M $, где $M$ - размер таблицы </font>
* <font size="4">Умножение: $hash(k) = \lfloor M(kA\mod 1) \rfloor$, $M$ - размер таблицы, 0 < $A$ < 1</font>
* <font size="4">Функции для последовательностей и строк - хэш-функция Пирсона</font>
    
<font size="4"><pre>
1 T = Permute(0..255)
2 
3 HashPearson(T, C):
4     h = 0
5     <b>each</b> c <b>in</b> C <b>loop</b>
6         h = T[h <b>xor</b> c]
7     <b>end loop</b>
8     <b>return h</b>
</pre></font>
* <font size="4">Для 8-битной адресации (но расширяется и на 16- и [более](https://en.wikipedia.org/wiki/Pearson_hashing) бит)</font>
* <font size="4">Больше функций в последнем разделе</font>

<img src="files/collision_1.png">

[в начало](#index)

# Метод цепочек
<a name="chain"></a>
## Разрешение коллизий
<a name="chaincoll"></a>
<img src="files/chaining_1.png">

## Сложность операций
<a name="chaindiff"></a>
* <font size="4">Вставка: `ChainingInsert(Table, key, value)` - O(1)</font>
* <font size="4">Удаление: `ChainingDelete(Table, key)` - O(1) в среднем, O(n) в худшем</font>
* <font size="4">Поиск: `ChainingSearch(Table, key)` - O(1) в среднем, O(n) в худшем</font>
* <font size="4">Псевдокод операций:</font>

<font size="4"><pre>
1  M - размер таблицы
2  hash: key → index ∈ {0..M-1}
3
4
5  ChainingInsert(Table, key, value):
6      insert (key, value) at the head of list Table[hash(key)]
7
8
9  ChainingDelete(Table, key):
10     delete (key, value) from the listTable[hash(key)]
11
12
13 ChainingSearch(Table, key):
14     search for an element with key "key" in list Table[hash(key)]
</pre></font>

## Про сложность операций при методе цепочек
<a name="chaindiffmore"></a>
<font size="4">
    Всего записей в таблице: $n= n_0 + n_1 + n_2 + .. + n_{m-1}$<br>
    Матожидание количества записей в корзине: $E[n_j] = n / m$ = a<br>
    Следовательно, операций: O(1 + a)<br>
</font>

[в начало](#index)

## Демонстрация работы метода цепочек
<a name="chaindemo"></a>

In [36]:
demonstrator = demonstrator_gen(barcelona)

In [37]:
try:
    demo = next(demonstrator)
    print(demo) if demo is not None else ""
except StopIteration:
    print("Just finished")

0: [(20, 'Roberto')]
1: [(1, 'ter Stegen')]
2: [(2, 'Semedo'), (22, 'Vidal')]
3: [(3, 'Pique'), (23, 'Umtiti')]
4: [(24, 'Vermaelen'), (4, 'Rakitic')]
5: [(5, 'Buskuets')]
6: [(6, 'Denis Suarez'), (26, 'Alena')]
[91m[1m7: [(7, 'Coutinho')][0m
8: [(8, 'Arthur')]
9: [(9, 'Luis Suarez')]
10: [(10, 'Messi')]
11: [(11, 'Dembele')]
12: [(12, 'Rafinha')]
13: [(13, 'Cillessen')]
14: [(14, 'Malcom')]
15: [(15, 'Lenglet')]
16: [(16, 'Samper')]
17: []
18: [(18, 'Alba')]
19: [(19, 'el Haddadi')]


## Псевдокод операций
<a name="chaincode"></a>
* <font size="4">Вставка: `ChainingInsert(Table, key, value)` - O(1)</font>
* <font size="4">Удаление: `ChainingDelete(Table, key)` - O(1) в среднем, O(n) в худшем</font>
* <font size="4">Поиск: `ChainingSearch(Table, key)` - O(1) в среднем, O(n) в худшем</font>
* <font size="4">Псевдокод операций:</font>

<font size="4"><pre>
1  M - размер таблицы
2  hash: key → index ∈ {0..M-1}
3
4
5  ChainingInsert(Table, key, value):
6      insert (key, value) at the head of list Table[hash(key)]
7
8
9  ChainingDelete(Table, key):
10     delete (key, value) from the listTable[hash(key)]
11
12
13 ChainingSearch(Table, key):
14     search for an element with key "key" in list Table[hash(key)]
</pre></font>

[в начало](#index)

# Открытая адресация
<a name="open"></a>

## Основной принцип
<a name="openmain"></a>
* <font size="4">Идея: выбрать алгоритм (probing), по которому будет выбираться следующая ячейка, если произошла коллизия</font>
* <font size="4">Искать записи при помощи того же алгоритма</font>
* <font size="4">Раширять таблицу, когда она заполнится достаточно сильно (load factor)</font>

<img src="files/open_address_1.png">

## Сложности
<a name="opendiff"></a>
* <font size="4">Выбор хэш-функции, пробинга</font>
* <font size="4">Образование кластеров</font>
* <font size="4">Операция удаления</font>


## Псевдокод операций
<a name="opencode"></a>
* <font size="4">Вставка: `OpenAddressInsert(Table, key, value)` - O(1) в среднем, O(n) в худшем</font>
* <font size="4">Поиск: `OpenAddressSearch(Table, key)` - O(1) в среднем, O(n) в худшем</font>
* <font size="4">Удаление: `OpenAddressDelete(Table, key)` - O(1) в среднем, O(n) в худшем</font>
* <font size="4">Псевдокод операций:</font>

<font size="4"><pre>
1  M - размер таблицы
2  hash: key → index ∈ {0..M-1}
3
4
5  OpenAddressInsert(Table, key, value)
6      i = 0
7      <b>repeat</b>
8          j = hash(key, i)
9          <b>if</b> Table[j] == NIL
10             return j
11         <b>else</b>:
12             i = i + 1
13     <b>until</b> i == m
14     <b>return</b> "overflow"            
15
16
17 OpenAddressSearch(Table, key)
18     i = 0
19     <b>repeat</b>
20         j = hash(key, i)
21         <b>if</b> Table[j] == key
22             <b>return</b> j
23         i = i + 1
24     <b>until</b> T[j] == NIL or i == m
25     <b>return</b> NIL
    
</pre></font>
<h2>Удаление?</h2>
<a name="opendel"></a>

* <font size="4">Создавать дополнительный массив - "данные удалены" (замедляет поиск, "портит" load factor)</font>
* <font size="4">Пропускаем ячеки с другим хэшем; значение с первым совпадающим ключом копируем в текщую ячейку; удаляем его (рекурсия)</font>

[в начало](#index)

# Виды пробинга
<a name="prob"></a>
## Линейное исследование
<a name="problin"></a>
* <font size="4">$hash(k, i) = (hash'(k) + i)\mod M$.</font>
* <font size="4">Неравномерно, склонно к образованию кластеров. $hash'(k, i)$ - вспомогательная хэш-функция.</font>
* <font size="4">Чем больше кластер, тем быстрее он растет: $(i + 1)/m$, где $i$ - размер кластера.</font>

## Квадратичное исследование
<a name="probquad"></a>
* <font size="4">$hash(k, i) = (hash'(k) + с_1i + с_2i^2)\mod M$.</font>
* <font size="4">Лучше линейного, но нужно подбирать $с_1, с_2, M$.</font>

## Двойное хэширование
<a name="probdoub"></a>
* <font size="4">$hash(k, i) = (hash_1(k) + i \times hash_2(k))\mod M$.</font>
* <font size="4">Дает $m^2$ возможных последовательностей, более равномерно</font>
* <font size="4">Значение $hash_2(k)$ всегда должно быть взаимно простым с $M$ (для обхода всей таблицы)</font>
  - <font size="4">как вариант, для достаточно большого $M$:</font>
  - <font size="4">$h_1(k) = k \mod M$</font>
  - <font size="4">$h_2(k) = 1 + (k \mod (M-1))$</font>
  
[в начало](#index)

# В разных языках программирования
<a name="lang"></a>
<font size="4">[(ссылки в конце)](#links)</font>
## Python
<a name="langpy"></a>
* <font size="4">dict()</font>

* <font size="4">Открытая адресация, интересный пробинг</font>
<pre>
    j = (5*j) + 1 + perturb;
    perturb >>= PERTURB_SHIFT;
    use j % 2**i as the next table index;
</pre>
* <font size="4">Для идущих подряд значений</font>
<pre>
  >>> map(hash, (0, 1, 2, 3))
  [0, 1, 2, 3]
  >>> map(hash, ("namea", "nameb", "namec", "named"))
  [-1658398457, -1658398460, -1658398459, -1658398462]
</pre>
* <font size="4">Примерный код для хэширования строк и кортежей в python. Также может служить примером для последовательностей неограниченной длины. Можно делать свои `hash`'и через C-extensions</font>

```python
def hash(tuple):
    mult = 1000003
    x = 0x345678
    for index, item in enumerate(tuple):
        x = ((x ^ hash(item)) * mult) & (1<<32)
        mult += (82520 + (len(tuple)-index)*2)
    return x + 97531


def hash(string):
    x = string[0] << 7
    for chr in string[1:]:
        x = ((1000003 * x) ^ chr) & (1<<32)
    return x
```

## C++
<a name="langcpp"></a>
* <font size="4">`std::unordered_map`</font>
* <font size="4">Метод цепочек - для универсальноси</font>
* <font size="4">https://bit.ly/2RNxPnD (в другом разделе ссылка дублируется)</font>
* <font size="4"> Можно "легко" сделать под свои нужды</font>


## Java 8
<a name="langjava"></a>
* <font size="4">`java.util.HashMap`</font>
* <font size="4">Метод цепочек</font>
* <font size="4">Используются деревья внтури одной корзины</font>

<h2>C#</h2>
<a name="langcs"></a>

* <font size="4">`System.Collections.Hashtable` и `System.Collections.Generic.Dictionary` </font>
* <font size="4">Hashtable: открытая адресация, двойное хэширование</font>
* <font size="4">Dictionary: метод цепочек</font>
* <font size="4">https://bit.ly/2C0ryPW (в другом разделе ссылка дублируется)</font>

[в начало](#index)

# Ссылки
<a name="links"></a>
## Python
<a name="linkspy"></a>
* <font size="4">ссылка на код [dictobject.c](https://hg.python.org/cpython/file/52f68c95e025/Objects</font>/dictobject.c#l33)
* <font size="4">[как выбиралась реализация](https://github.com/python/cpython/blob/master/Objects/dictnotes.txt)</font>
* <font size="4">[Просто хорошая статья на английском с пояснениями исходного кода dict()](https://www.laurentluce.com/posts/python-dictionary-implementation/)</font>

## C++
<a name="linkscpp"></a>
* <font size="4">Тут стоит обратить внимание на комментарии</font>
  - <font size="4">[std::unordered_map](https://gcc.gnu.org/onlinedocs/libstdc++/libstdc++-html-USERS-4.1/unordered__map-source.html)</font>
  * <font size="4">[hashtable](https://gcc.gnu.org/onlinedocs/libstdc++/libstdc++-html-USERS-4.1/hashtable-source.html)</font>
* <font size="4">Почему именно так - [по ссылке](http://www.open-std.org/jtc1/sc22/wg21/docs/papers/2003/n1456.html). Стена текста!</font>

## Java
<a name="linksjava"></a>
* <font size="4">Подробности про реализацию корзин в `java.utils.HashMap` [тут](http://hg.openjdk.java.net/jdk8/jdk8/jdk/file/687fd7c7986d/src/share/classes/java/util/HashMap.java#l156) (комментарии к исходнику)</font>

<h2>C#</h2>
<a name="linkscs"></a>

* <font size="4">Повторение [ссылки](https://bit.ly/2C0ryPW) выше - объяснение реализации HashTable и Dictionary</font>
* <font size="4">Исходник [HashTable](https://referencesource.microsoft.com/#mscorlib/system/collections/hashtable.cs)</font>
* <font size="4">Исходник [Dictionary](https://referencesource.microsoft.com/#mscorlib/system/collections/generic/dictionary.cs)</font>

## Сравнение разных функций
<a name="hashfnsmore"></a>
* <font size="4">Лучшее саммари, которое я нашел - на [stackexcahnge](https://softwareengineering.stackexchange.com/questions/49550/which-hashing-algorithm-is-best-for-uniqueness-and-speed). Далее можно выбирать подходящий себе алгоритм и углубляться в детали :)</font>

[в начало](#index)