#### Семинар 2 Словари/множества

##### Общая идея
Пусть у нас есть список `items` длины `N`. Поиск элемента в нем по **индексу** работает за O(1) `items[i]`
Но если необходимо искать элемент по значению, то это уже O(N): нужно просмотреть все элементы, чтобы найти нужный или убедиться в том, что его нет. Соответственно, если не придумать поиск по значению за O(1), то с ростом объема данных сценарии поиска станут работать заградительно долго.

К счастью, такой способ придумали, он состоит из следующих шагов.
1. Придумываем функцию, которая произвольный **неизменяемый** объект в python превратит в какое-то неотрицательное число. Требуется, чтобы равные объекты превращались в одно и то же число.
2. Придумываем функцию, которая превратит число, полученное на предыдущем шаге (а оно может быть очень большим), в индекс в каком-то массиве.
3. Соответственно, при поиске элемента мы знаем, где он может лежать, при вставке/удалении куда его положить/убрать

##### Нюансы
Но что если хэш-функция от двух разных аргументов возвращает одно и то же число? По умолчанию, это приведет к тому, что если положить оба таких элемента в контейнер, последний затрет первый. Такое явление называется **коллизия**, и с ним есть два способа борьбы.
1. Хранить во внутреннем массиве не сами элементы, а списки их
2. Сделать хэшфункцию не от одного аргумента, а от двух. Сначала звать ее `index = H(0, object)`, а потом, если по индексу `index` уже что-то лежит, попробовать позвать `H((index+1) % size, object)`

Вырожденный случай. Допустим, у нас `H(object) == 0` всегда. Тогда у нас теряется вся идея, поиск и вставка элемента будут линейными. Поэтому требования к хорошей хэшфунции таковы:
  * Она должна быть быстрой, потому что она вычисляется каждый раз при чтении/записи
  * Она должна минимизировать количество коллизий. То есть количество объектов, попавших в один индекс, должно быть минимальным и ограниченным сверху (примерно какой-то константой * размер входных данных/размер массива, в котором храним сырые элементы)

  Примитивная реализация хеш-таблицы:
  ```python
  p = 1009  # простое число
  data =[list() for _ in range(p)] 
 
  def H(object):
      return hash(object) % p
  
  def insert(object):
      pass # implement me

  def find(object):
      pass # implement me

  def delete(object):
      pass # implement me
  ```


Почему выбираем простое число. Если мы оперируем остатками по модулю *какому-то*, то можем столкнуться с таким явлением, как делители нуля. Например, если p == 6, то 2 и 3 - оба не нули, но умножение их дает 0, что немного ломает хэшфункции некоторые.

##### Задача 1 - self made set/dict  1 балл. дедлайн вечер 11 сентября без штрафа, пара 16го сентября со штрафом 50%
Реализовать функции insert|find|delete для хеш таблицы. По желанию обобщить всю эту конструкцию до словаря, когда вместе с ключами храним и значения. Подсказка: какая конструкция языка подойдет для хранения пар элементов? Какой элемент ключ, а какой значение? Убедиться, что в среднем это все работает за O(1) по времени

##### Задача 2 - ordered dict 2 балла. дедлайн пара 16го сентября без штрафа.
Придумать и реализовать структуру данных, которая ведет себя как словарь в плане добавления/удаления пар ключ/значение, но при этом сохраняет порядок вставки ключей. Изменение значения существующего ключа не должно влиять на порядок, а удаление и последующая вставка - должны.
Вставка/удаление O(1), доп память O(N)

В этой задаче **можно** использовать словари, хэшфункции свои писать не надо и обработчик коллизий тоже. Для хранения пар ключ/значение можно использовать существующий словарь.

Если понадобится дополнительная структура, которая хранит порядок элементов, (кстати, что бы тут подошло), можете ее использовать.

Функции нужны следующие:
  * Поиск
  * Вставка (как существующего, так и нового элемента, надо уметь оба варианта обрабатывать)
  * Удаление
     * Подсказка 1: удаление из списка (если вдруг он вам понадобится) по **значению** - O(N), здесь нужно придумать что-то поизящнее
     * Подсказка 2: при удалении из списка **по индексу** - это O(1), но при этом меняются индексы элементов, добавленных после удаляемого. Вот бы был способ вместо физического удаления как-то отметить, что здесь ничего нет
     * Подсказка 3: если таких специально отмеченных удаленными элементов стало слишком много (больше  x%), почему бы не перестроить все, оставив только живые элементы?
  * Иллюстрация обхода получившегося контейнера по порядку добавления ключей.

```python
  items = {} # обычный словарь
  
  def insert(object):
      pass # implement me

  def find(object):
      pass # implement me

  def delete(object):
      pass # implement me
  
  def walk_through():
     # print only alive key/value pairs in appropriate order
      pass # implement me
  
  ```  

