# Семинар 4: хэш-таблицы и множества

### Глава 0: дэк
Очень удобная структура данных, позволяющая добавлять элементы как в конец, так и в начало. На ее основе можно сделать очередь или двустороннюю очередь.
Все добавления и удаления из конца происходят за константное количество операций, то есть за $O(1)$. Это быстро и очень удобно. Удаление из любой другой части **не гарантируют** такую быстроту. Под капотом дэк устроен из трех массивов на самом деле.

In [None]:
from collections import deque  # deque потому что Double-Ended-QUEue

d = deque()
# а также дэк можно создать из списка или чего-то другого, по чему можно пройтись, например, так
# d = deque([1, 2, 3])

d.append("Vasya")
d.appendleft("Petya")
print('deque contains:', d)

print(d.popleft())
print('after popleft:', d)
print(d.pop())
print('after pop:', d)

### Глава 1: введение в хэши

**Definition:** A hash function is a function that takes a set of inputs of any arbitrary size and fits them into a table or other data structure that contains fixed-size elements.


Более просто (но это не общий случай), можно считать, что некоторый объект `obj` может быть передан некоторой функции $f$, такой что $f(obj) \in H\subset\mathbb{Z}$.

С точки зрения практики, это, например, позволяет "укомплектовать" любого размера строчки в числа. При этом могут быть коллизии:

<img src="https://upload.wikimedia.org/wikipedia/commons/d/d0/Hash_table_5_0_1_1_1_1_1_LL.svg" style="background-color:white">

**Пример:** как хэшировать строки? Например, пусть у нас есть некоторые простые числа $p > 2$ и $M$ (достаточно большое) и некоторая строка $s$ длины $n$, тогда
$h(s) = s_1 * p + s_2 * p^2 + \ldots + s_n * p^n \mod M$

Модуль здесь нужен, чтобы не хранить большие числа, так как такая полиномиальная функция обычно имеет без модуля очень большое значение. В питоне это не так критично, но в языках, где чаще всего размер числа ограничен 8 байтами, это может привести к проблемам.

Простота чисел $p$ и $M$ здесь важна чтобы избежать случая, когда строки из одинаковых символов будут давать по модулю 0.

Однако понятно, что тут все равно могут быть коллизии, причем коллизия будет порядка $\frac{n - 1}{M}$ для строк длины $n$. Если $M$ достаточно большое простое, то это не так критично и хэш таблица такие случаи решать умеет (смотри картинку выше).

### Глава 2: множества

Множества в питоне -- это один из примеров реализации хэш-таблицы в питоне. Позволяет хранить неповторяющиеся объекты и быстро проверять их наличие. Добавление и проверка наличия происходит за $O(1)$, удаление -- за $O(1)$

In [None]:
s = {1, 2, 3}  # множество можно создать через фигурные скобки

print("1 in s:", 1 in s)
print("5 in s:", 5 in s)

Давайте проведем небольшой тест, насколько это быстро работает:

In [None]:
# знакомьтесь, это компрехеншны, возможно, подробнее поговорим про них позже, если останется время

N_NUMBERS = 10 ** 4
my_list = [i ** 2 for i in range(N_NUMBERS)]

my_set = {i ** 2 for i in range(N_NUMBERS)}

In [None]:
%%timeit  # с помощью %%timeit можно изменить среднее время работы ячейки +- std
# если написать просто %%time будет результат одного запуска, без стандартного отклонения

for i in range(N_NUMBERS):
    i in my_list  # можно никуда не присваивать, питон так тоже умеет

In [None]:
%%timeit
for i in range(N_NUMBERS):
    i in my_set  # можно никуда не присваивать, питон так тоже умеет

In [None]:
s = {1, 2, "kek", 1.2}  # можно хранить разные типы данных

In [None]:
empty_set = {}  # это неправильно, это не множество!!!!
print(type(empty_set))

In [None]:
empty_set = set()  # а надо вот так
print(type(empty_set))

Множество можно создать из любой другой коллекции, например, списка. Таким образом удобно находить только уникальные элементы.

In [None]:
values = [1, 2, 1, 1, 1, 2, 2, 3, 5, 4, 4, 3, 5, 2, 1]
print(set(values))
print(len(set(values)))

In [None]:
print(*set(values))

for i in set(values):
    print(i)

Множество было бы не множеством, если было бы нельзя делать какие-то операции с ним. Только это не очень быстро, за $O(n + m)$, где $n$ и $m$ длины множеств.

In [None]:
one_set = {"Yana", "Sasha"}
another_set = {"Sonya", "Sasha", "Polina"}

In [None]:
one_set.add("Tema")  # добавить во множество

In [None]:
print(one_set & another_set)  # пересечение
print(one_set.intersection(another_set))

In [None]:
print(one_set | another_set)  # объединение
print(one_set.union(another_set))

In [None]:
print(one_set - another_set)  # разность
print(one_set.difference(another_set))

In [None]:
print(one_set ^ another_set)  # симметрическая разность -- те, которые есть в обоих исключая пересечение
print(one_set.symmetric_difference(another_set))

In [None]:
one_set -= another_set  # все это можно еще делать через -=, ^=, &= и так далее
# еще можно написать вот так: one_set.difference_update(another_set)
# по аналогии есть:
# * one_set.symmetric_difference_update
# * one_set.intersection_update
# * one_set.update -- это объединение, оно пишется без union в начале

print(one_set)

In [None]:
one_set.discard("Tema")
print(one_set)

In [None]:
one_set.discard("Tema")  # не выдаст ошибку, несмотря на то, что элемента нет
print(one_set)

In [None]:
one_set.remove("Yana")
one_set.remove("Yana")  # выдаст ошибку, так как такого элемента уже нет

In [None]:
s = {"Sonya", "Sasha", "Polina"}

print(s.pop())
print(s.pop())

Ровно так же, как и списки, множества копируются по ссылке

In [None]:
one_set = {1, 2, 3}
another_set = one_set
another_set.discard(2)

print(one_set)

In [None]:
from copy import deepcopy

another_set = one_set.copy()
another_set = deepcopy(one_set)

Важно! Положить во множества можно не абы что

In [None]:
s = {[1, 2, 3]}  # выдаст ошибку, список нельзя захэшить

In [None]:
# а вот в списке хранить множество можно

sets = [{1, 2, 3}, {5, 6, 7}]
sets[0].add(9)
print(sets)

In [None]:
s = {(1, 2, 3), (4, 5, 6, 7)}  # зато можно кортежи. подумайте почему
print(s)

In [None]:
s = {{5, 6, 7}, {6, 7, 8}}  # множество тоже нельзя положить во множество

In [None]:
s = {frozenset({1, 2, 3}), frozenset({1, 2, 3}), 3, "Kek"}  # frozenset -- это аналог tuple, его вот положить можно

print(s)

### Практика

#### Задача 0

Каждый из N школьников некоторой школы знает $M_i$ языков. Определите, какие языки знают все школьники и языки, которые знает хотя бы один из школьников.

#### Задача 1
Во входной строке записана последовательность чисел через пробел. Для каждого числа выведите слово YES (в отдельной строке), если это число ранее встречалось в последовательности или NO, если не встречалось.

#### Задача 2

Август и Беатриса играют в игру. Август загадал натуральное число от 1 до n. Беатриса пытается угадать это число, для этого она называет некоторые множества натуральных чисел. Август отвечает Беатрисе YES, если среди названных ей чисел есть задуманное или NO в противном случае. После нескольких заданных вопросов Беатриса запуталась в том, какие вопросы она задавала и какие ответы получила и просит вас помочь ей определить, какие числа мог задумать Август.

**Формат ввода**

Первая строка входных данных содержит число n — наибольшее число, которое мог загадать Август. Далее идут строки, содержащие вопросы Беатрисы. Каждая строка представляет собой набор чисел, разделенных пробелами. После каждой строки с вопросом идет ответ Августа: YES или NO. Наконец, последняя строка входных данных содержит одно слово HELP.