# Семинар 6: хэш-таблицы и множества

### Глава 0: дэк
Очень удобная структура данных, позволяющая добавлять элементы как в конец, так и в начало. На ее основе можно сделать очередь или двустороннюю очередь.
Все добавления и удаления из конца происходят за константное количество операций, то есть за $O(1)$. Это быстро и очень удобно. Удаление из любой другой части **не гарантируют** такую быстроту.

In [1]:
from collections import deque  # deque потому что Double-Ended-QUEue

d = deque()
# а также дэк можно создать из списка или чего-то другого, по чему можно пройтись, например, так
# d = deque([1, 2, 3])

d.append("Vasya")
d.appendleft("Petya")
print('deque contains:', d)

print(d.popleft())
print('after popleft:', d)
print(d.pop())
print('after pop:', d)

deque contains: deque(['Petya', 'Vasya'])
Petya
after popleft: deque(['Vasya'])
Vasya
after pop: deque([])


### Глава 1: введение в хэши

> **Definition:** A hash function is a function that takes a set of inputs of any arbitrary size and fits them into a table or other data structure that contains fixed-size elements.




Более просто (но это не общий случай), можно считать, что некоторый объект `obj` может быть передан некоторой функции $f$, такой что $f(obj) \in H\subset\mathbb{Z}$.

С точки зрения практики, это, например, позволяет "укомплектовать" любого размера строчки в числа. При этом могут быть коллизии:

<img src="https://upload.wikimedia.org/wikipedia/commons/d/d0/Hash_table_5_0_1_1_1_1_1_LL.svg" style="background-color:white">

**Пример:** как хэшировать строки? Например, пусть у нас есть некоторые простые числа $p > 2$ и $M$ (достаточно большое) и некоторая строка $s$ длины $n$, тогда
$h(s) = s_1 * p + s_2 * p^2 + \ldots + s_n * p^n \mod M$

Модуль здесь нужен, чтобы не хранить большие числа, так как такая полиномиальная функция обычно имеет без модуля очень большое значение. В питоне это не так критично, но в языках, где чаще всего размер числа ограничен 8 байтами, это может привести к проблемам.

Простота чисел $p$ и $M$ здесь важна чтобы избежать случая, когда строки из одинаковых символов будут давать по модулю 0.

Однако понятно, что тут все равно могут быть коллизии, причем коллизия будет порядка $\frac{n - 1}{M}$ для строк длины $n$. Если $M$ достаточно большое простое, то это не так критично и хэш таблица такие случаи решать умеет (смотри картинку выше: это пример цепочки (*сhaining*)).

In [6]:
# еще один простой пример хэш функции
# хэш-функция берет строку, суммирует ASCII-коды всех символов и берет остаток от деления на 10

key = input()

print(sum(ord(char) for char in key) % 19)

Ted Baker
4


#### **Задача 1**

Попробуйте переписать на питон хэш-функцию выше:
$h(s) = s_1 * p + s_2 * p^2 + \ldots + s_n * p^n \mod M$

Возьмите за $p$ и за $M$ какие-то простые числа по вашему усмотрению. Принимайте строчку, введенную пользователем и выводите результат ее преобразования в число.

In [None]:
# ваш код здесь

### Глава 2: множества

> По сути, это нечто вроде математических множеств, т. е. "контейнер" из **неповторяющихся** элементов в **некотором** порядке.

Множества в питоне $-$ это один из примеров реализации хэш-таблицы в питоне. Позволяет хранить неповторяющиеся объекты и быстро проверять их наличие. Добавление и проверка наличия происходит за $O(1)$, удаление $-$ тоже за $O(1)$ (с поправкой на коллизии).

In [7]:
s = {1, 2, 3}  # множество можно создать через фигурные скобки

print("1 in s:", 1 in s)
print("5 in s:", 5 in s)

1 in s: True
5 in s: False


Давайте проведем небольшой тест, насколько это быстро работает:

In [8]:
# знакомьтесь, это компрехеншны, возможно, подробнее поговорим про них позже, если останется время

N_NUMBERS = 10 ** 4
my_list = [i ** 2 for i in range(N_NUMBERS)]

my_set = {i ** 2 for i in range(N_NUMBERS)}

In [9]:
%%timeit
# с помощью %%timeit можно изменить среднее время работы ячейки +- std
# если написать просто %%time будет результат одного запуска, без стандартного отклонения

for i in range(N_NUMBERS):
    i in my_list  # можно никуда не присваивать, питон так тоже умеет

985 ms ± 5.37 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [10]:
%%timeit
for i in range(N_NUMBERS):
    i in my_set  # можно никуда не присваивать, питон так тоже умеет

960 µs ± 256 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [15]:
s = {1, 2, "pampam", 1.2}  # можно хранить разные типы данных








**NB!** Вы помните, что пустой список можно было задать просто при помощи квадратных скобок `[]`. С множествами так нельзя!

In [19]:
not_set = {}
print(type(not_set))

<class 'dict'>


Получился словарь, о котором еще попозже поговорим!

А надо вот так:

In [20]:
empty_set = set()
print(type(empty_set))

<class 'set'>


Множество можно создать из любой другой коллекции, например, списка. Таким образом удобно находить только уникальные элементы.

In [21]:
list_with_repetitions = ['cat', 'dog', 'python', 'dino', 'snake', 'python']
set_without_repetitions = set(list_with_repetitions)

In [23]:
print(set_without_repetitions)
print(len(set_without_repetitions))

{'python', 'dino', 'snake', 'cat', 'dog'}
5


In [24]:
print(*set(set_without_repetitions))  # print(*[1, 2, 3, 4]) -> print(1, 2, 3, 4)

for i in set(set_without_repetitions):
    print(i)

python dino snake cat dog
python
dino
snake
cat
dog


#### **Задача 2**

МарьИванна записывает детей на экскурсию, пока не будет введена пустая строка. Она знает, что все дети в ее классе имеют:
1. разные имена,
2. короткую оперативную память, поэтому они быстро забывают, подходили ли они к МарьИванне, и могут подойти еще раз.

Напишите при помощи множеств программу, которая вывела бы все уникальные введенные имена школьников через пробел в одну строку (в любом порядке).

| Ввод                                                        | Вывод |
|:-----------------------------------------------------------:|:-----:|
| Маша<br>Петя<br>Соня<br>Петя<br>Маша<br>Аня<br>Катя<br>Петя<br> | Петя Маша Аня Соня Катя |

In [None]:
# ваш код здесь

### Что можно делать с множествами?

Множество было бы не множеством, если было бы нельзя делать какие-то операции с ним. Только это не очень быстро, за $O(n + m)$, где $n$ и $m$ длины множеств.

In [30]:
one_set = {"Yana", "Sasha"}
another_set = {"Sonya", "Sasha", "Polina"}

In [33]:
one_set.add("Tema")  # добавить во множество
print(one_set)

{'Yana', 'Tema', 'Sasha'}


In [34]:
one_set.discard("Tema")
print(one_set)

{'Yana', 'Sasha'}


In [35]:
one_set.discard("Tema")  # не выдаст ошибку, несмотря на то, что элемента нет
print(one_set)

{'Yana', 'Sasha'}


In [36]:
one_set.remove("Yana")
one_set.remove("Yana")  # выдаст ошибку, так как такого элемента уже нет

KeyError: 'Yana'

In [37]:
s = {"Sonya", "Sasha", "Polina"}

print(s.pop())
print(s.pop())
print(s)

Polina
Sasha
{'Sonya'}


| команда                                 | смысл                                                                                                                |
|-----------------------------------------|----------------------------------------------------------------------------------------------------------------------|
| `A \| B`<br>`A.union(B)`                       | Возвращает множество, являющееся объединением множеств A и B.                                                        |
| `A \|= B`<br>`A.update(B)`                     | Добавляет в множество A все элементы из множества B.                                                                 |
| `A & B`<br>`A.intersection(B)`                 | Возвращает множество, являющееся пересечением множеств A и B.                                                        |
| `A &= B`<br>`A.intersection_update(B)`         | Оставляет в множестве A только те элементы, которые есть в множестве B.                                              |
| `A - B`<br>`A.difference(B)`                   | Возвращает разность множеств A и B (элементы, входящие в A, но не входящие в B).                                     |
| `A -= B`<br>`A.difference_update(B)`           | Удаляет из множества A все элементы, входящие в B.                                                                   |
| `A ^ B`<br>`A.symmetric_difference(B)`         | Возвращает симметрическую разность множеств A и B (элементы, входящие в A или в B, но не в оба из них одновременно). |
| `A ^= B`<br>`A.symmetric_difference_update(B)` | Записывает в A симметрическую разность множеств A и B.                                                               |
| `A <= B`<br>`A.issubset(B)`                    | Возвращает `True`, если A является подмножеством B.                                                                    |
| `A >= B`<br>`A.issuperset(B)`                  | Возвращает `True`, если B является подмножеством A.                                                                    |
| `A < B`                                   | Эквивалентно A <= B and A != B                                                                                       |
| `A > B`                                   | Эквивалентно A >= B and A != B                                                                                       |


**NB!** Это верно только для тех случаев, когда обе переменных уже являются типом *set*.

Полный список команд можете посмотреть в [документации](https://python-reference.readthedocs.io/en/latest/docs/sets/).

In [39]:
one_set = {"Yana", "Sasha"}
another_set = {"Sonya", "Sasha", "Polina"}

In [40]:
print(one_set & another_set)  # пересечение
print(one_set.intersection(another_set))

{'Sasha'}
{'Sasha'}


In [41]:
print(one_set | another_set)  # объединение
print(one_set.union(another_set))

{'Yana', 'Sasha', 'Sonya', 'Polina'}
{'Yana', 'Sasha', 'Sonya', 'Polina'}


In [42]:
print(one_set - another_set)  # разность
print(one_set.difference(another_set))

{'Yana'}
{'Yana'}


In [43]:
print(one_set ^ another_set)  # симметрическая разность -- те, которые есть в обоих исключая пересечение
print(one_set.symmetric_difference(another_set))

{'Polina', 'Yana', 'Sonya'}
{'Polina', 'Yana', 'Sonya'}


In [44]:
one_set -= another_set  # все это можно еще делать через -=, ^=, &= и так далее

print(one_set)

{'Yana'}


#### **Задача 3**

В задачах NLP достаточно часто встречается термин стоп-слов. Это такие слова, которые часто повторяются в текстах, типа союзов, местоимений или предлогов. Они "портят" статистику комплингвистам, так как являются самыми частотными и при этом не несут никакого смысла.

Вам дан список нескольких стоп-слов в русском:

```python
stops_ru = ['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'из', 'его', 'мне']
```

Пользователь вводит сколько-то слова через пробелы. Удалите из них стоп-слова.

**Ввод**:
> я попросил его прочитать мне отрывок из поэмы пусть небольшой и он выдвинул ящик письменного стола вынул объемистую стопку листов со штампом и самодовольным звучным голосом прочел

**Вывод**:
> попросил прочитать отрывок поэмы пусть небольшой выдвинул ящик письменного стола вынул объемистую стопку листов штампом самодовольным звучным голосом прочел




In [None]:
# ваш код здесь

Ровно так же, как и списки, множества копируются по ссылке (изменяемые):

In [46]:
one_set = {1, 2, 3}
another_set = one_set
another_set.discard(2)

print(one_set)

{1, 3}


Поэтому нужно не забывать делать копии, если вам это нужно!

In [48]:
from copy import deepcopy

another_set = one_set.copy()
another_set = deepcopy(one_set)

**NB!** Положить во множества можно не абы что:

In [49]:
s = {[1, 2, 3]}  # выдаст ошибку, список нельзя захэшить

TypeError: unhashable type: 'list'

In [50]:
# а вот в списке хранить множество можно

sets = [{1, 2, 3}, {5, 6, 7}]
sets[0].add(9)
print(sets)

[{1, 2, 3, 9}, {5, 6, 7}]


In [51]:
s = {(1, 2, 3), (4, 5, 6, 7)}  # зато можно кортежи: почему?
print(s)

{(4, 5, 6, 7), (1, 2, 3)}


In [52]:
s = {{5, 6, 7}, {6, 7, 8}}  # множество тоже нельзя положить во множество

TypeError: unhashable type: 'set'

Но можно положить `frozenset`. Если составлять пропорцию, то:<br>
`list` : `tuple` = `set` : `frozenset`

In [53]:
s = {frozenset({1, 2, 3}), frozenset({1, 2, 3}), 3, "pampam"}

print(s)

{frozenset({1, 2, 3}), 3, 'pampam'}


### Практика

#### **Задача 4**

Каждый из N школьников некоторой школы знает $M_i$ языков. Определите, какие языки знают все школьники и языки, которые знает хотя бы один из школьников.

#### **Задача 5**
Во входной строке записана последовательность чисел через пробел. Для каждого числа выведите слово YES (в отдельной строке), если это число ранее встречалось в последовательности или NO, если не встречалось.

#### **Задача 6**

Август и Беатриса играют в игру. Август загадал натуральное число от $1$ до $n%. Беатриса пытается угадать это число, для этого она называет некоторые множества натуральных чисел. Август отвечает Беатрисе YES, если среди названных ей чисел есть задуманное или NO в противном случае. После нескольких заданных вопросов Беатриса запуталась в том, какие вопросы она задавала и какие ответы получила и просит вас помочь ей определить, какие числа мог задумать Август.

**Формат ввода**

Первая строка входных данных содержит число $n$ — наибольшее число, которое мог загадать Август. Далее идут строки, содержащие вопросы Беатрисы. Каждая строка представляет собой набор чисел, разделенных пробелами. После каждой строки с вопросом идет ответ Августа: YES или NO. Наконец, последняя строка входных данных содержит одно слово HELP.