## Тема №2: Множества

**Множество должно уметь:** 

* Добавлять элемент
* Проверять наличие элемента
* Удалять элемент

**Как работает множество:** 

* Придумаем какую-нибудь функцию, которая сопоставляет каждому элементу какое-либо небольшое число, в итоге эта функция должна быть такой, чтобы число элементов снизилось. По принципу Дирихле будут возникать проблемы, когда разным элементам из исходной группы соответствует одно и то же число из получившейся группы. 
* Вычислим эту функцию от элемента
* Положим элемент в список в ту позицию, которая равна значению функции

-------
_Пример:_ 
* Функция - последняя цифра числа $X$ (то есть $F(X) = X \% 10$)
* Вычислим функцию от элемента
* Положим элемент в список с номером, равным значению функции

$137 \Rightarrow 7; 17 \Rightarrow 7 -$ коллизия. Чтобы решить эту проблему, можно завести список 

Есть множество $[1, 10, 137, 17, 55, 4, 4, 1]$. И функция $F(X) = X \% 10$. Тогда получим список $[[10], [1], [], [], [4], [55], [], [137, 17]]$. 

-------

**Подсчет сложности в операциях:**

* `Итерирование:` Итерирование по получившемуся множеству произойдет за $O(N + K)$  

* `Проверка наличия:` Проверка на наличие элемента в множестве происходит так: считаем функцию $F(X)$ от элемента, он нас шлет в конкретную позицию, затем там линейным поиском смотрим, есть ли такое число. Если коллизий нет, то проверка происходит за $O(1)$, а если коллизий много, то за $O(\frac{K}{N})$ в среднем, то есть если элементы распределены случайно

* `Добавление:` Добавление элемента в множестве происходит за $O(1)$, так как добавляем просто в конец списка коллизии

* `Удаление:` Удаление элемента в множестве происходит так: сначала за $O(\frac{K}{N})$ ищем в списке-коллизии список, однако само удаление в списке происходит за $O(K)$ тоже, но удаление последнего элемента за $O(1)$, поэтому после того как нашли элемент, который хотим удалять, мы можем поменять его местами с последним, и удалить последний - это будет быстрее

**Важное замечание про хеш-функции:**

Нужно делать такую функцию, чтобы по индексам элементы заполнялись рандомно. Например для денег брать такую хеш-функцию, которая считает последнее число очень опасно, так как кажется, что 0 на конце в деньгах встречается чаще. 

**Проблемы с размером хеш-таблицы и некоторое решение:**

* Если слишком большой размер хеш-таблицы, то будем есть много памяти $O(N)$
* Если слишком маленький размер хеш-таблицы, то будет большой коэффициент заполнения и медленный поиск и удаление за $O(\frac{K}{N})$
* _Решение:_ хочется иметь разумный балансс, например, коэффициент заполнения не больше единицы (то есть $K \le N$). Тогда все операции в среднем будут занимать $O(1)$

**Проблемы с перестроением хеш-таблицы:**

* Если элементы постепенно добавляются в хеш-таблицу и вдруг она переполнилась по коэффициенту заполнения, то ее нужно расширить и переложить в ней все элементы
* Сделать это можно за $O(N)$. Возьмем таблицу с начальным размером 1. Будем добавлять $N = 2^p$ элементов, то есть $P = \log N$, то есть добавляем элементы, когда их число стало быть равно значению степени двойки. Тогда на 1ом шаге переставляем $1$ элемент, на втором $2$ элемента, на третьем $4$ элемента, потом $8$ элементов и т.д. В итоге получаем $1 + 2 + 4 + 8 + \ldots + 2^p = 2^{p+1} - 1 = 2N - 1 = O(N)$. То есть $N$ элементов добавляются за $O(N)$, причем некоторые добавления одного элемента тоже добавляются за $O(N)$. 

### Задание №0

Создаем собственное мультимножество с хеш-функцией последней цифры в числе

In [2]:
setsize = 10
myset = [[] for _ in range(setsize)]

def myhash(x):
    return x % 10

def add(x):
    myset[myhash(x)].append(x)
    
def find(x):
    for now in myset[myhash(x)]:
        if now == x:
            return True
    return False

def delete(x):
    xlist = myset[myhash(x)]
    for i in range(len(xlist)):
        if xlist[i] == x:
            xlist[i] = xlist[len(xlist)-1]
            xlist.pop()
            return 

[[], [], [], [], [], [], [], [], [], []]

### Задача №1

Дана последовательность положительных чисел длиной $N$ и число $X$. Нужно найти $2$ различных числа $A$ и $B$ из последовательности, таких что $A+B=X$ или вернуть пару $(0,0)$ если таких чисел нет

`Решение:` 

Будем идти по последовательности и смотреть, есть ли число $X-i$ в множестве. 

In [None]:
def solve(seq, x):
    prevnums = set()
    for num in seq:
        if (x - num) in prevnums:
            return num, x-num
        prevnums.add(num)
    return 0,0

`Сложность по времени:` $O(N)$  

### Задача №2

Дан словарь из $N$ слов, длина каждого слова не превосходит $K$ 

Дан текст из $M$ слов (каждое не превосходит $K$ по длине). И у каждого из $M$ слов может быть пропущена буква. Проверить, входит ли каждое слово (возможно с учетом пропущенной буквы) в словарь. 

`Решение + подсчет сложности`

Выбросим из каждого слова в словаре по одной букве всеми возможными способами за $O(NK)$ и положим получившиеся слова в множество за $O(K)$. Затем для каждого слова из текста просто проверим, есть ли оно в словаре за $O(1)$. Общая сложность $O(NK^2 + M)$

In [None]:
def solve(dct, text):
    goodwords = set(dct)
    for word in dct: # O(N)
        for delpos in range(len(word)): # O(K)
            goodwords.add(word[:delpos] + word[delpos+1:]) # O(K)
    ans = []
    for word in text: # O(M)
        ans.append(word in goodwords)
    return ans 