## Алгоритмы хэширования

### Парадокс дней рождений


Требуется определить вероятность того, что в группе из n человек как минимум у двух из них дни рождения совпадут.

Пусть дни рождения распределены равномерно, то есть примем, что:

в году 365 дней (нет високосных лет);
в группе нет людей, заведомо родившихся в один день (например, близнецов);
рождаемость не зависит от дня недели, времени года и других факторов.

 Возьмём наугад одного человека из группы и запомним его день рождения. Затем возьмём наугад второго человека, при этом вероятность того, что у него день рождения не совпадёт с днем рождения первого человека, равна  $1 - \frac{1}{365}$, для второго $1 - \frac{2}{365}$ и т.д


Ссылка на статью: https://ru.wikipedia.org/wiki/Парадокс_дней_рождения

In [5]:
from math import factorial

def p(n: int) -> float:
    return 1 - (factorial(100000) / (100000 ** n * factorial(100000 - n)))


# n = int(input())
n = 100
print(p(n) * 100)

4.831047413228118


### Хеширование

Алгоритмы хэширования строк помогают решить очень много задач. Но у них есть большой недостаток: что чаще всего они не 100%-ны, поскольку есть множество строк, хэши которых совпадают. Другое дело, что в большинстве задач на это можно не обращать внимания, поскольку вероятность совпадения хэшей всё-таки очень мала.

$h(S)  =  S[0] * P^0  +  S[1] * P  +  S[2] * P^2  +  S[3] * P^3  +  ...  +  S[N] * P^N$

Очевидно, что при большой длине строки хеш будет переполнять размеры *int*, *long long*. (На питоне у нас будет тянуться длинная арифметика)

Для этого формула дополняется взятием остатка по модулю для каждого члена. 

$h(S)  =  S[0]*P^0  \%  MOD  +  S[1] * P \% MOD  +  S[2] * P^2 \% MOD  +  S[3] * P^3 \% MOD +  ...  +  S[N] * P^N \% MOD$

In [None]:
123 % 3 = 0     "aa" ? "bb"
60 % 3 = 0



Какие числа выбрать для P и MOD?
- Для MOD рекомендуется "Большое простое число", например, $10^9 + 9$
- Если же входные данные могут содержать как прописные, так и строчные буквы, то  возможен выбор p = 53. Если используются прописные и строчные буквы русского алфавита, а также символ пробел, то возможет выбор p = 67. Обычно это 53.

Проблема: из-за взятия остатка может возникнуть **коллизия хеша**. (из-за закольцовывания остатков, можно доказать по принципу Дирихле).
Для этого используется двойное хеширование или дополнения для хеш-таблиц

#### Задача о сравнении двух строк

Идея: сравнить длину и хэш строки

In [20]:
f_st = input()
s_st = input()

x_ = 53
mod_ = 10 ** 9 + 9

def hash_st(st: str) -> int:
    h = 0
    for i in st:
        h += (h * x_ + (ord(i) - ord('a') + 1)) % mod_
    return h


# print(hash_st(f_st))
# print(hash_st(s_st))

if len(f_st) == len(s_st) and hash_st(f_st) == hash_st(s_st):
    print("YES")
else:
    print("NO")




YES


#### Задача о подсчете одинаковых строк

Идея: составить массив пар (хэш, длина) для каждой строки. отсортировать

In [8]:
n = int(input())
ar = []


# asd
# asd
# bbb
# qu
# bbb

for i in range(n):
    ar.append(input())

x_ = 153
mod_ = 10 ** 9 + 9


def hash_st(st: str) -> int:
    h = 0
    for i in st:
        h += (h * 257 + (ord(i) - ord('a') + 1)) % mod_
    return h


def second_hash_st(st: str)
    h = 0
    for i in st:
        h += (h * x_ + (ord(i) - ord('a') + 1)) % (10 ** 9 + 7)
    return h


hash_list = []
for cur_st in ar:
    hash_list.append([hash_st(cur_st), len(cur_st)])
    
hash_list.sort()

cnt = 0


for i in range(1, n):
    if hash_list[i - 1][0] == hash_list[i][0] and hash_list[i - 1][1] == hash_list[i][1]:
        cnt += 1
    

print(cnt)
# print(hash_list)


2
[[939, 2], [3946, 3], [3946, 3], [5942, 3], [5942, 3]]


#### Задача о сравнении подстрок 

Дана строка S, состоящая из строчных латинских букв.
Определите, совпадают ли строки одинаковой длины L, начинающиеся с позиций A и B.

В первой строке записана S (1 ≤ |S| ≤ 2 ⋅ 105), состоящая из строчных латинских букв.
Во второй строке записано число Q (1 ≤ Q ≤ 2 ⋅ 105) — количество запросов.
В следющих Q строках записаны запросы: целые числа L, A и B (1 ≤ L ≤ |S|, 0 ≤ A, B ≤ (|S| - L)) — длина подстрок и позиции, с которых они начинаются.


In [None]:
acabaca
3
4 3 2
3 4 0
2 0 1

Идея: научиться сравнивать хэши построк

![f_hint](data/1.png)
![s_hint](data/2.png)

In [None]:
s = input()
n = len(s)
p = 10**9 + 7
x_ = 257
h = [0] * (n + 1)
x = [0] * (n + 1)
x[0] = 1
s = ' ' + s
for i in range(1, n + 1):
    h[i] = (h[i - 1] * x_ + ord(s[i])) % p
    x[i] = (x[i - 1] * x_) % p # текущий коэффициента уравнения

def isequal(from1, from2, slen):
    return ((h[from1 + slen - 1] + h[from2 - 1] * x[slen]) % p) == ((h[from2 + slen - 1] + h[from1 - 1] * x[slen]) % p)

for i in range(int(input())):
    l, a, b = map(int, input().split())
    ans = isequal(a + 1, b + 1, l)
    if ans:
        print("yes")
    else:
        print("no")

#### Хеш-таблицы

Встроенные - set, map

Виды хеш-таблиц:
- открытые 
- закрытые

Интерфейс хеш-таблицы
- добавить
- найти
- удалить
- изменить

![open_table](data/t49_1.jpg)
![close_table](data/t49_2.jpg)

Слева открытая таблица. Для конфликтующие значений элемент вставляется по индексу + шаг (пока не найдем свободную ячейку)
Справа закрытая. Для конфликтующие значений элемент добавляется в массив

#### Полезные ссылки:

Тренировка по алгоритмам 4.0 от яндекса: https://www.youtube.com/watch?v=nSgDk6P_8pI