# Коллизия

Я не знаю для кого я пишу эти материалы или зачем вы их читаете, но я надеюсь вы один из тех, кто не просто играл в телефон или по 45 минут листал pdf, а действительно выполнял задания. Здесь будут решения заданий из предыдущего урока, поскольку они нужны будут для следующих заданий.

---

Если хеш у двух ключей совпадет, то произойдет коллизия (столкновение), например в той функции, которую мы писали:

In [19]:
def simple_hash(s, prime=31, mod=10):
    h = 0
    for i in s:
        h = (h*prime+ord(i))%mod
    return h


print(simple_hash("АБС"))
print(simple_hash("ГСТ"))

8
8


Для двух разных ключей было возвращено одно и то же значение. Если бы эта функция использовалась в словаре (хэш-таблице), то в одну и то значение в одной и той же ячейке презаписалось бы и данные были бы утеряны. 

In [None]:
#(Данный теоретический материал написан в Jupyter Notebook, поэтому весь код, который здесь находится в одной программе. Код ниже обращается к функции `simple_hash`, которая описана выше)

from pprint import pprint #Красивый вывод

def add(d, pair):
    n = simple_hash(pair[0])
    d[n] = pair

def get(d, key):
    n = simple_hash(key)
    return d[n][1]

size = 10
my_dict = [(None, None)]*size
pprint(my_dict,compact=True)
print("---")
add(my_dict,("АБС",123))
pprint(my_dict,compact=True)
print("---")
add(my_dict,("ГСТ",456))
pprint(my_dict,compact=True)

[(None, None), (None, None), (None, None), (None, None), (None, None),
 (None, None), (None, None), (None, None), (None, None), (None, None)]
---
[(None, None), (None, None), (None, None), (None, None), (None, None),
 (None, None), (None, None), (None, None), ('АБС', 123), (None, None)]
---
[(None, None), (None, None), (None, None), (None, None), (None, None),
 (None, None), (None, None), (None, None), ('ГСТ', 456), (None, None)]


Особенно часто это происходит при маленьком значении `mod`, например в выше использовалось `mod=10` и в этом случае каждый десятый ключ будет создавать коллизию.

In [21]:
#Мы ищем по ключу "АБС", а получаем значение "ГСТ"
print(get(my_dict,"АБС"))

456


## Cпособы разрешения коллизии

### Метод цепочек
Метод цепочек - это способ разрешения коллизий в хеш-таблицах, при котором все элементы, имеющие одинаковый хеш-значение, хранятся в виде списка в одной ячейке таблицы. Когда происходит коллизия, новый элемент просто добавляется в конец списка.

Метод цепочек для разрешения коллизий:
    
1. Вместо хранения одного значения в ячейке хеш-таблицы, храним список
    
2. При добавлении элемента:
   - Вычисляем хеш ключа
   - Добавляем элемент в конец списка
    
3. При поиске элемента:
   - Вычисляем хеш ключа 
   - Находим нужную ячейку
   - Перебираем все элементы в списке, пока не найдем нужный ключ
          

In [None]:
from pprint import pprint 

def simple_hash(s, prime=31, mod=10):
    h = 0
    for i in s:
        h = (h*prime+ord(i))%mod
    return h

def add(d, pair):
    pass #Напишите сами

def get(d, key):
    pass #Напишите сами
    
size = 10
my_dict = [[] for i in range(size)] #Массив из массивов
pprint(my_dict,compact=True)

print("---")
add(my_dict,("АБС",123))
pprint(my_dict,compact=True)

print("---")
add(my_dict,("ГСТ",456))
pprint(my_dict,compact=True)

print("---")
print(get(my_dict, "АБС"))

[[], [], [], [], [], [], [], [], [], []]
---
[[], [], [], [], [], [], [], [], [('АБС', 123)], []]
---
[[], [], [], [], [], [], [], [], [('АБС', 123), ('ГСТ', 456)], []]
---
('АБС', 123)



Преимущества:
- Простая реализация
- Эффективен при небольшом количестве коллизий

Недостатки:
- Требует дополнительной памяти для хранения списков
- При большом количестве коллизий поиск может быть медленным. Теряются преимущества словаря в виде поиска от О(1)

### Открытая адресация

Открытая адресация - это метод разрешения коллизий, при котором, если возникает коллизия, мы ищем следующую свободную ячейку в массиве.

Метод открытой адресации для разрешения коллизий:

1. При добавлении элемента:
   - Вычисляем хеш ключа
   - Если ячейка занята, ищем следующую свободную ячейку
   - Добавляем элемент в найденную ячейку

2. При поиске элемента:
   - Вычисляем хеш ключа
   - Проверяем ключ в ячейке, если не находим, продолжаем поиск в следующих ячейках

In [None]:
from pprint import pprint 

def simple_hash(s, prime=31, mod=10):
    h = 0
    for i in s:
        h = (h*prime+ord(i))%mod
    return h

def add(d, pair):
    pass #Напишите сами

def get(d, key):
    pass #Напишите сами

size = 10
my_dict = [(None,None)]*size
pprint(my_dict,compact=True)

print("---")
add(my_dict,("АБС",123))
pprint(my_dict,compact=True)

print("---")
add(my_dict,("ГСТ",456))
pprint(my_dict,compact=True)

print("---")
print(get(my_dict, "АБС"))
print(get(my_dict, "ГСТ"))

[(None, None), (None, None), (None, None), (None, None), (None, None),
 (None, None), (None, None), (None, None), (None, None), (None, None)]
---
[(None, None), (None, None), (None, None), (None, None), (None, None),
 (None, None), (None, None), (None, None), ('АБС', 123), (None, None)]
---
[(None, None), (None, None), (None, None), (None, None), (None, None),
 (None, None), (None, None), (None, None), ('АБС', 123), ('ГСТ', 456)]
---
123
456


Преимущества: 
- Не требует дополнительных структур данных (например, списков), что может быть эффективнее в плане использования памяти.

Недостатки: 
- Склонность к образованию кластеров (групп занятых ячеек), что может замедлять операции

## Задание

1. Реализуйте метод цепочек для разрешения коллизий в хеш-таблице.
2. Реализуйте метод открытой адресации для разрешения коллизий в хеш-таблице.