# Семинар 5: бинарный поиск, хэш-таблицы

# Линейный и бинарный поиск

Вы - продавец в магазине. Когда покупатель что-то у вас покупает, вы проверяете стоимость товара по книге. 

In [16]:
book = [('яйца', 60), ('чай', 16), ('кофе', 35), ('лён', 20), 
        ('петрушка', 15), ('торт', 10), ('арбуз', 60), ('йогурт', 35), 
        ('соя', 20), ('ролтон', 42), ('бобы', 10), ('глаз дракона', 2)]

In [51]:
book[7][0]

'йогурт'

In [52]:
book[7][1]

35

In [53]:
book[7][2]

IndexError: tuple index out of range

Как найти сколько стоят бобы? Листать книгу, читать в ней каждую строчку до тех пор пока мы не найдём ответ. 

In [17]:
z = 'бобы'

for item in book:
    if item[0] == z:
        print(f'{z} стоят', item[1])

бобы стоят 10


__Вопрос:__ Если у нас всего $n$ продуктов, сколько действий нам надо будет сделать в худшем случае? 

__Ответ:__ Линейный поиск - $O(n)$ - в худшем случае, нужный продукт последний

Как-то долговато. Давайте попробуем ускориться. Одной из идей ускорения может быть сортировка. Если отсортировать все продукты по их названию, искать будет легче.

In [19]:
sorted(book, key=lambda w: len(w[0]))

[('чай', 16),
 ('лён', 20),
 ('соя', 20),
 ('яйца', 60),
 ('кофе', 35),
 ('торт', 10),
 ('бобы', 10),
 ('арбуз', 60),
 ('йогурт', 35),
 ('ролтон', 42),
 ('петрушка', 15),
 ('глаз дракона', 2)]

In [20]:
f = lambda x: x**2
f(4)

16

In [23]:
sorted(book)

[('арбуз', 60),
 ('бобы', 10),
 ('глаз дракона', 2),
 ('йогурт', 35),
 ('кофе', 35),
 ('лён', 20),
 ('петрушка', 15),
 ('ролтон', 42),
 ('соя', 20),
 ('торт', 10),
 ('чай', 16),
 ('яйца', 60)]

In [26]:
sorted(book, key=lambda x: len(x[0]))

[('чай', 16),
 ('лён', 20),
 ('соя', 20),
 ('яйца', 60),
 ('кофе', 35),
 ('торт', 10),
 ('бобы', 10),
 ('арбуз', 60),
 ('йогурт', 35),
 ('ролтон', 42),
 ('петрушка', 15),
 ('глаз дракона', 2)]

In [27]:
sorted(book, key=lambda x: x[1], reverse=True)

[('яйца', 60),
 ('арбуз', 60),
 ('ролтон', 42),
 ('кофе', 35),
 ('йогурт', 35),
 ('лён', 20),
 ('соя', 20),
 ('чай', 16),
 ('петрушка', 15),
 ('торт', 10),
 ('бобы', 10),
 ('глаз дракона', 2)]

In [28]:
def f(x):
    return x[1]

sorted(book, key=f, reverse=True)

[('яйца', 60),
 ('арбуз', 60),
 ('ролтон', 42),
 ('кофе', 35),
 ('йогурт', 35),
 ('лён', 20),
 ('соя', 20),
 ('чай', 16),
 ('петрушка', 15),
 ('торт', 10),
 ('бобы', 10),
 ('глаз дракона', 2)]

> Можно договориться, что мы всегда будем хранить книгу отсортированной, тогда товар будет легко найти бинарным поиском

Будем открывать книгу в середине. Там буква "п". Нам нужна буква "б", она левее буквы "п". Откроем серидну левой части книги, там буква "й", нам нужно еще левее, снова откроем середину. Будем так делать до тех пор, пока не найдём бобы. Такая процедура будет работать быстрее, она называется __бинарный поиск.__

In [35]:
book = sorted(book, key=lambda w: w[0])
book

[('арбуз', 60),
 ('бобы', 10),
 ('глаз дракона', 2),
 ('йогурт', 35),
 ('кофе', 35),
 ('лён', 20),
 ('петрушка', 15),
 ('ролтон', 42),
 ('соя', 20),
 ('торт', 10),
 ('чай', 16),
 ('яйца', 60)]

In [36]:
def binary_search(lst, z):
    low = 0
    high = len(lst) - 1
    
    while low <= high:
        mid =(low + high) // 2
        guess = lst[mid]
        
        if guess[0] == z:
            return mid
        if guess[0] > z:
            high = mid - 1
        else:
            low = mid + 1
    return None 

idx = binary_search(book, 'бобы')
print(idx)

1


In [37]:
book[idx]

('бобы', 10)

__Вопрос:__ Если у нас всего $n$ продуктов, сколько действий нам надо будет сделать в худшем случае? 

__Ответ:__ В худшем случае нужный продукт мы найдём самы последним, и он останется в нашем массиве один. Каждый раз мы урезаем массив в два раза. Получается уравнение:

$$
\frac{n}{2^{k}} = 1,
$$

где $k$ - число действий, которое мы сделали (разбиение массива на 2 части, константой пренебрегаем).

Решаем уравнение относительно $k$, получаем

$$
k = \log_2{n}.
$$

Обычно основанием пренебрегают, так как мы умножением логарифма на констунту легко можем поменять его:

$$
\log_a b = \frac{\log_c b}{\log_c a}.
$$

Поэтому обычно пишут, что 

$$
T(n) = k = O(\log n)
$$


In [None]:
# Линейный поиск - O(n) - в худшем случае 
# Бинарный поиск - O(log(n)) в худшем случае

# Что такое хэш-таблица? 

Всё ещё долго. А можно ещё быстрее? Конечно можно. Давайте наймём помощницу по имени Алиса и заставим её выучить всю книгу с продуктами и ценами наизусть. Тогда мы сможем задавать ей вопрос и моментально будем получать ответ на него. Просто чудо, а не помощница! Где бы взять такую... 

Попробуем создать её из тех структур данных, которые мы уже знаем. А именно: из массивов. Для этого будем использовать __хеш-функцию.__ Хеш-функция - это такая функция, которая на вход получает строку и возвращает число. Они и поможет нам создать свою Алису.

In [38]:
book = [('яйца', 60), ('чай', 16), ('кофе', 35), ('лён', 20), 
        ('петрушка', 15), ('торт', 10), ('арбуз', 60), ('йогурт', 35), 
        ('соя', 20), ('ролтон', 42), ('бобы', 10), ('глаз дракона', 2)]

In [39]:
book.index(('соя', 20)) # линейный поиск 

8

__Хэш-таблица__ - это комбинация из массива и хэш-функции. __Хэш-функция__ - это любое правило, по которомму можно легко и быстро превратить входные данные в целое положительное число.

Пусть наша хэш-функция возвращает номер первой буквы слова в алфавите. 

In [40]:
def simple_hash(x):
    alph = 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя'
    return alph.index(x[0])

simple_hash('яйца')

32

In [44]:
simple_hash('глаз дракона')

3

In [45]:
x = [0]*33 # заведём пустой массив
len(x), x[:10]

(33, [0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

Положим в массив $x$ на $32$ позицию цену на яйца. По аналогии сделаем со всеми продуктами и их ценами. 

In [46]:
for food, price in book:
    x[simple_hash(food)] = price
x

[60,
 10,
 0,
 2,
 0,
 0,
 0,
 0,
 0,
 0,
 35,
 35,
 20,
 0,
 0,
 0,
 15,
 42,
 20,
 10,
 0,
 0,
 0,
 0,
 16,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 60]

Хэш-функция в нашем примере связывает каждое название с одним индексом. На месте этого индекса в векторе $x$ и лежит нужная цена. __Поздравляю, мы создали свою Алису!__

А теперь к нам приходит клиент и спрашивает: "А сколько стоит торт?" Мы легко можем ответить на его вопрос: 

In [47]:
ind = simple_hash('торт')
ind

19

In [48]:
x[ind]

10

И мы делаем это моментально, без перебора как в первых двух случаях. 

А если клиент спросит "А сколько стоит тигр?". Упс...

In [49]:
ind = simple_hash('тигр')
x[ind]

10

In [None]:
# Поиск в хэш-таблице работает за O(1)

__Вопросы:__

- Понятное дело, что на практике хеш-функции устроены сложнее, у той функции, которую мы тут использовали есть куча проблем: какие это проблемы? 
- Как можно попытаться решить эти проблемы? 

Немного подробнее можно почитать про это в [грокаем алгоритмы](https://disk.yandex.ru/i/VUEpPKLb3ZH2Bz)

# Словари и множества - хэш-таблицы в питоне

В python хэш-таблицы реализованы в виде словарей и множеств. Давайте с ними познакомимся. 

## Множества

Все элементы уникальны, порядок элементов никак не гарантируется.

In [85]:
a = {1,2,3,4,4,3} # [] - листы  {} - словари и множества
a

{1, 2, 3, 4}

In [86]:
b = [4,1,5,6,6,7,7]
b

[4, 1, 5, 6, 6, 7, 7]

In [87]:
d = set(b)
d

{1, 4, 5, 6, 7}

In [89]:
# Операции
a | d # объединение

{1, 2, 3, 4, 5, 6, 7}

In [90]:
a & d # пересечение

{1, 4}

In [92]:
a - d # разность

{2, 3}

In [94]:
d.add(42) # добавить новый элемент
d

{1, 4, 5, 6, 7, 42}

Это работает быстрее!

In [88]:
import random

x = [random.randint(1,1000000) for i in range(10000)]
x[100:110]

[254407, 604743, 79803, 298908, 464207, 735833, 875892, 857680, 181115, 261169]

In [84]:
x = list(set(x)) # выкинул неуникальные, а потом вернул структуру листа
y = set(x)
len(x), len(y)

(9947, 9947)

In [78]:
691538 in x # O(n) линейный поиск по массиву

True

In [80]:
691538 in y # O(1) поиск в хэш-таблица

True

Много-много раз попробуемм сделать одно и то же и замерим время работы.

In [81]:
%%timeit
691538 in x

12.6 µs ± 219 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [82]:
%%timeit
691538 in y 

55.6 ns ± 0.562 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


## Словари

То же самое, что и множества, но с ключами и значениями!

In [151]:
d = {"Маша": 10, "Мирослав": 2, "Тейлор": 12}
d

{'Маша': 10, 'Мирослав': 2, 'Тейлор': 12}

In [152]:
d['Маша']

10

In [153]:
'Паша' in d

False

In [154]:
d['Паша'] = 1
d

{'Маша': 10, 'Мирослав': 2, 'Тейлор': 12, 'Паша': 1}

In [155]:
d['Паша'] += 9
d

{'Маша': 10, 'Мирослав': 2, 'Тейлор': 12, 'Паша': 10}

In [156]:
'Паша' in d

True

In [157]:
d['Маша'] = 12 # каждый ключ - уникальная штука
d

{'Маша': 12, 'Мирослав': 2, 'Тейлор': 12, 'Паша': 10}

In [163]:
ddd = {4: [7,8.5, 'Маша'], 'Рома': 10, '5.5': {2:4, 'g':7}}
ddd

{4: [7, 8.5, 'Маша'], 'Рома': 10, '5.5': {2: 4, 'g': 7}}

In [165]:
ddd['5.5']['g']

7

In [166]:
ddd['5.5'] = 4
ddd

{4: [7, 8.5, 'Маша'], 'Рома': 10, '5.5': 4}

### Задачка:

Дан текст. Выведите слово, которое в этом тексте встречается чаще всего. Если таких слов несколько, выведите то, которое меньше в лексикографическом порядке.

In [158]:
text = "oh you a a touch my tralala mmm my ding ding dong"

d = {}

for word in text.split(' '):
    if word in d:
        d[word] = d[word] + 1
    else:
        d[word] = 1
d

{'oh': 1,
 'you': 1,
 'a': 2,
 'touch': 1,
 'my': 2,
 'tralala': 1,
 'mmm': 1,
 'ding': 2,
 'dong': 1}

In [159]:
d.keys()

dict_keys(['oh', 'you', 'a', 'touch', 'my', 'tralala', 'mmm', 'ding', 'dong'])

In [160]:
d.values()

dict_values([1, 1, 2, 1, 2, 1, 1, 2, 1])

In [123]:
d.items()

dict_items([('oh', 1), ('you', 1), ('a', 2), ('touch', 1), ('my', 2), ('tralala', 1), ('mmm', 1), ('ding', 2), ('dong', 1)])

In [167]:
x_max = max(d.items(), key=lambda w: w[1])[1]

x = filter(lambda w: w[1]==x_max, d.items())

x = sorted(x, key=lambda w: w[0])
x

[('a', 2), ('ding', 2), ('my', 2)]

In [169]:
x[0][0]

'a'

Упрощаем код! В модуле `collecctions` собраны разные удобные структуры данных.

In [172]:
text = "oh you a a touch my tralala mmm my ding ding dong"

d = {}

for word in text.split(' '):
    d[word] = d[word] + 1
d

KeyError: 'oh'

In [174]:
from collections import defaultdict

d = defaultdict(lambda: 0)
d

defaultdict(<function __main__.<lambda>()>, {})

In [175]:
text = "oh you a a touch my tralala mmm my ding ding dong"

for word in text.split(' '):
    d[word] = d[word] + 1
d

defaultdict(<function __main__.<lambda>()>,
            {'oh': 1,
             'you': 1,
             'a': 2,
             'touch': 1,
             'my': 2,
             'tralala': 1,
             'mmm': 1,
             'ding': 2,
             'dong': 1})

In [176]:
text = "oh you a a touch my tralala mmm my ding ding dong"

d = defaultdict(list)

for word in text.split(' '):
    d[word].append(word)
d

defaultdict(list,
            {'oh': ['oh'],
             'you': ['you'],
             'a': ['a', 'a'],
             'touch': ['touch'],
             'my': ['my', 'my'],
             'tralala': ['tralala'],
             'mmm': ['mmm'],
             'ding': ['ding', 'ding'],
             'dong': ['dong']})

In [192]:
from collections import Counter

text = "oh you a a touch my tralala mmm my ding ding dong"

cnt = Counter(text.split(' '))
x = cnt.most_common()
x_max = x[0][1]

x = filter(lambda w: w[1]==x_max, x)
x = sorted(x, key=lambda w: w[0])
x[0][0]

'a'

In [198]:
from collections import deque

deq = deque([12,3,4])
deq

deque([12, 3, 4])

In [199]:
deq.append(17)
deq

deque([12, 3, 4, 17])

In [200]:
deq.appendleft(5)
deq

deque([5, 12, 3, 4, 17])

In [201]:
cur = deq.popleft()
cur

5

In [202]:
deq

deque([12, 3, 4, 17])

In [None]:
# Через append докидывать в очередь новых людей
# Через popleft убирать их из неё

In [203]:
x = [1,2,3,4]
x.append(5)
x

[1, 2, 3, 4, 5]

In [204]:
x.appendleft(5)

AttributeError: 'list' object has no attribute 'appendleft'

In [205]:
x.pop()

5

In [206]:
x.popleft()

AttributeError: 'list' object has no attribute 'popleft'

https://docs.python.org/3/library/collections.html

## Вопросы

In [208]:
x = [10,1,2,-5,-3,0] # лист изменяемая структура, его можно изменять методами
x.sort()

In [209]:
x

[-5, -3, 0, 1, 2, 10]

__Вопрос:__ можно ли самому писать такие структуры? 

__Ответ:__ Да, можно. Это обычно делают с помощью классов. Посмотрим на это на консультациях.