# Занятие №8: словари, хэш-таблица, сортировки

---

[МИНИКОНТЕСТ](https://contest.yandex.ru/contest/30003)

---
https://replit.com - можете сразу воспроизводить код и решать задачи используя онлайн интерпретатор Питона (\\\"Create Repl\\\" -> \\\"Select Language - Python\\\")

##  Словари   [DOCS1](https://docs.python.org/3/tutorial/datastructures.html#dictionaries) [DOCS2](https://docs.python.org/3/library/stdtypes.html#mapping-types-dict)

Мы уже успели изучить такие типы данных как строки, кортежи и списки (массивы). Все они имеют такое свойство как "номер", то есть к их элементам можно обратиться по индексу и эта **идентификация** "номер - элемент" **однозначна**. Однако, в реальной жизни мы не всегда идентифицируем данные *только числами*. Например, юзернейм в телеграме, номер группы студентов, маршруты поездов, авиарейсы, и др.. 

То есть для хранения информации о чем-либо в качестве идентификатора удобно использовать, например, текстовую строку. Самым простым случаем такой идентификации являются пары вида "текст - текст", например, "страна - столица", "слово - его значение" и т.д.

Структура данных, позволяющая идентифицировать ее элементы не по числовому индексу, а по индексу произвольного типа, называется **словарем или ассоциативным массивом** и в Питоне - `dict`. Идентификатор в Питоне называется `key` (ключ), а соответствующий элемент - `value` (значение).

<img src="https://developers.google.com/edu/python/images/dict.png" width="300">

Очень важно, чтобы ключ был 1) **уникален**, т.е. в словаре не может быть двух одинаковых ключей с разным значением 2) **неизменяемого типа**, т.е. список не может быть ключом, а кортеж может. В качестве значения может выступать любой тип данных, в том числе другой словарь, или даже функция.

###  Создание словаря  

Словарь можно создать с помощью функции `dict()` из набора пар **ключ - значение** и им может быть:

1. кортеж/список, элемент которого кортеж/список длины 2

In [1]:
# список списков
a = dict([
    ["Russia", "Moscow"], 
    ["Ukraine", "Kiev"], 
    ["USA", "Washington"]
]) 

In [2]:
# список кортежей
a = dict([
    ("Russia", "Moscow"),
    ("Ukraine", "Kiev"),
    ("USA", "Washington")
])

In [3]:
# кортеж списков
a = dict((
    ["Russia", "Moscow"], 
    ["Ukraine", "Kiev"], 
    ["USA", "Washington"]
))

In [4]:
# кортеж кортежей
a = dict((
    ("Russia", "Moscow"), 
    ("Ukraine", "Kiev"), 
    ("USA", "Washington")
)) 

In [5]:
print(a)

{'Russia': 'Moscow', 'Ukraine': 'Kiev', 'USA': 'Washington'}


2. `zip` объект с элементами длины 2

In [22]:
# zip 
z = zip(["Russia", "Ukraine", "USA"], ["Moscow", "Kiev", "Washington"])
a = dict(z)
print(a)

{'Russia': 'Moscow', 'Ukraine': 'Kiev', 'USA': 'Washington'}


3. генератор словаря `{ key : value for _ in _}`, обратите внимание на то, что пара передается с помощью разделения их двоеточием.

In [15]:
a = {x : 0 for x in 'abcdef'}
print(a)

{'a': 0, 'b': 0, 'c': 0, 'd': 0, 'e': 0, 'f': 0}


4. перечисление пар:
    * внутри фигурных скобок через запятую вида `key : value`
    * внутри функции `dict` в виде именованых аргументов (тогда ключом может быть _только_ строка)

In [12]:
# фигурные скобки 
a = {'Russia': 'Moscow', 'Ukraine': 'Kiev', 'USA': 'Washington'}

In [13]:
# именованые аргументы
a = dict(Russia = 'Moscow', Ukraine = 'Kiev', USA = 'Washington')

In [14]:
# смесь
a = dict({'Russia': 'Moscow', 'Ukraine': 'Kiev'}, USA = 'Washington')

Пустой словарь можно создать при помощи функции `dict()` или пустой пары фигурных скобок `{}`. 

In [28]:
print(
    dict(), {}
)

{} {}


Решите задачу: https://contest.yandex.ru/contest/30003/problems/A/

###  Функции применимые к словарям  

In [48]:
d = {'Russia': 'Moscow', 'Ukraine': 'Kiev', 'USA': 'Washington'}

Cловарь это итерируемый изменяемый тип данных. С помощью функции `list` можно получить список его ключей (без значений!) в том порядке, в каком они были добавлены; `sorted` возвращает отсортированный список ключей; функция `len` как обычно возвращает число элементов.

In [49]:
print(
    list(d), 
    sorted(d), 
    len(d), 
sep='\n')

['Russia', 'Ukraine', 'USA']
['Russia', 'USA', 'Ukraine']
3


`d.copy()` - возвращает копию* словаря;

`d.clear()` - удаляет все элементы словаря

In [50]:
d2 = d.copy()
d.clear()
print(
    d2, 
    d, 
sep='\n')

{'Russia': 'Moscow', 'Ukraine': 'Kiev', 'USA': 'Washington'}
{}


\* копировать словарь так же важно, как копировать список - т.к. это изменяемый тип данных, то присваивая словарь новому имени переменной мы не создаем новый объект, а лишь создаем новую "ссылку" на объект, поэтому, меняя старый или новый объект, будем меняться другой:

In [51]:
d = {'Russia': 'Moscow', 'Ukraine': 'Kiev', 'USA': 'Washington'}
d2 = d
d.clear()
print(
    d2, 
    d,
sep='\n')

{}
{}


`d.update(other)` - обновляет (пополняет новыми ключами и заменяет значения уже имеющихся) словарь парами `key:value` из `other`. Этот метод __изменяет__ сам объект, а не создает новый, поэтому возвращает `None` (так же работает, например, `append` списка).

In [52]:
d = {'Russia': 'Moscow', 'Ukraine': 'Kiev', 'USA': 'Washington'}
# заметьте как поменяется ключ-значение Russia-Moscow
d.update({'Russia' : 'St Petersburg', 'Romania' : 'Buharest'})

print(d)

{'Russia': 'St Petersburg', 'Ukraine': 'Kiev', 'USA': 'Washington', 'Romania': 'Buharest'}


###  Работа с ключами и значениями  

Как и в списке, **обратиться к элементу или изменить его** можно по идентификатору с помощью квадратных скобок. Если указанного ключа в словаре не существует, то Питон ругается ошибкой `KeyError`.

In [53]:
# обратились к значению по ключу 
print(d['USA'])

Washington


In [54]:
# изменили значение по ключу (как в списках)
d['Russia'] = 'Moscow'

In [55]:
# обратились к несуществующему ключу
d['Finland']

KeyError: 'Finland'

Можно проверить, **лежит ли ключ в словаре**:

In [56]:
print(
    'Finland' in d, 
    'USA' in d, 
    'Finland' not in d, 
    'USA' not in d,
sep='\n')

False
True
True
False


В отличие от списков, создание нового элемента словаря может быть совершено с помощью тех же квадратных скобок:

In [57]:
d['Hungary'] = 'Budapest'
print(d)

{'Russia': 'Moscow', 'Ukraine': 'Kiev', 'USA': 'Washington', 'Romania': 'Buharest', 'Hungary': 'Budapest'}


Однако, можно обратиться к значению по ключу и без ошибки. Для этого есть метод `get(key, [default=None])`, который возвращает значение ключа, если ключ есть в словаре, иначе возвращает значение `default`, которое по дефолту (ого, тавтология) `None`.

In [58]:
a = d.get('USA') # такой ключ есть, выдаст его значение
print(a)

Washington


In [59]:
a = d.get('Finland') # такого ключа нет, выдаст None
print(a)

None


In [60]:
a = d.get('Finland', 'Not given') # такого ключа нет и мы указали позиционный параметр, выдаст 'Not Given'
print(a)

Not given


Почему это удобно, спросите вы? Вот вам usage case!

In [61]:
# Хотим провести частотный анализ текста
text = 'мама мыла раму рама мыла маму мама мыла маму рама мыла раму'
words = text.split()

In [62]:
# то есть создать словарь вида {слово : кол-во встречаний в тексте}
frequence_dict = {}
for word in words:
    if word in frequence_dict:
        frequence_dict[word] += 1
    else:
        frequence_dict[word] = 1

In [63]:
# но зная метод, можно написать более элегантный код!
frequence_dict = {}
for word in words:
    frequence_dict[word] = frequence_dict.get(word, 0) + 1

In [64]:
frequence_dict

{'мама': 2, 'мыла': 4, 'раму': 2, 'рама': 2, 'маму': 2}

Есть похожий на `get` метод, который тоже создает новые элементы, но не явно и в более общем смысле. 
Метод `set(key, [default=None])` возвращает значение ключа, если ключ есть в словаре, иначе создает элемент словаря с этим ключом и значением `default` (который по дефолту `None`)

In [66]:
d = {'Russia': 'Moscow', 'Ukraine': 'Kiev', 'USA': 'Washington'}

In [67]:
a = d.setdefault('USA')
print(a)
print(d)

Washington
{'Russia': 'Moscow', 'Ukraine': 'Kiev', 'USA': 'Washington'}


In [68]:
a = d.setdefault('Poland')
print(a)
print(d)

None
{'Russia': 'Moscow', 'Ukraine': 'Kiev', 'USA': 'Washington', 'Poland': None}


Чтобы **удалить элемент** словаря можно воспользовать командой `del`, с помощью которой на самом деле уможно удалить любой объект в Питоне. Однакое, если указанного ключа в словаре нет, то Питон будет ругаться `KeyError`-ом, как и в случае без `del`.

In [69]:
del d['Poland']

In [72]:
del d['Sweden'] 

KeyError: 'Sweden'

Более безопасный способ это использовать метод `pop(key, [default])`, который похож на метод `pop` для списка. Если ключ есть в словаре, то метод удаляет элемент и возвращает значения ключа. Есть ключа нет, то возвращается указанное значение `default`, но если `default` не указан, то Питон будет ругаться `KeyError`-ом как и в небезопасном способе.

In [73]:
a = d.pop('USA')
print(a)
print(d)

Washington
{'Russia': 'Moscow', 'Ukraine': 'Kiev'}


In [74]:
a = d.pop('USA', 'Not found')
print(d)

{'Russia': 'Moscow', 'Ukraine': 'Kiev'}


In [75]:
a = d.pop('USA') # мы должны указать параметр
print(d)

KeyError: 'USA'

Еще один, но не "детерминированный", способ - `popitem()`. Он удаляет **какой-то** элемент и возвращает пару `(key, value)`. Порядок, в котором метод "идет" по элементам, называется LIFO - Last In First Out, т.е. в порядке обратном добавлению элементов. В таком же порядке печатается словарь.

Если словарь пустой, то Питон ругается.

In [80]:
d = {'Russia': 'Moscow', 'Ukraine': 'Kiev', 'USA': 'Washington'}

In [81]:
a = d.popitem()
print(a)
print(d)

('USA', 'Washington')
{'Russia': 'Moscow', 'Ukraine': 'Kiev'}


In [82]:
a = d.popitem()
print(a)
print(d)

('Ukraine', 'Kiev')
{'Russia': 'Moscow'}


Решите задачи: 
- https://contest.yandex.ru/contest/30003/problems/B/
- https://contest.yandex.ru/contest/30003/problems/С/

###  Итерирование по словарю  

Мы уже упоминали, что словарь - итерируемый объект, а значит по элементам можно проитерироваться циклом. Причем, так как словарь не дает прямого доступа к значениям элементов, т.е. мы к ним всегда имеем доступ только через ключ, то **возвращаться будут только ключи**.

Порядок прохода по элементам такой же, в котором были добавлены элементы.

In [83]:
d = {'Russia': 'Moscow', 'Ukraine': 'Kiev', 'USA': 'Washington'}

for x in d:
    print(f'Возващаемый ключ: {x},\tзначение по ключу: {d[x]}')

Возващаемый ключ: Russia,	значение по ключу: Moscow
Возващаемый ключ: Ukraine,	значение по ключу: Kiev
Возващаемый ключ: USA,	значение по ключу: Washington


Помимо этого, есть три метода:
* `items()` - итерируемый объект типа `dict_items`, элементы которого пары `(key, value)`
* `keys()` - итерируемый объект типа `dict_keys`, элементы которого ключи словаря
* `values()` - итерируемый объект типа `dict_values`, элементы которого значения словаря

Заметьте, что эти объекты не поддерживают индексацию, поэтому например нельзя написать `d.items()[1]`.

In [87]:
print(d.items())

dict_items([('Russia', 'Moscow'), ('Ukraine', 'Kiev'), ('USA', 'Washington')])


In [88]:
print(d.keys())

dict_keys(['Russia', 'Ukraine', 'USA'])


In [89]:
print(d.values())

dict_values(['Moscow', 'Kiev', 'Washington'])


In [86]:
print(
    type(d.items()), 
    type(d.keys()), 
    type(d.values()),
sep='\n')

<class 'dict_items'>
<class 'dict_keys'>
<class 'dict_values'>


Поэтому самый удобный способ проитерироваться по парам словаря вот такой:

In [92]:
for k, v in d.items():
    print(f'{k}: {v}')

Russia: Moscow
Ukraine: Kiev
USA: Washington


Решите задачи:
- https://contest.yandex.ru/contest/30003/problems/D/
- https://contest.yandex.ru/contest/30003/problems/E/
- https://contest.yandex.ru/contest/30003/problems/F/

###  Когда нужно использовать словари  

Особенностью ассоциативного массива является его динамичность: в него можно добавлять новые элементы с произвольными ключами и удалять уже существующие элементы. При этом размер используемой памяти пропорционален размеру ассоциативного массива. Доступ к элементам ассоциативного массива выполняется хоть и медленнее, чем к обычным массивам, но в целом довольно быстро.

Словари нужно использовать в следующих случаях:

* Подсчет числа каких-то объектов. В этом случае нужно завести словарь, в котором ключами являются объекты, а значениями — их количество.
* Хранение каких-либо данных, связанных с объектом. Ключи — объекты, значения — связанные с ними данные. Например, если нужно по названию месяца определить его порядковый номер, то это можно сделать при помощи словаря Num['January'] = 1; Num['February'] = 2; ....
* Установка соответствия между объектами (например, "родитель—потомок"). Ключ — объект, значение — соответствующий ему объект.
* Если нужен обычный массив, но масимальное значение индекса элемента очень велико, и при этом будут использоваться не все возможные индексы (так называемый “разреженный массив”), то можно использовать ассоциативный массив для экономии памяти.

#### Last but not least... Именованные аргументы функций.

Параметры функций можно очень удобно подавать в виде словарей. Главное не иметь в словари "лишних" ключей. 
Это делается таким образом:

In [118]:
def myfunc(temp, velocity, verbosity, speed, creativness):
    print('Awesome')
    
mykwargs = {
    'temp' : 12.3,
    'velocity' : 10,
    'verbosity' : 'quiet',
    'speed' : 'real',
    'creativness' : '100%'    
}

myfunc(**mykwargs)

Awesome


###  Хэш-таблицы   

Мы изучили множество и словарь, а также введение в алгоритмические сложности. 
Обе структуры данных используют хэш-таблицы для того, чтобы _очень_ быстро добавлять, удалять и искать ключи/значения. Давайте поймем, как устроен этот хитрый алгоритм.

Начнем с того, что такое [хэш-таблица](https://en.wikipedia.org/wiki/Hash_table).

Хеш-таблица содержит некоторый массив $H$ (buckets), элементы которого есть пары индекс-значение.

Выполнение операции в хеш-таблице начинается с вычисления хеш-функции от ключа.

Хэш функция - 


Получающееся хеш-значение $hash(key)$ играет роль индекса $i$ в массиве значений $H$. Затем выполняемая операция (добавление, удаление или поиск) перенаправляется объекту, который хранится в соответствующей ячейке массива $H[i]$. Именно хэш-функция позволяет нам иметь к объекту быстрый доступ, так как все что нужно, чтобы найти объект в массиве, это вычислить индекс с помощью функции. 

Более наглядно:
<img src='https://i.stack.imgur.com/tiD5Z.png'>

Простой пример хэш-функции:
- отображаемые ключи: слова
- функция: сумма порядковых номеров букв в алфавите

In [99]:
func = lambda word: sum(map(ord, word))
print(
    func('кошка'),
    func('крышка'),
    func('питон'),
    func('привет'),
)

5418 6519 5428 6496


Однако эта функция плохая, так как неуникально отображает объекты:

In [106]:
func('лось'), func('соль')

(4358, 4358)

То есть проблема в том, что хэш-функция может отобразить различные ключи в одно и то же хэш-значение. Такая ситуация называется _коллизией_. 

Коллизии не так уж и редки — например, при вставке в хеш-таблицу размером 365 ячеек всего лишь 23 элементов вероятность коллизии уже превысит 50 % (если каждый элемент может равновероятно попасть в любую ячейку) — см. [парадокс дней рождения](https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%B4%D0%BE%D0%BA%D1%81_%D0%B4%D0%BD%D0%B5%D0%B9_%D1%80%D0%BE%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D1%8F). 

Поэтому механизм разрешения коллизий - важная составляющая любой хеш-таблицы. Есть два механизма разрешения коллизий - хеш-таблица [с открытой адресацией](https://ru.wikipedia.org/wiki/Хеш-таблица#Открытая_адресация) и хеш-таблица [с цепочками](https://ru.wikipedia.org/wiki/Хеш-таблица#Метод_цепочек).

<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/b/bf/Hash_table_5_0_1_1_1_1_0_SP.svg/380px-Hash_table_5_0_1_1_1_1_0_SP.svg.png' style='max-width: 30%; display: inline-block'>
$\qquad\qquad$
<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/5/5a/Hash_table_5_0_1_1_1_1_0_LL.svg/500px-Hash_table_5_0_1_1_1_1_0_LL.svg.png' style='max-width: 50%; display: inline-block'>

Если (в лучшем случае) все $N$ ключей попадают в разные ячейки $H$, то операции (добавление, удаление, поиск) производятся за константу. Но если (в худшем случае) все ключи попадут в одно и то же хэш-значение, то эти операции производятся за линейное время, т.к. необходимо пройти весь список значений.

###  Сложность операций словарей  

Operation     | Example      | Complexity Class         | Notes
--------------|--------------|---------------|-------------------------------
Add (store)   | `d[k] = v`     | O(1)	     | O(N) worst case
Containment   | `x in/not in d`| O(1)	     |
get/setdefault| `d.get(k)`     | O(1)	     |
Delete        | `del d[k], d.pop(k)`     | O(1)	     | 
|||
View          | `d.keys()`     | O(1)	     | same for d.values()

### Немного про алгоритмы...

Немаловажной теоретической составляющей любого курса программирования и материалов по базам алгоритмов является понимание какие бывают алгоритмы сортировки и их устройство.

## Бинпоиск 
[[источник]](https://www.geeksforgeeks.org/binary-search/)

Это алгоритм поиска значения в сортированном массиве за логарифмическую сложность.

Проще посмотреть на картинку:

<img src="https://www.geeksforgeeks.org/wp-content/uploads/Binary-Search.png" width="600">

То есть вместо того, чтобы обойти весь массив от начала до нужного значения (в худшем случае до конца) за линейную сложность, мы берем массив и обходим его "половинками". Немножечко напоминает Канторово множество. То есть алгоритм следующий:

```
А = весь массив
пока можно делить А:
    Y = число, которое лежит в середине А 
    если Х < Y:
        A = левая половина А
    если X > Y:
        A = права половина А
    если Х == Y:
        нашли число, закончили поиск
```

Естественно операция "права половина"/"левая половина" производится с помощью индексов `L` и `R`, которые обозначают левый и правый конец подотрезка и которые соответсвенно меняются.

Попробуйте написать алгоритм бинпоиска самостоятельно:

In [1]:
def mybinsearch(sortedarray, X):
    ''' вернуть индекс Х в sortedarray, либо вернуть None если Х не в массиве'''
    
    pass


A = [1, 2, 3, 10, 12, 15, 17, 25, 100, 112, 210]
A2 = [-10, -4, -1, 1, 15, 20]

assert mybinsearch(A, 15) == 5
assert mybinsearch(A, 13) == None
assert mybinsearch(A, 211) == None
assert mybinsearch(A, 1) == 0


assert mybinsearch(A2, 15) == 4
assert mybinsearch(A2, 0) == None
assert mybinsearch(A2, -11) == None
assert mybinsearch(A2, 20) == 5

##  Сортировки  

- [Визуализации](https://www.cs.usfca.edu/~galles/visualization/ComparisonSort.html)
- [Алгоритмическая сложность](https://www.bigocheatsheet.com/)
- Самые главные и популярные алгоритмы сортировки:

| Название | WIKI | Complexity |
| ---      | ---  | ---        |
| BubbleSort, Сортировка пузырьком| [link](https://en.wikipedia.org/wiki/Bubble_sort)|$O(n^2)$|
| QSort, QuickSort | [link](https://en.wikipedia.org/wiki/Quicksort) | $O(n \log n)$ |
| Mergesort, сортировка слиянием | [link](https://en.wikipedia.org/wiki/Merge_sort)| $O(n\log n)$|