In [4]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## Практикум Python
**Семинар 2**

### Тема 3. Словари, множества, collections

### Хеш-таблица

**Ассоциативный массив (хеш-таблица)** — структура данных, которая позволяет хранить пары (ключ, значение) и выполнять три операции: 
- добавить новую пару
- получить пару по ключу
- удалить пару по ключу

Выполнение операции в хеш-таблице начинается с вычисления хеш-функции от ключа. Получающееся хеш-значение $i = hash(key)$ -  индекс в массиве $H$.

При некоторых допущениях все три операции в среднем выполняются за время $O(1)$. Но при этом не гарантируется, что время выполнения отдельной операции мало - при достижении некоторого значения коэффициента заполнения необходимо осуществлять перестройку индекса хеш-таблицы: увеличить значение размера массива $H$ и заново добавить в пустую хеш-таблицу все пары.

#### Хэш-функция

**Хеш-функция** (англ. hash function от hash — "превращать в фарш", "мешанина") — функция, осуществляющая преобразование массива входных данных **произвольной длины** в выходную битовую строку **установленной длины**, выполняемое определённым алгоритмом.

**Применение:**
- построение ассоциативных массивов
- поиск дубликатов в наборах данных
- построение уникальных идентификаторов
- вычисление контрольных сумм от данных (сигнала) для обнаружения в них ошибок
- сохранение паролей

В общем случае нет однозначного соответствия между хеш-кодом и исходными данными. Возвращаемые хеш-функцией значения менее разнообразны, чем значения входного массива. 

**Коллизия** - случай, при котором хеш-функция преобразует более чем один массив входных данных в одинаковые хеш-коды.

"Хорошая" хеш-функция должна удовлетворять двум свойствам:
- быстрое вычисление
- минимальное количество коллизий

#### Разрешение коллизий

В некоторых специальных случаях удаётся избежать коллизий вообще, например, если все ключи элементов известны заранее, то для них можно найти некоторую совершенную хеш-функцию, которая распределит их по ячейкам хеш-таблицы без коллизий.

Однако, коллизии в хеш-таблицах не так уж и редки. Поэтому механизм разрешения коллизий — важная составляющая любой хеш-таблицы.

**Способы разрешения коллизий:**
1. Метод цепочек
2. Открытая адресация

##### Метод цепочек

Каждая ячейка массива $H$ является указателем на связный список пар *(ключ, значение)*, соответствующих одному и тому же хеш-значению ключа. Коллизии просто приводят к тому, что появляются цепочки длиной более одного элемента.

- Поиск / удаление элемента - просмотреть всех элементов соответствующей цепочки и найти элемент с заданным ключом. 
- Добавление элемента - добавить элемент в конец или начало списка и в случае

![link](https://upload.wikimedia.org/wikipedia/commons/thumb/d/d0/Hash_table_5_0_1_1_1_1_1_LL.svg/1280px-Hash_table_5_0_1_1_1_1_1_LL.svg.png)

##### Открытая адресация

В массиве $H$ хранятся сами пары *(ключ, значение)*. 

- Операция вставки - проверяет ячейки массива $H$ в некотором порядке до тех пор, пока не будет найдена первая свободная ячейка, в которую и будет записан новый элемент.

- Операция поиска - просматривает ячейки хеш-таблицы в том же самом порядке, что и при вставке, до тех пор, пока не найдется либо элемент с искомым ключом, либо свободная ячейка (что означает отсутствие элемента в хеш-таблице).

- Операция удаление - затруднительная операция, обычно заводят булевый флаг для каждой ячейки, помечающий, удален элемент в ней или нет.

Последовательность, в которой просматриваются ячейки хеш-таблицы - **последовательностью проб**. Первый элемент в последовательности, как правило, равен значению хеш-функции от ключа, а остальные считаются от него одним из приведённых ниже способов. Для успешной работы алгоритмов поиска последовательность проб должна быть такой, чтобы все ячейки хеш-таблицы оказались просмотренными ровно по одному разу.

![open](https://upload.wikimedia.org/wikipedia/commons/thumb/b/bf/Hash_table_5_0_1_1_1_1_0_SP.svg/1024px-Hash_table_5_0_1_1_1_1_0_SP.svg.png)

### Словарь

**Словарь** - реализация ассоциативного массива (хеш-таблицы) в Python.

In [3]:
a = {'Key1' : 'Value1', 'Key2' : 'Value2'}
a
b = dict([(2, 4), (3, 9)])
b

{'Key1': 'Value1', 'Key2': 'Value2'}

{2: 4, 3: 9}

Ключом словаря может быть любой хешируемый (hashable) объект. Определение hashable из [документации Python](https://docs.python.org/3/glossary.html#term-hashable):

>Объект является **хэшируемым**, если у него **имеется хеш-значение**, которое не меняется за все его время существования (необходим метод **\_\_hash\_\_()**), и **может быть сравним** с другими объектами (необходим метод **\_\_eq\_\_()**). Хэшируемые объекты, которые являются равными, должны иметь одинаковое хеш-значение.
>
>Хешируемость позволяет использовать объект как ключ в словаре и как элемент множества, поскольку эти структуры данных используют хеш-значение внутри себя.
>
>Большинство неизменяемых встренных объектов в Python являются хешируемыми, изменяемые контейнеры (списки или словари) - нет, неизменяемые контейнеры (кортежи и frozenset-ы) являются хешируемыми только если их элементы являются хэшируемыми. Объекты, являющиеся экземплярами пользовательских классов, по умолчанию хэшируемые. Они по умолчанию считаются неравными, а их хеш берется из их **id()**.

Примеры хеш-значений для разных типов:

In [4]:
hash(343)
hash(True)
hash('hello')

343

1

5801276425735077838

Проверим, является ли список хешируемым:

In [6]:
[1].__hash__ is None  # метод __hash__ не определен для списка

True

Проверим, является ли словарь хешируемым:

In [7]:
d1 = {1: 'b'}
d2 = {d1: 'abc'}

TypeError: unhashable type: 'dict'

In [8]:
{1: 'b'}.__hash__ is None  # dict тоже не является хэшируемым

True

Нужно быть очень аккуратным с хэшированием **float** и лучше их вообще не хэшировать:

In [9]:
hash(6.5)
hash(6.500000000000001)
hash(6.5000000000000001)
hash(round(6.50443,2)) # или хэшировать вот так

1152921504606846982

1152921504606849030

1152921504606846982

1152921504606846982

**Замечание** - после перезапуска интерпретатора у сложных объектов (например, строк) будет уже другое значение хеш-функции.

По словарю можно итерироваться, причем как по ключам, так и по значениям:

In [2]:
dictionary = {'a': 1, 'b': 2, 'c': 3}
   
for k in dictionary.keys(): 
    print(k)

a
b
c


Можно итерироваться по ключу и без использования метода **keys()**, но, как нам говорит Python Zen: "Явное лучше, чем неявное", поэтому лучше явно прописать **.keys()**, чтобы улучшить читабельность кода

In [11]:
for k in dictionary:
    print(k)

a
b
c


Итерироваться по значениям можно следующим образом:

In [12]:
for v in dictionary.values(): # итерация по значениям
    print(v)

1
2
3


In [3]:
for pair in dictionary.items():
    print(pair)
    
for key, value in dictionary.items():
    print(key, value)

('a', 1)
('b', 2)
('c', 3)
a 1
b 2
c 3


Как еще можно создавать словари:

In [5]:
a = dict(a=1, b=2, c=3)
a

keys = ["Petya", "Vasya", "Masha"]
values = [20, 21, 22]
dictionary = dict(zip(keys, values))
dictionary

{'a': 1, 'b': 2, 'c': 3}

{'Petya': 20, 'Vasya': 21, 'Masha': 22}

Еще раз, полезные методы:

In [6]:
print(list(a.keys()))
print(list(a.values()))
print(list(a.items()))

['a', 'b', 'c']
[1, 2, 3]
[('a', 1), ('b', 2), ('c', 3)]


Удаление элемента словаря:

In [7]:
del dictionary['Vasya']
dictionary

{'Petya': 20, 'Masha': 22}

Объединение двух словарей:

In [8]:
a.update(dictionary)  # объединение двух словарей
a

{'a': 1, 'b': 2, 'c': 3, 'Petya': 20, 'Masha': 22}

По аналогии с **list comprehension** (см. прошлое занятие), существуют и **dict comprehension**:

In [9]:
dct = {i: i**3 for i in range(5)}
dct

{0: 0, 1: 1, 2: 8, 3: 27, 4: 64}

Как аккуратно обрабатывать отсутствующие ключи:

In [10]:
dct = {1:2,3:4}
key = 5

res1 = dct.get(key, 'not_found')
res2 = dct.setdefault(key, 'default')
print(res1, res2)

dct = {1:2,3:4,5:6}

res1 = dct.get(key,'not_found')
res2 = dct.setdefault(key, 'default')
print(res1, res2)

not_found default
6 6


**Задача** Необходимо обратить словарь, т.е. как создать словарь с обратными парами *(значение, ключ)*. Считаем, что в исходном словаре значения тоже являются хэшируемыми.

### Множество

**Множество (set)** - тип и структура данных, которая является реализацией математического объекта множество. Принцип работы также основан на хеш-таблице.

Где удобно использовать множества:
- подсчет уникальных элементов в списке
- быстрая проверка элемента на вхождение

In [11]:
a = {1, 2, 3}
b = set([2, 3, 4])

a.add(5)
b.update({5, 6}) # объединить множество с другим множеством
print(a, b)

{1, 2, 3, 5} {2, 3, 4, 5, 6}


Проверки с множествами:

In [12]:
print(a, b)
print(3 in b)
print(5 not in b)
print(b.issubset(a))   # equivalent to b <= a
print(a.issuperset(b)) # equivalent to a >= b
print(a.isdisjoint(b)) # True если пустое пересечение; equivalent to "not a & b"

{1, 2, 3, 5} {2, 3, 4, 5, 6}
True
False
False
False
False


Операции над множествами:

In [13]:
print(a, b)
print(a - b)
print(b - a)
print(a | b) # объединение
print(a & b) # пересечение
print(a ^ b) # ~ XOR

{1, 2, 3, 5} {2, 3, 4, 5, 6}
{1}
{4, 6}
{1, 2, 3, 4, 5, 6}
{2, 3, 5}
{1, 4, 6}


Те же операции можно использовать как методы объектов:

In [14]:
a.difference(b)             # a - b
a.union(b)                  # a | b
a.intersection(b)           # a & b
a.symmetric_difference(b)   # a ^ b

a.difference_update(b)            # a -= b
a.update(b)                       # a |= b
a.intersection_update(b)          # a &= b
a.symmetric_difference_update(b)  # a ^= b

{1}

{1, 2, 3, 4, 5, 6}

{2, 3, 5}

{1, 4, 6}

Удаление элементов из множества осуществляется с помощью методов **remove** и **discard**:

In [15]:
a = {1, 2, 3}
a.remove(3)
a.remove(3)

KeyError: 3

In [16]:
a = {1,2,3}
a.discard(3)
a.discard(3)
a

{1, 2}

Также существуют и генераторы множеств:

In [17]:
st = {i for i in range(10) if not i % 3} 
st

{0, 3, 6, 9}

In [18]:
d = {st: 1} # set тоже не является хэшируемым

TypeError: unhashable type: 'set'

In [19]:
d = {frozenset(st): 6}  # а вот frozenset уже можно хэшировать, так как он является неизменяемым объектом
d

{frozenset({0, 3, 6, 9}): 6}

#### Особенность работы хэш-функции в Python

Имеем множество:

In [20]:
s = {0, 1, 2}
s

{0, 1, 2}

Хотим добавить к нему `True`, `False` и `2.0`:

In [21]:
s.add(True)
s.add(False)
s.add(2.0)
s

{0, 1, 2}

Ожидаем увидеть множество: `{0, 1, 2, True, False, 2.0}`, но получили снова `{0, 1, 2}`.

**Вопрос** - почему множество не поменялось?

Это связано с тем, что `bool` является подтипом `int`, из-за чего:

In [22]:
1 == True, hash(1) == hash(True)
0 == False, hash(0) == hash(False)

(True, True)

(True, True)

Из-за этого у них одинаковые хэши и для множества они не различимы. Почему `bool` является подтипом `int`? Исторически так сложилось - см. [PEP-285](https://www.python.org/dev/peps/pep-0285/).

Аналогично и для `2` и `2.0`, потому что у них одинаковые хэши. Это особенность работы функции `hash`, см. [документацию](https://docs.python.org/3/library/functions.html?highlight=hash#hash).

In [23]:
hash(2) == hash(2.0), hash(2) == hash(2.000000000000001)

(True, False)

**Задача** Даны два отсортированных списка с числами (необязательно одной длины). Выведите все числа, которые есть в первом списке, но нет во втором.

In [24]:
lst1 = [1, 2, 8]
lst2 = [2, 6]

##### Способ 1. С помощью set

Формально за $O(n)$ по времени (на создание set уходит $O(n)$, но с немалой константой), но требует доп. память, и не используется отсортированность.

In [25]:
set(lst1) - set(lst2)

{1, 8}

##### Способ 2. Используем отсортированность

In [26]:
i, j = 0, 0
while i < len(lst1):
    if j >= len(lst2) or lst1[i] < lst2[j]: 
        print(lst1[i])
        i += 1
    elif lst1[i] == lst2[j]:
        i += 1
        j += 1
    else:
        j += 1

1
8


## Модуль collections

Модуль **collections** предоставляет модифицированные структуры данных на основе словарей, кортежей, множеств, списков. Подробнее о модуле можете прочитать в [документации](https://docs.python.org/3/library/collections.html) или в [туториале](https://pythonworld.ru/moduli/modul-collections.html).

**Рассмотрим некоторые типы данных:**
1. defaultdict
2. deque
3. OrderedDict
4. Counter

### defaultdict

**collections.defaultdict** - модификация обычного словаря, позволяет указать функцию, которая будет вызвана для ключа, если его нет:

In [27]:
from collections import defaultdict
dct = defaultdict(float)
print(dct[2]) # если ключа нет, то устанавливает дефолтное значение
print(dct)

s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
d = defaultdict(list)
for k, v in s:
    d[k].append(v)
print(d.items())

0.0
defaultdict(<class 'float'>, {2: 0.0})
dict_items([('yellow', [1, 3]), ('blue', [2, 4]), ('red', [1])])


### deque

**deque** ("double-ended queue") - обобщение очереди и стека. Позволяет добавлять и извлекать элементы с начала и конца.

In [28]:
from collections import deque
d = deque('ghi')                 # создаем дек с 3 элементами
for elem in d:                   # проходимся по всем элементам
    print(elem.upper())

d.append('j')                    # добавляем элемент в конец
d.appendleft('f')                # добавляем элемент в начало
print(d)

print(d.pop())                   # возвращаем и удаляем элемент справа
print(d.popleft())               # возвращаем и удаляем элемент слева
print(list(d))                   # список элементов дека

G
H
I
deque(['f', 'g', 'h', 'i', 'j'])
j
f
['g', 'h', 'i']


In [29]:
print(d[0])                      # получаем элемент слева
print(d[-1])                     # получаем элемент справа
print(list(reversed(d)))         # обращенный список элементов дека
print('h' in d)                  # проверяем вхождение элемента в дек

d.extend('jkl')                  # добавляем несколько элементов
print(d)

d.rotate(1)                      # перенесем 1 элемент из начала в конец
print(d)
d.rotate(-1)                     # перенесем 1 элемент из конца в начало

g
i
['i', 'h', 'g']
True
deque(['g', 'h', 'i', 'j', 'k', 'l'])
deque(['l', 'g', 'h', 'i', 'j', 'k'])


### OrderedDict

**OrderedDict** - модификация словаря, который запоминает порядок добавления элементов. 

C версии Python 3.7  сохранение порядка гарантируется и для dict, но операция сравнения для обычных диктов всё ещё не учитывает порядок в отличие от OrderedDict. Кроме того, у OrderedDict есть метод **move_to_end** (подвинуть существующий элемент в конец).

In [30]:
from collections import OrderedDict

data1 = [(1, 'a'), (3, 'c'), (2, 'b')]
data2 = [(1, 'a'), (2, 'b'), (3, 'c')]

print(dict(data1))
print(OrderedDict(data1))
print(dict(data1) == dict(data2))
print(OrderedDict(data1) == OrderedDict(data2))

{1: 'a', 3: 'c', 2: 'b'}
OrderedDict([(1, 'a'), (3, 'c'), (2, 'b')])
True
False


### Counter

**Counter** - модификация словаря для подсчета хешируемых объектов.

In [31]:
from collections import Counter
с = Counter('abracadabra')
с.most_common(3)  # Получить 3 самых частых элемента

c = Counter(a=4, b=2, c=0, d=-2)
sorted(c.elements())

c = Counter(a=4, b=2, c=0, d=-2)
d = Counter(a=1, b=2, c=3, d=4)
c.subtract(d)
c

[('a', 5), ('b', 2), ('r', 2)]

['a', 'a', 'a', 'a', 'b', 'b']

Counter({'a': 3, 'b': 0, 'c': -3, 'd': -6})