In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# PYTHON 3

## Словари, множества, collections


### Евгений Баулин


MIPT 2021

### Создание и удаление


- Note: При создании двух mutable-объектов отдельно - они будут гарантированно разными. Для immutable объектов это верно не всегда.
- Об удалении объектов заботиться не нужно, за вас всё сделает интерпретатор

## Словари

Универсальное средство для выражения связей между объектами, подсчёта, группировки.
Их иногда ещё называют **ассоциативными массивами или хеш-таблицами**.

In [None]:
a = {'Key1' : 'Value1', 'Key2' : 'Value2'}
a

In [None]:
b = dict([(1, 1), (2, 4), (3, 9)])
b

Ключом словаря может быть любой hashable-объект. (mutable == not hashable)

Определение hashable из документации Python: https://docs.python.org/3/glossary.html#term-hashable 

Если коротко, то у объекта должен быть правильно определен метод `__hash__()`

Хэш от инта - само значение инта

All of Python’s immutable built-in objects are hashable; mutable containers (such as lists or dictionaries) are not. Objects which are instances of user-defined classes are hashable by default. They all compare unequal (except with themselves), and their hash value is derived from their id().

In [2]:
hash(343)
hash(True)
hash('hello')

343

1

-369228125001367485

In [3]:
hash(6.5) # есть тонкости, связанные с точностью представления чисел с плавающей запятой
          # месседж: нужно быть очень аккуратным с хэшированием float и лучше их вообще не хэшировать
hash(round(6.50443,2)) # или хэшировать вот так

1152921504606846982

1152921504606846982

In [2]:
print(hash('aaa'))
print(hash('aab'))

7042713164143530316
-5814265323562763001


#### Note: после перезапуска интерпретатора у сложных объектов (например, строк) будет уже другое значение хэш-функции

list в Python не является хэшируемым объектом

In [5]:
[1].__hash__ is None  # метод __hash__ не определен для списка

True

Можно ли использовать словарь в качестве ключа словаря?

In [None]:
d1 = {1: 'b'}
d2 = {d1: 'abc'}

In [None]:
{1: 'b'}.__hash__ is None  # dict тоже не является хэшируемым

По словарю можно итерироваться, причем как по ключам, так и по значениям

In [None]:
# итерация по словарю
dictionary = {'a': 1, 'b': 2, 'c': 3}
   
for k in dictionary.keys():
    print(k)
    
print()
    
for k in dictionary:  # такая же итерация по ключам, но Python Zen говорит нам, что явное лучше, чем неявное
    print(k)          # поэтому лучше явно прописать .keys(), чтобы улучшить читабельность кода
                      # слишком читабельный код еще никогда никому не мешал

In [None]:
for v in dictionary.values(): # итерация по значениям
    print(v)

In [None]:
for pair in dictionary.items(): # итерируемся сразу по парам (ключ: значение)
    print(pair)
    
    
for key, value in dictionary.items(): # итерируемся сразу по парам (ключ: значение)
    print(key, value)

In [None]:
# конструкторы:
a = dict(a=1, b=2, c=3)
a
keys = ["Petya", "Vasya", "Masha"]
values = [20, 21, 22]

dictionary = dict(zip(keys, values)) # один из самых удобных способов создания словаря из двух списков

dictionary

In [None]:
print(list(a.keys()))
print(list(a.values()))
print(list(a.items()))

In [None]:
del dictionary['Vasya']
dictionary

In [None]:
a.update(dictionary)  # объединение двух словарей
a

In [None]:
a[('Composite', 'Key')] = [1, 2, 3]   # only immutable objects could be keys in dicts
a

## Задачка на 5 минут
### Используя только что полученные знания об итерировании по словарю, давайте подумаем, как обратить словарь, т.е. как создать словарь с обратными парами (значение: ключ)? Считаем, что в исходном словаре значения тоже являются хэшируемыми

### Помните генераторы списков (list comprehensions) с прошлого занятия? Существуют и генераторы словарей!

In [None]:
dct = {i : i ** 3 for i in range(5)}
dct

In [3]:
# Аккуратная обработка неизвестности

dct = {1:2,3:4}

key = 5

res1 = dct.get(key,'not found')
res2 = dct.setdefault(key, 'default')

print(res1, res2)

dct = {1:2,3:4,5:6}

res1 = dct.get(key,'not found')
res2 = dct.setdefault(key, 'default')

print(res1, res2)

not found default
6 6


### Множества (set)
В основе set тоже лежит хэш-таблица

In [None]:
a = {1, 2, 3}
b = set([2, 3, 4])

a.add(5)
b.update({5, 6}) # объединить множество с другим множеством
a, b

In [None]:
3 in b
5 not in b
b.issubset(a)   # equivalent to b <= a
a.issuperset(b) # equivalent to a >= b
a.isdisjoint(b) # True если пустое пересечение; equivalent to "not a & b"

In [None]:
print (a - b)
print (b - a)
print (a | b) # объединение
print (a & b) # пересечение
print (a ^ b) # ~ XOR

In [None]:
a.difference(b)             # a - b
a.union(b)                  # a | b
a.intersection(b)           # a & b
a.symmetric_difference(b)   # a ^ b

a.difference_update(b)            # a -= b
a.update(b)                       # a |= b
a.intersection_update(b)          # a &= b
a.symmetric_difference_update(b)  # a ^= b

In [6]:
a = {1,2,3}
a.remove(3)
a.remove(3)

KeyError: 3

In [7]:
a = {1,2,3}
a.discard(3)
a.discard(3)
a

{1, 2}

Существуют и генераторы множеств

In [None]:
st = {i for i in range(10) if not i % 3}
st

In [None]:
d = {st: 1} # set тоже не является хэшируемым

In [None]:
d = {frozenset(st): 6}  # а вот frozenset уже можно хэшировать, так как он является неизменяемым объектом
d

# Для чего удобно использовать dict и set?

### Установление однозначного соответствия каждому объекту из множества ключей какого-то другого объекта (условно можно удобно реализовать словарь для перевода с одного языка на другой)

### Для подсчета уникальных элементов в списке/уникальных слов в тексте

### Для быстрой проверки элемента на вхождение: поиск по ключу в dict и set выполняется за O(1) (в среднем): от объекта вычисляется хэш и проверяется, есть ли такой хэш в контейнере

In [None]:
2 in a     # O(1)

### Рубрика "задачи с собеседований"

Даны два отсортированных списка с числами (не обязательно одной длины). Выведите все числа, которые есть в первом списке, но нет во втором

In [None]:
lst1 = [1, 2, 8]
lst2 = [2, 6]

#### способ 1: с помощью set

In [None]:
# способ 1
set(lst1) - set(lst2) 

формально за O(n) по времени (на создание set уходит O(n), но с немалой константой), но требует доп память, и не используется отсортированность

#### способ 2: давайте подумаем, как это сделать за O(n) по времени, но без доп.памяти

In [7]:
lst1 = [1, 2, 8]
lst2 = [2, 6]


In [None]:
i, j = 0, 0

while i < len(lst1):

    if j >= len(lst2) or lst1[i] < lst2[j]: 
        
        print(lst1[i])
        i += 1
   
    elif lst1[i] == lst2[j]:
        
        i += 1
        j += 1
    
    else:
        
        j += 1

### collections
Объекты в collections - модифицированные для разных нужд словари и еще несколько удобных структур данных.

Хороший краткий обзор модуля collections можно почитать [здесь](https://pythonworld.ru/moduli/modul-collections.html) 

In [None]:
from collections import defaultdict
dct = defaultdict(float)

print(dct[2]) # если ключа нет, то устанавливает дефолтное значение
print(dct)

In [None]:
from collections import deque
q = deque()

for i in range(10):
    q.append(i)

while len(q) > 5: 
    print(q.pop(), q) # O(1)

print()
    
while len(q):  # пока дек не пуст
    print(q.popleft(), q) # O(1)

In [None]:
from collections import OrderedDict # помнит порядок, в котором ему были даны ключи

# C 3.7 версии сохранение порядка гарантируется и для dict, но:
# Операция сравнения для обычных диктов всё ещё не учитывает порядок в отличие от OrderedDict
# А ещё у OrderedDict есть метод move_to_end (подвинуть существующий элемент в конец), которого нет в дикте

data = [(1, 'a'), (3, 'c'), (2, 'b')]

print(dict(data))
print(OrderedDict(data))

## Задача - дан список, найти максимальный элемент списка, который встречается чаще других

In [5]:
# Тут пригодится Counter из collections, который умеет вот так:
# Counter(lst).most_common(2) # что обозначает двойка предлагается выяснить самостоятельно