In [None]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# Семинар №3
## set, dicts, collections

**Замечание №1**  
**Создание**. При создании двух mutable-объектов отдельно - они будут гарантированно разными. Для immutable объектов это верно не всегда.  
  
**Замечание №2**  
**Удаление**. Об удалении объектов заботиться не нужно, за вас всё сделает интерпретатор

#### Словари

Универсальное средство для выражения связей между объектами, подсчёта, группировки.
Их иногда ещё называют **ассоциативными массивами** или **хеш-таблицами**.

In [None]:
a = {'Key1' : 'Value1', 'Key2' : 'Value2'}
a

In [None]:
b = dict([(1, 1), (2, 4), (3, 9)])
b

Ключом словаря может быть любой hashable-объект. (mutable == not hashable)

Определение hashable из документации Python: https://docs.python.org/3/glossary.html#term-hashable 

Если коротко, то у объекта должен быть правильно определен метод `__hash__()`

Хэш от инта - само значение инта

All of Python’s immutable built-in objects are hashable; mutable containers (such as lists or dictionaries) are not. Objects which are instances of user-defined classes are hashable by default. They all compare unequal (except with themselves), and their hash value is derived from their id().

In [None]:
hash(42)
hash(1)
hash(0)
hash(True)
hash(False)
hash(None)
hash("Hello, 025!")

In [None]:
hash(6.5)  # есть тонкости, связанные с точностью представления чисел с плавающей запятой
           # месседж: нужно быть очень аккуратным с хэшированием float и лучше их вообще не хэшировать
hash(round(6.50443,2))  # или хэшировать вот так

**Замечание №3**   
После перезапуска интерпретатора у сложных объектов (например, строк) будет уже другое значение хэш-функции.

In [None]:
print(hash('aaa'))
print(hash('aab'))

In [None]:
# list в Python не является хэшируемым объектом

[1].__hash__ is None  # метод __hash__ не определен для списка

In [None]:
# Можно ли использовать словарь в качестве ключа словаря?

dict_inner = {1: 'b'}
dict_outter = {'abc': dict_inner}

In [None]:
{1: 'b'}.__hash__ is None  # dict тоже не является хэшируемым

По словарю можно итерироваться, причем как по ключам, так и по значениям

In [None]:
# итерация по словарю

dictionary = {'a': 1, 'b': 2, 'c': 3}
   
for k in dictionary.keys():
    print(k)
    
print()
    
for k in dictionary:  # такая же итерация по ключам, но Python Zen говорит нам, что явное лучше, чем неявное
    print(k)          # поэтому лучше явно прописать .keys(), чтобы улучшить читабельность кода
                      # слишком читабельный код еще никогда никому не мешал

In [None]:
for v in dictionary.values(): # итерация по значениям
    print(v)

In [None]:
dictionary.values()

In [None]:
dictionary.items()

In [None]:
for pair in dictionary.items(): # итерируемся сразу по парам (ключ: значение)
    print(pair)
    
print()
    
for key, value in dictionary.items(): # итерируемся сразу по парам (ключ: значение)
    print(key, value)

In [None]:
# способы задания словарей

a = dict(a=1, b=2, c=3)
a
keys = ["Petya", "Vasya", "Masha"]
values = [20, 21, 22]

dictionary = dict(zip(keys, values)) # один из самых удобных способов создания словаря из двух списков

dictionary

In [None]:
print(list(a.keys()))
print(list(a.values()))
print(list(a.items()))

In [None]:
del dictionary['Vasya']
dictionary

In [None]:
a.update(dictionary)  # объединение двух словарей
a

In [None]:
a[('Composite', 'Key')] = [1, 2, 3]   # only immutable objects could be keys in dicts
a

In [None]:
a[frozenset(['Composite', 'Key'])] = [4, 5, 6]
a

#### Задачка №1 на 5 минут
Используя только что полученные знания об итерировании по словарю, давайте подумаем, как обратить словарь, т.е. как создать словарь с обратными парами (значение: ключ)? Считаем, что в исходном словаре значения тоже являются хэшируемыми.

Помните генераторы списков (list comprehensions) и генераторные выражения с прошлого занятия? Существуют и генераторы словарей!

In [None]:
dct = {i: i ** i for i in range(5)}
dct

In [None]:
{v: k for k, v in dct.items()}

А что произойдет, если обратиться по несуществующему ключу словаря?  
Спойлер: **KeyError**. А как просто обрабатывать исключительные случаи?

In [None]:
dct = {1: 2, 3: 4}

key = 5

# get(self, key, default=None, /)
#     Return the value for key if key is in the dictionary, else default.

# setdefault(self, key, default=None, /)
#     Insert key with a value of default if key is not in the dictionary.
#     Return the value for key if key is in the dictionary, else default.

res1 = dct.get(key,'not found')
res2 = dct.setdefault(key, 'default')
res3 = dct.get(key)
res4 = dct[key]

print(res1, res2, res3, res4, sep=', ')

dct[5] = 6

res1 = dct.get(key,'not found')
res2 = dct.setdefault(key, 'default')
res3 = dct.get(key)
res4 = dct[key]

print(res1, res2, res3, res4, sep=', ')

#### Множества (set)
В основе set тоже лежит хэш-таблица.

In [None]:
a = {1, 2, 3}
b = set([2, 3, 4])

a.add(5)
b.update({5, 6}) # объединить множество с другим множеством
a
b
a | b

In [None]:
3 in b
5 not in b
b.issubset(a)   # equivalent to b <= a
a.issuperset(b) # equivalent to a >= b
a.isdisjoint(b) # True если пустое пересечение; equivalent to "not a & b"

In [None]:
print("a=", a, "; ", "b=", b, sep="")

a - b
b - a
a | b  # объединение
a & b  # пересечение
a ^ b  # симметрическая разность

In [None]:
a.difference(b)             # a - b
a.union(b)                  # a | b
a.intersection(b)           # a & b
a.symmetric_difference(b)   # a ^ b

a.difference_update(b)            # a -= b
a.update(b)                       # a |= b
a.intersection_update(b)          # a &= b
a.symmetric_difference_update(b)  # a ^= b

In [None]:
# remove(...)
#     Remove an element from a set; it must be a member.
#     If the element is not a member, raise a KeyError.

a = {1, 2, 3}
a.remove(3)
a.remove(3)


a

In [None]:
# discard(...)
#     Remove an element from a set if it is a member.
#     If the element is not a member, do nothing.

a = {1, 2, 3}
a.discard(3)
a.discard(3)
a

Существуют и генераторы множеств

In [None]:
{i for i in range(10) if not i % 3}

#### Для чего удобно использовать dict и set?

Установление однозначного соответствия каждому объекту из множества ключей какого-то другого объекта (условно можно удобно реализовать словарь для перевода с одного языка на другой).

Для подсчета уникальных элементов в списке/уникальных слов в тексте.

Для быстрой проверки элемента на вхождение: поиск по ключу в dict и set выполняется за O(1) (в среднем): от объекта вычисляется хэш и проверяется, есть ли такой хэш в контейнере.

In [None]:
2 in a  # O(1)

#### Задачка №2 на 5 минут

Даны два отсортированных списка с числами (не обязательно одной длины). Выведите все числа, которые есть в первом списке, но нет во втором.

In [None]:
lst1 = [1, 2, 8]
lst2 = [2, 6]

**способ №1**: с помощью set

формально за O(n) по времени (на создание set уходит O(n), но с немалой константой), но требует доп память, и не используется отсортированность

**способ №2**: давайте подумаем, как это сделать за O(n) по времени, но без доп.памяти

#### collections
Объекты в collections - модифицированные для разных нужд словари и еще несколько удобных структур данных.

Хороший краткий обзор модуля collections можно почитать [здесь](https://pythonworld.ru/moduli/modul-collections.html). 

In [None]:
from collections import defaultdict

dct = defaultdict(float)

print(dct[2]) # если ключа нет, то устанавливает дефолтное значение
print(dct)
2 in dct

In [None]:
int()
float()
str()

In [None]:
from collections import deque
q = deque()

for i in range(10):
    q.append(i)

while len(q) > 5: 
    print(q.pop(), q)      # O(1)

print()
    
while len(q):              # пока дек не пуст
    print(q.popleft(), q)  # O(1)

In [None]:
# OrderedDict помнит порядок, в котором ему были даны ключи
from collections import OrderedDict

# C 3.7 версии сохранение порядка гарантируется и для dict, но:
#   1. операция сравнения для обычных диктов всё ещё не учитывает порядок в отличие от OrderedDict
#   2. а ещё у OrderedDict есть метод move_to_end (подвинуть существующий элемент в конец), которого нет в dict

data = [(1, 'a'), (3, 'c'), (2, 'b'), (0, "")]

print(dict(data))
print(OrderedDict(data))

#### Задачка №3 на 5 минут

Дан список, найти максимальный элемент списка, который встречается чаще других.  
  
**Hint**: используйте класс Counter из модуля collections

In [43]:
from collections import Counter
help(Counter)

Help on class Counter in module collections:

class Counter(builtins.dict)
 |  Counter(iterable=None, /, **kwds)
 |  
 |  Dict subclass for counting hashable items.  Sometimes called a bag
 |  or multiset.  Elements are stored as dictionary keys and their counts
 |  are stored as dictionary values.
 |  
 |  >>> c = Counter('abcdeabcdabcaba')  # count elements from a string
 |  
 |  >>> c.most_common(3)                # three most common elements
 |  [('a', 5), ('b', 4), ('c', 3)]
 |  >>> sorted(c)                       # list all unique elements
 |  ['a', 'b', 'c', 'd', 'e']
 |  >>> ''.join(sorted(c.elements()))   # list elements with repetitions
 |  'aaaaabbbbcccdde'
 |  >>> sum(c.values())                 # total of all counts
 |  15
 |  
 |  >>> c['a']                          # count of letter 'a'
 |  5
 |  >>> for elem in 'shazam':           # update counts from an iterable
 |  ...     c[elem] += 1                # by adding 1 to each element's count
 |  >>> c['a']                

In [49]:
lst = [3, 1, 4, 1, 5, 9, 2, 7, 1, 8, 2, 8, 2]
cnt = Counter(lst)

In [50]:
cnt

Counter({3: 1, 1: 3, 4: 1, 5: 1, 9: 1, 2: 3, 7: 1, 8: 2})

In [51]:
cnt.most_common()

[(1, 3), (2, 3), (8, 2), (3, 1), (4, 1), (5, 1), (9, 1), (7, 1)]