In [None]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## Словари, множества, collections


### Создание и удаление


- Note: При создании двух mutable-объектов отдельно - они будут гарантированно разными. Для immutable объектов это верно не всегда.
- Об удалении объектов заботиться не нужно, за вас всё сделает интерпретатор

## Словари

[Документация](https://docs.python.org/3/library/stdtypes.html#mapping-types-dict)

Универсальное средство для выражения связей между объектами, подсчёта, группировки.
Их иногда ещё называют **ассоциативными массивами или хеш-таблицами**.

In [None]:
a = {'Key1' : 'Value1', 'Key2' : 'Value2'}
a

{'Key1': 'Value1', 'Key2': 'Value2'}

In [None]:
b_empty = dict()
b_empty

{}

In [None]:
b = dict([(1, 1), (2, 4), (3, 9)])
b

{1: 1, 2: 4, 3: 9}

In [None]:
b = dict([(1, [1, 2]), (2, [3, 4]), (3, [5, 6])])
b

{1: [1, 2], 2: [3, 4], 3: [5, 6]}

Ключом словаря может быть любой hashable-объект. (mutable == not hashable)

Определение hashable из документации Python: https://docs.python.org/3/glossary.html#term-hashable 

Если коротко, то у объекта должен быть правильно определен метод `__hash__()`

In [None]:
list().__hash__

Хэш от инта - само значение инта

All of Python’s immutable built-in objects are hashable; mutable containers (such as lists or dictionaries) are not. Objects which are instances of user-defined classes are hashable by default. They all compare unequal (except with themselves), and their hash value is derived from their id().

In [None]:
print(hash(343))
print()
print(hash(True))
print()
print(hash('hello'))

343

1

-7368396550370297419


In [None]:
print(hash(6.5)) # есть тонкости, связанные с точностью представления чисел с плавающей запятой
          # месседж: нужно быть очень аккуратным с хэшированием float и лучше их вообще не хэшировать
print()
hash(round(6.50443, 2)) # или хэшировать вот так

1152921504606846982



1152921504606846982

In [None]:
print(hash(2.5))
print()
print(hash(2.5000))
print()
hash(2.51)

1152921504606846978

1152921504606846978



1175979934698983426

In [None]:
print(hash('aaa'))
print(hash('aab'))
print(hash('aaa'))

6992325148122224930
-1888160199428038176
6992325148122224930


#### Note: после перезапуска интерпретатора у сложных объектов (например, строк) будет уже другое значение хэш-функции

list в Python не является хэшируемым объектом

In [None]:
[1].__hash__ is None  # метод __hash__ не определен для списка

True

In [None]:
(1,).__hash__ is not None

True

In [None]:
(1,).__hash__()

3430019387558

Можно ли использовать словарь в качестве ключа словаря?

In [None]:
d1 = {1: 'b'}
d2 = {d1: 'abc'}

TypeError: ignored

In [None]:
{1: 'b'}.__hash__ is None  # dict тоже не является хэшируемым

True

In [None]:
type(dict())

dict

По словарю можно итерироваться, причем как по ключам, так и по значениям

In [None]:
for i in [1, 2, 3]:
    print(i)
    print(i ** 2)
print('The End')

1
1
2
4
3
9
The End


In [2]:
# итерация по словарю
dictionary = {'a': 1, 'b': 2, 'c': 3}
   
for k in dictionary.keys():
    print(k)
    
print()
    
for k in dictionary:  # такая же итерация по ключам, но Python Zen говорит нам, что явное лучше, чем неявное
    print(k)          # поэтому лучше явно прописать .keys(), чтобы улучшить читабельность кода
                      # слишком читабельный код еще никогда никому не мешал

a
b
c

a
b
c


In [None]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


In [None]:
for v in dictionary.values(): # итерация по значениям
    print(v)

1
2
3


In [None]:
k, v = 1, 2
k, v

(1, 2)

In [3]:
for pair in dictionary.items(): # итерируемся сразу по парам (ключ: значение)
    print(pair)
    
print()

for key, value in dictionary.items(): # итерируемся сразу по парам (ключ: значение)
    print(key, value)

('a', 1)
('b', 2)
('c', 3)

a 1
b 2
c 3


In [None]:
# конструкторы:
a = dict(a=1, b=2, c=3)
print(a)
keys = ["Petya", "Vasya", "Masha"]
values = [20, 21, 22]

print()

dictionary = dict(zip(keys, values)) # один из самых удобных способов создания словаря из двух списков

dictionary

{'a': 1, 'b': 2, 'c': 3}



{'Masha': 22, 'Petya': 20, 'Vasya': 21}

In [None]:
list(zip(keys, values, [1, 2, 3, 4]))

[('Petya', 20, 1), ('Vasya', 21, 2), ('Masha', 22, 3)]

In [None]:
[print(k) for k in (map(type, (a.keys(), a.values(), a.items())))]

<class 'dict_keys'>
<class 'dict_values'>
<class 'dict_items'>


[None, None, None]

In [None]:
print(list(a.keys()))
print(list(a.values()))
print(list(a.items()))

['a', 'b', 'c']
[1, 2, 3]
[('a', 1), ('b', 2), ('c', 3)]


In [None]:
dictionary['Vasya'] # получить элемент по ключу

21

In [None]:
del dictionary['Vasya']
dictionary

{'Masha': 22, 'Petya': 20}

In [None]:
a.update(dictionary)  # объединение двух словарей
a

{'Masha': 22, 'Petya': 20, 'a': 1, 'b': 2, 'c': 3}

In [None]:
a[('Composite', 'Key')] = [1, 2, 3]   # only immutable objects could be keys in dicts
a

{('Composite', 'Key'): [1, 2, 3],
 'Masha': 22,
 'Petya': 20,
 'a': 1,
 'b': 2,
 'c': 3}

## Задачка на 5 минут
### Используя только что полученные знания об итерировании по словарю, давайте подумаем, как обратить словарь, т.е. как создать словарь с обратными парами (значение: ключ)? Считаем, что в исходном словаре значения тоже являются хэшируемыми

In [None]:
del a[('Composite', 'Key')]
a

KeyError: ignored

In [None]:
a_new = dict()
for k, v in a: # забыли позвать метод .items(), в итоге ValueError: not enough values to unpack (expected 2, got 1)
    a_new[v] = k
a_new

ValueError: ignored

In [None]:
a_new = dict()
for k, v in a.items(): # забыли позвать метод .items(), в итоге ValueError: not enough values to unpack (expected 2, got 1)
    a_new[v] = k
a_new

{1: 'a', 2: 'b', 3: 'c'}

### Аналогично list comprehensions с прошлого занятия существуют генераторы словарей

In [None]:
[i**2 for i in range(2, 10, 2)]

[4, 16, 36, 64]

In [None]:
dct = {pow(i, 2): i ** 3 for i in range(5)}
(dct)

{0: 0, 1: 1, 4: 8, 9: 27, 16: 64}

In [None]:
help(dict().get)

Help on built-in function get:

get(key, default=None, /) method of builtins.dict instance
    Return the value for key if key is in the dictionary, else default.



In [None]:
dct = {1 : 2, 3 : 4} 
key = 5 
res1 = dct.get(key, 'not found') 
print(dct)
res2 = dct.setdefault(key, 'default') 

print(res1, '---', res2) 
print(dct)

{1: 2, 3: 4}
not found --- default
{1: 2, 3: 4, 5: 'default'}


In [None]:
dct = {1:2, 3:4, 5:6} 
print(dct)

res1 = dct.get(key, 'not found') 
res2 = dct.setdefault(key, 'default') 

print(res1, res2)

{1: 2, 3: 4, 5: 6}
6 6


### Множества (set)
[Документация](https://docs.python.org/3/library/stdtypes.html#set-types-set-frozenset)

В основе set тоже лежит хэш-таблица. Set - mutable, frozenset - immutable

In [None]:
a = {1, 2, 3}
b = set([2, 3, 4])
a, b

({1, 2, 3}, {2, 3, 4})

In [None]:
a.add(5)
b.update({5, 6}) # объединить множество с другим множеством
a, b

({1, 2, 3, 5}, {2, 3, 4, 5, 6})

In [None]:
a[0]

TypeError: ignored

In [None]:
print(3 in b)
print()
print(5 not in b)

True

True


In [None]:
print(b.issubset(a))   # equivalent to b <= a
print()
print(a.issuperset(b)) # equivalent to a >= b
print()
a.isdisjoint(b) # True если пустое пересечение; equivalent to "not a & b"

False

False



False

In [None]:
a, b

({1, 2, 3, 5}, {2, 3, 4, 5, 6})

In [None]:
print(a - b)
print(b - a)
print(a | b) # объединение
print(a & b) # пересечение
print(a ^ b) # ~ XOR

{1}
{4, 6}
{1, 2, 3, 4, 5, 6}
{2, 3, 5}
{1, 4, 6}


In [None]:
i = 1
i += 3 # i = i + 3
i

4

In [None]:
a.difference(b)             # a - b
a.union(b)                  # a | b
a.intersection(b)           # a & b
a.symmetric_difference(b)   # a ^ b

print(id(a))

a.difference_update(b)            # a -= b  # a = a - b
a.update(b)                       # a |= b
a.intersection_update(b)          # a &= b
a.symmetric_difference_update(b)  # a ^= b

print(id(a))

140351763981568
140351763981568


In [None]:
{1, 1, 1, 2, 2, 2, 3, 3, 3}

{1, 2, 3}

In [None]:
a = {1, 2, 3}
b = a.remove(3)
print(a, b)
a.remove(3)

{1, 2} None


KeyError: ignored

In [None]:
a = {1, 2, 3}
b = a.discard(3)
print(a)
a.discard(3)
print()
print(a)
print()
a.discard(3) is None, b

{1, 2}

{1, 2}



(True, None)

Существуют и генераторы множеств

In [None]:
st = {i for i in range(10) if not i % 3}
st

{0, 3, 6, 9}

In [None]:
d = {st: 1} # set тоже не является хэшируемым

TypeError: ignored

In [None]:
d = {frozenset(st): 6}  # а вот frozenset уже можно хэшировать, так как он является неизменяемым объектом
d

{frozenset({0, 3, 6, 9}): 6}

In [None]:
type(frozenset(st))

frozenset

In [None]:
dir()

['In',
 'Out',
 '_',
 '_1',
 '_10',
 '_12',
 '_13',
 '_14',
 '_15',
 '_16',
 '_17',
 '_18',
 '_19',
 '_2',
 '_20',
 '_22',
 '_23',
 '_28',
 '_3',
 '_31',
 '_32',
 '_33',
 '_34',
 '_37',
 '_39',
 '_4',
 '_40',
 '_41',
 '_42',
 '_43',
 '_44',
 '_47',
 '_48',
 '_49',
 '_56',
 '_57',
 '_59',
 '_6',
 '_60',
 '_61',
 '_64',
 '_65',
 '_66',
 '_68',
 '_72',
 '_73',
 '_74',
 '_76',
 '_78',
 '_79',
 '_8',
 '_9',
 '__',
 '___',
 '__builtin__',
 '__builtins__',
 '__doc__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_dh',
 '_i',
 '_i1',
 '_i10',
 '_i11',
 '_i12',
 '_i13',
 '_i14',
 '_i15',
 '_i16',
 '_i17',
 '_i18',
 '_i19',
 '_i2',
 '_i20',
 '_i21',
 '_i22',
 '_i23',
 '_i24',
 '_i25',
 '_i26',
 '_i27',
 '_i28',
 '_i29',
 '_i3',
 '_i30',
 '_i31',
 '_i32',
 '_i33',
 '_i34',
 '_i35',
 '_i36',
 '_i37',
 '_i38',
 '_i39',
 '_i4',
 '_i40',
 '_i41',
 '_i42',
 '_i43',
 '_i44',
 '_i45',
 '_i46',
 '_i47',
 '_i48',
 '_i49',
 '_i5',
 '_i50',
 '_i51',
 '_i52',
 '_i53',
 '_i54',
 '_i55',
 '_i56',

In [None]:
print(1)
print(2)
print(3)

1
2
3


In [None]:
_i

'print(1)\nprint(2)\nprint(3)'

# Для чего удобно использовать dict и set?

### Установление однозначного соответствия каждому объекту из множества ключей какого-то другого объекта (условно можно удобно реализовать словарь для перевода с одного языка на другой)

### Для подсчета уникальных элементов в списке/уникальных слов в тексте

### Для быстрой проверки элемента на вхождение: поиск по ключу в dict и set выполняется за O(1) (в среднем): от объекта вычисляется хэш и проверяется, есть ли такой хэш в контейнере

In [None]:
2 in a     # O(1)

True

### Рубрика "задачи с собеседований"

Даны два отсортированных списка с числами (не обязательно одной длины). Выведите все числа, которые есть в первом списке, но нет во втором

In [None]:
lst1 = [1, 2, 8]
lst2 = [2, 6]

#### способ 1: с помощью set

In [None]:
# способ 1
set(lst1) - set(lst2)

{1, 8}

формально за O(n) по времени (на создание set уходит O(n), но с немалой константой), но требует доп память, и не используется отсортированность

#### способ 2: давайте подумаем, как это сделать за O(n) по времени, но без доп.памяти

In [None]:
lst1 = [1, 2, 8]
lst2 = [2, 6]


In [None]:
i, j = 0, 0

while i < len(lst1):
    if j >= len(lst2) or lst1[i] < lst2[j]: 
        print(lst1[i])
        i += 1
    elif lst1[i] == lst2[j]:
        i += 1
        j += 1
    else:
        j += 1

1
8


### collections
Объекты в collections - модифицированные для разных нужд словари и еще несколько удобных структур данных.

Хороший краткий обзор модуля collections можно почитать [здесь](https://pythonworld.ru/moduli/modul-collections.html) 

In [None]:
from collections import defaultdict
dct = defaultdict(float)

print(dct[2]) # если ключа нет, то устанавливает дефолтное значение
print(dct)

0.0
defaultdict(<class 'float'>, {2: 0.0})


In [None]:
from collections import deque
q = deque()

for i in range(10):
    q.append(i)

while len(q) > 5: 
    print(q.pop(), q) # O(1)

print()
    
while len(q):  # пока дек не пуст
    print(q.popleft(), q) # O(1)

9 deque([0, 1, 2, 3, 4, 5, 6, 7, 8])
8 deque([0, 1, 2, 3, 4, 5, 6, 7])
7 deque([0, 1, 2, 3, 4, 5, 6])
6 deque([0, 1, 2, 3, 4, 5])
5 deque([0, 1, 2, 3, 4])

0 deque([1, 2, 3, 4])
1 deque([2, 3, 4])
2 deque([3, 4])
3 deque([4])
4 deque([])


In [None]:
from collections import OrderedDict # помнит порядок, в котором ему были даны ключи

# C 3.7 версии сохранение порядка гарантируется и для dict, но:
# Операция сравнения для обычных диктов всё ещё не учитывает порядок в отличие от OrderedDict
# А ещё у OrderedDict есть метод move_to_end (подвинуть существующий элемент в конец), которого нет в дикте

data = [(1, 'a'), (3, 'c'), (2, 'b')]

print(dict(data))
print(OrderedDict(data))

{1: 'a', 3: 'c', 2: 'b'}
OrderedDict([(1, 'a'), (3, 'c'), (2, 'b')])
