# Семинар 5
### Продолжаем говорить про хэш-таблички

#### Глава 1: словари

Множества -- это достаточно удобная коллекция, чтобы хранить неповторяющиеся значения, однако иногда бывают случаи, когда хранить нужно не просто значение, а маппинг `key -> value`

In [None]:
d = {}
# d = dict()

d = {"key1": "value1", "key2": "value2"}
print(d)

{'key1': 'value1', 'key2': 'value2'}


In [None]:
d["key1"]  # эффективно

'value1'

In [None]:
d["key3"] = "value3"  # эффективно

print(d)

{'key1': 'value1', 'key2': 'value2', 'key3': 'value3'}


In [None]:
"key2" in d  # эффективно

True

In [None]:
value = d.pop("key1")
print(value)
print(d)

value1
{'key2': 'value2', 'key3': 'value3'}


In [None]:
d.pop("key1")

KeyError: ignored

In [None]:
d.pop("key1", "DEFAULT VALUE")

'DEFAULT VALUE'

In [None]:
d.pop?

Инициализация

In [None]:
d = {"key": "value", "anohter_key": "another_value"}  # вот так

In [None]:
d = dict(
    key="value",
    another_key="another_value",  # trailing-comma -- это просто хороший тон, не более
)

Важно: в качестве значения словарю можно указать **что угодно**, а вот в качестве ключа -- **только hashable**:

In [None]:
d = {"values": [1, 2, 3], (1,2): dict(), 1: 12., 12.0: 312, frozenset([1,2,3]): 12}
print(d)

{'values': [1, 2, 3], (1, 2): {}, 1: 12.0, 12.0: 312, frozenset({1, 2, 3}): 12}


In [None]:
d = {[1, 2, 3]: "values"}

TypeError: ignored

Интерфейс обращения со словарем

In [None]:
# создать словарь из ключей, указанных первым аргументом с определенным значением

d = dict.fromkeys(["one", "two", "three"], 3)
print(d)

d["one"] = 1
print(d)

{'one': 3, 'two': 3, 'three': 3}
{'one': 1, 'two': 3, 'three': 3}


In [None]:
d["four"]

KeyError: ignored

In [None]:
print(d.get("two", -1))
print(d.get("four", -1))  # если ключа нет, вернется то, что записано вторым аргументом
print(d.get("four"))

3
-1
None


In [None]:
print(d.pop("two", -1))  # аналогично .get, только с удалением ключа
print(d.pop("four", -1))  # если ключа нет, все так же вернется то, что записано вторым аргументом

print(d)

3
-1
{'one': 1, 'three': 3}


In [None]:
print(d)

{'one': 1, 'three': 3}


In [None]:
dd = {"two": 2, "four": 4}
d.update(dd)

In [None]:
print(d)

{'one': 1, 'three': 3, 'two': 2, 'four': 4}


In [None]:
dd = {"two": 42}
d.update(dd)

In [None]:
print(d)

{'one': 1, 'three': 3, 'two': 42, 'four': 4}


In [None]:
d = {**d, **{"two": 2, "four": 4}}  # лайфхак: еще вот так работает

In [None]:
print(d)

{'one': 1, 'three': 3, 'two': 2, 'four': 4}


In [None]:
print("hello", "world", sep=", ", end="!")

hello, world!

In [None]:
words = ["hello", "world"]
param = {"sep": ", ", "end": "!"}

print(words[0], words[1], sep=param["sep"], end=param["end"])

hello, world!

In [None]:
print(*words, **param)

hello, world!

In [None]:
def f(a, b, c):
    print(f"A: {a}")
    print(f"B: {b}")
    print(f"C: {c}")

d = {"a": 1, "b": 2, "c": 3}
f(**d)

A: 1
B: 2
C: 3


In [None]:
def f(a, b, c):
    print(f"A: {a}")
    print(f"B: {b}")
    print(f"C: {c}")

d = {"a": 1, "b": 2, "c": 3, "d": 4}
f(**d)

TypeError: ignored

In [None]:
def f(a, b, c):
    print(f"A: {a}")
    print(f"B: {b}")
    print(f"C: {c}")

d = {"a": 1, "b": 2}
f(**d)

TypeError: ignored

Итерирование по словарям

In [None]:
d = {"a": 1, "b": 2, "c": 3, "d": 4}

items = d.items()
print(items)

dict_items([('a', 1), ('b', 2), ('c', 3), ('d', 4)])


In [None]:
d["e"] = 5
print(items)

dict_items([('a', 1), ('b', 2), ('c', 3), ('d', 4), ('e', 5)])


In [None]:
for k, v in d.items():
    print(f"{k}: {v}")

a: 1
b: 2
c: 3
d: 4
e: 5


In [None]:
d = {"a": 1, "b": 2, "c": 3, "d": 4}

keys = d.keys()
print(keys)

dict_keys(['a', 'b', 'c', 'd'])


In [None]:
d["e"] = 5
print(keys)

dict_keys(['a', 'b', 'c', 'd', 'e'])


In [None]:
d = {"a": 1, "b": 2, "c": 3, "d": 4}

values = d.values()
print(values)

dict_values([1, 2, 3, 4])


In [None]:
d["e"] = 5
print(values)

dict_values([1, 2, 3, 4, 5])


In [None]:
print(d)
d.setdefault("a", 42)
print(d)
d.setdefault("f", 42)
print(d)

{'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
{'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
{'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5, 'f': 42}


In [None]:
new_d = d.copy()  # те же самые методы копирования, что и в случае с другими коллекциями
# при этом не забываем про необходимость deepcopy, если словарь вложенный!

new_d["six"] = 6
print(new_d)
print(d)

{'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5, 'f': 42, 'six': 6}
{'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5, 'f': 42}


"Под капотом" получение значения по ключу вызывает у словаря функцию `__getitem__`:

In [None]:
print(d.__getitem__("a") is d["a"])

True


In [None]:
# d.pop("f")
del d["f"]

In [None]:
print(d)

{'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}


In [None]:
a = {"a": 1, "b": 2}
b = {"key": a}

b.pop("key")
print(a)

{'a': 1, 'b': 2}


In [None]:
a = {"a": 1, "b": 2}
b = {"key": a}

del b["key"]
print(a)

{'a': 1, 'b': 2}


**Задача** number count

In [None]:
import random

numbers = [random.randint(0, 10) for _ in range(100)]
print(numbers)

[8, 4, 4, 2, 10, 7, 10, 2, 9, 1, 1, 3, 9, 1, 8, 6, 6, 6, 6, 2, 8, 2, 5, 1, 7, 4, 8, 10, 9, 6, 8, 6, 8, 5, 1, 10, 9, 7, 3, 7, 2, 4, 10, 2, 9, 8, 5, 0, 6, 9, 4, 0, 7, 9, 3, 4, 2, 5, 4, 2, 7, 5, 8, 6, 3, 2, 10, 8, 3, 1, 1, 10, 1, 5, 4, 10, 2, 8, 6, 1, 5, 1, 3, 0, 9, 1, 2, 9, 4, 5, 2, 1, 1, 1, 7, 3, 9, 0, 7, 1]


In [None]:
counter = dict()

for i in range(11):
    counter[i] = numbers.count(i)
print(counter)

{0: 4, 1: 15, 2: 12, 3: 7, 4: 9, 5: 8, 6: 9, 7: 8, 8: 10, 9: 10, 10: 8}


In [None]:
counter = dict()

for number in numbers:
    counter[number] += 1
    # counter[number] = counter[number] + 1

KeyError: ignored

In [None]:
counter = dict()

for number in numbers:
    if number in counter:
        counter[number] += 1
    else:
        counter[number] = 1

print(counter)

{8: 10, 4: 9, 2: 12, 10: 8, 7: 8, 9: 10, 1: 15, 3: 7, 6: 9, 5: 8, 0: 4}


In [None]:
counter = dict()

for number in numbers:
    counter[number] = counter.get(number, 0) + 1

print(counter)

{8: 10, 4: 9, 2: 12, 10: 8, 7: 8, 9: 10, 1: 15, 3: 7, 6: 9, 5: 8, 0: 4}


### Плюшка #1: defaultdict

По сути, это словарь, у которого на все ключи задан `setdefault`.

In [None]:
from collections import defaultdict

counter = defaultdict(int)

for number in numbers:
    counter[number] += 1
    # counter[number] = counter[number] + 1

print(counter)

defaultdict(<class 'int'>, {8: 10, 4: 9, 2: 12, 10: 8, 7: 8, 9: 10, 1: 15, 3: 7, 6: 9, 5: 8, 0: 4})


In [None]:
print(counter.default_factory)
print(counter.default_factory())

<class 'int'>
0


In [None]:
counter = defaultdict(int)

print(counter)

defaultdict(<class 'int'>, {})


In [None]:
counter["any_key"]

0

In [None]:
print(counter)

defaultdict(<class 'int'>, {'any_key': 0})


Можно задать явно любое другое значение по умолчанию с помощью `lambda`:

In [None]:
# первым аргументом будет значение по умолчанию, которое присвоится, если словаря нет
# вторая --  дадим словарь которым мы инициализируем defaultdict

d = defaultdict(lambda: "not found", {"wiki": "wikipedia.org", "hse": "hse.ru"})

print(d["wiki"])
print(d["4chan"])
print(d)

wikipedia.org
not found
defaultdict(<function <lambda> at 0x7a5d897a4310>, {'wiki': 'wikipedia.org', 'hse': 'hse.ru', '4chan': 'not found'})


In [None]:
# d["not_exist"] = d.default_factory()

Есть очень крутой лайфхак, как создать словарь словарей неограниченной вложенности:

In [None]:
RecursiveDefaultDict = lambda: defaultdict(RecursiveDefaultDict)

In [None]:
print(id(d.default_factory) == id(d.default_factory().default_factory))

True


In [None]:
d = RecursiveDefaultDict()

In [None]:
d[1][2] = 42

In [None]:
print(d[1][2])
print(d)

42
defaultdict(<function <lambda> at 0x7a5d8976b7f0>, {1: defaultdict(<function <lambda> at 0x7a5d8976b7f0>, {2: 42})})


### Плюшка #2: OrderedDict

Все то, что вы хотели от словаря, только теперь он будет иметь порядок ключей, в котором она добавляются в словарь. Получается внебрачный сын словаря и списка.

In [None]:
from collections import OrderedDict

d = OrderedDict()


d["a"] = 1
d["b"] = 2
d["c"] = 3


print(d)

OrderedDict([('a', 1), ('b', 2), ('c', 3)])


In [None]:
for k, v in d.items():
    print(f"{k}: {v}")

a: 1
b: 2
c: 3


In [None]:
d.move_to_end("b")  # поменяли порядок, передвинули ключ b в конец
print(d)

OrderedDict([('a', 1), ('c', 3), ('b', 2)])


В целом OrderedDict устроен как и обычный словарь, но рядом с ним еще лежит связный список вида

`START <-> b <-> d <-> a <-> END`

То есть список ключей, причем из каждого ключа есть ссылка на следующий и предыдущий.

Так как в связном списке нет индексации, да и целом быстрее чем за $O(n)$ в таком случае найти нужный ключ проблематично, то казалось бы, удаление тоже должно в OrderedDict быть за линейную сложность. НО! Питон в OrderedDict рядом с ключом хранит ссылку на тот элемент списка, к которому ключ привязан. Поэтому удаление из OrderedDict происходит за $O(1)$, ибо это просто удаление из хэш-таблицы + замена ссылок.

In [None]:
import sys

d = {"a": 1, "b": 2, "c": 3}
do = OrderedDict(**{"a": 1, "b": 2, "c": 3})

print(f"dict: {sys.getsizeof(d)}")
print(f"odict: {sys.getsizeof(do)}")

dict: 232
odict: 456


### Плюшка #3: удобный counter

In [None]:
import random

numbers = [random.randint(0, 10) for _ in range(100)]
print(numbers)

[8, 9, 10, 1, 5, 3, 1, 7, 4, 5, 2, 1, 7, 6, 4, 1, 6, 9, 4, 3, 9, 0, 4, 9, 0, 9, 9, 5, 7, 9, 1, 0, 3, 1, 4, 1, 1, 9, 3, 4, 9, 2, 6, 5, 2, 10, 1, 7, 6, 5, 2, 10, 6, 0, 8, 10, 7, 9, 10, 10, 0, 4, 5, 5, 2, 1, 4, 1, 10, 1, 7, 2, 6, 9, 6, 6, 2, 1, 6, 2, 7, 6, 3, 10, 4, 2, 3, 7, 8, 10, 2, 0, 2, 3, 6, 5, 3, 2, 9, 2]


In [None]:
from collections import Counter

counter = Counter(numbers)

In [None]:
counter.most_common(3)

[(1, 13), (2, 13), (9, 12)]

In [None]:
# counter[8]

In [None]:
for number in counter.elements():
    print(number, end=", ")

8, 8, 8, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 10, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 5, 5, 5, 5, 5, 5, 5, 5, 3, 3, 3, 3, 3, 3, 3, 3, 7, 7, 7, 7, 7, 7, 7, 7, 4, 4, 4, 4, 4, 4, 4, 4, 4, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 0, 0, 0, 0, 0, 0, 

In [None]:
numbers1 = [random.randint(0, 10) for _ in range(10)]
numbers2 = [random.randint(0, 10) for _ in range(100)]


counter1 = Counter(numbers1)
counter2 = Counter(numbers2)

In [None]:
for key in counter1.keys():
    print(f"key: {key}, counter1: {counter1[key]}, counter2: {counter2[key]}")

key: 5, counter1: 1, counter2: 7
key: 8, counter1: 1, counter2: 12
key: 3, counter1: 3, counter2: 8
key: 1, counter1: 1, counter2: 9
key: 7, counter1: 2, counter2: 11
key: 2, counter1: 1, counter2: 11
key: 6, counter1: 1, counter2: 4


In [None]:
counter1.subtract(counter2)

In [None]:
for key in counter1.keys():
    print(f"key: {key}, counter1: {counter1[key]}")

key: 5, counter1: -6
key: 8, counter1: -11
key: 3, counter1: -5
key: 1, counter1: -8
key: 7, counter1: -9
key: 2, counter1: -10
key: 6, counter1: -3
key: 10, counter1: -11
key: 4, counter1: -12
key: 9, counter1: -6
key: 0, counter1: -9


### Плюшка #4: ChainMap

[habr link](https://habr.com/ru/companies/skillfactory/articles/570590/)

In [None]:
from collections import ChainMap

In [None]:
baseline = {'music': 'bach', 'art': 'rembrandt'}
adjustments = {'art': 'van gogh', 'opera': 'carmen'}

In [None]:
d = ChainMap(adjustments, baseline)

In [None]:
print(d)

ChainMap({'art': 'van gogh', 'opera': 'carmen'}, {'music': 'bach', 'art': 'rembrandt'})


In [None]:
d["art"]

'van gogh'

In [None]:
del d["art"]
print(d["art"])

rembrandt


In [None]:
print(adjustments)

{'opera': 'carmen'}


In [None]:
print(baseline)

{'music': 'bach', 'art': 'rembrandt'}


In [None]:
d = d.new_child({"art": "picasso"})
print(d["art"])

picasso


In [None]:
print(d)

ChainMap({'art': 'picasso'}, {'opera': 'carmen'}, {'music': 'bach', 'art': 'rembrandt'})


In [None]:
print(id(d.maps[1]) == id(adjustments))

True


# Практика

# Задача
Дана база данных о продажах некоторого интернет-магазина. Каждая строка входного файла представляет собой запись вида Покупатель товар количество, где Покупатель — имя покупателя (строка без пробелов), товар — название товара (строка без пробелов), количество — количество приобретенных единиц товара. Создайте список всех покупателей, а для каждого покупателя подсчитайте количество приобретенных им единиц каждого вида товаров.

Вводятся сведения о покупках в формате:
```
Ivanov paper 10
Petrov pens 5
Ivanov marker 3
Ivanov paper 7
Petrov envelope 20
Ivanov envelope 5
```

Вывод:
```
Ivanov:
envelope 5
marker 3
paper 17
Petrov:
envelope 20
pens 5
```

In [None]:
input = """Ivanov paper 10
Petrov pens 5
Ivanov marker 3
Ivanov paper 7
Petrov envelope 20
Ivanov envelope 5"""

tuples = []

for line in input.split("\n"):
    name, goods, quant = line.split(" ")
    tuples.append((name, goods, int(quant)))

In [None]:
type(tuples)

list

In [None]:
# variation 1
#{name: {goods: quant}}
mapping = dict()

for line in tuples:
    name, goods, quant = line
    if name not in mapping:
        mapping[name] = dict()
    if goods not in mapping[name]:
        mapping[name][goods] = quant
    else:
        mapping[name][goods] += quant

In [None]:
for k, v in mapping.items():
    print(f"{k}:")
    for kk, vv in v.items():
        print(f"{kk} {vv}")

Ivanov:
paper 17
marker 3
envelope 5
Petrov:
pens 5
envelope 20


In [None]:
# variation 2
#{name: {goods: quant}}
mapping = dict()

for line in tuples:
    name, goods, quant = line
    if name not in mapping:
        mapping[name] = defaultdict(int)
    mapping[name][goods] += quant

In [None]:
for k, v in mapping.items():
    print(f"{k}:")
    for kk, vv in v.items():
        print(f"{kk} {vv}")

Ivanov:
paper 17
marker 3
envelope 5
Petrov:
pens 5
envelope 20


In [None]:
# variation 3
#{name: {goods: quant}}
raise NotImplementedError()
mapping = defaultdict

for line in tuples:
    name, goods, quant = line
    mapping[name][goods] += quant

NotImplementedError: ignored