# Семинар 5
### Продолжаем говорить про хэш-таблички

#### Глава 1: словари

Множества -- это достаточно удобная коллекция, чтобы хранить неповторяющиеся значения, однако иногда бывают случаи, когда хранить нужно не просто значение, а маппинг `key -> value`

In [None]:
d = {}  # объявляем словарь
# еще объявить можно вот так d = dict()

d["some_key"] = "some_value"
d["another_key"] = "another_value"
d["key_with_numeric"] = 1
d[2] = "value_from_numeric"
d["here_is_the_dict"] = {"key": 6}

In [None]:
print(d)

In [None]:
print(d["some_key"])  # интерфейс как в массивах, через квадратные скобки -- получение значения по ключу
print(d["here_is_the_dict"])
print(d["here_is_the_dict"]["key"])

Инициализация

In [None]:
d = {"key": "value", "anohter_key": "another_value"}  # вот так

In [None]:
d = dict(
    key="value",
    another_key="another_value",  # trailing-comma -- это просто хороший тон, не более
)

Важно: в качестве значения словарю можно указать **что угодно**, а вот в качестве ключа -- **только hashable**:

In [None]:
d = {"values": [1, 2, 3]}
print(d)

In [None]:
d = {[1, 2, 3]: "values"}  # ошибка

Интерфейс обращения со словарем

In [None]:
# создать словарь из ключей, указанных первым аргументом с определенным значением

d = dict.fromkeys(["one", "two", "three"], 3)
d["one"] = 1
print(d)

In [None]:
print(d.get("two", -1))
print(d.get("four", -1))  # если ключа нет, вернется то, что записано вторым аргументом

In [None]:
print(d.pop("two", -1))  # аналогично .get, только с удалением ключа
print(d.pop("four", -1))  # если ключа нет, все так же вернется то, что записано вторым аргументом

print(d)

In [None]:
d.update({"two": 2, "four": 4})  # обновить словарь, добавив новые key-value пары
d = {**d, **{"two": 2, "four": 4}}  # лайфхак: еще вот так работает

In [None]:
params = {"sep": ", ", "end": "!"}  # а вот для чего эти ** еще нужны
words = ["hello", "world"]
print(*words, **params)  # советую запомнить, такая конструкция очень часто встречается

In [None]:
d.items()

In [None]:
for key, value in d.items():  # заметьте, что этот словарь всегда unordered, как и множество
    print(key, value)

In [None]:
print(d.keys())
print(d.values())  # по этим структурам так же можно итерироваться

print(sum(d.values()))  # или делать например так

In [None]:
print(d.setdefault("five", 5))  # если значения в словаре нет, вернет ее
print(d.setdefault("four", -1))  # если есть, то вернет то, что есть
print(d)

In [None]:
new_d = d.copy()  # те же самые методы копирования, что и в случае с другими коллекциями
# при этом не забываем про необходимость deepcopy, если словарь вложенный!

new_d["six"] = 6
print(new_d)
print(d)

"Под капотом" получение значения по ключу вызывает у словаря функцию `__getitem__`:

In [None]:
print(d["five"] == d.__getitem__("five"))

Удаление из словаря происходит за O(1):

In [None]:
d.pop("five")  # или del d["five"], тут нет шансов выстрелить себе в ногу...
print(d)

In [None]:
# ...потому что исходный объект не удалится

one_dict = {"name": "Tema", "surname": "Streltsov"}
another_dict = {"seminarist": one_dict}

del another_dict["seminarist"]

print(one_dict)

Еще есть некоторая особенность, связанная со сравнением словарей. Со множествами это, кстати, работает так же: сравнение происходит без учета порядка.

In [None]:
d = {"name": "Tema", "surname": "Streltsov"}

print(d == {"surname": "Streltsov", "name": "Tema"})

Пусть теперь нам дана строка со словами и мы хотим для каждого слова подсчитать, сколько раз каждое слово в ней содержится.

In [None]:
# НЕВЕРНЫЙ код, получим ошибку KeyError

wordcount = {}

words = input().split()

for word in words:
    wordcount[word] += 1

print(wordcount)

In [None]:
# вот теперь верно, но не очень красиво

wordcount = {}

words = input().split()

for word in words:
    if word not in wordcount:  # проверяем ключ на наличие в словаре, это O(1), как и в сетах
        wordcount[word] = 0
    wordcount[word] += 1

print(wordcount)

### Плюшка #1: defaultdict

По сути, это словарь, у которого на все ключи задан `setdefault`.

In [None]:
from collections import defaultdict

wordcount = defaultdict(int)  # можно передать тип данных, по которому берется дефолтное значение
# для int это 0, для str -- пустая строка, для dict это {} и тд

words = input().split()

for word in words:
    wordcount[word] += 1

print(wordcount)

У defaultdict в атрибуте `default_factory` всегда хранится функция, которая инициализирует значение по умолчанию

In [None]:
print(wordcount.default_factory)
print(wordcount.default_factory())
print(int())

Можно задать явно любое другое значение по умолчанию с помощью `lambda`:

In [None]:
# первым аргументом будет значение по умолчанию, которое присвоится, если словаря нет
# вторая --  дадим словарь которым мы инициализируем defaultdict

d = defaultdict(lambda: "not found", {"wiki": "wikipedia.org", "hse": "hse.ru"})

print(d["wiki"])
print(d["4chan"])
print(d)

In [None]:
print(d.default_factory())

Есть очень крутой лайфхак, как создать словарь словарей неограниченной вложенности:

In [138]:
RecursiveDefaultDict = lambda: defaultdict(RecursiveDefaultDict)  # про то, что такое лямбды, мы поговорим позже

In [139]:
d = RecursiveDefaultDict()
d[1][2] = 5
print(d[1][2])
print(d)

5
defaultdict(<function <lambda> at 0x11153eaf0>, {1: defaultdict(<function <lambda> at 0x11153eaf0>, {2: 5})})


### Плюшка #2: OrderedDict

Все то, что вы хотели от словаря, только теперь он будет иметь порядок ключей, в котором она добавляются в словарь. Получается внебрачный сын словаря и списка.

In [None]:
from collections import OrderedDict

d = OrderedDict()

d["b"] = 2
d["d"] = 4
d["a"] = 1

print(d)

In [None]:
for item in d.items():
    print(item)

In [None]:
d.move_to_end("b")  # поменяли порядок, передвинули ключ b в конец
print(d)

In [None]:
for item in d.items():
    print(item)

В целом OrderedDict устроен как и обычный словарь, но рядом с ним еще лежит связный список вида

`START <-> b <-> d <-> a <-> END`

То есть список ключей, причем из каждого ключа есть ссылка на следующий и предыдущий.

Так как в связном списке нет индексации, да и целом быстрее чем за $O(n)$ в таком случае найти нужный ключ проблематично, то казалось бы, удаление тоже должно в OrderedDict быть за линейную сложность. НО! Питон в OrderedDict рядом с ключом хранит ссылку на тот элемент списка, к которому ключ привязан. Поэтому удаление из OrderedDict происходит за $O(1)$, ибо это просто удаление из хэш-таблицы + замена ссылок.

UPD. На семинаре я облажался и сказал, что $O(n)$, но помните, что это неправда!!

### Плюшка #3: удобный counter

In [None]:
from collections import Counter


words = "what a life what a night what a beautiful beautiful ride".split()
print(words)

counter = Counter(words)
print(counter)

In [None]:
# возвращает список кортежей самых часто встречаемых элементов и их значений 
# если таких несколько, то приоритет у тех, которые встретились раньше
counter.most_common(1)

In [None]:
counter.most_common(2)

In [None]:
counter.elements()

In [None]:
for word in counter.elements():  # выводятся слова с повторениями в порядке, в котором впервые встретились
    print(word)

In [None]:
words = "but i crumble completely when you cry".split()
another_words = "when you look at me like that my darling what did you expect".split()

counter = Counter(words)
another_counter = Counter(another_words)

counter.subtract(another_counter)  # можно по-честному вычесть из одного каунтера другой

print(counter)

### Плюшка #4: ChainMap (факультативно)

In [None]:
from collections import ChainMap

baseline = {'music': 'bach', 'art': 'rembrandt'}
adjustments = {'art': 'van gogh', 'opera': 'carmen'}
d = ChainMap(adjustments, baseline)

In [None]:
d["art"]

In [None]:
del d["art"]
print(d["art"])

In [None]:
d = d.new_child({"art": "picasso"})
print(d["art"])

In [None]:
d.maps

# Практика

### Задача 1.
Вам дан словарь, состоящий из пар слов. Каждое слово является синонимом к парному ему слову. Все слова в словаре различны. Для одного данного слова определите его синоним.

Программа получает на вход количество пар синонимов N. Далее следует N строк, каждая строка содержит ровно два слова-синонима. После этого следует одно слово.

# Задача 2.
Дана база данных о продажах некоторого интернет-магазина. Каждая строка входного файла представляет собой запись вида Покупатель товар количество, где Покупатель — имя покупателя (строка без пробелов), товар — название товара (строка без пробелов), количество — количество приобретенных единиц товара. Создайте список всех покупателей, а для каждого покупателя подсчитайте количество приобретенных им единиц каждого вида товаров.

Вводятся сведения о покупках в формате:
```
Ivanov paper 10
Petrov pens 5
Ivanov marker 3
Ivanov paper 7
Petrov envelope 20
Ivanov envelope 5
```

Вывод:
```
Ivanov:
envelope 5
marker 3
paper 17
Petrov:
envelope 20
pens 5
```