# Словари (```dict```)

Словари это еще одна фундаментальная структура данных. Другое название словарей - ассоциативные массивы или хеш-таблицы. В отличие от списков, индексируемых числами, словари индексируются ключами, которые могут быть любыми неизменяемыми или хешируемыми типами данных. Об изменяемых и неизменяемых типах данных будет подробнее рассмотрено в следующих разделах. Вот список некоторых неизменяемых типов, значения которых могут выступать в качестве ключей в словарях:
- любые числа (```int```, ```float```, ```complex```)
- ```str```
- ```None```
- ```bool```
- ```tuple``` (этот тип будет рассмотрен в следующих разделах)
- функции

Словари ставят в соответствие какому-либо ключу определенное значение, в связи с этим их называют ассоциативными массивами. Такое соответствие достигается за счет вычисления [хеша](https://en.wikipedia.org/wiki/Hash_function) от объекта. Хеш это некоторое число, которое должно быть уникально для объектов с разными значениями, но одинаковым для объектов с одинаковыми значениями. В Python, используя функцию ```hash```, можно получить число, которое выступает в качестве хеша. У малых целых чисел хеш совпадает со значением числа.

In [1]:
print(f'{hash(42) = }')
print(f'{hash(42.5) = }')
print(f'{hash("42") = }')

hash(42) = 42
hash(42.5) = 1152921504606847018
hash("42") = -8297123596328698827


Другими словами, хеш ключа выступает в качестве индекса, который указывает, где храниться определенный объект. Схематично это можно представить следующим образом:

<img src="../image/dict.png">

На сегодняшний день не существует "идеальной" хеш-функции, которая вычисляет хеш. Это приводит к тому, что не все ячейки в массиве будут заполнены. Время от времени в процессе расширения хеш-таблицы ее размер необходимо увеличивать и, соответственно, копировать в новое место в памяти. В Python поддерживается заполненность таблицы примерно на $2/3$.

Ниже приведён пример работы хеш-таблицы и проблемы "наложения" хеша или коллизий:

In [2]:
import string

# строки с повторяющимися хешами будем сохранять в список
repetitions = []

# будем искать повторения с заданной строкой
prefix = 'abcdef'
hash_s = hash(prefix) % 16

# перебор всех символов
for c in string.ascii_lowercase:
    # добавим новый символ к префиксу и сравним хеши
    if hash(prefix + c) % 16 == hash_s:
        # если совпадают, то добавим в список
        repetitions.append(prefix + c)

# таблица размером 16 будет иметь 1 совпадение
print(repetitions)

['abcdefj']


Литералом словаря или хеш-таблицы являются фигурные скобки ```{}```. Для создания пустого словаря можно использовать либо фигурные скобки, либо встроенную функцию ```dict()```:

In [3]:
d_1 = {}
d_2 = dict()
print(f'{type(d_1) = }')
print(f'{type(d_2) = }')

type(d_1) = <class 'dict'>
type(d_2) = <class 'dict'>


Создать непустой словарь можно аналогичным способом, передав пары ```ключ: значение```, разделенные между собой запятыми. В качестве значений словари могут содержать произвольные объекты.

In [None]:
d = {'a': 1, 2: 'str', None: [1, 2, 3], True: False}

In [4]:
d = {'a': 1, 'b': 2, 'a': 42}
print(f'{d = }')

d = {'a': 42, 'b': 2}


Ключи в словаре должны быть уникальными. Это приводит к тому, что предыдущие значения у повторяющихся ключей будут перезаписаны. Это приводит к тому, что ```1```, ```1.0```, ```1 + 0j``` и ```True```, а также ```0```, ```0.0```, ```0 + 0j``` и ```False``` считаются одинаковыми. В этом случае, в словарь попадет первый ключ и последнее значение дублирующего ключа.

In [5]:
d = {1: 'a', 1.: 'b', 1 + 0j: 'c', True: 'd'}
print(f'{d = }')

d = {1: 'd'}


Словари можно создать из другой последовательности с помощью метода ```fromkeys```, передав ему коллекцию ключей и значение "по умолчанию". Это значение будет установлено для всех ключей. Если значение не передано, будет установлено ```None```.

In [6]:
d = dict.fromkeys('abc', 1)
print(f'{d = }')

d = {'a': 1, 'b': 1, 'c': 1}


## Операции над словарями

У словарей можно узнать длину с помощью функции ```len```:

In [7]:
d = {'a': 1, 'b': 2, 'c': 3}
print(f'{len(d) = }')

len(d) = 3


Обращение по ключу у списков осуществляется по аналогии со списками. Для этого нужно использовать квадратные скобки. Другим способом является использование метода ```get```.

In [8]:
d = {'a': 1, 'b': 2, 'c': 3}
print(f'{d["a"] = }')
print(f'{d.get("c") = }')

d["a"] = 1
d.get("c") = 3


В случае обращения по несуществующему ключу, словарь возвращает исключение ```KeyError```.

In [9]:
d = {'a': 1, 'b': 2, 'c': 3}
print(f'{d["g"] = }')

KeyError: 'g'

Метод ```get``` нужно использовать, когда не известен факт наличия ключа в словаре. Метод принимает два аргумента. Первым аргументом передается ключ. Второй является необязательным и представляет собой значение, которое будет возвращено в случае отсутствия ключа. Он имеет значение по умолчанию равное ```None```.

In [10]:
d = {'a': 1, 'b': 2, 'c': 3}
print(f'{d.get("d") = }')
print(f'{d.get("f", 42) = }')

d.get("d") = None
d.get("f", 42) = 42


Добавление новой пары ```ключ: значение``` или обновление значения, уже добавленного ключа можно с помощью квадратных скобок и оператора ```=```. В этом случае, если ключ существует, его значение будет обновлено, в противном случае будет создан новый ключ с соответствующим значением.

In [11]:
d = {'a': 1, 'b': 2}
print(f'{d = }')

d['a'] = 0
d['c'] = 5
print(f'{d = }')

d = {'a': 1, 'b': 2}
d = {'a': 0, 'b': 2, 'c': 5}


В "классической" реализации хеш-таблиц они не сохраняют порядок вставки ключей. С версии интерпретатора 3.6 добавили сохранение порядка вставки элементов в ```dict```.

Проверить наличие ключа в словаре можно по аналогии с проверкой наличия элемента в списке. Достаточно использовать оператор ```in``` или ```not in```.

In [12]:
d = {'a': 1, 'b': 2}
print(f'{"a" in d = }')
print(f'{"c" in d = }')
print(f'{"g" not in d = }')

"a" in d = True
"c" in d = False
"g" not in d = True


В Python 3.9 введен оператор ```|``` для словарей. Он объединяет два словаря. В ранних версиях необходимо было использовать конструкцию, использующую две звездочки. Особенность этих обоих конструкций заключается в порядке следования операндов. От порядка зависит как будут перекрываться ключи.

In [13]:
foo = {'a': 1, 'b': 2, 'c': 42}
bar = {'c': 3, 'd': 4}
print(f'Python 3.9:{ foo | bar = }')
print(f'Python 3.9:{ bar | foo = }')
print(f'Python < 3.9:{ {**foo, **bar} = }')
print(f'Python < 3.9:{ {**bar, **foo} = }')

Python 3.9: foo | bar = {'a': 1, 'b': 2, 'c': 3, 'd': 4}
Python 3.9: bar | foo = {'c': 42, 'd': 4, 'a': 1, 'b': 2}
Python < 3.9: {**foo, **bar} = {'a': 1, 'b': 2, 'c': 3, 'd': 4}
Python < 3.9: {**bar, **foo} = {'c': 42, 'd': 4, 'a': 1, 'b': 2}


Оператор ```|``` имеет in-place аналог ```|=``` для обновления словаря "на месте". У него есть аналог в виде метода ```update```, который принимает другой словарь.

In [14]:
foo = {'a': 1, 'b': 2}
bar = {'c': 3, 'd': 4}
baz = {'e': 5, 'f': 6}

foo |= baz
bar.update(baz)

print(f'{foo = }')
print(f'{bar = }')

foo = {'a': 1, 'b': 2, 'e': 5, 'f': 6}
bar = {'c': 3, 'd': 4, 'e': 5, 'f': 6}


## Итерирование по словарям

По аналогии со списками, по словарям можно итерироваться разными способами. У словарей есть несколько методов, с помощью которых можно получить коллекции разных его составляющий, таких как ключи, значения, пары ```ключ, значение```. Эти методы облегчают использование циклов для итерирования по словарям.

In [15]:
d = {'a': 1, 'b': 2, 'c': 3}
print(f'{d.keys() = }')
print(f'{d.values() = }')
print(f'{d.items() = }')

d.keys() = dict_keys(['a', 'b', 'c'])
d.values() = dict_values([1, 2, 3])
d.items() = dict_items([('a', 1), ('b', 2), ('c', 3)])


В связи с сохранением порядка вставки коллекция, получаемая с помощью метода ```keys``` будет всегда в одном и том же порядке. 

Иногда необходимо отсортировать пары словаря. Однако, словари не имеют встроенного метода сортировки. Сортировать нужно коллекции, возвращаемые ```keys```, ```values``` или ```items```. Стоит отметить, что эти коллекции не являются чисто списками, они имеют специальный тип. Поэтому у них нет метода ```sort```, как у списков.

In [16]:
d = {'a': 1, 'b': 2, 'c': 3}
print(f'{type(d.keys()) = }')
print(f'{type(d.values()) = }')
print(f'{type(d.items()) = }')

type(d.keys()) = <class 'dict_keys'>
type(d.values()) = <class 'dict_values'>
type(d.items()) = <class 'dict_items'>


Для их сортировки придется использовать функцию ```sorted```.

In [17]:
d = {'a': 3, 'b': 2, 'c': 1}
print(f'{sorted(d.keys(), reverse=True) = }')
print(f'{sorted(d.values()) = }')
print(f'{sorted(d.items(), reverse=True) = }')

sorted(d.keys(), reverse=True) = ['c', 'b', 'a']
sorted(d.values()) = [1, 2, 3]
sorted(d.items(), reverse=True) = [('c', 1), ('b', 2), ('a', 3)]


В последней строке видно, что коллекция пар ```d.items()``` сортируется по первому элемента кортежа, т.е. по ключу. Python сортирует коллекции в лексикографическом порядке. Это значит, что если первый элемент будет совпадать, то сортировка будет происходить по второму и т. д. Что бы самостоятельно задать элемент, по которому нужно сортировать такие коллекции нужно использовать ключевой аргумент ```key``` в функциях ```sort``` или ```sorted```. Этот аргумент принимает некоторую функцию, принимающую один аргумент и возвращающую элемент, по которому будет происходить сортировка.

In [18]:
d = {'a': 3, 'b': 2, 'c': 1}

# функция принимает элемент коллекции, т.е. кортеж 
# из двух элементов, и возвращает второй его элемет.
def foo(x):
    return x[1]

# сортировка пар словаря по значению
print(f'{sorted(d.items(), key=foo) = }')

sorted(d.items(), key=foo) = [('c', 1), ('b', 2), ('a', 3)]


Словари поддерживают перебор:
- ключей (по умолчанию)
- ключей с помощью метода ```keys``` (эквивалент первого)
- значений с помощью метода ```values```
- пар ```ключ, значение``` с помощью метода ```items```
- индексов и любых других элементов с помощью функции ```enumerate```

In [19]:
d = {'a': 1, 'b': 2, 'c': 3}

# аналог d.keys()
for key in d:
    print(f'{key}: {d[key]}')
print('-' * 25)

# аналог первого варианта
for key in d.keys():
    print(f'{key}: {d[key]}')
print('-' * 25)

for value in d.values():
    print(f'{value = }')
print('-' * 25)

# самый полезный способ итерации
for key, value in d.items():
    print(f'{key}: {value}')
print('-' * 25)

for i, (k, v) in enumerate(d.items()):
    print(f'{i}: {k} - {v}')

a: 1
b: 2
c: 3
-------------------------
a: 1
b: 2
c: 3
-------------------------
value = 1
value = 2
value = 3
-------------------------
a: 1
b: 2
c: 3
-------------------------
0: a - 1
1: b - 2
2: c - 3


# Применение словарей

Частично с применением словарей мы уже сталкивались, когда делали множественную замену символов в строке.

In [20]:
s = 'строка: (со знаками), препинания. и, пробелами!'

# подготовим словарь замен. 
# знаки препинания ,.:!() будут заменяться на пустую строку, 
# т.е. удаляться
d = dict.fromkeys(list(',.:!()'), '')
# дополнительно все пробелы заменим на нижнее подчеркивание
d[' '] = '_'
print(f'Словарь замен: {d}')

tran_tab = str.maketrans(d)
print(s.translate(tran_tab))

Словарь замен: {',': '', '.': '', ':': '', '!': '', '(': '', ')': '', ' ': '_'}
строка_со_знаками_препинания_и_пробелами


Еще одним интересным вариантом применения словаря является моделирования [графов](https://en.wikipedia.org/wiki/Graph_(discrete_mathematics)). Это еще одна структура данных, состоящая из узлов и ребер, которые соединяют узлы.

<img src="../image/graph.png" align="center">


In [None]:
d = {}
d['A'] = ['B', 'C', 'D']
d['B'] = ['A', 'C', 'E']
d['C'] = ['A', 'B', 'E']
d['D'] = ['A', 'E', 'F']
d['E'] = ['B', 'C', 'D', 'G']
d['F'] = ['D', 'G']
d['G'] = ['E', 'F']

Использование словаря удобно для реализации простейшего меню пользователя. Предположим, пользователь вводит число. Программа должна совершить некоторые действия над числом на выбор пользователя:
- возвести в квадрат;
- вычислить корень третьей степени;
- увеличить в 5 раз.

In [None]:
# реализуем отдельные действия в виде 
# функций, они могут быть гораздло сложнее
def sqr(x):
    return x ** 2

def power(x):
    return x ** 1/3

def mul_5(x):
    return 5 * x

# реализуем меню в виде словаря, сопоставив 
# команду пользователя и кортеж, состоящий из 
# описания действия и функции обработки
d = {
    'sqr': ('Возвести число в квадрат', sqr),
    'pow': ('Извлечь корень третьей степени', power),
    'mul': ('Увеличить в 5 раз', mul_5),
}

# вывод названия программы и меню на экран
print('Простейшая программа с меню')
for k, v in d.items():
    print(f'{k} - {v[0]}')
print('stop - выход')

# зациклим программу, пока пользователь не введет stop
msg = 'Введите команду:'
while (s:= input(msg)) != 'stop':
    # считаем число, здесь проверка на 
    # целое число опущена для простоты
    number = input('Введите число:')
    if s in d:
        print(f'Результат: {d[s][1](int(number))}')

# Полезные ссылки

- [Что делает хеш в Python](https://stackoverflow.com/questions/17585730/what-does-hash-do-in-python)
- [Словари в Python](https://realpython.com/python-dicts/)
- [Хеш-таблицы Python](http://thepythoncorner.com/dev/hash-tables-understanding-dictionaries/)