# **Словари**

## *Краткая справка*

Словари отчасти похожи на множества, а отчасти на списки, можно сказать, что это результат скрещивания множества и списка.

У словаря есть *ключи* (множество: все ключи уникальны и неизменяемы) и *значения* (список: значения могут повторяться, тип любой), он состоит из двух частей.

Ключи словаря работают похоже, как индексы списка, но могут быть любыми неизменяемыми объектами: числами, строками, кортежами. У ключей словаря такие же свойства, как у множества: они должны быть неизменяемыми, уникальными, их порядок не определен (начиная с версии питона 3.7 гарантируется порядок по времени добавления).

Значения могут быть любыми объектами вообще. Как и список, словарь может включать в качестве значений другие словари, списки и вообще все, что угодно.

С точки зрения признаков словарь называется mapping type. По нему можно итерироваться, его можно изменять по частям. Словарь не может быть элементом множества: он изменяемый.



## *Как задавать словари:*

1) Явно в коде по схеме `{ключ1: значение, ключ2: значение, ...}`:

In [None]:
my_dict = {'sky': 'небо', 'earth': 'земля'}
my_dict

{'sky': 'небо', 'earth': 'земля'}

2) Преобразованием из списка кортежей по схеме `[(ключ1, значение), (ключ2, значение), ...]`:

In [None]:
list_of_tuples = [('sky', 'небо'), ('earth', 'земля')]
my_dict_2 = dict(list_of_tuples)
my_dict_2

{'sky': 'небо', 'earth': 'земля'}

3) Преобразованием из объектов, которые возвращают функции `zip` и `enumerate` (они как раз возвращают списки кортежей)
 * функция `zip` берет два (может больше) списка и сопоставляет их элементы парами по индексам

In [None]:
eng = ['sky', 'earth']
rus = ['небо', 'земля']
my_dict_31 = dict(zip(eng, rus))
my_dict_31

{'sky': 'небо', 'earth': 'земля'}

Если списки разной длины, хвост более длинного отсекается.

In [None]:
eng = ['sky', 'earth', 'sun']
rus = ['небо', 'земля', 7]
my_dict_32 = dict(zip(eng, rus))
# что выведется?
my_dict_32

{'sky': 'небо', 'earth': 'земля', 'sun': 7}

Функция `enumerate` просто нумерует элементы в списке с 0. Иногда бывает очень полезной.

In [None]:
months = ['jan', 'feb', 'mar']

# посмотрим внутри, что делает функция enumerate
print(list(enumerate(months)))
# знакомая картинка, правда?

my_dict_32 = dict(enumerate(months))
my_dict_32

[(0, 'jan'), (1, 'feb'), (2, 'mar')]


{0: 'jan', 1: 'feb', 2: 'mar'}

4) dict comprehension (аналог генератора):

In [None]:
my_dict_4 = {x: x ** 2 for x in range(10)}
# что он соберет?
my_dict_4

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}

5) Можно собрать словарь из списка специальным методом класса dict: `dict.fromkeys()`

In [None]:
some_list = list(range(4))
my_dict_5 = dict.fromkeys(some_list)
my_dict_5[3] = 'sobaka'
my_dict_5

{0: None, 1: None, 2: None, 3: 'sobaka'}

In [None]:
a = [1, 2, 3]
b = a.copy()
b

[1, 2, 3]

## *View objects*

Итак, мы выяснили, что словарь - сложная структура данных, которая состоит из двух частей: ключей и значений. В связи с этим у словаря есть особые штуки, которые называются view objects (VO). Они не существуют отдельно от словаря, но мы можем попросить питон показать нам отдельно ключи и отдельно значения, например.

Такой просмотр организован с помощью методов словаря:

`dct.keys()` - покажет все ключи

`dct.values()` - покажет все значения

`dct.items()` - покажет ключи и значения кортежами.

С этими объектами можно работать, но изменять их самих по себе нельзя.


Еще приятные особенности VO:

1) **Динамические**

Если изменить словарь, VO автоматически обновятся:

In [None]:
station = {'name': 'Altufyevo', 'opened': 1994}
print(station.keys())

station['line'] = 'Serpukhovsko-Timiryazevskaya'
print(station.keys())

dict_keys(['name', 'opened'])
dict_keys(['name', 'opened', 'line'])


2) **Экономия памяти**

Не копируют данные, а только ссылаются на оригинал.

3) **Итерируемые**

Их можно использовать в циклах for, преобразовывать в списки (list(VO)), проверять вхождение (in).

## *Итерация по словарю*

1) Только по его ключам.

`for key in my_dict.keys(): ... `

In [None]:
# напишем программу, которая печатает все ключи словаря

input_dict = {1: 1, 2: 2, 3: 2, 4: 2, 'wait': 7}

# код
for key in input_dict:
    print(key)

1
2
3
4
wait


Но можно и так:

`for key in my_dict: ... `

Почему?

2) Только по его значениям.

` for value in dct.values(): ... `

In [None]:
# напишем программу, которая печатает все значения словаря

input_dict = {1: 1, 2: 2, 3: 2, 4: 2, 'wait': 7}

# ваш код
for value in input_dict.values():
    print(value)

1
2
2
2
7


3) По всему сразу:

` for key, value in dct.items(): ... `

In [None]:
# напишем программу, которая печатает все сразу

input_dict = {1: 1, 2: 2, 3: 2, 4: 2, 'wait': 7}

# ваш код
for key, value in input_dict.items():
    print(key, value)

1 1
2 2
3 2
4 2
wait 7


Заметьте, что key и value - просто названия переменных, я могла назвать их i и j, просто по традиции обычно пишут key, value или k, v. В программировании много таких устоявшихся штук, как i в значении индекса, self в значении экземпляра класса и т.п. Они не обязательные, просто так удобно.

In [None]:
child_nums = list(range(1, 10))
child_names = ['Vasya', 'Petya', 'Kolya', 'Sveta', 'Katya', 'Alena', 'Marina', \
               'Serezha', 'Kirill']
child_dict = dict(zip(child_nums, child_names))

for num, name in child_dict.items():
    print(num, name)

1 Vasya
2 Petya
3 Kolya
4 Sveta
5 Katya
6 Alena
7 Marina
8 Serezha
9 Kirill


In [None]:
monthslist = ['January', 'February', 'March', 'April', 'May', 'June', 'July', \
              'August', 'September', 'October', 'November', 'December']
months = dict(enumerate(monthslist))
print('Что-то не очень, да?', months)

Что-то не очень, да? {0: 'January', 1: 'February', 2: 'March', 3: 'April', 4: 'May', 5: 'June', 6: 'July', 7: 'August', 8: 'September', 9: 'October', 10: 'November', 11: 'December'}


In [None]:
# генератор для всего словаря разом
months = {x + 1: y for x, y in enumerate(monthslist)}
print('Вот так уже лучше...')
for key, value in months.items():
  print(f'{value} is number {key}')

Вот так уже лучше...
January is number 1
February is number 2
March is number 3
April is number 4
May is number 5
June is number 6
July is number 7
August is number 8
September is number 9
October is number 10
November is number 11
December is number 12


In [None]:
# а можно еще так
months = {x + 1: y + 'Ы' for x, y in enumerate(monthslist)}
print('Во славу фонеме/аллофону (в зависимости от ваших предпочтений)')
for key, value in months.items():
  print(f'{value} is number {key}')

Во славу фонеме/аллофону (в зависимости от ваших предпочтений)
JanuaryЫ is number 1
FebruaryЫ is number 2
MarchЫ is number 3
AprilЫ is number 4
MayЫ is number 5
JuneЫ is number 6
JulyЫ is number 7
AugustЫ is number 8
SeptemberЫ is number 9
OctoberЫ is number 10
NovemberЫ is number 11
DecemberЫ is number 12


## *Что еще можно делать со словарями?*

1) Чтобы добавить новый элемент, достаточно выполнить операцию присваивания (=):

`weather_issues['rain'] = 'дождь'`

In [None]:
weather_issues = {'sun': 'солнце', 'snow': 'снег'}
print(weather_issues)

weather_issues['rain'] = 'дождь'
print(weather_issues)

# а так можно?
weather_issues['rain'] = 'дождичек'
print(weather_issues)

{'sun': 'солнце', 'snow': 'снег'}
{'sun': 'солнце', 'snow': 'снег', 'rain': 'дождь'}
{'sun': 'солнце', 'snow': 'снег', 'rain': 'дождичек'}


2) Чтобы удалить элемент, можно использовать pop():

- `dct.pop(key)` - удалит элемент с ключом `key` и вернет ключ `dct`.
- `popitem()` - удалит элемент, последним добавленный в словарь (если у вас питон не старше версии 3.7, иначе будете играть в русскую рулетку и удалять случайные элементы), и вернет его в виде кортежа.
- `del dct[key]`

In [None]:
dct = {1: 2, 3: 4}
len(dct)

2

Со словарями также умеет работать функция `len()`, которая вернет количество элементов в словаре.

Также проверять наличие ключа в словаре можно так же, как во множестве:

* `key in dct`
* `key not in dct`

А метод `dct.update(another_dict)` добавит один словарь в другой, при этом если у них будут одинаковые ключи, то значения в этих ключах перезапишутся:

`dct1 = ...`

`dct2 = ...`

`dct1.update(dct2)`

Наконец, если мы пытаемся совершить какую-то операцию с элементом словаря по несуществующему ключу, то питон выдаст ошибку `KeyError`. Как этого избежать? Можно либо проверять `key in dct`, либо использовать метод `get()`:

In [None]:
dct = {'name': 'Vasya', 'age': 17}
print('Name is', dct.get('name'))
print('We have no key "gender":', dct.get('gender'))

Name is Vasya
We have no key "gender": None


In [None]:
dct1 = {'mama': 'Mutter', 'papa': 'Vater'}
dct2 = {'mama': 'Mother'}
dct1.update(dct2)
dct1

{'mama': 'Mother', 'papa': 'Vater'}

## *defaultdict и Counter*

Существует замечательная библиотека `collections`, разработчики которой подарили нам два чудесных класса:
- `defaultdict`: позволяет нам создавать словари с определенным типом данных по умолчанию, например, списком; помимо этого:
 * если мы решим обратиться к несуществующему ключу, то обычный словарь скажет нам `KeyError`: "не делай так больше, я не знаю, как с этим работать!"; defaultdict же просто посмотрит на нас и молча создаст новый item с новым ключом, заполнив его типом данных, который мы указали ему по умолчанию;

In [None]:
from collections import defaultdict, Counter

In [None]:
# демонстрация молчаливого согласия defaultdict (почти) со всем, что мы делаем
a = defaultdict(list)
print(a)
print(False in a['some_key'])
print(a)

defaultdict(<class 'list'>, {})
False
defaultdict(<class 'list'>, {'some_key': []})


- `Counter`: позволяет нам создавать словари для быстрого подсчета элементов коллекций (списки, строки); обладает рядом полезных свойств:
 * `most_common(n)` — возвращает n самых частых элементов.
 * `elements()` — возвращает итератор по элементам (с учетом их количества).
 * арифметические операции `(+, -, &, |)`

In [None]:
# мы очень захотели посчитать символы в стихотворении Пастернака
hamlet = """
Гул затих. Я вышел на подмостки.
Прислонясь к дверному косяку,
Я ловлю в далеком отголоске,
Что случится на моем веку.
На меня наставлен сумрак ночи
Тысячью биноклей на оси.
Если только можно, Авва Отче,
Чашу эту мимо пронеси.
Я люблю твой замысел упрямый
И играть согласен эту роль.
Но сейчас идет другая драма,
И на этот раз меня уволь.
Но продуман распорядок действий,
И неотвратим конец пути.
Я один, все тонет в фарисействе.
Жизнь прожить — не поле перейти.
"""

char_count = Counter(hamlet)
print(char_count)

# теперь напечатаем топ 10
print(char_count.most_common(10))

Counter({' ': 63, 'о': 37, 'е': 27, 'а': 24, 'т': 24, 'с': 23, 'н': 22, 'и': 20, 'л': 19, '\n': 17, 'р': 17, 'м': 16, 'в': 15, 'у': 14, 'к': 12, '.': 10, 'д': 10, 'п': 9, 'я': 9, 'ь': 8, 'й': 8, ',': 7, 'ч': 5, 'з': 4, 'Я': 4, 'ы': 4, 'ю': 4, 'г': 4, 'Н': 3, 'э': 3, 'И': 3, 'ш': 2, 'Ч': 2, 'б': 2, 'ж': 2, 'Г': 1, 'х': 1, 'П': 1, 'Т': 1, 'Е': 1, 'А': 1, 'О': 1, 'ц': 1, 'ф': 1, 'Ж': 1, '—': 1})
[(' ', 63), ('о', 37), ('е', 27), ('а', 24), ('т', 24), ('с', 23), ('н', 22), ('и', 20), ('л', 19), ('\n', 17)]


In [None]:
# теперь давайте для того же стихотворения сделаем самую простую токенизацию
# (по пробелам) и посчитаем количество слов
tokenized_hamlet = hamlet.lower().split()

word_count = Counter(tokenized_hamlet)
print(word_count.most_common(10))

[('на', 5), ('я', 4), ('и', 3), ('в', 2), ('меня', 2), ('эту', 2), ('но', 2), ('гул', 1), ('затих.', 1), ('вышел', 1)]


In [None]:
# проверим на полученных словарях операции
merged = char_count + word_count
print(merged)

merged = merged - word_count
print(merged == char_count)

shared = char_count & word_count
print(shared)

differ = char_count | word_count
print(differ)

Counter({' ': 63, 'о': 37, 'е': 27, 'а': 24, 'т': 24, 'и': 23, 'с': 23, 'н': 22, 'л': 19, '\n': 17, 'в': 17, 'р': 17, 'м': 16, 'у': 14, 'к': 13, 'я': 13, '.': 10, 'д': 10, 'п': 9, 'ь': 8, 'й': 8, ',': 7, 'ч': 5, 'на': 5, 'з': 4, 'Я': 4, 'ы': 4, 'ю': 4, 'г': 4, 'Н': 3, 'э': 3, 'И': 3, 'ш': 2, 'Ч': 2, 'б': 2, 'ж': 2, '—': 2, 'меня': 2, 'эту': 2, 'но': 2, 'Г': 1, 'х': 1, 'П': 1, 'Т': 1, 'Е': 1, 'А': 1, 'О': 1, 'ц': 1, 'ф': 1, 'Ж': 1, 'гул': 1, 'затих.': 1, 'вышел': 1, 'подмостки.': 1, 'прислонясь': 1, 'дверному': 1, 'косяку,': 1, 'ловлю': 1, 'далеком': 1, 'отголоске,': 1, 'что': 1, 'случится': 1, 'моем': 1, 'веку.': 1, 'наставлен': 1, 'сумрак': 1, 'ночи': 1, 'тысячью': 1, 'биноклей': 1, 'оси.': 1, 'если': 1, 'только': 1, 'можно,': 1, 'авва': 1, 'отче,': 1, 'чашу': 1, 'мимо': 1, 'пронеси.': 1, 'люблю': 1, 'твой': 1, 'замысел': 1, 'упрямый': 1, 'играть': 1, 'согласен': 1, 'роль.': 1, 'сейчас': 1, 'идет': 1, 'другая': 1, 'драма,': 1, 'этот': 1, 'раз': 1, 'уволь.': 1, 'продуман': 1, 'распоряд