In [None]:
"""Макаров.

Словарь в Питоне
"""

## Словарь в Питоне

### Понятие словаря

#### Создание словаря

In [None]:
# пустой словарь можно создать с помощью {} или функции dict()
# импортируем класс Counter
from collections import Counter

# импортируем функцию pprint() из модуля pprint
# некоторые структуры данных она выводит лучше, чем обычная print()
from pprint import pprint

import numpy as np

dict_1: dict[str, str] = {}
dict_2: dict[str, str] = dict()  # pylint: disable=R1735
print(dict_1, dict_2)

{} {}


In [None]:
# словарь можно сразу заполнить ключами и значениями
company: dict[str, str | int] = {
    "name": "Toyota",
    "founded": 1937,
    "founder": "Kiichiro Toyoda",
}
company

{'name': 'Toyota', 'founded': 1937, 'founder': 'Kiichiro Toyoda'}

In [None]:
# словарь можно создать из вложенных списков
tickers: dict[str, str] = dict(
    [["TYO", "Toyota"], ["TSLA", "Tesla"], ["F", "Ford"]]
)
tickers

{'TYO': 'Toyota', 'TSLA': 'Tesla', 'F': 'Ford'}

In [None]:
# если поместить ключи в кортеж
keys: tuple[str, ...] = ("k1", "k2", "k3")
# и задать значение
value_global = 0

# то с помощью метода .fromkeys() можно создать словарь
# с этими ключами и заданным значением для каждого из них
empty_values = dict.fromkeys(keys, value_global)
empty_values

{'k1': 0, 'k2': 0, 'k3': 0}

#### Ключи и значения словаря

Виды значений словаря

In [None]:
# приведем пример того, какими могут быть значения словаря
value_types: dict[
    str, int | str | bool | None | list[int] | object | float
] = {
    "k1": 123,
    "k2": "string",
    "k3": np.nan,  # тип "Пропущенное значение"
    "k4": True,  # логическое значение
    "k5": None,
    "k6": [1, 2, 3],
    "k7": np.array([1, 2, 3]),
    "k8": {1: "v1", 2: "v2", 3: "v3"},
}

value_types

{'k1': 123,
 'k2': 'string',
 'k3': nan,
 'k4': True,
 'k5': None,
 'k6': [1, 2, 3],
 'k7': array([1, 2, 3]),
 'k8': {1: 'v1', 2: 'v2', 3: 'v3'}}

Методы .keys(), .values() и .items()

In [None]:
# создадим несложный словарь с информацией о сотруднике
person: dict[str, str | int | list[str]] = {
    "first name": "Иван",
    "last name": "Иванов",
    "born": 1980,
    "dept": "IT",
}

In [None]:
# посмотрим на ключи и
print(person.keys())

dict_keys(['first name', 'last name', 'born', 'dept'])

In [None]:
# значения
print(person.values())

dict_values(['Иван', 'Иванов', 1980, 'IT'])

In [None]:
# а также на пары ключ-значение в виде списка из кортежей
print(person.items())

dict_items([('first name', 'Иван'), ('last name', 'Иванов'), ('born', 1980), ('dept', 'IT')])

Использование цикла for

In [None]:
# ключи и значения можно вывести в цикле for
for key, value_p in person.items():
    print(key, value_p)

first name Иван
last name Иванов
born 1980
dept IT


Доступ по ключу и метод .get()

In [None]:
# значение можно посмотреть по ключу
person["last name"]

'Иванов'

In [None]:
# если такого ключа нет, Питон выдаст ошибку
# person['education'] --> Error

KeyError: 'education'

In [None]:
# чтобы этого не произошло, можно использовать метод .get()
# по умолчанию при отсутствии ключа он выводит значение None
print(person.get("education"))

None


In [None]:
# если ключ все-таки есть, .get() выведет соответствующее значение
print(person.get("born"))

1980

Проверка вхождения ключа и значения в словарь

In [None]:
# проверим есть ли такой ключ
print("born" in person)

True

In [None]:
# и такое значение
print(1980 in person.values())

True

In [None]:
# можно также проверить наличие и ключа, и значения одновременно
print(("born", 1980) in person.items())

True

### Операции со словарями

#### Добавление и изменение элементов

In [None]:
# добавить элемент можно, передав новому ключу новое значение
# обратите внимание, в данном случае новое значение - это список
person["languages"] = ["Python", "C++"]
person

{'first name': 'Иван',
 'last name': 'Иванов',
 'born': 1980,
 'dept': 'IT',
 'languages': ['Python', 'C++']}

In [None]:
# изменить элемент можно, передав существующему ключу новое значение,
# значение - это по-прежнему список, но из одного элемента
person["languages"] = ["Python"]
person

{'first name': 'Иван',
 'last name': 'Иванов',
 'born': 1980,
 'dept': 'IT',
 'languages': ['Python']}

In [None]:
# возьмем еще один словарь
new_elements: dict[str, str | int] = {"job": "программист", "experience": 7}

# и присоединим его к существующему словарю с помощью метода .update()
person.update(new_elements)
person

{'first name': 'Иван',
 'last name': 'Иванов',
 'born': 1980,
 'dept': 'IT',
 'languages': ['Python'],
 'job': 'программист',
 'experience': 7}

In [None]:
# метод .setdefault() проверит есть ли ключ в словаре,
# если "да", значение не изменится
person.setdefault("last name", "Петров")
person

{'first name': 'Иван',
 'last name': 'Иванов',
 'born': 1980,
 'dept': 'IT',
 'languages': ['Python'],
 'job': 'программист',
 'experience': 7}

In [None]:
# если нет, будет добавлен новый ключ и соответствующее значение
person.setdefault("f_languages", ["русский", "английский"])
person

{'first name': 'Иван',
 'last name': 'Иванов',
 'born': 1980,
 'dept': 'IT',
 'languages': ['Python'],
 'job': 'программист',
 'experience': 7,
 'f_languages': ['русский', 'английский']}

#### Удаление элементов

In [None]:
# метод .pop() удаляет элемент по ключу и выводит удаляемое значение
print(person.pop("dept"))

'IT'

In [None]:
# мы видим, что пары 'dept' : 'IT' больше нет
person

{'first name': 'Иван',
 'last name': 'Иванов',
 'born': 1980,
 'languages': ['Python'],
 'job': 'программист',
 'experience': 7,
 'f_languages': ['русский', 'английский']}

In [None]:
# ключевое слово del также удаляет элемент по ключу
# удаляемое значение не выводится
del person["born"]

In [None]:
# метод .popitem() удаляет последний добавленный элемент и выводит его
person.popitem()

('f_languages', ['русский', 'английский'])

In [None]:
# метод .clear() удаляет все элементы словаря
person.clear()
person

{}

In [None]:
# ключевое слово del также позволяет удалить словарь целиком
del person

In [None]:
# убедимся, что такого словаря больше нет
person

NameError: name 'person' is not defined

#### Сортировка словарей

In [None]:
# возьмем несложный словарь
dict_to_sort: dict[str, int] = {"k2": 30, "k1": 20, "k3": 10}

In [None]:
# отсортируем ключи
sorted(dict_to_sort)

['k1', 'k2', 'k3']

In [None]:
# и значения
sorted(dict_to_sort.values())

[10, 20, 30]

In [None]:
# посмотрим на пары ключ : значение
dict_to_sort.items()

dict_items([('k2', 30), ('k1', 20), ('k3', 10)])

In [None]:
# для их сортировки по ключу (индекс [0])
# воспользуемся методом .items() и lambda-функцией
sorted(dict_to_sort.items(), key=lambda item: item[0])

[('k1', 20), ('k2', 30), ('k3', 10)]

In [None]:
# сортировка по значению выполняется так же, однако
# lambda-функции мы передаем индекс [1]
sorted(dict_to_sort.items(), key=lambda item: item[1])

[('k3', 10), ('k1', 20), ('k2', 30)]

#### Копирование словарей

In [None]:
# создадим исходный словарь с количеством студентов на первом и втором курсах университета
original: dict[str, int] = {"Первый курс": 174, "Второй курс": 131}

Копирование с помощью метода .copy()

In [None]:
# создадим копию этого словаря с помощью метода .copy()
new_1 = original.copy()

# добавим информацию о третьем курсе в новый словарь
new_1["Третий курс"] = 117

# исходный словарь не изменился
print(original)
print(new_1)

{'Первый курс': 174, 'Второй курс': 131}
{'Первый курс': 174, 'Второй курс': 131, 'Третий курс': 117}


Копирование через оператор присваивания `=` (так делать не стоит!)

In [None]:
# передадим исходный словарь в новую переменную
new_2 = original

# удалим элементы нового словаря
new_2.clear()

# из исходного словаря данные также удалились
print(original)
print(new_2)

{}
{}


### Функция `dir()`

In [None]:
# функция dir() возвращает все методы передаваемого ей объекта
some_dict = {"k": 1}

# вначале идут специальные методы,
# они начинаются и заканчиваются символом '__'
# выведем первые 11 элементов
print(dir(some_dict)[:11])

['__class__',
 '__class_getitem__',
 '__contains__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__']

In [None]:
# когда мы передаем наш словарь функции print(),
print(some_dict)

{'k': 1}


In [None]:
# на самом деле мы применяем к объекту метод .__str__()
some_dict.__str__()  # pylint: disable=C2801

"{'k': 1}"

In [None]:
# в большинстве случаев нас будут интересовать методы без '__'
methods = dir(some_dict)[-11:]

print(methods)

['clear',
 'copy',
 'fromkeys',
 'get',
 'items',
 'keys',
 'pop',
 'popitem',
 'setdefault',
 'update',
 'values']

### Dict comprehension

In [None]:
# создадим еще один несложный словарь
source_dict: dict[str, int] = {"k1": 2, "k2": 4, "k3": 6}

In [None]:
# с помощью dict comprehension умножим каждое значение на два
new_source_dict = {key: value * 2 for (key, value) in source_dict.items()}

{'k1': 4, 'k2': 8, 'k3': 12}

In [None]:
# сделаем символы всех ключей заглавными
new_source_dict = {key.upper(): value for (key, value) in source_dict.items()}

{'K1': 2, 'K2': 4, 'K3': 6}

In [None]:
# добавим условие, что значение должно быть больше двух И меньше шести
new_dict_1 = {
    key: value
    for (key, value) in source_dict.items()
    if value > 2
    if value < 6
}

print(new_dict_1)

{'k2': 4}

In [None]:
new_dict: dict[str, int] = {}

# при решении этой же задачи в цикле for
for key, value in source_dict.items():

    # мы бы использовали логическое И (and)
    if 2 < value < 6:

        # если условия верны, записываем ключ и значение в новый словарь
        new_dict[key] = value

new_dict

{'k2': 4}

In [None]:
# условие с if-else ставится в самом начале схемы dict comprehension
# заменим значение на слово even, если оно четное, и odd, если нечетное
even_odd_dict: dict[str, str] = {
    key: ("even" if value % 2 == 0 else "odd")
    for (key, value) in source_dict.items()
}

{'k1': 'even', 'k2': 'even', 'k3': 'even'}

In [None]:
# dict comprehension можно использовать вместо метода .fromkeys()
keys = ("k1", "k2", "k3")

# передадим словарю ключи из кортежа keys и зададим значение 0 каждому из них
zeros_dict = {key: 0 for key in keys}

{'k1': 0, 'k2': 0, 'k3': 0}

### Дополнительные примеры

#### lambda-функции, функции `map()` и `zip()`

Пример со списком

In [None]:
# возьмем список слов
words: list[str] = ["apple", "banana", "fig", "blackberry"]

In [None]:
# создадим lambda-функцию, которая посчитает длину передаваемого ей слова
# с помощью функции map() применим lambda-функцию
# к каждому элементу списка words
# и поместим длины слов в новый список length с помощью функции list()
length = list(map(len, words))
length

[5, 6, 3, 10]

In [None]:
# с помощью функции zip() поэлементно соединим оба списка и
# преобразуем в словарь
from_zip_dict = dict(zip(words, length))

{'apple': 5, 'banana': 6, 'fig': 3, 'blackberry': 10}

In [None]:
# то же самое можно сделать с помощью функции zip() и list comprehension
zip_length_dict = dict(zip(words, [len(word) for word in words]))

{'apple': 5, 'banana': 6, 'fig': 3, 'blackberry': 10}

Пример со словарем

In [None]:
# возьмем словарь с ростом людей в футах
height_feet: dict[str, float] = {"Alex": 6.1, "Jerry": 5.4, "Ben": 5.8}

In [None]:
# для преобразования футов в метры создадим lambda-функцию lambda m: m * 0.3048
# применим эту функцию к значениям словаря с помощью функции map()
# преобразуем в список
metres = list(map(lambda m: m * 0.3048, height_feet.values()))
metres

[1.85928, 1.6459200000000003, 1.76784]

In [None]:
# с помощью функции zip() соединим ключи исходного словаря с элементами списка metres
dict(zip(height_feet.keys(), np.round(metres, 2)))

{'Alex': 1.86, 'Jerry': 1.65, 'Ben': 1.77}

In [None]:
# то же самое можно выполнить с помощью dict comprehensions
# всего в одну строчку
# мы просто преобразуем значения словаря в метры
students_heights_dict = {
    key: np.round(value * 0.3048, 2) for (key, value) in height_feet.items()
}

{'Alex': 1.86, 'Jerry': 1.65, 'Ben': 1.77}

#### Вложенные словари

In [None]:
# возьмем словарь, ключами которого будут id сотрудников
employees: dict[str, dict[str, str | int | float]] = {
    "id1": {
        "first name": "Александр",
        "last name": "Иванов",
        "age": 30,
        "job": "программист",
    },
    "id2": {
        "first name": "Ольга",
        "last name": "Петрова",
        "age": 35,
        "job": "ML-engineer",
    },
}

In [None]:
# а значениями - вложенные словари с информацией о них
for value_e in employees.values():
    print(value_e)

{'first name': 'Александр', 'last name': 'Иванов', 'age': 30, 'job': 'программист'}
{'first name': 'Ольга', 'last name': 'Петрова', 'age': 35, 'job': 'ML-engineer'}


##### Базовый операции

In [None]:
# для того чтобы вывести значение элемента вложенного словаря,
# воспользуемся двойным ключом
print(employees["id1"]["age"])

30

In [None]:
# добавим информацию о новом сотруднике
employees["id3"] = {
    "first name": "Дарья",
    "last name": "Некрасова",
    "age": 27,
    "job": "веб-дизайнер",
}

# и выведем обновленный словарь с помощью функции pprint()
pprint(employees)

{'id1': {'age': 30,
         'first name': 'Александр',
         'job': 'программист',
         'last name': 'Иванов'},
 'id2': {'age': 35,
         'first name': 'Ольга',
         'job': 'ML-engineer',
         'last name': 'Петрова'},
 'id3': {'age': 27,
         'first name': 'Дарья',
         'job': 'веб-дизайнер',
         'last name': 'Некрасова'}}


In [None]:
# изменить значение вложенного словаря можно также с помощью двойного ключа
employees["id3"]["age"] = 26
pprint(employees)

{'id1': {'age': 30,
         'first name': 'Александр',
         'job': 'программист',
         'last name': 'Иванов'},
 'id2': {'age': 35,
         'first name': 'Ольга',
         'job': 'ML-engineer',
         'last name': 'Петрова'},
 'id3': {'age': 26,
         'first name': 'Дарья',
         'job': 'веб-дизайнер',
         'last name': 'Некрасова'}}


##### Циклы `for`

In [None]:
# заменим тип данных в информации о возрасте с int на float

# для этого вначале пройдемся по вложенным словарям,
# т.е. по значениям info внешнего словаря employees
for info in employees.values():

    # затем по ключам и значениям вложенного словаря info
    for key_info, value_info in info.items():

        # если ключ совпадет со словом 'age'
        if key_info == "age":

            # преобразуем значение в тип float
            info[key_info] = float(value_info)

pprint(employees)

{'id1': {'age': 30.0,
         'first name': 'Александр',
         'job': 'программист',
         'last name': 'Иванов'},
 'id2': {'age': 35.0,
         'first name': 'Ольга',
         'job': 'ML-engineer',
         'last name': 'Петрова'},
 'id3': {'age': 26.0,
         'first name': 'Дарья',
         'job': 'веб-дизайнер',
         'last name': 'Некрасова'}}


##### Вложенные словари и dict comprehension

In [None]:
# преоразуем обратно из float в int, но уже через dict comprehension
# для начала просто выведем словарь employees без изменений
pprint({id: info for id, info in employees.items()})

{'id1': {'age': 30.0,
         'first name': 'Александр',
         'job': 'программист',
         'last name': 'Иванов'},
 'id2': {'age': 35.0,
         'first name': 'Ольга',
         'job': 'ML-engineer',
         'last name': 'Петрова'},
 'id3': {'age': 26.0,
         'first name': 'Дарья',
         'job': 'веб-дизайнер',
         'last name': 'Некрасова'}}


In [None]:
# а затем заменим значение внешнего словаря info (т.е. вложенный словарь)
# на еще один dict comprehension с условием if-else
pprint(
    {
        id: {
            key: (int(value_i) if key == "age" else value_i)
            for key, value_i in info.items()
        }
        for id, info in employees.items()
    }
)

{'id1': {'age': 30,
         'first name': 'Александр',
         'job': 'программист',
         'last name': 'Иванов'},
 'id2': {'age': 35,
         'first name': 'Ольга',
         'job': 'ML-engineer',
         'last name': 'Петрова'},
 'id3': {'age': 26,
         'first name': 'Дарья',
         'job': 'веб-дизайнер',
         'last name': 'Некрасова'}}


#### Частота слов в тексте

In [None]:
# возьмем знакомый нам текст
corpus = (
    "When we were in Paris we visited a lot of museums. "
    "We first went to the Louvre, the largest art museum in the world."
    "I have always been interested in art so I spent many hours there. "
    "The museum is enormous, so a week there would not be enough."
)

##### Предварительная обработка текста

In [3]:
# разделим его на слова
words = corpus.split()
print(words)

['When', 'we', 'were', 'in', 'Paris', 'we', 'visited', 'a', 'lot', 'of', 'museums.', 'We', 'first', 'went', 'to', 'the', 'Louvre,', 'the', 'largest', 'art', 'museum', 'in', 'the', 'world.', 'I', 'have', 'always', 'been', 'interested', 'in', 'art', 'so', 'I', 'spent', 'many', 'hours', 'there.', 'The', 'museum', 'is', 'enourmous,', 'so', 'a', 'week', 'there', 'would', 'not', 'be', 'enough.']


In [None]:
# с помощью list comprehension удалим точки, запятые
# и переведем все слова в нижний регистр
words = [word.strip(".").strip(",").lower() for word in words]
print(words)

['when', 'we', 'were', 'in', 'paris', 'we', 'visited', 'a', 'lot', 'of', 'museums', 'we', 'first', 'went', 'to', 'the', 'louvre', 'the', 'largest', 'art', 'museum', 'in', 'the', 'world', 'i', 'have', 'always', 'been', 'interested', 'in', 'art', 'so', 'i', 'spent', 'many', 'hours', 'there', 'the', 'museum', 'is', 'enourmous', 'so', 'a', 'week', 'there', 'would', 'not', 'be', 'enough']


##### Способ 1. Условие if-else

In [None]:
# создадим пустой словарь для мешка слов bow
bow_1: dict[str, int] = {}

# пройдемся по словам текста
for word in words:

    # если нам встретилось слово, которое уже есть в словаре
    if word in bow_1:

        # увеличим его значение (частоту) на 1
        bow_1[word] = bow_1[word] + 1

    # в противном случае, если слово встречается впервые
    else:

        # зададим ему значение 1
        bow_1[word] = 1

# отсортируем словарь по значению в убываюем порядке (reverse = True)
# и выведем шесть наиболее частотных слов
print(sorted(bow_1.items(), key=lambda item: item[1], reverse=True)[:6])

[('the', 4), ('we', 3), ('in', 3), ('a', 2), ('art', 2), ('museum', 2)]

##### Способ 2. Метод .get()

In [None]:
bow_2: dict[str, int] = {}

# снова пройдемся в цикле по словам
for word in words:

    # если слова еще нет в словаре, .get() выведет значение 0,
    # к которому мы прибавим единицу
    # если слово есть, метод .get() выведет существующее значение,
    # например, 2 или 3,
    # и мы также увеличим счетчик на 1
    bow_2[word] = bow_2.get(word, 0) + 1

# выведем наиболее популярные слова
print(sorted(bow_2.items(), key=lambda item: item[1], reverse=True)[:6])

[('the', 4), ('we', 3), ('in', 3), ('a', 2), ('art', 2), ('museum', 2)]

##### Способ 3. Модуль collections

In [None]:
# создадим объект этого класса, передав ему список слов
bow_3 = Counter(words)

# выведем шесть наиболее часто встречающихся слов с помощью метода .most_common()
bow_3.most_common(6)

[('the', 4), ('we', 3), ('in', 3), ('a', 2), ('art', 2), ('museum', 2)]

### Дополнительные материалы

#### Изменяемые и неизменяемые типы данных

Неизменяемый тип данных

In [None]:
# создадим строковый объект
string = "Python"

# посмотрим на identity, type и value
# функция id() выводит адрес объекта в памяти компьютера
print(id(string), type(string), string)

(9739968, str, 'Python')

In [None]:
# попробуем изменить этот объект
string = string + " is cool"

# посмотрим на identity, type и value
print(id(string), type(string), string)

(132833144673840, str, 'Python is cool')

Изменяемый тип данных

In [None]:
# создадим список
lst: list[int] = [1, 2, 3]

# посмотрим на identity, type и value
print(id(lst), type(lst), lst)

(132833144305664, list, [1, 2, 3])

In [None]:
# добавим элемент в список
lst.append(4)

# снова выведем identity, type и value
print(id(lst), type(lst), lst)

(132833144305664, list, [1, 2, 3, 4])

Копирование объектов

In [None]:
# вновь создадим строку
string = "Python"

# скопируем через присваивание
string2 = string

# изменим копию
string2 = string2 + " is cool"

# посмотрим на результат
print(string, string2)

('Python', 'Python is cool')

In [None]:
# оператор == сравнивает значения (values)
# оператор is сравнивает identities
print(string == string2, string is string2)

(False, False)

In [None]:
# создадим список
lst = [1, 2, 3]

# скопируем его в новую переменную через присваивание
lst2 = lst

# добавим новый элемент в скопированный список
lst2.append(4)

# выведем исходный список и копию
print(lst, lst2)

([1, 2, 3, 4], [1, 2, 3, 4])

In [None]:
# убедимся, что речь идет об одном и том же объекте
print(lst == lst2, lst is lst2)

(True, True)

In [None]:
# вновь создадим список
lst = [1, 2, 3]

# скопируем с помощью метода .copy()
lst2 = lst.copy()

# добавим новый элемент в скопированный список
lst2.append(4)

# выведем исходный список и копию
print(lst, lst2)

([1, 2, 3], [1, 2, 3, 4])

In [None]:
# теперь сделаем значения списков одинаковыми
lst.append(4)

# и убедимся, что это по-прежнему разные объекты
print(lst, lst2, lst == lst2, lst is lst2)

([1, 2, 3, 4], [1, 2, 3, 4], True, False)