# Программирование для всех (основы работы с Python)

*Алла Тамбовцева, НИУ ВШЭ*

## Функция `zip()` и словари

### Функция `zip()` и кортежи

Как работать с одним списком мы уже знаем – можно, например, перебирать его элементы с помощью цикла `for` и выполнять с ними какие-то действия. А как быть, если у нас есть несколько списков одинаковой длины, и мы хотим работать одновременно с первыми элементами всех списков, вторыми элементами всех списоков, третьими элементами всех списков, и так далее? 

Логичное решение – делать перебор не самих элементов списков, а их индексов. Для примера рассмотрим такую задачу. В списках `problem01` и `problem02` хранятся баллы за первую и вторую задачу самостоятельной работы одних и тех же пяти студентов:

In [9]:
problem01 = [5, 0, 2, 5, 1]
problem02 = [0, 1, 5, 3, 5]

Нам нужно посчитать сумму баллов за два задания для каждого студента. Чтобы это сделать, мы должны первый элемент списка `problem01` сложить с первым элементом списка `problem02`, второй элемент списка `problem01` сложить со вторым элементом списка `problem02`, и так далее. Всего мы должны выполнить сложение пять раз – длины списков одинаковы и равны 5. 

Чтобы универсальным образом (работающим не только для списков из пяти элементов) получить набор индексов, нам понадобятся функции `range()` и `len()`:

In [10]:
# индексы элементов

list(range(len(problem01)))

[0, 1, 2, 3, 4]

Используя эти индексы, мы сможем перебрать элементы сразу в двух списках:

In [11]:
# на первом шаге i=0, первые элементы
# на втором шаге i=1, вторые элементы...

for i in range(len(problem01)):
    print(problem01[i], problem02[i])

5 0
0 1
2 5
5 3
1 5


Осталось только сложить баллы за два задания:

In [12]:
for i in range(len(problem01)):
    print(problem01[i] + problem02[i])

5
1
7
8
6


Ура, получилось!

Если бы мы создавали новый список с суммой баллов, мы бы использовали метод `.append()`:

In [13]:
res = []
for i in range(len(problem01)):
    res.append(problem01[i] + problem02[i])
print(res)

[5, 1, 7, 8, 6]


Однако задач такого рода можно найти и более изящное решение – при работе в Python стараются избегать перебора элементов по индексам, сама конструкция `for ... in range(len(...))` считается нежелательной. Для этого решения нам понадобится функция `zip()`. Название этой функции говорящее – она как «молния» на одежде соединяет списки одинаковой длины, образуя пары/тройки/четверки элементов, в зависимости от количества списков:

In [14]:
L1 = [1, 2, 3, 4]
L2 = [10, 20, 30, 40] 

# пары значений, первое из первого списка, второе – из второго
# list() – как и в range() результаты zip() скрыты

list(zip(L1, L2))

[(1, 10), (2, 20), (3, 30), (4, 40)]

In [15]:
names = ["Anna", "James", "Nick"]
grades = [7, 2, 8]
status = ["passed", "failed", "passed"]

# тройки значений
list(zip(names, grades, status))

[('Anna', 7, 'passed'), ('James', 2, 'failed'), ('Nick', 8, 'passed')]

Функция `zip()` создает специальный объект типа `zip()`, элементы которого, как и в случае с `range()`, нам не видны. Однако по сути этот объект представляет собой просто список, состоящий из кортежей (*tuples*). 

Как нам использовать функцию `zip()` в нашей задаче? Для начала применим ее к спискам с оценками:

In [16]:
list(zip(problem01, problem02))

[(5, 0), (0, 1), (2, 5), (5, 3), (1, 5)]

Теперь сделаем перебор по полученному списку пар. Python умеет выполнять перебор в цикле `for` сразу по нескольким элементам, если мы укажем их через запятую:

In [17]:
# p1 – всегда первый элемент в каждой паре
# p2 – всегда второй элемент в каждой паре

for p1, p2 in zip(problem01, problem02):
    print(p1, p2)

5 0
0 1
2 5
5 3
1 5


Как и в более простом цикле `for`, переменные перед `in` можно было назвать как угодно. Назовем их иначе и посчитаем сразу суммы значений: 

In [18]:
for result1, result2 in zip(problem01, problem02):
    print(result1 + result2)

5
1
7
8
6


Аналогично с созданием списка (снова назовем `p1` и `p2`, так короче):

In [19]:
summa = []

for p1, p2 in zip(problem01, problem02):
    summa.append(p1 + p2)
print(summa)

[5, 1, 7, 8, 6]


Готово! Результат такой же, как и в решении через индексы, но более аккуратный и без лишних нагромождений с `range()`, `len()` и квадратными скобками для вызова элементов.

Говорить о списках пар значений мы начали неслучайно. Для решения многих практических задач структуры такого вида очень удобны. Например, если нас интересуют характеристики пользователей во ВКонтакте, логично будет по каждому пользователю записать данные в виде пар (`id` – числовой id, `first name` – имя,  `last name` - фамилия, `byear` – год рождения, и так далее). Тогда вся информация будет в едином формате, и при этом мы уйдем от необходимости фиксировать, на каком месте в перечне находится пользователь, ведь теперь мы сможем найти его по либо по имени рядом с `name`, либо по `id` рядом с `id`. И для хранения пар связанных значений (ассоциативные пары) в Python существует отдельная структура данных – словари.

### Словари (dictionaries)

#### Создание словаря и обращение к его элементам

Обсуждая словари в Python, удобно проводить аналогию с обычными словарями (бумажными или электронными). Что такое словарь? Перечень из пар: *слово-значение* или *слово-список значений*, если значений несколько. Вот и словарь в Python – это объект, структура данных, которая позволяет хранить пары соответствий.

Давайте представим, что нам нужно создать словарь, который мы будем использовать для программки к мюзиклу "Notre Dame de Paris". Будем записывать в словарь `prog` пары соответствий *герой-актер*.

In [20]:
prog = {'Gringoire' : 'Pelletier', 
        'Frollo' : 'Lavoie', 
        'Phoebus': 'Fiori'}

Первый элемент в каждой паре (до двоеточия) назвается ключом (*key*), второй элемент в каждой паре (после двоеточия) – значением (*value*). Посмотрим на словарь:

In [21]:
print(prog)

{'Gringoire': 'Pelletier', 'Frollo': 'Lavoie', 'Phoebus': 'Fiori'}


Как и в случае со списками или кортежами, к элементам словаря можно обращаться. Только выбор элемента производится не по индексу, а по ключу: сначала указываем название словаря, а потом в квадратных скобках – ключ, по которому мы хотим вернуть значение. Например, выясним, кто играет роль Фролло:

In [22]:
prog['Frollo']

'Lavoie'

А что будет, если мы запросим элемент по ключу, которого нет в словаре?

In [23]:
prog['Esmeralda']

KeyError: 'Esmeralda'

В глубине души Python начинает грустно петь "Où est-elle, mon Esméralda?" («Где же ты, где Эсмеральда?»), но вместо эмоций выдает сухое *KeyError*. Ошибка ключа – нет в словаре элемента с ключом Esmeralda! 

Теперь представьте себе такую ситуацию: у нас есть список героев (ключей) и мы хотим в цикле вернуть по ним в фамилии актеров (значения). Какого-то одного из героев нет. Что произойдет? На каком-то этапе Python выдаст ошибку, мы вывалимся из цикла, и на этом наша работа остановится. Обидно, да? Чтобы такого избежать, получать значение по ключу можно другим способом – используя метод `.get()`:

In [24]:
prog.get('Esmeralda') # ни результата, ни ошибки

Если выведем результат на экран явно, с помощью `print()`, увидим, что в случае, если пары с указанным ключом в словаре нет, Python выдаст значение `None`:

In [25]:
print(prog.get('Esmeralda'))

None


Удобство метода `.get()` заключается в том, что мы сами можем установить, какое значение будет возвращено, в случае, если пары с выбранным ключом нет в словаре. Так, вместо `None` мы можем вернуть строку `Not found`, и ломаться ничего не будет:

In [26]:
prog.get('Esmeralda', 'Not found')

'Not found'

Возвращаемое значение в случае, если запись с указанным ключом отсутствует в словаре, необязательно должно быть строкой, можно было бы поставить какое-нибудь число или значение `False`:

In [27]:
print(prog.get('Esmeralda', 99))
print(prog.get('Esmeralda', False))

99
False


#### Добавление элементов словаря

Но недостающий элемент мы всегда можем добавить! 

In [28]:
prog['Esmeralda'] = 'Segara'
print(prog)

{'Gringoire': 'Pelletier', 'Frollo': 'Lavoie', 'Phoebus': 'Fiori', 'Esmeralda': 'Segara'}


Для добавления более одной записи, более одной пары ключ-значение, на словарях определен метод `.update()`:

In [29]:
prog.update({"Quasimodo": "Garou", 
             "Esmeralda" : "Noa"})
print(prog)

{'Gringoire': 'Pelletier', 'Frollo': 'Lavoie', 'Phoebus': 'Fiori', 'Esmeralda': 'Noa', 'Quasimodo': 'Garou'}


**Внимание:** Если элемент с указанным ключом уже существует, новый с таким же ключом не добавится! Ключ – это уникальный идентификатор элемента. Если мы добавим в словарь новый элемент с уже существующим ключом, мы просто изменим старый – словари являются изменяемыми объектами. 

#### Удаление элементов словаря

Теперь удалим записи по ключу (иного пути нет, индексы не пойдут). Воспользуемся методом `.pop()`:

In [30]:
prog.pop("Esmeralda")

'Noa'

In [31]:
prog

{'Gringoire': 'Pelletier',
 'Frollo': 'Lavoie',
 'Phoebus': 'Fiori',
 'Quasimodo': 'Garou'}

Обратите внимание: метод `.pop()` на словарях, как и метод `.pop()` на списках, не просто удаляет запись, но и возвращает значение, которое соответствует удаляемому ключу, так что его можно сохранить перед удалением.

#### Перебор ключей, значений, пар *ключ-значение*

Раз элементами словаря являются пары *ключ-значение*, наверняка есть способ выбрать из словаря ключи и значения отдельно. Действительно, для этого есть методы `.keys()` и `values()`. Вызовем сначала все ключи:

In [32]:
print(prog.keys())

dict_keys(['Gringoire', 'Frollo', 'Phoebus', 'Quasimodo'])


Объект, который мы только что увидели, очень похож на список. Но обычным списком на самом деле не является. Давайте попробуем выбрать первый элемент `prog.keys()`:

In [33]:
keys = prog.keys()
keys[0]

TypeError: 'dict_keys' object is not subscriptable

Не получается! Потому что полученный объект имеет специальный тип `dict_keys`, а не `list`. Но это всегда можно поправить, превратив объект `dict_keys` в список:

In [34]:
list(keys)[0] # получается!

'Gringoire'

Аналогичным образом можно работать и со значениями:

In [35]:
print(prog.values())

dict_values(['Pelletier', 'Lavoie', 'Fiori', 'Garou'])


А теперь давайте подумаем, как поработать сразу с парами значений. Посмотрим на результат, который возвращает метод `.items()`:

In [36]:
prog.items()

dict_items([('Gringoire', 'Pelletier'), ('Frollo', 'Lavoie'), ('Phoebus', 'Fiori'), ('Quasimodo', 'Garou')])

Как раз метод `.items()` возвращает то, что нам нужно – сразу пары «ключ-значение». Если преобразовать этот результат в список, получим список кортежей, ровно ту структуру, с которой мы уже работали, изучая функцию `zip()`. Давайте пройдемся в цикле по всем этим парам и выведем на экран сообщения вида

    [Actor] plays the part of [role].
    
Для того, чтобы вывести и ключ, и значение, нужно в цикле `for` перечислить две переменные через запятую. Python сам поймет, что первая переменная соответствует ключу, а вторая – значению. Воспользуемся f-строкой:

In [37]:
for part, actor in prog.items():
    print(f"{actor} plays the parts of {part}.")

Pelletier plays the parts of Gringoire.
Lavoie plays the parts of Frollo.
Fiori plays the parts of Phoebus.
Garou plays the parts of Quasimodo.


Если решать эту задачу без `.items()`, стоит учесть, что цикл `for`, двигаясь по самому словарю, перебирает только ключи:

In [38]:
for p in prog:
    print(p)

Gringoire
Frollo
Phoebus
Quasimodo


С этим можно справится – вспомним, что мы можем получать значения по ключу, указывая его в квадратных скобках, и проделаем это для всех ключей в словаре:

In [39]:
for key in prog:
    print(f"{prog[key]} plays the parts of {key}.")

Pelletier plays the parts of Gringoire.
Lavoie plays the parts of Frollo.
Fiori plays the parts of Phoebus.
Garou plays the parts of Quasimodo.


Метод `.items()` полезен, когда мы хотим выбирать из словаря значения, удовлетворяющие определенным условиям. Для разнообразия возьмем другой словарь – словарь с парами *студент-оценка*:

In [40]:
grades = {"Вася": 7, "Петя" : 9, "Коля" : 8, "Лена" : 8, "Василиса" : 10}

И выведем на экран имена тех студентов, у которых оценка равна 8:

In [41]:
for name, grade in grades.items():
    if grade == 8:
        print(name)

Коля
Лена


Только два человека: Коля и Лена. А как проверить, есть ли в словаре элемент с определенным ключом? Воспользоваться оператором `in`:

In [42]:
"Коля" in grades.keys()

True