# Python для сбора и анализа данных

*Алла Тамбовцева, НИУ ВШЭ*

## Цикл for и списковые включения, функции `zip()` и `enumerate()`

### Списковые включения (генераторы списков)

В Python для создания новых списков на основе старых существуют удобные конструкции, которые называются генераторы списков или списковые включения (*list comprehensions*). Они позволяют написать код, более компактный и быстрый по сравнению с кодом с использованием цикла `for` и метода `.append()`. Вспомним, как мы создавали новый список на основе старого с помощью цикла. 

Пусть у нас есть список целых чисел `nums`:

In [1]:
nums = [1, 8, 23, 45, 67]

Создадим теперь пустой список `nums_sq` и заполним его квадратами чисел из `nums`:

In [2]:
nums_sq = [] 
for n in nums:
    nums_sq.append(n ** 2)
print(nums_sq) 

[1, 64, 529, 2025, 4489]


Теперь рассмотрим решение той же задачи, но с помощью генераторов списков:

In [3]:
nums_sq = [n ** 2 for n in nums] 
print(nums_sq) 

[1, 64, 529, 2025, 4489]


Как устроен генератор списка? Во-первых, код для преобразований элементов старого списка записывается в квадратных скобках, так как мы создаем новый список. Во-вторых, мы пишем тот же код, что и в случае с циклом, но «раскручиваем» его с конца: сначала указываем, что за операцию надо выполнить, а потом – для каких элементов ее повторить. 

Теперь давайте проверим, что код с генератором списка работает быстрее. В начале ячейки (это обязательно должна быть первая строка, если первой строкой будет идти что-то еще, даже комментарий, ничего не сработает) напишем «магическую строку `%%timeit`. «Магическая строка» – это официальное название, так называются строки кода в Jupyter, которые начинаются с `%%` и отвечают за режим исполнения ячейки в Jupyter Notebook. В данном случае команда `timeit` отвечает за измерение времени исполнения кода.

Для примера возьмем какой-нибудь список побольше – создадим список из кубов целых чисел от 0 до 5000 включительно на основе `range()`. Сначала сделаем это с помощью цикла и `.append()`:

In [4]:
%%timeit
R = []
for i in range(0, 5001):
    R.append(i ** 3) 

1.56 ms ± 38.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Выдача сообщает нам, что ячейка с кодом выше была запущена 7 раз по 1000 раз, и что среднее время выполнения кода за такое число прогонов равно 1.56 милисекундам, а стандартное отклонение равно 38.1 микросекундам (на каждой системе в разное время будут свои числа). Почему недостаточно прогнать код один раз? Потому что хочется получить более общие результаты, с учетом разных факторов. Каждую секунду на компьютере выполняется множество процессов, которые мы явно не видим, но которые влияют на время исполнения кода. Поэтому, запуская ячейку много раз, Jupyter пытается оценить скорость выполнения кода в разные моменты времени и вывести сводные характеристики результатов.

Теперь проделаем то же самое, но для генератора списка:

In [5]:
%%timeit
R = [i ** 3 for i in range(0, 5001)] 

1.41 ms ± 61 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Хотя результаты у всех получаются разные, в любом случае нетрудно заметить, что исполнение кода с генератором списка заняло меньше времени, чем исполнение кода с циклом.

### Функция `zip()`

Как работать с одним списком мы уже знаем – можно, например, перебирать его элементы с помощью цикла for и выполнять с ними какие-то действия. А как быть, если у нас есть несколько списков одинаковой длины, и мы хотим работать одновременно с первыми элементами всех списков, вторыми элементами всех списоков, третьими элементами всех списков, и так далее?

Логичное решение – делать перебор не самих элементов списков, а их индексов. Для примера рассмотрим такую задачу. В списках `problem01` и `problem02` хранятся баллы за первую и вторую задачу самостоятельной работы одних и тех же пяти студентов:

In [6]:
problem01 = [5, 0, 2, 5, 1]
problem02 = [0, 1, 5, 3, 5]

Нам нужно посчитать сумму баллов за два задания для каждого студента. Чтобы это сделать, мы должны первый элемент списка `problem01` сложить с первым элементом списка `problem02`, второй элемент списка `problem01` сложить со вторым элементом списка `problem02`, и так далее. Всего мы должны выполнить сложение пять раз – длины списков одинаковы и равны 5.

Чтобы универсальным образом (работающим не только для списков из пяти элементов) получить набор индексов, нам понадобятся функции `range()` и `len()`:

In [7]:
print(*range(len(problem01)))

0 1 2 3 4


Используя эти индексы, мы сможем перебрать элементы сразу в двух списках:

In [8]:
# на первом шаге i=0, первые элементы
# на втором шаге i=1, вторые элементы...

for i in range(len(problem01)):
    print(problem01[i], problem02[i])

5 0
0 1
2 5
5 3
1 5


Осталось только сложить баллы за два задания:

In [9]:
for i in range(len(problem01)):
    print(problem01[i] + problem02[i])

5
1
7
8
6


Ура, получилось!

Если бы мы создавали новый список с суммой баллов, мы бы использовали метод `.append()`:

In [10]:
res = []
for i in range(len(problem01)):
    res.append(problem01[i] + problem02[i])
print(res)

[5, 1, 7, 8, 6]


Однако задач такого рода можно найти и более изящное решение – при работе в Python стараются избегать перебора элементов по индексам, сама конструкция `for ... in range(len(...))` считается нежелательной. Для этого решения нам понадобится функция `zip()`. Название этой функции говорящее – она как «молния» на одежде соединяет списки одинаковой длины, образуя пары/тройки/четверки элементов, в зависимости от количества списков:

In [11]:
L1 = [1, 2, 3, 4]
L2 = [10, 20, 30, 40] 

# пары значений, первое из первого списка, второе – из второго
print(*zip(L1, L2))

(1, 10) (2, 20) (3, 30) (4, 40)


In [12]:
names = ["Anna", "James", "Nick"]
grades = [7, 2, 8]
status = ["passed", "failed", "passed"]

# тройки значений
print(*zip(names, grades, status))

('Anna', 7, 'passed') ('James', 2, 'failed') ('Nick', 8, 'passed')


Функция `zip()` создает специальный объект типа `zip()`, элементы которого, как и в случае с `range()`, нам не видны. Однако по сути этот объект представляет собой просто список, состоящий из кортежей (*tuples*).

Как нам использовать функцию `zip()` в нашей задаче? Для начала применим ее к спискам с оценками:

In [13]:
print(*zip(problem01, problem02))

(5, 0) (0, 1) (2, 5) (5, 3) (1, 5)


Теперь сделаем перебор по полученному списку пар. Python умеет выполнять перебор в цикле for сразу по нескольким элементам, если мы укажем их через запятую:

In [14]:
# p1 – всегда первый элемент в каждой паре
# p2 – всегда второй элемент в каждой паре

for p1, p2 in zip(problem01, problem02):
    print(p1 + p2)

5
1
7
8
6


Готово! Результат такой же, как и в решении через индексы, но более аккуратный и без лишних нагромождений с `range()`, `len()` и квадратными скобками для вызова элементов.

Говорить о списках пар значений мы начали неслучайно. Для решения многих практических задач структуры такого вида очень удобны. Например, если нас интересуют характеристики пользователей во ВКонтакте, логично будет по каждому пользователю записать данные в виде пар (`id` – числовой id, `first name` – имя, `last name` - фамилия, `byear` – год рождения, и так далее). Тогда вся информация будет в едином формате, и при этом мы уйдем от необходимости фиксировать, на каком месте в перечне находится пользователь, ведь теперь мы сможем найти его по либо по имени рядом с name, либо по id рядом с id. И для хранения пар связанных значений (ассоциативные пары) в Python существует отдельная структура данных – словари. О них мы поговорим в следующий раз, а сейчас посмотрим ещё на одну полезную функцию. 

### Функция `enumerate()`

Иногда возникает необходимость одновременно хранить информацию об элементах последовательности и их индексах. Рассмотрим такую задачу. У нас есть список напитков:

In [15]:
drinks = ["coffee", "tea", "juice", "milk", 
          "still water", "sparkling water"]

Мы хотим облегчить пользователю ввод с клавиатуры и предложить ему вводить вместо названия напитка его номер. Для этого нам потребуется текст с парами *индекс – элемент*. С одной стороны, можно это сделать, используя уже знакомую конструкцию `for ... in range(len(...))`:

In [16]:
for i in range(len(drinks)):
    print(i, drinks[i])

0 coffee
1 tea
2 juice
3 milk
4 still water
5 sparkling water


С другой стороны, как мы тоже выяснили, перебор по индексам – вариант рабочий, но не классный с точки зрения хорошего кода на Python. Поэтому для решения этой задачи лучше воспользоваться готовой функцией `enumerate()`. Она сочетает в себе `zip()` и `range()`, то есть умеет фиксировать индексы элементов и «склеивать» их в пары с самими элементами:

In [17]:
print(*enumerate(drinks))

(0, 'coffee') (1, 'tea') (2, 'juice') (3, 'milk') (4, 'still water') (5, 'sparkling water')


Применим эту функцию в цикле, пользуясь тем, что перебор можно делать по двум элементам сразу:

In [18]:
for i, drink in enumerate(drinks):
    print(i, drink)

0 coffee
1 tea
2 juice
3 milk
4 still water
5 sparkling water


Теперь мы можем вернуться к нашей изначальной задаче и через f-строку написать текст для пользователя:

In [19]:
message = "Введите номер напитка:\n"

for i, drink in enumerate(drinks):
    message = message + f" {i}: {drink} \n"
    
choice = input(message)

Введите номер напитка:
 0: coffee 
 1: tea 
 2: juice 
 3: milk 
 4: still water 
 5: sparkling water 
2
