# Анализ данных в Python

*Алла Тамбовцева*

## Цикл for и его аналоги: списковые включения и функция `map()`

### Списковые включения (генераторы списков)

В Python для создания новых списков на основе старых существуют удобные конструкции, которые называются генераторы списков или списковые включения (*list comprehensions*). Они позволяют написать код, более компактный и быстрый по сравнению с кодом с использованием цикла `for` и метода `.append().` Посмотрим, как создать новый список на основе старого с помощью цикла.

Пусть у нас есть список целых чисел `numbers`:

In [1]:
numbers = [3, 0, 5, 6, -3, 20, 7]

Создадим теперь пустой список `squares` и заполним его квадратами чисел из `numbers`:

In [2]:
squares = []
for n in numbers:
    squares.append(n ** 2)
print(squares)

[9, 0, 25, 36, 9, 400, 49]


**NB.** В Python цикл `for` работает с самими элементами, а не с их индексами. Нет разделения подобного `for` и `foreach` как в некоторых других языках.

Теперь рассмотрим решение той же задачи, но с помощью списковых включений:

In [3]:
squares = [n ** 2 for n in numbers]
print(squares)

[9, 0, 25, 36, 9, 400, 49]


Как устроен генератор списка? Во-первых, код для преобразований элементов старого списка записывается в квадратных скобках, так как мы создаем новый список. Во-вторых, мы пишем тот же код, что и в случае с циклом, но «раскручиваем» его с конца: сначала указываем, что за операцию надо выполнить, а потом – для каких элементов ее повторить.

Теперь давайте проверим, что код с генератором списка работает быстрее. В начале ячейки (это обязательно должна быть первая строка, если первой строкой будет идти что-то еще, даже комментарий, ничего не сработает) напишем «магическую строку `%%timeit`. «Магическая строка» – это официальное название, так называются строки кода в Jupyter, которые начинаются с `%%` и отвечают за режим исполнения ячейки в Jupyter Notebook. В данном случае команда `timeit` отвечает за измерение времени исполнения кода.

Для примера возьмем какой-нибудь список побольше – создадим список из кубов целых чисел от 1 до 10000 включительно на основе `range()`. Сначала сделаем это с помощью цикла и `.append()`:

In [5]:
%%timeit
squares = []
for n in range(1, 10001):
    squares.append(n ** 2)

2.94 ms ± 47.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Выдача сообщает нам, что ячейка с кодом выше была запущена 7 раз по 100 раз, и что среднее время выполнения кода за такое число прогонов равно 2.94 милисекундам, а стандартное отклонение равно 47.4 микросекундам (на каждой системе в разное время будут свои числа). Почему недостаточно прогнать код один раз? Потому что хочется получить более общие результаты, с учетом разных факторов. Каждую секунду на компьютере выполняется множество процессов, которые мы явно не видим, но которые влияют на время исполнения кода. Поэтому, запуская ячейку много раз, Jupyter пытается оценить скорость выполнения кода в разные моменты времени и вывести сводные характеристики результатов.

Теперь проделаем то же самое, но для генератора списка:

In [7]:
%%timeit
squares = [n ** 2 for n in range(1, 10001)]

2.65 ms ± 48.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Хотя результаты у всех получаются разные, в любом случае нетрудно заметить, что исполнение кода с генератором списка заняло меньше времени, чем исполнение кода с циклом.

### Функция `map()` как аналог цикла `for`

В Python также есть функция `map()`, которая позволяет применять готовую функцию ко всем элементам списка/кортежа, безо всяких циклов и их аналогов. Допустим, у нас есть готовая функция `int()`, которая превращает строку в целое число, и список строк, которые необходимо преобразовать в целочисленные значения.

In [8]:
int("23") + int("6")

29

In [9]:
vals = ["2", "6", "9"]

Применим функцию `map()`:

In [10]:
map(int, vals)

<map at 0x10d161350>

Мы получили «скрытый» объект типа `map`, временно сохранённый в ячейку памяти. Элементы внутри этого объекта можно перебирать в цикле, не сохраняя полученные результаты в какой-нибудь список или кортеж:

In [11]:
for i in map(int, vals):
    print(i, type(i))

2 <class 'int'>
6 <class 'int'>
9 <class 'int'>


Однако если нам нужны сами значения, более «материальный» перечень объектов, результат типа `map` можно преобразовать в список или кортеж:

In [12]:
print(list(map(int, vals)))
print(tuple(map(int, vals)))

[2, 6, 9]
(2, 6, 9)


Как нам воспользоваться функцией `map()` для решения предыдущей задачи для создания списка с квадратами чисел? 
Мы можем написать соответствующую анонимную lambda-функцию и поместить её на место первого аргумента:

In [13]:
# lambda x: на вход принимает аргумент x
# возвращает x ** 2

squares = list(map(lambda x: x ** 2, numbers))
print(squares)

[9, 0, 25, 36, 9, 400, 49]


Сравним три рассмотренных способа создания списка `squares` с точки зрения временных затрат:

In [14]:
%%timeit
squares = []
for n in range(1, 10001):
    squares.append(n ** 2)

2.9 ms ± 21.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [15]:
%%timeit
squares = [n ** 2 for n in range(1, 10001)]

2.55 ms ± 17.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [16]:
%%timeit
squares = list(map(lambda x: x ** 2, range(1, 10001)))

2.87 ms ± 39.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Самый быстрый способ – списковые включения, самый медленный – обычный цикл `for`, вариант с `map()` немного быстрее обычного цикла.

### Уточнения про функцию `range()`

Функция `range()` позволяет перебирать целые числа на заданном промежутке, не создавая при этом сам список чисел:

In [18]:
range(1, 11)

range(1, 11)

Есть небольшая проблема: из-за того, что список с числами не создаётся явно и не занимает память, элементы внутри `range()` мы не видим.
Как мы уже могли заметить (и да, с `map()` похожая история), проходить по элементам в цикле это не мешает:

In [19]:
for i in range(1, 11):
    print(i, i ** 2)

1 1
2 4
3 9
4 16
5 25
6 36
7 49
8 64
9 81
10 100


Однако можно преобразовать результат в список и посмотреть на него явно:

In [20]:
list(range(1, 11))

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

Правый конец заданного в `range()` промежутка не включается, будьте бдительны. В примере выше на экран были выведены числа от 1 до 10, число 11 включено не было.

Если мы не хотим получать список чисел явно, а хотим просто вывести на экран элементы одной строкой, можно вспомнить про оператор `*`, он умеет «распаковывать» последовательности элементов для их вывода на экран через `print()`:

In [21]:
# извлекаются числа и печатаются через пробел
print(*range(1, 11))

1 2 3 4 5 6 7 8 9 10


**Полезный факт №1.** Если нас интересуют числа на промежутке, начиная с нуля, в `range()` левый конец можно не указывать, 0 будет выбран по умолчанию.

In [22]:
list(range(11))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

**Полезный факт №2.** Внутри `range()` можно указать любой целочисленный шаг для получения нужной последовательности чисел (по умолчанию шаг равен 1).

In [23]:
# шаг 2, только нечётные числа от 1 до 17, исключая 17

list(range(1, 17, 2))

[1, 3, 5, 7, 9, 11, 13, 15]

Шаг внутри `range()` может быть и отрицательным, тогда мы получим последовательность, отсортированную по убыванию. В таком случае сначала нужно указывать правый конец интервала, а потом – левый.

In [24]:
list(range(16, 0, -2))

[16, 14, 12, 10, 8, 6, 4, 2]

Если сначала указать меньшее значение, то мы получим пустой список. Это происходит потому, что мы даём Python противоречивые указания – `range()` двигается всегда слева направо, а отрицательный шаг предполагает движение справа налево:

In [25]:
list(range(0, 16, -2))

[]