# Программирование для всех (основы Python)

*Алла Тамбовцева, НИУ ВШЭ*

## Альтернативы циклу `for`: списковые включения, функция `map()`, работа с массивами

### Списковые включения (генераторы списков)

В Python для создания новых списков на основе старых существуют удобные конструкции, которые называются генераторы списков или списковые включения (*list comprehensions*). Они позволяют написать код, более компактный и быстрый по сравнению с кодом с использованием цикла `for` и метода `.append()`. Вспомним, как мы создавали новый список на основе старого с помощью цикла. 

Пусть у нас есть список целых чисел `nums`:

In [1]:
nums = [1, 8, 23, 45, 67]

Создадим теперь пустой список `nums_sq` и заполним его квадратами чисел из `nums`:

In [2]:
nums_sq = [] 
for n in nums:
    nums_sq.append(n ** 2)
print(nums_sq) 

[1, 64, 529, 2025, 4489]


Теперь рассмотрим решение той же задачи, но с помощью генераторов списков:

In [3]:
nums_sq = [n ** 2 for n in nums] 
print(nums_sq) 

[1, 64, 529, 2025, 4489]


Как устроен генератор списка? Во-первых, код для преобразований элементов старого списка записывается в квадратных скобках, так как мы создаем новый список. Во-вторых, мы пишем тот же код, что и в случае с циклом, но «раскручиваем» его с конца: сначала указываем, что за операцию надо выполнить, а потом – для каких элементов ее повторить. 

Теперь давайте проверим, что код с генератором списка работает быстрее. В начале ячейки (это обязательно должна быть первая строка, если первой строкой будет идти что-то еще, даже комментарий, ничего не сработает) напишем «магическую строку `%%timeit`. «Магическая строка» – это официальное название, так называются строки кода в Jupyter, которые начинаются с `%%` и отвечают за режим исполнения ячейки в Jupyter Notebook. В данном случае команда `timeit` отвечает за измерение времени исполнения кода.

Для примера возьмем какой-нибудь список побольше – создадим список из кубов целых чисел от 0 до 5000 включительно на основе `range()`. Сначала сделаем это с помощью цикла и `.append()`:

In [4]:
%%timeit
R = []
for i in range(0, 5001):
    R.append(i ** 3) 

1.56 ms ± 19.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Выдача сообщает нам, что ячейка с кодом выше была запущена 7 раз по 1000 раз, и что среднее время выполнения кода за такое число прогонов равно 1.47 милисекундам, а стандартное отклонение равно 8 микросекундам (на каждой системе в разное время будут свои числа). Почему недостаточно прогнать код один раз? Потому что хочется получить более общие результаты, с учетом разных факторов. Каждую секунду на компьютере выполняется множество процессов, которые мы явно не видим, но которые влияют на время исполнения кода. Поэтому, запуская ячейку много раз, Jupyter пытается оценить скорость выполнения кода в разные моменты времени и вывести сводные характеристики результатов.

Теперь проделаем то же самое, но для генератора списка:

In [5]:
%%timeit
R = [i ** 3 for i in range(0, 5001)] 

1.38 ms ± 12.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Хотя результаты у всех получаются разные, в любом случае нетрудно заметить, что исполнение кода с генератором списка заняло меньше времени, чем исполнение кода с циклом.

### Функция `map()`

Еще одна альтернатива циклу `for`, не задействующая явный перебор элементов (на этот раз даже не задействующая оператор `for`), это функция `map()`. Она позволяет применить какую-то другую функцию ко всем элементам списка одновременно. Рассмотрим задачу, которую мы уже много раз решали, но без функции `map()`. 

Пользователь с клавиатуры вводит какие-то целые числа через пробел, мы должны введенную им строку разбить на части по пробелу и превратить каждый элемент типа `string` в элемент типа `integer`. 

Решение с классическим циклом `for`:

In [6]:
inp = input().split()
numbers = []
for i in inp:
    numbers.append(int(i))
print(numbers)

1 5 6 2
[1, 5, 6, 2]


А решение со списковым включением такое:

In [7]:
inp = input().split()
numbers = [int(i) for i in inp]
print(numbers)

1 5 6 2
[1, 5, 6, 2]


С функцией `map()` решение тоже будет достаточно лаконичным. Список, с которым нам нужно работать, это результат разбиения `inp`, функция, которую надо применить к каждому элементу списка – `int`. Сформулируем эту задачу через `map()`:

In [8]:
# на первом месте функция
# на втором – список

map(int, inp)

<map at 0x10e0640d0>

В результате мы увидели что-то странное. Python сообщает нам, что это объект типа `map`, он от нас скрыт, но хранится в ячейке памяти `0x1082be590`. Чтобы все же увидеть содержимое, можем преобразовать результат в список явно:

In [9]:
list(map(int, inp))

[1, 5, 6, 2]

Почему Python не выдает список сразу, без `list()`? Он пытается оптимизировать использование ресурсов – он не создает «материальный» список, который сразу занимает какой-то объем памяти (даже если мы его не используем в дальнейшем), он просто резервирует под него ячейку с каким-то номером. И, если мы этот объект больше не вызываем и не обрабатываем, Python про него забывает, он вытесняется из ячейки памяти, освобождая место.

Функцию `map()` можно использовать с разными базовыми функциями в Python:

In [10]:
# float

list(map(float, inp))

[1.0, 5.0, 6.0, 2.0]

In [11]:
# sum

nested = [[4, 5], [5, 5], [2, 3]]

list(map(sum, nested))

[9, 10, 5]

In [12]:
# round

w = [30.5, 24.8, 12.2, 8.9]
list(map(round, w))

[30, 25, 12, 9]

Код с `map()` очень лаконичный, к тому же, его исполнение занимает меньше времени по сравнению с циклом `for`.

### Массивы NumPy

Еще одна возможность работать с перечнями значений более эффективно – перейти от стандартных списков и кортежей к массивам. Мы будем работать с продвинутым вариантом массива – с массивами из библиотеки NumPy (сокращение от *Numeric Python*). Эта библиотека часто используется в задачах, связанных с анализом данных и машинным обучением. 

Чтобы мы смогли на конкретных примерах увидеть, зачем эта библиотека используется, давайте ее импортируем. Если вы уже устанавливали Anaconda, то библиотека NumPy также была установлена на ваш компьютер. Проверим: импортируем библиотеку с сокращённым названием, так часто делают, чтобы не «таскать» за собой в коде длинное название. Сокращение `np` для библиотеки `numpy` – общепринятое, его часто можно увидеть в документации или официальных тьюториалах.

In [13]:
import numpy as np

Основным объектом NumPy является *Ndarray* – это n-мерный массив (от *n-dimensional array*), структура данных, которая позволяет хранить набор элементов одного типа: либо целые числа, либо числа с плавающей точкой, либо строки, либо логические значения True и False. Мы пока рассмотрим одномерные массивы, которые внешне несильно отличаются от списков.

Зачем вообще нужны массивы, почему обычных списков недостаточно? Списки не позволяют выполнять операции поэлементно эффективным образом – без использования циклов и подобных конструкций. Допустим, у нас есть список чисел `L`:

In [14]:
L = [5, 8, 1 , -2] 

Если мы захотим получить новый список, состоящий из квадратов элементов списка `L`, нам придётся обращаться к циклам или их альтернативам, применение операции ко всему списку вызовет ошибку:

In [15]:
L ** 2

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

Такая особенность списков вполне логично вытекает из их структуры, которая подразумевает то, что внутри могут быть элементы разного типа. А раз так, то какой смысл позволять выполнять операции, которые имеют смысл только для одного типа данных?

С массивами такой проблемы не возникает. Если в массиве хранятся числа, мы можем свободно применить какую-нибудь операцию, работающую на числах, к каждому элементу массива. Попробуем это сделать. Создадим массив `A`:

In [16]:
A = np.array([4, 6, 7, -1, 0]) 
print(A)

[ 4  6  7 -1  0]


Возведём каждый элемент массива в квадрат:

In [17]:
A ** 2

array([16, 36, 49,  1,  0])

Получилось! Цикла не понадобилось, всё выглядит очень компактно, работает быстро! Почему такое возможно? Потому что подобные операции производятся поэлементно, то есть над каждым элементом массива в отдельности. Такие операции еще назвают *векторизованными* (в некоторых языках программирования вектор и массив – это одно и то же или очень схожие структуры).

Что удобно, похожим образом можно выполнять действия сразу с несколькими массивами одинаковой длины. Допустим, у нас есть два нюхлера (нюхаля или ниффлера, в общем, вот [они](https://harrypotter.fandom.com/wiki/Niffler)), которые в течение 5 часов собирают монетки:

In [18]:
niff_one = [10, 20, 30, 40, 20]
niff_two = [30, 50, 60, 40, 10]

Если мы продолжаем работать с обычными списками и хотим посчитать попарные суммы элементов, без цикла тут тоже не обойтись.

In [19]:
# проходимся по индексам элементов от 0 до 3
# берем элементы, стоящие на одних и тех местах
# и складываем

niff_sum = []
for i in range(len(niff_one)):
    niff_sum.append(niff_one[i] + niff_two[i])
print(niff_sum)

[40, 70, 90, 80, 30]


С массивами всё гораздо проще: если сложить два массива, Python поймет, что нужно выполнить сложение поэлементно, первый элемент первого массива сложить с первым элементом второго массива, второй – со вторым, и так далее.

In [20]:
Niff_one = np.array([10, 20, 30, 40, 20])
Niff_two = np.array([30, 50, 60, 40, 10])
Niff_sum = Niff_one + Niff_two
print(Niff_sum)

[40 70 90 80 30]


С другими операциями все аналогично:

In [21]:
Niff_one - Niff_two # попарные разности

array([-20, -30, -30,   0,  10])

In [22]:
Niff_one / (Niff_one + Niff_two) # доля добычи первого

array([0.25      , 0.28571429, 0.33333333, 0.5       , 0.66666667])

In [23]:
Niff_one / (Niff_one + Niff_two) * 100 # процент добычи первого

array([25.        , 28.57142857, 33.33333333, 50.        , 66.66666667])

Так как в массиве элементы должны быть одного типа, целые числа в примере выше записались в дробном виде с нулевой дробной часть (например, `50.` вместо `50`).

На этом закончим наше беглое знакомство с массивами, мы вернёмся к ним, когда будем обсуждать работу с реальными данными в табличном виде (Python будет обращаться со столбцами таблицы как с массивами с дополнительными свойствами).